RU2409912C2 - Декодирование бинауральных аудиосигналов - Google Patents

Декодирование бинауральных аудиосигналов Download PDF

Info

Publication number
RU2409912C2
RU2409912C2 RU2008126699/09A RU2008126699A RU2409912C2 RU 2409912 C2 RU2409912 C2 RU 2409912C2 RU 2008126699/09 A RU2008126699/09 A RU 2008126699/09A RU 2008126699 A RU2008126699 A RU 2008126699A RU 2409912 C2 RU2409912 C2 RU 2409912C2
Authority
RU
Russia
Prior art keywords
gain
signal
channel
audio signal
values
Prior art date
Application number
RU2008126699/09A
Other languages
English (en)
Other versions
RU2008126699A (ru
RU2409912C9 (ru
Inventor
Паси ОЯЛА (FI)
Паси ОЯЛА
Юлия ТУРКУ (FI)
Юлия ТУРКУ
Маури ВЯЯНЯНЕН (FI)
Маури ВЯЯНЯНЕН
Микко ТАММИ (FI)
Микко ТАММИ
Original Assignee
Нокиа Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Нокиа Корпорейшн filed Critical Нокиа Корпорейшн
Publication of RU2008126699A publication Critical patent/RU2008126699A/ru
Publication of RU2409912C2 publication Critical patent/RU2409912C2/ru
Application granted granted Critical
Publication of RU2409912C9 publication Critical patent/RU2409912C9/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

Способ синтеза бинаурального аудиосигнала включает ввод параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал; и применение заранее заданного набора фильтров с передаточными функциями головы, по меньшей мер, к одному комбинированному сигналу в пропорции, определяемой указанным соответствующим набором значений оценок усиления, для синтеза бинаурального аудиосигнала. Технический результат - обеспечивание усовершенствованного использования компрессированного промежуточного состояния, обеспечиваемого в параметрическом аудиокодировании, улучшение эффективности при передаче, а также хранении аудиосигнала. 4 н. и 29 з.п ф-лы, 4 ил., 1 табл.

Description

РОДСТВЕННЫЕ ЗАЯВКИ
Эта заявка ссылается на приоритет международной заявки PCT/FI 2006/050014, поданной 9.01.2006, заявки на патент США 11/334,041, поданной 17.01.2006, и заявки на патент США 11/354,211, поданной 13.02.2006.
ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к пространственному аудиокодированию, более конкретно - к декодированию бинауральных аудиосигналов.
УРОВЕНЬ ТЕХНИКИ
При пространственном аудиокодировании двухканальный или мультиканальный аудиосигнал обрабатывается так, что аудиосигналы, воспроизводимые в разных аудиоканалах, отличаются один от другого, обеспечивая таким образом слушателям ощущение пространственного эффекта вокруг аудиоисточника. Пространственный эффект может быть создан прямой записью аудиосигнала в подходящие форматы для мультиканального или бинаурального воспроизведения, либо пространственный эффект может быть создан искусственно в любом двух- или мультиканальном аудиосигнале, что известно как создание пространственного эффекта.
Широко известно, что для наушников воспроизведение искусственного пространственного эффекта может быть выполнено с помощью фильтрации с использованием функции HRTF (Head Related Transfer Function, Передаточная Функция Головы), которая производит бинауральные сигналы для правого и левого уха слушателя. Сигналы источника звука фильтруются фильтрами, полученными из функций HRTF, соответствующих их направлению от источника. HRTF - это передаточная функция, измеренная от источника звука в свободном пространстве до уха человека или искусственной головы, деленная на передаточную функцию до микрофона, замещающего голову и помещенного в середине головы. К сигналу с созданным пространственным эффектом может быть добавлен эффект искусственного помещения (например, ранние отражения и/или поздняя реверберация) для улучшения экстернирования источника и естественности.
Поскольку число различных устройств для прослушивания аудиосигнала и интерактивных устройств увеличивается, становится более важной совместимость. Среди пространственных аудиоформатов обеспечиваются сквозные техники повышающего микширования (увеличение числа каналов сигнала) и понижающего микширования (уменьшение числа каналов сигнала). Широко известно, что есть алгоритмы для преобразования мультиканального аудиосигнала в стереоформат, такие как DolbyDigital® и Dolby Surround®, и для дальнейшего преобразования стереосигнала в бинауральный сигнал. Однако при таком типе обработки пространственный эффект исходного мультиканального аудиосигнала не может быть воспроизведен полностью. Лучший путь преобразования мультиканального аудиосигнала для прослушивания в наушниках - заменить исходные громкоговорители на виртуальные громкоговорители путем применения фильтрации HRTF и проигрывать сигналы каналов громкоговорителей через них (например, Dolby Headphone®). Однако этот процесс имеет недостаток, заключающийся в том, что для генерации бинаурального сигнала сначала всегда необходимо мультиканальное микширование. То есть, мультиканальные (например 5+1 каналов) сигналы сначала декодируются и синтезируются, затем для формирования бинаурального сигнала к каждому сигналу применяется HRTF. Этот подход требует интенсивных вычислений по сравнению с декодированием напрямую из компрессированного мультиканального формата в бинауральный формат.
Бинауральное Кодирование с Метками (Binaural Cue Coding, BCC) - это хорошо разработанный параметрический способ пространственного аудиокодирования. BCC представляет пространственный мультиканальный сигнал как один (или несколько) аудиоканалов понижающего микширования и набор релевантных к восприятию межканальных различий, оцененных из исходного сигнала как функция частоты и времени. Этот способ позволяет преобразовать пространственный аудиосигнал, микшированный для произвольного расположения громкоговорителей, в сигнал с любым другим расположением громкоговорителей, содержащим либо такое же, либо другое число громкоговорителей.
Таким образом, ВСС разработано для мультиканальных систем громкоговорителей. Однако генерация бинаурального сигнала из моносигнала и его дополнительной информации, обработанных с помощью ВСС, требует, чтобы сначала на базе монофонического сигнала и дополнительной информации было синтезировано мультиканальное представление, и только тогда становится возможным генерировать бинауральный сигнал из мультиканального представления для пространственного проигрывания в наушниках. Ясно, что такой подход также не оптимизирован с точки зрения генерации бинаурального сигнала.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Предлагается улучшенный способ, а также техническое оборудование, реализующее этот способ, в котором генерирование бинаурального сигнала возможно прямо из параметрически кодированного аудиосигнала. Различные аспекты данного изобретения включают способ декодирования, декодер, устройство и компьютерное программы, особенности которых описаны далее. Также раскрыты различные варианты осуществления данного изобретения.
В соответствии с первым аспектом, способ, согласно данному изобретению, основывается на идее синтеза бинаурального аудиосигнала, при котором сначала вводится параметрически кодированный аудиосигнал, содержащий по меньшей мере один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающих мультиканальный звуковой образ. По меньшей мере один комбинированный сигнал разделяется на множество подполос, и определяются значения параметров для подполос из указанного набора дополнительной информации. Затем заранее заданный набор фильтров с передаточными функциями головы применяется по меньшей мере к одному комбинированному сигналу в пропорции, определяемой указанными значениями параметров, для синтеза бинаурального аудиосигнала.
В соответствии с изобретением, указанные значения параметров определяются путем интерполирования значения параметра, соответствующего конкретной подполосе, из следующего и предыдущего значений параметров, предоставляемых указанным набором дополнительной информации.
В соответствии с вариантом осуществления изобретения, из заранее заданного набора фильтров с передаточными функциями головы для применения выбирается пара левого-правого фильтров с передаточными функциями головы, соответствующая каждому направлению громкоговорителя исходного мультиканального расположения громкоговорителей.
В соответствии с вариантом осуществления изобретения, указанный набор дополнительной информации включает набор оценок усиления для канальных сигналов мультиканального аудиосигнала, описывающих исходный звуковой образ.
В соответствии с вариантом осуществления изобретения, оценки усиления исходного мультиканального аудиосигнала определяются как функция времени и частоты; и значения усиления для каждого канала громкоговорителя регулируются так, что сумма квадратов каждой величины усиления равна единице.
В соответствии с изобретением, по меньшей мере один комбинированный сигнал разделяют на один из следующих типов подполос: множество подполос QMF, множество подполос Эквивалентной Прямоугольной Полосы (Equivalent Rectangular Bandwidth, ERB); или множество психоакустически мотивированных частотных полос.
В соответствии с изобретением, указанные значения параметров являются величинами усиления по меньшей мере для одной подполосы.
В соответствии с изобретением, этап определения величин усиления для подполос также включает: определение величин усиления для каждого канального сигнала мультиканального аудиосигнала, описывающего исходный звуковой образ; и интерполирование единой величины усиления для подполос из указанных величин усиления для каждого канального сигнала.
В соответствии с изобретением, представление бинаурального сигнала в частотной области для подполос определяется перемножением по меньшей мере одного указанного комбинированного сигнала с по меньшей мере одной величиной усиления и заранее заданным фильтром с передаточной функцией головы.
Данное изобретение обеспечивает существенные преимущества. Главное преимущество - это простота и небольшая вычислительная сложность процесса декодирования. Декодер также является гибким в том смысле, что он обеспечивает бинауральный синтез полностью на базе пространственных параметров и параметров кодирования, предоставляемых кодером. Более того, при преобразовании поддерживаются одинаковые по отношению к исходному сигналу пространственные характеристики. Что касается дополнительной информации, то достаточно набора оценок усиления исходного микширования. Наиболее существенно то, что изобретение обеспечивает усовершенствованное использование компрессированного промежуточного состояния, обеспечиваемого в параметрическом аудиокодировании, улучшая эффективность при передаче, а также хранении аудиосигнала.
Другие аспекты изобретения включают различные устройства, предназначенные для выполнения этапов вышеуказанных способов, реализующих изобретение. Так, согласно изобретению, предлагается параметрический аудиодекодер, содержащий:
параметрический кодовый процессор для обработки параметрически кодированного аудиосигнала, содержащего по меньшей мере один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал;
средство для разделения по меньшей мере одного комбинированного сигнала на множество подполос;
средство для определения значений набора оценок усиления для подполос из указанного набора дополнительной информации; и
синтезатор для применения заранее заданного набора фильтров с передаточными функциями головы по меньшей мере к одному комбинированному сигналу в пропорции, определяемой указанными значениями набора оценок усиления, для синтеза бинаурального аудиосигнала.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Далее различные варианты осуществления данного изобретения будут описаны более подробно, со ссылками на сопроводительные чертежи, где:
Фиг.1 - общая схема кодирования ВСС в соответствии с уровнем техники;
Фиг.2 - общая структура схемы синтеза ВСС в соответствии с уровнем техники;
Фиг.3 - блок-схема бинаурального декодера в соответствии с вариантом осуществления данного изобретения; и
Фиг.4 - электронное устройство в соответствии с вариантом осуществления данного изобретения в виде упрощенной блок-схемы.
ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
В дальнейшем изобретение будет иллюстрировано со ссылкой на кодирование ВСС (Бинауральное Кодирование с Метками), как например платформы для реализации схемы декодирования в соответствии с вариантами осуществления изобретения. Нужно отметить, однако, что данное изобретение не ограничено исключительно способами пространственного кодирования аудиосигнала ВСС-типа, а может быть реализовано в любой схеме кодирования аудиосигнала, обеспечивающей по меньшей мере один аудиосигнал, комбинированный из исходного набора с одним или более аудиоканалом, и соответствующую дополнительную пространственную информацию.
Бинауральное Кодирование с Метками - это общая концепция параметрического представления пространственного аудиосигнала, обеспечивающая мультиканальный выход с произвольным числом каналов из единственного аудиоканала и некоторой дополнительной информации. Фиг.1 показывает эту концепцию. Несколько (М) входных аудиоканалов комбинируются в единственный выходной (S, «сумма») сигнал путем процесса понижающего микширования. Одновременно из входных каналов выделяют наиболее выраженные межканальные сигналы, описывающие мультиканальный звуковой образ, и компактно кодируют их как дополнительную информацию ВСС. Суммарный сигнал и дополнительная информация передаются затем на сторону приемника, возможно, с использованием соответствующей схемы низкоскоростного кодирования аудиосигнала для кодирования суммарного сигнала. Окончательно декодер ВСС генерирует мультиканальный (N) выходной сигнал для громкоговорителей из переданного суммарного сигнала и пространственной дополнительной информации путем повторного синтеза канальных выходных сигналов, которые несут существенные межканальные метки, такие как Межканальная Разница Времени (Inter-channel Time Difference, ICTD), Межканальная Разница Уровней (Inter-channel Level Difference, ICLD) и Межканальная Когерентность (Inter-channel Coherence, ICC). Соответственно, дополнительная информация ВСС, т.е. межканальные метки, выбирается исходя из оптимизации реконструкции мультиканального аудиосигнала, в частности, для проигрывания через громкоговорители.
Есть две схемы ВСС, а именно: ВСС для Гибкого Рендеринга (ВСС типа 1), которая предназначена для передачи некоторого числа раздельных источников сигналов с целью рендеринга в приемнике, и ВСС для Естественного Рендеринга (ВСС тип 2), которое предназначено для передачи некоторого числа раздельных аудиоканалов стереосигнала или сигнала объемного звучания. ВСС для Гибкого Рендеринга принимает в качестве входных данных раздельные источники аудиосигналов (например, речевые сигналы, раздельно записанные инструменты, мультитрековая запись). ВСС для Естественного Рендеринга, в свою очередь, принимает в качестве входных данных «финальный микс» - стерео- или мультиканальный сигнал (например, CD-аудио, объемный звук DVD). Если эти процессы выполняются посредством стандартных техник кодирования, скорость битового потока пропорциональна или по меньшей мере почти пропорциональна количеству аудиоканалов; например, передача шести аудиоканалов мультиканальной системы 5.1 требует примерно в 6 раз большей скорости битового потока, чем для одного аудиоканала. Однако обе схемы ВСС приводят к скорости битового потока, которая только чуть больше, чем требуется для передачи одного аудиоканала, поскольку дополнительная информация ВСС требует очень низкой скорости битового потока (например, 2 кб/с).
Фиг.2 демонстрирует основную структуру схемы синтеза ВСС. Переданный моносигнал («сумма») сначала кадрируется во временной области, а затем отображается в спектральное представление соответствующих подполос путем Быстрого Преобразования Фурье (БПФ) и Банка Фильтров (БФ). Вместо обработки с помощью БПФ и БФ для выполнения декомпозиции сигнала может быть использован банк Квадратурных Зеркальных Фильтров (Quadrature Mirror Filter, QMF). В общем случае проигрывания каналов метки ICLD и ICTD учитываются в каждой подполосе между парами каналов, т.е. для каждого канала по отношению к эталонному каналу. Подполосы выбираются такими, чтобы достигалось достаточное высокое частотное разрешение; например, ширина подполосы, равная удвоенному размеру ERB (Equivalent Rectangular Bandwidth, Эквивалентная Прямоугольная Полоса), обычно считается подходящей. Для каждого генерируемого выходного канала индивидуальные задержки времени ICTD и разницы уровней ICLD накладываются на спектральные коэффициенты, за этим следует процесс когерентного синтеза, который восстанавливает наиболее существенные аспекты когерентности и/или корреляции (IСС) между синтезированными аудиоканалами. Окончательно, все синтезированные выходные каналы конвертируются обратно во временное представление путем процесса обратного БПФ (ОБПФ), с результатом в виде мультиканального выхода. Для более подробного описания подхода ВСС сделаем ссылку на: F. Baumgarte and С.Fallen "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and Design Principles", IEEE Transactions on Speech and Audio Processing, Vol.11, No. 6, Ноябрь 2003, и на: С.Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol.11, No.6, Ноябрь 2003.
ВСС - это пример схемы кодирования, который обеспечивает подходящую платформу для реализации схемы декодирования в соответствии с вариантами осуществления изобретения. Бинауральный декодер, в соответствии с вариантом осуществления изобретения, принимает монофонизированный сигнал и дополнительную информацию как входные данные. Идея заключается в замене каждого громкоговорителя в оригинальном смешивании парой фильтров HRTF, соответствующих направлению громкоговорителя по отношению к позиции прослушивания. Каждый частотный канал монофонизированного сигнала пропускается через каждую пару фильтров, реализующих HRTF, в пропорции, определяемой набором величин усиления, которые могут быть вычислены на базе дополнительной информации. В результате этот процесс может считаться реализацией набора виртуальных громкоговорителей, соответствующих исходным, в бинауральной аудиосцене. Соответственно, изобретение добавляет значение к ВСС, позволяя, кроме мультиканальных аудиосигналов для различных расположений громкоговорителя, получить бинауральный аудиосигнал прямо из кодированного параметрически аудиосигнала, без какого-либо промежуточного процесса синтеза ВСС.
Некоторые варианты осуществления данного изобретения проиллюстрированы в дальнейшем со ссылкой на фиг.3, которая показывает блок-схему бинаурального декодера в соответствии с аспектом изобретения. Декодер 300 включает первый вход 302 для монофонизированного сигнала и второй вход 304 для дополнительной информации. Входы 302, 304 показаны как отдельные входы с целью иллюстрации вариантов осуществления изобретения, однако специалисту будет понятно, что в практических реализациях монофонизированный сигнал и дополнительная информация могут поступать через один вход.
В соответствии с вариантом осуществления изобретения, дополнительная информация не обязательно должна включать такие же межканальные метки, как и в схеме ВСС, т.е. Межканальную Разницу Времени (Inter-channel Time Difference, ICTD), Межканальную Разницу Уровней (Inter-channel Level Difference, ICLD) и Межканальную Когерентность (Inter-channel Coherence, ICC), достаточным будет только набор оценок усиления, определяющих распределение звукового давления между каналами исходного смешивания на каждой частотной полосе. В дополнение к оценкам усиления, дополнительная информация предпочтительно включает число и расположение громкоговорителей исходного смешивания относительно позиции прослушивания, а также применяемую длину кадра. В соответствии с вариантом осуществления изобретения, вместо передачи оценок усиления как части дополнительной информации, полученных из кодера, оценки усиления вычисляются в декодере из межканальных сигналов схемы ВСС, например, из ICLD.
Декодер 300 также содержит оконное устройство 306, где монофонизированный сигнал сначала разделяется на временные кадры применяемой длины, а затем к кадрам применяется подходящая оконная функция, например, синус-окно. Подходящая длина кадра должна быть подобрана так, чтобы кадры были достаточной длинными для Дискретного Преобразования Фурье (ДПФ), и в то же время достаточно короткими для обработки быстрых вариаций в сигнале. Эксперименты показали, что подходящая длина кадра - примерно 50 мс. Соответственно, если используется частота дискретизации 44.1 кГц (обычно применяемая в различных схемах аудиокодирования), то кадр может содержать, например, 2048 выборок, что приводит к длине кадра 46.3 мс. Применение оконной функции предпочтительно выполнено так, чтобы соседние окна перекрывались на 50 процентов для сглаживания переходов, вызванных спектральными изменениями (уровень и задержка).
Далее монофонизированый сигнал, обработанный оконной функцией, преобразуется в частотную область в устройстве БПФ 308. Обработка выполняется в частотной области для эффективности вычислений. Специалисту ясно, что предыдущие этапы обработки сигнала могут быть выполнены вне декодера 300, т.е. оконное устройство 306 и устройство БПФ 308 могут быть реализованы в устройстве, включающем декодер, и монофонизированный сигнал может быть уже обработан оконной функцией и преобразован в частотную область перед поступлением в декодер.
Для эффективности выполнения вычислений над сигналом в частотной области он пропускается через банк фильтров 310, который разделяет сигнал на психоакустически мотивированные частотные полосы. В соответствии с вариантом осуществления изобретения, банк фильтров 310 разработан таким образом, чтобы разделить сигнал на 32 частотные полосы, соответствующие общеизвестной шкале Эквивалентных Прямоугольных Полос (Equivalent Rectangular Bandwidth, ERB), с результатом в виде компонент сигнала Х0, …, Х31 на указанных 32-х частотных полосах.
Декодер 300 включает набор фильтров HRTF 312, 314 в виде заранее заданной информации, из которого выбирается пара левого-правого фильтров HRTF, соответствующая каждому направлению громкоговорителя. С иллюстративной целью на фиг.3 показано два набора фильтров HRTF 312, 314, один для левостороннего сигнала, и один для правостороннего сигнала, однако понятно, что в практической реализации достаточно одного набора фильтров HRTF. Для регулирования выбранной пары левого-правого фильтров HRTF, в соответствии с уровнем звука каждого канала громкоговорителя, предпочтительно оценивается величина усиления G. Как указано выше, оценки усиления могут быть включены в дополнительную информацию, принимаемую из кодера, или могут быть вычислены в декодере на базе дополнительной информации ВСС. Соответственно, усиление оценивается для каждого канала громкоговорителя как функция времени и частоты, и для сохранения уровня усиления исходного смешивания величина усиления для каждого канала громкоговорителя предпочтительно регулируется так, что сумма квадратов каждой величины усиления равна единице. Это дает преимущество, заключающееся в том, что если число виртуально генерированных каналов равно N, то передавать из кодера нужно только N-1 оценок усиления, а оставшаяся величина усиления может быть вычислена на базе N-1 величин усиления. Специалисту, однако, ясно, что функционирование изобретения не делает необходимым приведение суммы квадратов каждой величины усиления к единице, а декодер может масштабировать квадраты величин усиления так, чтобы эта сумма равнялась единице.
Затем каждая пара левого-правого фильтров HRTF 312, 314 регулируется в пропорции, определяемой набором усилений G, с результатом в виде скорректированных фильтров HRTF 312', 314'. Снова отметим, что на практике исходные значения фильтров HRTF 312, 314 масштабируют в соответствии с величинами усиления, однако для иллюстративных целей на фиг.3 показаны «дополнительные» наборы фильтров HRTF 312', 314'.
Для каждой частотной полосы компоненты моносигнала Х0, …, Х31 подаются на каждую пару левого-правого скорректированных фильтров HRTF 312', 314'. Выходы фильтров для левостороннего сигнала и правостороннего сигнала затем суммируются в устройстве суммирования 316, 318 для обоих бинауральных каналов. Суммированные бинауральные каналы снова обрабатываются синус-окном и преобразуются обратно во временную область обратным БПФ, выполняемым в устройствах ОБПФ 320, 322. В случае, если анализирующие фильтры не нормализованы, либо их фазовая характеристика нелинейна, предпочтительно используется подходящий синтезирующий банк фильтров для устранения искажений в финальных бинауральных сигналах bR и bL.
В соответствии с вариантом осуществления изобретения, для улучшения экстернирования (т.е. локализации вне головы) бинаурального сигнала к нему может быть добавлено небольшое количество характеристик помещения. Для этих целей декодер может включать устройство реверберации, предпочтительно расположенное между устройствами суммирования 316, 318 и устройствами ОБПФ 320, 322. Добавляемые характеристики помещения имитируют свойства помещения в ситуации прослушивания через громкоговорители. Время реверберации, однако, необходимо довольно короткое, для того чтобы вычислительная сложность заметно не увеличивалась.
Бинауральный декодер 300, показанный на фиг.3, также позволяет получить особый вариант стереодекодирования с понижающим микшированием, при котором пространственный образ сужен. В функционирование декодера 300 внесены изменения так, что каждый регулируемый фильтр HRTF 312, 314, который в вышеуказанных вариантах осуществления изобретения был масштабирован в соответствии с величинами усилений, заменен заранее заданным усилением. Соответственно, монофонизированный сигнал обрабатывается постоянными фильтрами HRTF, состоящими из единственного усиления, умноженного на набор величин усилений, вычисленных на базе дополнительной информации. Как результат, пространственный аудиосигнал преобразуется понижающим микшированием в стереосигнал. Этот особый вариант обеспечивает то преимущество, что стереосигнал может быть создан из комбинированного сигнала с использованием дополнительной пространственной информации без необходимости декодирования пространственного аудиосигнала, вследствие чего процедура стереодекодирования проще, чем обычный синтез ВСС. Структура бинаурального декодера 300 остается, тем не менее, такой же, как на фиг.3, только регулируемые фильтры HRTF 312, 314 заменяются фильтрами понижающего микширования, имеющими заранее заданные усиления для стереопонижающего микширования.
Если бинауральный декодер включает фильтры HRTF, например, для конфигурации объемного звука 5.1, тогда для особого варианта стереодекодирования с понижающим микшированием постоянные усиления для фильтров HRTF могут быть, например, такими, как в Таблице.
HRTF Левый Правый
Фронтальный левый 1.0 0.0
Фронтальный правый 0.0 1.0
Центр Sqrt (0.5) Sqrt (0.5)
Левый, тыл Sqrt (0.5) 0.0
Правый, тыл 0.0 Sqrt (0.5)
LFE Sqrt (0.5) Sqrt (0.5)
Данное изобретение обеспечивает существенные преимущества. Главное преимущество - это простота и небольшая вычислительная сложность процесса декодирования. Декодер также является гибким в том смысле, что он обеспечивает бинауральное повышающее микширование полностью на базе пространственных параметров и параметров кодирования, предоставляемых кодером. Более того, при преобразовании поддерживаются одинаковые по отношению к исходному сигналу пространственные характеристики. Что касается дополнительной информации, то достаточно набора оценок усиления исходного смешивания. С точки зрения передачи или хранения аудиосигнала, наиболее существенны преимуществом является то, что изобретение обеспечивает улучшенную эффективность при использовании компрессированного промежуточного состояния, обеспечиваемого при параметрическом аудиокодировании.
Специалисту понятно, что, поскольку фильтры HRTF весьма индивидуальны и усреднение невозможно, наилучшая передача пространственного образа может быть достигнута только измерением уникального собственного набора фильтров HRTF слушателя. Соответственно, использование фильтров HRTF неизбежно ведет к окрашиванию сигнала так, что качество обработанного аудиосигнала не эквивалентно исходному. Однако, поскольку измерение фильтров HRTF для каждого слушателя является нереалистичным, наилучший возможный результат достигается тогда, когда используется либо моделированный набор, либо набор, измеренный с помощью искусственной головы или человека с головой средних размеров и высокой симметрией.
Как указано ранее, в соответствии с вариантом осуществления изобретения, оценки усиления могут быть включены в дополнительную информацию, принимаемую из кодера. В результате аспект изобретения относится к кодеру для мультиканального пространственного аудиосигнала, который оценивает усиление для каждого канала громкоговорителя как функцию частоты и времени, и включает оценки усиления в дополнительную информацию, передаваемую с одним (или более) комбинированным каналом. Кодер может быть, например, тем же кодером ВСС с добавлением вычисления оценок усиления, либо в дополнение, либо вместо межканальных сигналов ICTD, ICLD и IСС, описывающих мультиканальный звуковой образ. Затем суммарный сигнал и дополнительная информация, включающая по меньшей мере оценки усиления, передаются на сторону приемника, предпочтительно с использованием соответствующей схемы низкоскоростного аудиокодирования для кодирования суммарного сигнала.
В соответствии с вариантом осуществления изобретения, если оценки усиления вычисляются в кодере, вычисления выполняются сравнением уровня усиления каждого индивидуального канала с кумулятивным уровнем усиления комбинированного канала. То есть, если мы обозначим уровни усиления как X, индивидуальные каналы исходного расположения громкоговорителей как «m», и выборки как «k», то для каждого канала оценка усиления вычисляется как |Xm(k)|/|Xsum(k)|. Соответственно, оценки усиления определяют пропорциональные величины усиления каждого индивидуального канала в сравнении с общей величиной усиления всех каналов.
В соответствии с вариантом осуществления изобретения, если оценки усиления вычисляются в декодере на базе дополнительной информации ВСС, вычисление может быть выполнено, например, на базе значений Межканальной Разницы Уровней (ICLD). В результате, если N - число виртуально генерированных «громкоговорителей», то сначала на базе значений ICLD составляется N-1 уравнений, содержащих N-1 неизвестных переменных. Затем сумма квадратов каждого уравнения громкоговорителей устанавливается равной единице, посредством чего может быть найдена оценка усиления одного индивидуального канала, и на базе найденной оценки усиления из N-1 уравнений могут быть найдены остальные оценки усиления.
Например, если число виртуально генерируемых каналов равно пяти (N=5), N-1 уравнений могут быть сформированы так: L2=L1+ICLD1, L3=L1+ICLD2, L4=L1+ICLD3 и L5=L1+ICLD4. Затем сумма их квадратов устанавливается равной единице: L12+(L1+ICLD1)2+(L1+ICLD2)2+(L1+ICLD3)2+(L1+ICLD4)2=1. Затем может быть найдено значение L1, и на базе L1 могут быть найдены остальные значения уровня усиления L2-L5.
В соответствии со следующим вариантом осуществления, основная идея данного изобретения, т.е. генерация бинаурального сигнала напрямую из параметрически кодированного аудиосигнала без необходимости декодирования этого сигнала сначала в мультиканальный формат, может быть также реализована так, что для создания бинаурального сигнала будет использована только информация уровней каналов (ICLD) битового потока дополнительной информации вместе с суммарным сигналом (сигналами), вместо использования набора оценок усиления и применения их к каждой частотной подполосе.
Соответственно, вместо определения набора оценок усиления в декодере или включения оценок усиления в дополнительную информацию ВСС в кодере, в декодере происходит обработка (как функции времени и частоты) информации уровней каналов (ICLD) обычной дополнительной информации ВСС каждого исходного канала. Исходный суммарный сигнал (сигналы) разделяется на соответствующие частотные бины, и усиления для частотных бинов получаются из информации уровней каналов. Этот процесс позволяет получить дальнейшее улучшение качества бинаурального выходного сигнала путем введения более плавных изменений величин усиления от одной частотной полосы к другой.
В данном варианте осуществления изобретения предварительные этапы обработки такие же, как описанные выше: суммарный сигнал (моно или стерео) и дополнительная информация подаются на декодер, суммарный сигнал разделяется на временные кадры применяемой длины, а затем к кадрам применяется подходящая оконная функция, например, синус-окно. Снова при анализе используются синус-окна, перекрывающиеся на 50 процентов, и для эффективного преобразования сигнала из временной области в частотную область применяется БПФ (Быстрое Преобразование Фурье). Тогда, если длина окна анализа равна N выборкам, и окна имеют перекрытие 50%, получаем N/2 частотных бина в частотной области. В этом варианте осуществления, вместо разделения сигнала на психоакустически мотивированные частотные полосы, такие как подполосы, соответствующие шкале ERB, обработка применяется к указанным частотным бинам.
Как описано выше, дополнительная информация кодера ВСС обеспечивает информацию о том, как суммарный сигнал (сигналы) должен быть отмасштабирован для получения каждого индивидуального канала. Информация усиления в основном предоставляется только для ограниченных позиций времени и частоты. На временной шкале величины усиления даются, например, один раз на кадр из 2048 выборок. Для реализации настоящего изобретения необходимы величины усиления в середине каждого синус-окна и для каждого частотного бина (т.е. N/2 величин усиления в середине каждого синус-окна). Это эффективно достигается посредством интерполяции. Альтернативно, информация усиления может быть обеспечена в моменты времени, определяемые в дополнительной информации, и число моментов времени в кадре также может предоставляться в дополнительной информации. В этой альтернативном варианте осуществления величины усилений интерполируются на основе знания моментов времени и количества моментов времени, в которые обновляются величины усилений.
Предположим, что мультиканальный кодер ВСС обеспечивает Ng величин усиления в моменты времени tm, m=0, 1, 2, … По отношению к текущему моменту времени tw (центр текущего синус-окна), найденные следующий и предыдущий набор величин усиления, обеспеченные мультиканальным кодером ВСС, обозначим как tprev и tnext. Используя, например, линейную интерполяцию, Ng величин усиления интерполируются для момента времени tw так, что расстояние от tw до tprev и tnext используется в интерполяции как масштабирующий коэффициент. В соответствии с другим вариантом осуществления, просто выбирается величина усиления (tprev или tnext), которая ближе к моменту времени tw, что обеспечивает более прямолинейное решение для определения хорошо аппроксимированной величины усиления.
После того как определен набор Ng величин усиления для текущего момента, они требуют интерполяции на частотной шкале для получения индивидуальной величины усиления для каждого N/2 частотного бина. Для решения этой задачи может быть использована простая линейная интерполяция, однако, например, может быть использована и синус-интерполяция. Обычно Ng величин усиления получаются с большим разрешением на низких частотах (разрешение может следовать, например, шкале ERB), что должно быть учтено при интерполяции. Интерполяция может быть выполнена в линейном или логарифмическом масштабе. Общее число интерполированных наборов усиления равно числу выходных каналов мультиканального декодера, умноженному на число суммарных сигналов.
Кроме того, для создания бинаурального сигнала необходимы функции HRTF исходных положений громкоговорителей. Также функции HRTF преобразуются в частотную область. Для обеспечения простоты процесса в частотной области при преобразовании используется такая же длина кадра (N выборок), как и при преобразовании суммарного сигнала (сигналов) из временной в частотную область (N/2 бин).
Предположим, что Y1(n) и Y2(n) являются соответственно представлением левого и правого бинауральных сигналов в частотной области. В случае одного суммарного сигнала (т.е. монофонизированного суммарного сигнала Xsum1 (n)) бинауральный выходной сигнал получается следующим образом:
Figure 00000001
Figure 00000002
где 0=n<N/2. С - общее число каналов в мультиканальном кодере ВСС (например, аудиосигнал 5.1 включает 6 каналов), и g1c(n) - интерполированная величина усиления для монофонического суммарного сигнала для получения канала с в текущий момент времени tw. H1c(n) и H2c(n) - ДПФ-представление HRTF (ДПФ - Дискретное Преобразование Фурье) для левого и правого ушей для выходного канала с мультиканального кодера, т.е. направление каждого исходного канала должно быть известно.
В случае двух суммарных сигналов (стереофонического суммарного сигнала), обеспеченных мультиканальным кодером ВСС, оба суммарных сигнала (Xsum1 (n) и Xsum2 (n)) взаимосвязаны с обоими бинауральными выходами следующим образом:
Figure 00000003
Figure 00000004
где 0=n<N/2. Здесь g1c(n) и g2c(n) представляют усиления, используемые для левого и правого суммарных сигналов в мультиканальном кодере для получения выходного канала с как суммы этих сигналов.
Снова последние этапы процесса такие же, как описанные выше: Y1(n) и Y2(n) преобразуются обратно во временную область с помощью процесса ОБПФ (Обратное Быстрое Преобразование Фурье), сигналы еще раз обрабатываются синус-окном, и перекрывающиеся окна объединяются вместе.
Основное преимущество вышеописанного варианта осуществления заключается в том, что усиления не изменяются быстро от одного частотного бина к другому, что может происходить в случае использования подполос ERB (или других). Таким образом, качество бинаурального выходного сигнала обычно будет лучше.
Кроме того, использование просуммированных ДПФ-представлений HRTF для левого и правого ушей (H1c(n) и H2c(n)) вместо отдельной пары левого-правого фильтров HRTF для каждого канала мультиканального аудиосигнала может существенно упростить фильтрацию.
В вышеописанном варианте осуществления бинауральный сигнал создавался в ДПФ-представлении, и разделение сигнала на подполосы в соответствии со шкалой ERB с помощью банка фильтров может быть исключено. Однако несмотря на то, что данный вариант осуществления преимущественно не нуждается в банке фильтров, специалисту понятно, что могут быть применены также другие преобразования, подобные ДПФ, либо подходящие структуры банка фильтров с высоким частотным разрешением. В этих случаях вышеуказанные уравнения для Y1(n) и Y2(n) должны быть модифицированы так, чтобы фильтрация HRTF выполнялась на основе набора свойств данного преобразования или банка фильтров.
Соответственно, если, например, применяется банк фильтров QMF, то частотное разрешение определяется подполосами QMF. Если набор Ng величин усиления меньше, чем число подполос QMF, то величины усиления интерполируются для получения индивидуального усиления для каждой подполосы. Например, 28 величин усиления (соответствующих 28-и частотным полосам для данного момента времени), имеющихся в дополнительной информации, могут быть отображены на 105 подполос QMF путем линейной или нелинейной интерполяции для предотвращения непредсказуемых вариаций в соседних узких подполосах. Соответственно, вышеописанные уравнения для частотного представления бинаурального левого и правого сигналов (Y1(n) и Y2(n)) будут такими же, за исключением того, что H1c(n) и H2c(n) - фильтры HRTF в QMF-представлении в матричном формате, и Xsum1 (n) - блок монофонизированного сигнала. В случае стереофонического суммарного сигнала фильтры HRTF будут в сверточной матричной форме, a Xsum1 (n) и Xsum2 (n) будут блоками двух суммарных сигналов соответственно. Пример реальной реализации фильтрации в QMF-представлении описан в документе IEEE 0-7803-5041-3/99, Lanciani С.A. et al.: "Subband domain filtering of MPEG audio signals".
Для простоты изложения предыдущие примеры описаны так, что в кодере входные каналы (М) микшируются с понижением для формирования одного комбинированного (например, моно) канала. Однако этот вариант осуществления изобретения в равной степени пригоден в альтернативных реализациях, где множество входных каналов (М) микшируется с понижением для формирования двух или более раздельных комбинированных каналов (S), в зависимости от конкретного приложения аудиообработки. Если процесс понижающего микширования генерирует множество комбинированных каналов, комбинированные канальные данные могут быть переданы с использованием обычной техники аудиопередачи. Например, если генерируются два комбинированных канала, может быть применена обычная техника передачи стереосигнала. В этом случае декодер ВСС может извлекать и использовать коды ВСС для синтеза бинаурального сигнала из двух комбинированных каналов, что показано выше в последнем варианте осуществления изобретения.
В соответствии с вариантом осуществления изобретения число (N) виртуально генерируемых «громкоговорителей» в синтезированном бинауральном сигнале может отличаться (быть больше или меньше) от числа входных каналов (М), в зависимости от конкретного приложения. Например, входной аудиосигнал может соответствовать системе 7.1, а бинауральный выходной аудиосигнал может быть синтезирован соответствующим системе 5.1, или наоборот.
Вышеуказанные варианты осуществления изобретения могут быть обобщены так, что они будут обеспечивать преобразование М входных аудиоканалов в S комбинированных аудиоканалов и один или более соответствующих наборов дополнительной информации (где М>S), и для генерирования N выходных аудиоканалов из S комбинированных аудиоканалов и соответствующих наборов дополнительной информации (где N>S, и N может быть равно или отличаться от М).
Поскольку скорость битового потока, требуемая для передачи одного комбинированного канала и необходимой дополнительной информации, очень мала, изобретение особенно хорошо применимо в таких системах, где доступная полоса пропускания является дефицитным ресурсом, например в беспроводных телекоммуникационных системах. Соответственно, варианты осуществления изобретения особенно применимы в мобильных терминалах или в других портативных устройствах, обычно не имеющих высококачественных громкоговорителей, где возможности мультиканального объемного звука могут быть получены через наушники при прослушивании бинаурального аудиосигнала в соответствии с вариантами осуществления изобретения. Дальнейшие варианты пригодных применений включают услуги телеконференций, где участники телеконференции могут быть легко разделены путем предоставления слушателю впечатления, что участники конференции выступает с разных мест помещения.
Фиг.4 иллюстрирует упрощенную структуру устройства обработки данных (ТЕ, data processing device), где может быть реализована бинауральная декодирующая система в соответствии с изобретением. Устройство обработки данных (ТЕ) может быть, например, мобильным терминалом, карманным персональным компьютером (КПК) или персональным компьютером (ПК). Устройство обработки данных (ТЕ) содержит средство ввода-вывода (I/O), центральное процессорное устройство (CPU) и память (MEM). Память (MEM) содержит память только для чтения (ROM) и перезаписываемую память, например память с произвольным доступом (RAM) и память FLASH. Информация, используемая для связи с различными внешними частями, например, с CD-ROM, другими устройствами или пользователем, передается посредством средства ввода-вывода (I/O) в/из центрального процессорного устройства (CPU). Если устройство обработки данных реализовано как мобильная станция, оно обычно содержит приемопередатчик Tx/Rx, который взаимодействует с беспроводной сетью, обычно с базовой передающей станцией (BTS), посредством антенны. Оборудование интерфейса пользователя (UI) обычно включает дисплей, клавиатуру, микрофон и средство для подключения наушников. Устройство обработки данных может содержать также средство подключения ММС, например, слот стандартной формы для различных аппаратных модулей, или интегральные схемы IC, которые могут обеспечивать запуск различных приложений в устройстве обработки данных.
Соответственно, бинауральная декодирующая система в соответствии с изобретением может реализовываться в центральном процессорном устройстве (CPU) или в специализированном цифровом процессоре сигналов DSP (параметрический кодовый процессор) устройства обработки данных. Устройство обработки данных принимает параметрически кодированный аудиосигнал, содержащий по меньшей мере один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающих мультиканальный звуковой образ. Параметрически кодированный аудиосигнал может быть принят из средства памяти, например, CD-ROM, или из беспроводной сети посредством антенны и приемопередатчика Tx/Rx. Устройство обработки данных содержит также подходящий банк фильтров и заранее заданный набор фильтров с передаточной функцией головы. Устройство обработки данных преобразует комбинированный сигнал в частотную область и применяет подходящие пары левого-правого фильтров с передаточной функцией головы к комбинированному сигналу в пропорции, определяемой соответствующим набором дополнительной информации, для синтеза бинаурального аудиосигнала, который затем воспроизводится через наушники.
Подобным образом кодирующая система, в соответствии с изобретением, может также реализовываться в центральном процессорном устройстве CPU или в специализированном цифровом процессоре сигналов DSP устройства обработки данных. Устройство обработки данных генерирует параметрически кодированный аудиосигнал, содержащий по меньшей мере один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, включающих оценки усиления для канальных сигналов мультиканального аудиосигнала.
Функциональность изобретения может быть реализована в терминальном устройстве, например мобильной станции, а также как компьютерная программа, которая при исполнении в центральном процессорном устройстве CPU или в специализированном цифровом процессоре сигналов DSP позволяет терминальному устройству выполнять процедуры согласно изобретению. Функции компьютерной программы SW могут быть распределены на несколько отдельных программных компонентов, взаимодействующих один с другим. Компьютерное программное обеспечение может храниться в любом средстве хранения информации, например жестком диске ПК или диске CD-ROM, из которого это программное обеспечение может быть загружено в память мобильного терминала. Компьютерное программное обеспечение может быть также загружено посредством сети, например, с использованием стека протоколов TCP/IP.
Также возможно использование аппаратных решений или комбинации аппаратных и программных решений для реализации предложенных средств. Соответственно, вышеуказанный компьютерный программный продукт может быть по меньшей мере частично реализован как аппаратное решение, например, как схемы ASIC или FPGA, в аппаратном модуле, содержащем средство подключения для подключения модуля к электронному устройству, или как одна или более интегральных схем IC, аппаратный модуль или схемы IC, также включающие различные средства для выполнения указанных задач программного кода, с реализацией указанных средств аппаратно и/или программно.
Очевидно, что настоящее изобретение не ограничено только представленными выше вариантами его осуществления, а может быть модифицировано в рамках прилагаемой формулы изобретения.

Claims (33)

1. Способ синтеза бинаурального аудиосигнала, включающий:
ввод параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал;
разделение, по меньшей мере, одного комбинированного сигнала на множество подполос;
определение набора значений оценок усиления для подполос из указанного набора дополнительной информации и
применение заранее заданного набора фильтров с передаточными функциями головы, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанными набором значений оценок усиления, для синтеза бинаурального аудиосигнала.
2. Способ по п.1, где указанные набор значений оценок усиления определяют путем интерполирования значения оценки усиления, соответствующего конкретной подполосе, из следующего и предыдущего значений оценок усиления, предоставляемых указанным набором дополнительной информации.
3. Способ по п.1 или 2, также содержащий
применение из заранее заданного набора фильтров с передаточными функциями головы пары левого-правого фильтров с передаточными функциями головы, соответствующих каждому направлению громкоговорителя исходного мультиканального аудиосигнала.
4. Способ по п.1 или 2, где указанный набор дополнительной информации содержит набор оценок усиления для канальных сигналов исходного мультиканального аудиосигнала.
5. Способ по п.4, где указанный набор дополнительной информации также содержит число и расположение громкоговорителей исходного мультиканального аудиосигнала относительно позиции прослушивания, а также применяемую длину кадра.
6. Способ по п.3, где
указанный набор дополнительной информации содержит межканальные метки, используемые в схеме Бинаурального Кодирования с Метками (ВСС), такие как Межканальная Разница Времени (ICTD), Межканальная Разница Уровней (ICLD) и Межканальная Когерентность (ICC), при этом данный способ также содержит:
вычисление набора оценок усиления исходного мультиканального аудиосигнала на основе, по меньшей мере, одной из указанных межканальных меток схемы ВСС.
7. Способ по п.4, также содержащий:
определение набора оценок усиления исходного мультиканального аудиосигнала как функции времени и частоты; и
регулирование усилений для каждого канала громкоговорителя так, что сумма квадратов каждой величины усиления равна единице.
8. Способ по п.1, также содержащий:
разделение, по меньшей мере, одного комбинированного сигнала на один из следующих типов подполос:
множество подполос Квадратурных Зеркальных Фильтров (QMF); множество подполос Эквивалентных Прямоугольных Полос (ERB) или
множество психоакустически мотивированных частотных полос.
9. Способ по п.8, также содержащий:
разделение, по меньшей мере, одного комбинированного сигнала в частотной области на 32 частотных полосы, соответствующих шкале Эквивалентных Прямоугольных Полос (ERB).
10. Способ по п.9, также содержащий:
суммирование выходных сигналов фильтров с передаточными функциями головы для каждой указанной частотной полосы раздельно для левостороннего и правостороннего сигнала; и
преобразование просуммированного левостороннего и просуммированного правостороннего сигнала во временную область для создания левосторонней и правосторонней компонент бинаурального аудиосигнала.
11. Способ по п.1, где указанный набор значений оценок усиления является величинами усиления, по меньшей мере, для одной подполосы.
12. Способ по п.11, где указанные величины усиления определяют путем выбора ближайшей величины усиления, предоставляемой указанным набором дополнительной информации.
13. Способ по п.11 или 12, где этап разделения, по меньшей мере, одного комбинированного сигнала на множество подполос также содержит:
разделение, по меньшей мере, одного комбинированного сигнала на временные кадры, включающие заранее заданное число выборок, и затем применение к этим кадрам оконной функции; и
преобразование, по меньшей мере, одного комбинированного сигнала в частотную область для создания множества частотных подполос.
14. Способ по п.11 или 12, где этап определения величин усиления для подполос также содержит:
определение величин усиления для каждого канального сигнала исходного мультиканального аудиосигнала и
интерполирование единой величины усиления для подполос из указанных величин усиления каждого канального сигнала.
15. Способ по п.11 или 12, также содержащий
определение представления бинаурального сигнала в частотной области для подполос перемножением, по меньшей мере, одного указанного комбинированного сигнала с, по меньшей мере, одной величиной усиления и заранее заданным фильтром передаточной функции головы.
16. Способ по п.15, где представления бинауральных сигналов в частотной области для каждого частотного бина определяют из монофонического суммарного сигнала Xsuml(n) следующим образом:
Figure 00000005

Figure 00000006

где Y1(n) и Y2(n) - представления левого и правого бинауральных сигналов в частотной области, с - число каналов в кодере, g1c(n) - интерполированная величина усиления для монофонизированного суммарного сигнала для получения канала с в момент времени tw, a H1c(n) и H2c(n) - подполосные представления фильтров с передаточными функциями головы для левого и правого уха для выходного канала с кодера.
17. Способ по п.15, где представления бинауральных сигналов в частотной области для каждого частотного бина определяют из суммарных стереосигналов Xsum1(n) и Xsum2(n) следующим образом:
Figure 00000007

Figure 00000008

сигнала для получения канала с в момент времени tw, a H1c(n) и H2c(n) - подполосные представления фильтров с передаточными функциями головы для левого и правого уха для выходного канала с кодера.
18. Способ по п.11, где указанные значения параметров определяют путем интерполирования каждой величины усиления, соответствующей конкретной частотной подполосе, из величин усиления соседних частотных подполос, предоставляемых указанным набором дополнительной информации.
19. Параметрический аудиодекодер, содержащий:
параметрический кодовый процессор для обработки параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал;
средство для разделения, по меньшей мере, одного комбинированного сигнала на множество подполос;
средство для определения набора значений оценок усиления для подполос из указанного набора дополнительной информации и
синтезатор для применения заранее заданного набора фильтров с передаточными функциями головы, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанным набором значений оценок усиления, для синтеза бинаурального аудиосигнала.
20. Декодер по п.19, где
указанные набор значений оценок усиления определяют путем интерполирования каждого значения оценки усиления, соответствующего конкретной подполосе, из следующего и предыдущего значений усиления, предоставляемых указанным набором дополнительной информации.
21. Декодер по п.19 или 20, где
указанный синтезатор выполнен с возможностью применения из заранее заданного набора фильтров с передаточными функциями головы пары левого-правого фильтров с передаточными функциями головы, соответствующей каждому направлению громкоговорителя исходного мультиканального аудиосигнала.
22. Декодер по п.19 или 20, где
указанный набор дополнительной информации содержит набор оценок усиления для канальных сигналов мультиканального аудиосигнала.
23. Декодер по п.21, где
указанный набор дополнительной информации содержит межканальные метки, используемые в схеме Бинаурального Кодирования с Метками (ВСС), такие как Межканальная Разница Времени (ICTD), Межканальная Разница Уровней (ICLD) и Межканальная Когерентность (ICC), при этом декодер выполнен с возможностью
вычисления набора оценок усиления исходного мультиканального аудиосигнала на основе, по меньшей мере, одной из указанных межканальных меток схемы ВСС.
24. Декодер по п.19, также содержащий:
средство для разделения, по меньшей мере, одного комбинированного сигнала на один из следующих типов подполос:
множество подполос QMF;
множество подполос Эквивалентной Прямоугольной Полосы (ERB);
или множество психоакустически мотивированных частотных полос.
25. Декодер по п.24, где:
указанное средство для разделения, по меньшей мере, одного комбинированного сигнала в частотной области содержит банк фильтров, выполненных с возможностью разделения, по меньшей мере, одного комбинированного сигнала на 32 частотных полосы, соответствующих шкале Эквивалентных Прямоугольных Полос (ERB).
26. Декодер по п.25, также содержащий:
суммирующее устройство для суммирования выходных сигналов фильтров с передаточными функциями головы для каждой указанной частотной полосы раздельно для левостороннего и правостороннего сигнала; и
устройство преобразования для преобразования просуммированного левостороннего и просуммированного правостороннего сигнала во временную область для создания левосторонней и правосторонней компонент бинаурального аудиосигнала.
27. Декодер по п.19, где
указанный набор значений ценок усиления является величинами усиления, по меньшей мере, для одной подполосы.
28. Декодер по п.27, где указанные величины усиления определяются путем выбора ближайшей величины усиления, предоставляемой указанным набором дополнительной информации.
29. Декодер по п.27 или 28, где указанное средство для определения величин усиления, по меньшей мере, для одной подполосы выполнено с возможностью:
определения величин усиления для каждого канального сигнала исходного мультиканального аудиосигнала и
интерполирования единой величины усиления, по меньшей мере, для одной подполосы из указанных величин усиления для каждого канального сигнала.
30. Декодер по п.27 или 28, выполненный с возможностью
определения представления бинаурального сигнала в частотной области, по меньшей мере, для одной подполосы путем перемножения указанного, по меньшей мере, одного комбинированного сигнала с, по меньшей мере, одной величиной усиления и заранее заданным фильтром передаточной функции головы.
31. Носитель, хранящий программный код, при исполнении которого цифровым процессором сигналов в устройстве обработки данных устройство обработки данных выполняет:
разделение, по меньшей мере, одного комбинированного сигнала на множество подполос;
определение набора значений оценок усиления, по меньшей мере, для одной подполосы из указанного набора дополнительной информации и
применение заранее заданного набора фильтров с передаточными функциями головы, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанным набором значений оценок усиления, для синтеза бинаурального аудиосигнала.
32. Устройство для синтеза бинаурального аудиосигнала, содержащее:
средство для ввода параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал;
средство для разделения, по меньшей мере, одного комбинированного сигнала на множество подполос;
средство для определения набора значений оценок усиления, по меньшей мере, для одной подполосы из указанного набора дополнительной информации;
средство для применения заранее заданного набора фильтров с передаточными функциями головы, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанным набором значений оценок усиления, для синтеза бинаурального аудиосигнала; и
средство для подачи бинаурального аудиосигнала в средство аудиовоспроизведения.
33. Устройство по п.32, которое представляет собой мобильный терминал, КПК или персональный компьютер.
RU2008126699/09A 2006-01-09 2007-01-04 Декодирование бинауральных аудиосигналов RU2409912C9 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
PCT/FI2006/050014 WO2007080211A1 (en) 2006-01-09 2006-01-09 Decoding of binaural audio signals
FIFI2006/050014 2006-01-09
US11/334,041 2006-01-17
US11/334,041 US20070160218A1 (en) 2006-01-09 2006-01-17 Decoding of binaural audio signals
US11/354,211 2006-02-13

Publications (3)

Publication Number Publication Date
RU2008126699A RU2008126699A (ru) 2010-02-20
RU2409912C2 true RU2409912C2 (ru) 2011-01-20
RU2409912C9 RU2409912C9 (ru) 2011-06-10

Family

ID=38232768

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2008127062/09A RU2409911C2 (ru) 2006-01-09 2007-01-04 Декодирование бинауральных аудиосигналов
RU2008126699/09A RU2409912C9 (ru) 2006-01-09 2007-01-04 Декодирование бинауральных аудиосигналов

Family Applications Before (1)

Application Number Title Priority Date Filing Date
RU2008127062/09A RU2409911C2 (ru) 2006-01-09 2007-01-04 Декодирование бинауральных аудиосигналов

Country Status (11)

Country Link
US (2) US20070160218A1 (ru)
EP (2) EP1972180A4 (ru)
JP (2) JP2009522894A (ru)
KR (3) KR20110002491A (ru)
CN (2) CN101366321A (ru)
AU (2) AU2007204333A1 (ru)
BR (2) BRPI0706306A2 (ru)
CA (2) CA2635985A1 (ru)
RU (2) RU2409911C2 (ru)
TW (2) TW200727729A (ru)
WO (1) WO2007080211A1 (ru)

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006126844A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding an audio signal
JP4988717B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
JP4801174B2 (ja) * 2006-01-19 2011-10-26 エルジー エレクトロニクス インコーポレイティド メディア信号の処理方法及び装置
EP1982326A4 (en) * 2006-02-07 2010-05-19 Lg Electronics Inc DEVICE AND METHOD FOR CODING / DECODING A SIGNAL
JP5081838B2 (ja) * 2006-02-21 2012-11-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化及び復号
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR100754220B1 (ko) * 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
US8392176B2 (en) 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
EP2030199B1 (en) * 2006-05-30 2009-10-28 Koninklijke Philips Electronics N.V. Linear predictive coding of an audio signal
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
FR2903562A1 (fr) * 2006-07-07 2008-01-11 France Telecom Spatialisation binaurale de donnees sonores encodees en compression.
US20090313029A1 (en) * 2006-07-14 2009-12-17 Anyka (Guangzhou) Software Technologiy Co., Ltd. Method And System For Backward Compatible Multi Channel Audio Encoding and Decoding with the Maximum Entropy
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
FR2906099A1 (fr) * 2006-09-20 2008-03-21 France Telecom Procede de transfert d'un flux audio entre plusieurs terminaux
JP2010516077A (ja) * 2007-01-05 2010-05-13 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
EP2119306A4 (en) * 2007-03-01 2012-04-25 Jerry Mahabub SOUND SPECIALIZATION AND ENVIRONMENT SIMULATION
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
US8126172B2 (en) * 2007-12-06 2012-02-28 Harman International Industries, Incorporated Spatial processing stereo system
AU2008344132B2 (en) * 2008-01-01 2012-07-19 Lg Electronics Inc. A method and an apparatus for processing an audio signal
AU2008344073B2 (en) * 2008-01-01 2011-08-11 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2297728B1 (en) * 2008-07-01 2011-12-21 Nokia Corp. Apparatus and method for adjusting spatial cue information of a multichannel audio signal
KR101230691B1 (ko) * 2008-07-10 2013-02-07 한국전자통신연구원 공간정보 기반의 다객체 오디오 부호화에서의 오디오 객체 편집 방법 및 그 장치
CN102138176B (zh) * 2008-07-11 2013-11-06 日本电气株式会社 信号分析装置、信号控制装置及其方法
WO2010003563A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
KR101614160B1 (ko) 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
KR101499785B1 (ko) 2008-10-23 2015-03-09 삼성전자주식회사 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법
WO2010058931A2 (en) * 2008-11-14 2010-05-27 Lg Electronics Inc. A method and an apparatus for processing a signal
US20100137030A1 (en) * 2008-12-02 2010-06-03 Motorola, Inc. Filtering a list of audible items
EP2380364B1 (en) * 2008-12-22 2012-10-17 Koninklijke Philips Electronics N.V. Generating an output signal by send effect processing
KR101496760B1 (ko) * 2008-12-29 2015-02-27 삼성전자주식회사 서라운드 사운드 가상화 방법 및 장치
RU2520329C2 (ru) 2009-03-17 2014-06-20 Долби Интернешнл Аб Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования
CN101556799B (zh) * 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
EP2446642B1 (en) * 2009-06-23 2017-04-12 Nokia Technologies Oy Method and apparatus for processing audio signals
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
US8434006B2 (en) * 2009-07-31 2013-04-30 Echostar Technologies L.L.C. Systems and methods for adjusting volume of combined audio channels
BR112012009446B1 (pt) 2009-10-20 2023-03-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Método e aparelho de armazenamento de dados
ES2805349T3 (es) * 2009-10-21 2021-02-11 Dolby Int Ab Sobremuestreo en un banco de filtros de reemisor combinado
PT2524371T (pt) * 2010-01-12 2017-03-15 Fraunhofer Ges Forschung Codificador de áudio, descodificador de áudio, método de codificação de uma informação de áudio, método de descodificação de uma informação de áudio e programa de computador que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo
WO2012039920A1 (en) * 2010-09-22 2012-03-29 Dolby Laboratories Licensing Corporation Efficient implementation of phase shift filtering for decorrelation and other applications in an audio coding system
RU2595943C2 (ru) * 2011-01-05 2016-08-27 Конинклейке Филипс Электроникс Н.В. Аудиосистема и способ оперирования ею
AU2012217156B2 (en) 2011-02-14 2015-03-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Linear prediction based coding scheme using spectral domain noise shaping
CA2799343C (en) 2011-02-14 2016-06-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
AU2012217215B2 (en) 2011-02-14 2015-05-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for error concealment in low-delay unified speech and audio coding (USAC)
AU2012217269B2 (en) * 2011-02-14 2015-10-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
MX2013009345A (es) 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Codificacion y decodificacion de posiciones de los pulsos de las pistas de una señal de audio.
US20140056450A1 (en) * 2012-08-22 2014-02-27 Able Planet Inc. Apparatus and method for psychoacoustic balancing of sound to accommodate for asymmetrical hearing loss
BR112015016593B1 (pt) 2013-01-15 2021-10-05 Koninklijke Philips N.V. Aparelho para processar um sinal de áudio; aparelho para gerar um fluxo de bits; método de processamento de áudio; método para gerar um fluxo de bits; e fluxo de bits
EP2946572B1 (en) * 2013-01-17 2018-09-05 Koninklijke Philips N.V. Binaural audio processing
CN114566183A (zh) 2013-04-05 2022-05-31 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
CN104982042B (zh) 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
AU2014280256B2 (en) 2013-06-10 2016-10-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
RU2662921C2 (ru) 2013-06-10 2018-07-31 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
ES2641538T3 (es) * 2013-09-12 2017-11-10 Dolby International Ab Codificación de contenido de audio multicanal
TW202322101A (zh) * 2013-09-12 2023-06-01 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
JP6121052B2 (ja) 2013-09-17 2017-04-26 ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド マルチメディア信号処理方法および装置
US9143878B2 (en) * 2013-10-09 2015-09-22 Voyetra Turtle Beach, Inc. Method and system for headset with automatic source detection and volume control
EP3062534B1 (en) 2013-10-22 2021-03-03 Electronics and Telecommunications Research Institute Method for generating filter for audio signal and parameterizing device therefor
CN109040946B (zh) 2013-10-31 2021-09-14 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
EP4246513A3 (en) 2013-12-23 2023-12-13 Wilus Institute of Standards and Technology Inc. Audio signal processing method and parameterization device for same
RU2764260C2 (ru) * 2013-12-27 2022-01-14 Сони Корпорейшн Устройство и способ декодирования
MX365162B (es) 2014-01-03 2019-05-24 Dolby Laboratories Licensing Corp Generacion de audio binaural en respuesta a audio multicanal utilizando al menos una red de retardo realimentada.
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
CN108600935B (zh) 2014-03-19 2020-11-03 韦勒斯标准与技术协会公司 音频信号处理方法和设备
KR102428066B1 (ko) * 2014-04-02 2022-08-02 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
WO2015152663A2 (ko) * 2014-04-02 2015-10-08 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US9860666B2 (en) 2015-06-18 2018-01-02 Nokia Technologies Oy Binaural audio reproduction
ES2818562T3 (es) * 2015-08-25 2021-04-13 Dolby Laboratories Licensing Corp Descodificador de audio y procedimiento de descodificación
ES2956344T3 (es) 2015-08-25 2023-12-19 Dolby Laboratories Licensing Corp Descodificador de audio y procedimiento de descodificación
CA3219512A1 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
CN105611481B (zh) * 2015-12-30 2018-04-17 北京时代拓灵科技有限公司 一种基于空间声的人机交互方法和系统
EP3550561A1 (en) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
EP3561660B1 (en) * 2018-04-27 2023-09-27 Sherpa Europe, S.L. Digital assistant
EP3588495A1 (en) * 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
CN110956973A (zh) * 2018-09-27 2020-04-03 深圳市冠旭电子股份有限公司 一种回声消除方法、装置及智能终端
GB2580360A (en) * 2019-01-04 2020-07-22 Nokia Technologies Oy An audio capturing arrangement
US11212631B2 (en) 2019-09-16 2021-12-28 Gaudio Lab, Inc. Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor
CN111031467A (zh) * 2019-12-27 2020-04-17 中航华东光电(上海)有限公司 一种hrir前后方位增强方法
AT523644B1 (de) * 2020-12-01 2021-10-15 Atmoky Gmbh Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5173944A (en) * 1992-01-29 1992-12-22 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Head related transfer function pseudo-stereophony
JP3286869B2 (ja) * 1993-02-15 2002-05-27 三菱電機株式会社 内部電源電位発生回路
US5521981A (en) * 1994-01-06 1996-05-28 Gehring; Louis S. Sound positioner
JP3498375B2 (ja) * 1994-07-20 2004-02-16 ソニー株式会社 ディジタル・オーディオ信号記録装置
US6072877A (en) * 1994-09-09 2000-06-06 Aureal Semiconductor, Inc. Three-dimensional virtual audio display employing reduced complexity imaging filters
WO1999014983A1 (en) * 1997-09-16 1999-03-25 Lake Dsp Pty. Limited Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener
GB9726338D0 (en) * 1997-12-13 1998-02-11 Central Research Lab Ltd A method of processing an audio signal
US6442277B1 (en) * 1998-12-22 2002-08-27 Texas Instruments Incorporated Method and apparatus for loudspeaker presentation for positional 3D sound
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
JP4714416B2 (ja) * 2002-04-22 2011-06-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 空間的オーディオのパラメータ表示
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
US7542896B2 (en) * 2002-07-16 2009-06-02 Koninklijke Philips Electronics N.V. Audio coding/decoding with spatial parameters and non-uniform segmentation for transients
JP3646939B1 (ja) * 2002-09-19 2005-05-11 松下電器産業株式会社 オーディオ復号装置およびオーディオ復号方法
FI118247B (fi) * 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
SE0301273D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
SE527670C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal

Also Published As

Publication number Publication date
KR20080078882A (ko) 2008-08-28
US20070160218A1 (en) 2007-07-12
EP1971979A4 (en) 2011-12-28
EP1972180A4 (en) 2011-06-29
BRPI0706306A2 (pt) 2011-03-22
TW200746871A (en) 2007-12-16
CA2635985A1 (en) 2007-07-19
AU2007204333A1 (en) 2007-07-19
EP1971979A1 (en) 2008-09-24
CN101366081A (zh) 2009-02-11
KR20080074223A (ko) 2008-08-12
BRPI0722425A2 (pt) 2014-10-29
US20070160219A1 (en) 2007-07-12
EP1972180A1 (en) 2008-09-24
JP2009522894A (ja) 2009-06-11
KR20110002491A (ko) 2011-01-07
TW200727729A (en) 2007-07-16
JP2009522895A (ja) 2009-06-11
RU2008126699A (ru) 2010-02-20
RU2409912C9 (ru) 2011-06-10
AU2007204332A1 (en) 2007-07-19
CN101366321A (zh) 2009-02-11
CA2635024A1 (en) 2007-07-19
RU2409911C2 (ru) 2011-01-20
RU2008127062A (ru) 2010-02-20
WO2007080211A1 (en) 2007-07-19

Similar Documents

Publication Publication Date Title
RU2409912C2 (ru) Декодирование бинауральных аудиосигналов
US20200335115A1 (en) Audio encoding and decoding
EP1706865B1 (en) Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US8081762B2 (en) Controlling the decoding of binaural audio signals
KR101215872B1 (ko) 송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩
KR20080107433A (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
WO2007080225A1 (en) Decoding of binaural audio signals
WO2007080224A1 (en) Decoding of binaural audio signals
MX2008008829A (en) Decoding of binaural audio signals
MX2008008424A (es) Decodificacion de señales de audio binaurales

Legal Events

Date Code Title Description
TH4A Reissue of patent specification
MM4A The patent is invalid due to non-payment of fees

Effective date: 20130105