RU2504918C2 - Устройство для объединения пространственных аудиопотоков - Google Patents

Устройство для объединения пространственных аудиопотоков Download PDF

Info

Publication number
RU2504918C2
RU2504918C2 RU2011106582/08A RU2011106582A RU2504918C2 RU 2504918 C2 RU2504918 C2 RU 2504918C2 RU 2011106582/08 A RU2011106582/08 A RU 2011106582/08A RU 2011106582 A RU2011106582 A RU 2011106582A RU 2504918 C2 RU2504918 C2 RU 2504918C2
Authority
RU
Russia
Prior art keywords
wave
combined
audio
audio stream
field
Prior art date
Application number
RU2011106582/08A
Other languages
English (en)
Other versions
RU2011106582A (ru
Inventor
ГАЛДО Джиованни ДЕЛ
Фабиан КУЕХ
Маркус КАЛЛИНГЕР
Вилле ПУЛККИ
Микко-Вилле ЛАИТИНЕН
Ричард ШУЛЬТЦ-АМЛИНГ
Original Assignee
Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен filed Critical Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен
Publication of RU2011106582A publication Critical patent/RU2011106582A/ru
Application granted granted Critical
Publication of RU2504918C2 publication Critical patent/RU2504918C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к средствам объединения нескольких пространственных аудиопотоков. Технический результат заключается в повышении качества объединенного аудиопотока. Оценивают первое волновое представление, содержащее измерение направления первой волны, характеризующее направление первой волны, и измерение поля первой волны, являющееся относительной магнитудой первой волны, для первого пространственного аудиопотока, имеющего первое аудиопредставление, содержащее измерение давления или магнитуды первого аудиосигнала, и первое направление поступления звука. Оценивают второе волновое представление, содержащее направление второй волны, характеризующее направление второй волны, и измерение поля второй волны, являющееся относительной магнитудой второй волны, для второго пространственного аудиопотока, имеющего второе аудиопредставление, содержащее измерение давления или магнитуды второго аудиосигнала, и второе направление поступления звука. Обрабатывают представление первой и второй волны для получения объединенного представления волны, содержащего измерение объединенного волнового поля, измерение объединенного направления поступления и объединенного параметра диффузности. Обрабатывают первое и второе аудиопредставление для получения объединенного аудиопредставления, а также формируют объединенный аудиопоток. 3 н. и 12 з.п. ф-лы, 7 ил.

Description

Настоящее изобретение относится к области обработки звука, в частности пространственной обработки звука, и объединения нескольких пространственных аудио потоков.
DirAC (DirAC = Направленное Аудио Кодирование), см. V.Pulkki and С.Faller, Directional audio coding in spatial sound reproduction and stereo upmixing. In AES 28th International Conference, Pitea, Sweden, June 2006, и A method for reproducing natural or modified spatial impression in Multichannel listening. Patent WO 2004/077884 A1, September 2004, является эффективным подходом к анализу и воспроизведению пространственного звука. DirAC использует параметрическое представление звуковых полей на основе особенностей, которые имеют значение для восприятия пространственного звука, а именно направление поступления звука (DOA = направление поступления звука) и диффузное отражение звука (диффузность) в поддиапазонах частот. В самом деле, DirAC предполагает, что интерауральная разница во времени [ITD = интерауральные (межушные) различия времени прихода звука на правое и левое ухо] и интерауральные различия уровня (МН = интерауральные различия уровней) воспринимаются правильно, если правильно выполнено DOA звукового поля, а интерауральная согласованность (IC = интерауральная когерентность) воспринимается правильно, если точно воспроизводится диффузность.
Эти параметры, а именно DOA и диффузность, представляют собой соответствующую дополнительную информацию, которая сопровождает моно сигнал в моно потоке DirAC. DirAC параметры получаются из частотно-временного представления сигналов микрофона. Таким образом, параметры зависят от времени и от частоты. При воспроизведении сигнала эта информация позволяет получить точную пространственную передачу звука. Для воссоздания пространственного звука с желаемым качеством прослушивания требуется установка нескольких громкоговорителей. Однако их расположение является произвольным. Фактически, сигналы для громкоговорителей определяются в зависимости от параметров DirAC.
Есть существенные различия между DirAC и параметрическим кодированием многоканального звука, таким как MPEG Surround, хотя они имеют очень похожие способы обработки аудио структур, см. Lars Villemoes, Juergen Herre, Jeroen Breebaart, Gerard Hotho, Sascha Disch, Heiko Pumhagen, и Kristofer Kjrlingm, MPEG surround: соответствующий стандарт ISO для пространственного кодирования звука принят на AES 28-й Международная конференция, Pitea, Sweden, июнь 2006 года. Хотя кодирование MPEG Surround основано на частотно-временном анализе различных каналов громкоговорителей, DirAC принимает, в качестве входных, каналы совпадающих микрофонов, которые эффективно представляют звуковое поле в одной точке. Таким образом, DirAC также представляет собой эффективный метод для записи пространственного звука.
Другой обычной системой, которая использует пространственный звук, является SAOC (SAOC = кодирование пространственных аудио объектов), см. Jonas Engdegard, Barbara Resch, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Leonid Ternetiev, Jeroen Breebaart, Jeroen Koppens, Erik Schuijer, and Werner Oomen, пространственное аудио кодирование объекта (SAOC) вышеназванного стандарта MPEG параметрического объекта основано на аудио кодировании в соответствии со 124й конвенцией AES, 17-20 мая 2008 года, Amsterdam, The Netherlands, 2008 г., в настоящее время использующий стандарт ISO/MPEG.
Он основан на рендеринге [обработка объекта по модели с помощью компьютерной программы] по модели MPEG Surround и исправляет различные аудио объекты источников звука. Такое кодирование звука обеспечивает очень высокую эффективность по битрейту и дает беспрецедентную свободу для обработки при воспроизведении. Этот подход перспективен в получении новых важных возможностей и функций в устаревших системах, а также ряда других приложений.
Целью настоящего изобретения является получение улучшенного способа объединения пространственных звуковых сигналов.
Поставленная задача решается с помощью аппаратных средств для объединения в соответствии с одним из пп.1 или 14 и метода для объединения в соответствии с одним из пп.13 или 15.
Отметим, что объединение будет простым в случае многоканального потока DirAC, т.е. если 4 аудио канала в В-формате являются доступными. В самом деле, сигналы от разных источников могут непосредственно складываться для получения сигналов объединенного потока в В-формате. Однако, если эти каналы недоступны, непосредственное объединение является проблематичным.
Настоящее изобретение основано на концепции, что пространственные звуковые сигналы могут быть представлены суммой волновых представлений, например представления плоской волны и представления диффузного поля. В результате можно указать направление поступления звука. При слиянии нескольких аудио потоков варианты воплощения изобретения позволяют получить дополнительную информацию об объединенном потоке, например диффузность и направление поступления звука. Воплощения могут получить эту информацию из волновых представлений, а также из входных аудио потоков. При объединении нескольких звуковых потоков все они могут быть смоделированы в виде участка волны или представления и диффузного участка или представления, причем участки волны или компоненты и диффузные участки или компоненты могут быть объединены независимо друг от друга. Объединение участка волны дает объединенный участок волны, для которого объединенное направление может быть получено с использованием направлений представлений участков волны. Кроме того, диффузные участки могут быть объединены в отдельности, и из объединенного диффузного участка может быть получен общий параметр диффузности.
Воплощения могут использоваться в качестве способа объединения двух или нескольких пространственных звуковых сигналов, закодированных в виде моно потоков DirAC. Результирующий объединенный сигнал также может быть представлен как моно поток DirAC. В вариантах изобретения кодирование моно DirAC может использоваться в качестве компактного способа описания пространственного аудио сигнала, так как должен передаваться только один аудио канал вместе с дополнительной информацией.
В качестве вариантов возможного использования может быть, например, телеконференция с количеством участников более двух. Пусть, например, пользователь А общается с пользователями В и С, которые генерируют два отдельных моно потока DirAC. В месте расположения А воплощение позволяет объединить потоки пользователей В и С в единый моно поток DirAC, которые могут быть воспроизведены с помощью обычной методики синтеза DirAC. В варианте использования топологии сети, в которой имеется Сервер многоточечной конференции (MCU = Сервер многоточечной конференции [аппаратно-программное устройство вычислительной техники, предназначенное для объединения аудио- и видеоконференции в многоточечном режиме]), операция объединения будет выполняться самим MCU, так что пользователь А будет получать один моно поток DirAC, уже содержащий речь обоих участников В и С. Ясно, что потоки DirAC для объединения могут быть также созданы синтетически, а это означает, что необходимая дополнительная информация может быть добавлена в моно аудио сигнал. В только что упомянутом примере пользователь А может получить два аудио потока от В и С без какой-либо дополнительной информации. Тогда можно присвоить каждому потоку определенное направление и диффузность, тем самым добавив дополнительную информацию, необходимую для построения потоков DirAC, которые затем могут быть объединены с помощью воплощения изобретения.
Другой возможный сценарий использования вариантов воплощения можно предложить в многопользовательских онлайн-играх и приложениях виртуальной реальности. В этих случаях несколько потоков создаются либо из игроков, либо из виртуальных объектов. Каждый поток характеризуется определенным направлением расположения по отношению к слушателю и поэтому может быть выражен в потоке DirAC. Воплощение может быть использовано для объединения различных потоков в единый поток DirAC, который затем воспроизводится в зависимости от положения слушателя.
Воплощение настоящего изобретения будет подробно рассмотрено с использованием сопровождающих чертежей.
На фиг.1A показан вариант устройства для объединения.
Фиг.1B показывает давление и компоненты вектора скорости частицы в гауссовой плоскости для плоской волны.
На фиг.2 показан вариант кодировщика DirAC.
На фиг.3 показано идеальное объединение аудио потоков.
На фиг.4 показаны входы и выходы воплощения общего DirAC блока выполнения объединения.
На фиг.5 показана блок-схема воплощения.
На фиг.6 показана блок-схема воплощения метода объединения.
На фиг.1A представлен вариант выполнения аппаратного блока 100 для объединения первого пространственного аудио потока со вторым пространственным аудио потоком для получения объединенного аудио потока. Воплощение, показанное на фиг.1A выполняет объединение двух аудио потоков, однако оно не ограничивается двумя аудио потоками, аналогичным образом могут быть объединены несколько пространственных аудио потоков. Первый пространственный аудио поток и второй пространственный аудио поток могут, например, являться моно потоками DirAC, тогда и объединенный аудио поток будет единственным моно аудио потоком DirAC. Как будет подробно описано далее, поток моно DirAC может включать сигнал давления, например, на выбранный всенаправленный микрофон и дополнительную информацию. Поток моно DirAC может содержать зависимость частоты от времени в качестве меры диффузности и направление поступления звука. На фиг.1A показан вариант аппаратного блока 100 для объединения первого пространственного аудио потока со вторым пространственным аудио потоком для получения объединенного аудио потока, включающего блок оценки 120 для оценки первого волнового представления, содержащего направление первой волны и измерение поля первой волны для первого пространственного аудио потока, имеющего первое аудио представление и первое направление поступления звука, и для оценки второго волнового представления, содержащего направление второй волны и измерение поля второй волны для второго пространственного аудио потока, имеющего второе аудио представление и второе направление поступления звука. В вариантах исполнения первое и/или второе представление волны может соответствовать представлению плоской волны.
В варианте, показанном на фиг.1A, аппаратный блок 100 дополнительно включает процессор 130 для обработки представлений первой и второй волны и получения представления объединенной волны, содержащего измерение объединенного поля и объединенное направление поступления звука, и для обработки первого и второго аудио представлений и получения объединенного аудио представления, причем процессор 130 предназначен для формирования объединенного аудио потока, содержащего объединенное аудио представление и объединенное направление поступления звука.
Блок оценки 120 может быть адаптирован для оценки измерения первого волнового поля в терминах амплитуды первого волнового поля, измерения второго волнового поля в терминах амплитуды второго волнового поля и для оценки разности фаз между первым и вторым измерением волнового поля. В вариантах блок оценки может быть адаптирован для оценки фазы поля первой и второй волны. В вариантах, блок оценки 120 может оценить только сдвиг фаз или различие между первым и вторым представлениями волны для первого и второго измерения поля волны, соответственно. Процессор 130 может адаптироваться для обработки первого и второго представления волны и получения представления объединенной волны, содержащего измерение поля объединенной волны, которое может включать амплитуду, фазу и направление объединенного волнового поля, а также для обработки первого и второго аудио представления и получения объединенного аудио представления.
В вариантах изобретения процессор 130 может быть адаптирован для дальнейшей обработки первого и второго представления волны и получения представления объединенной волны, содержащего измерение поля объединенной волны, измерение объединенного направления поступления звука и объединенного параметра диффузности, а также для обеспечения объединения аудио потока, содержащего объединенное аудио представление, объединенное направление поступления звука и объединенный параметр диффузности.
Иными словами, в вариантах изобретения параметр диффузности может быть определен на основе волновых представлений объединенного аудио потока. Параметр диффузности можно определить путем измерения пространственной диффузности аудио потока, то есть путем измерения пространственного распределения, например углового распределения относительно определенного направления. В одном из возможных сценариев можно объединить два синтезированных моно сигнала с точной информацией о направлении.
Процессор 130 может быть адаптирован для обработки первого и второго представления волны и получения представления объединенной волны, в котором объединенный параметр диффузности получен с использованием измерения направлений первой и второй волны. В вариантах исполнения первое и второе представления волны могут иметь различные направления поступления, а объединенное направление поступления может находиться между ними. В этом варианте, хотя первый и второй пространственные аудио потоки не могут передать несколько параметров диффузности, объединенный параметр диффузности можно определить из первого и второго представления волны, т.е. на основе измерения направления первой и второй волны. Например, если две плоские волны приходят из различных направлений, т.е. измеренное направление первой волны отличается от измеренного направления второй волны, объединенное аудио представление может содержать комбинированное объединенное направление поступления с отличающимся от нуля объединенным параметром диффузности, учитывающим измерения направлений первой и второй волны. Иными словами, в то время как два сосредоточенных пространственных аудио потока могут не иметь или не обеспечивать диффузность, объединенный аудио поток может иметь отличающуюся от нуля диффузность, так как он получен с использованием угловых распределений, созданных первым и вторым аудио потоками.
В воплощениях можно оценить параметр диффузности Ψ, например, для объединенного потока DirAC. Вообще, в вариантах изобретения можно установить или вычислить фиксированные значения параметров диффузности отдельных потоков, например 0 или 0.1, или переменное значение, полученное из анализа аудио представлений и/или представлений направления.
В других вариантах, аппаратный блок 100 для объединения первого пространственного аудио потока со вторым пространственным аудио потоком для получения объединенного аудио потока может включать в себя блок оценки 120 для оценки первого волнового представления, содержащего измерение направления первой волны и измерение первого волнового поля для первого пространственного аудио потока, имеющего первое аудио представление, первое направление поступления звука и первый параметр диффузности. Другими словами, первое аудио представление может соответствовать аудио сигналу с определенной пространственной шириной или быть диффузным в определенной степени. В одном из вариантов, это может соответствовать сценарию в компьютерной игре. Первый игрок может быть в сценарии, где первое аудио представление представляет источник звука, такой как, например, проходящий мимо поезд, создающий поле диффузного, в определенной степени, звука. В таком варианте звуки, вызванные самим поездом, могут быть диффузными, а звук, произведенный гудком поезда, т.е. соответствующие ему частотные составляющие, может не быть диффузными.
Блок оценки 120 также может быть адаптирован для оценки второго волнового представления, содержащего измерение направления второй волны и измерение второго волнового поля для второго пространственного аудио потока, имеющего второе аудио представление, второе направление поступления звука и второй параметр диффузности.
Другими словами, второе аудио представление может соответствовать аудио сигналу с определенной пространственной шириной или быть диффузным в определенной степени. Такой случай также может соответствовать сценарию компьютерной игры, когда второй источник звука может быть представлен вторым аудио потоком, например фоновым шумом от другого поезда, проходящего по другому пути. Для первого игрока в компьютерной игре оба источника звука могут быть диффузными, когда он находится на железнодорожной станции.
В вариантах изобретения процессор 130 может быть адаптирован для обработки первого и второго волнового представления и получения представления объединенной волны, содержащего измерение объединенного волнового поля и объединенного направления поступления, и для обработки первого и второго аудио представления для получения объединенного аудио представления и объединенного аудио потока, содержащего объединенное аудио представление и измерение объединенного направления поступления. Другими словами, процессор 130 не может определить объединенный параметр диффузности. Такой случай соответствует звуковому полю, возникающему у второго игрока в описанной выше компьютерной игре. Второй игрок может быть расположен дальше от железнодорожного вокзала, поэтому два звуковых источника не могут восприниматься как диффузные для второго игрока и представляют собой довольно сосредоточенные источники звука из-за большого расстояния.
В вариантах аппаратный блок 100 может дополнительно содержать блок 110 для определения первого аудио представления и первого направления поступления в первом пространственном аудио потоке, а также для определения второго аудио представления и второго направления поступления во втором пространственном аудио потоке. В вариантах в блок для определения 110 может поступать прямой аудио поток, т.е. определение может быть сведено к чтению аудио представления в терминах, например, сигнала давления и DOA и, возможно, также параметров диффузности в качестве дополнительной информации.
Блок оценки 120 может быть адаптирован для оценки первого волнового представления в первом пространственном аудио потоке, содержащего первый параметр диффузности, и/или для оценки второго волнового представления во втором пространственном аудио потоке, содержащего второй параметр диффузности, процессор 130 может быть адаптирован для обработки измерения объединенного волнового поля, первого и второго аудио представлений, первого и второго параметров диффузности для получения объединенного параметра диффузности для объединенного аудио потока, процессор 130 также может быть адаптирован для последующего предоставления аудио потока, содержащего объединенный параметр диффузности. Блок для определения 110 может быть адаптирован для определения первого параметра диффузности из первого пространственного аудио потока и второго параметра диффузности из второго пространственного аудио потока.
Блок оценки 120 может быть адаптирован для оценки первого волнового представления в первом пространственном аудио потоке, содержащего первый параметр диффузности, и/или для оценки второго волнового представления во втором пространственном аудио потоке, содержащего второй параметр диффузности, процессор 130 может быть адаптирован для измерения объединенного волнового поля, содержащего объединенный параметр диффузности, первое и второе аудио представления, первый и второй параметры диффузности, и получения объединенного параметра диффузности для объединенного аудио потока, также процессор 130 может быть адаптирован для последующего предоставления аудио потока, содержащего объединенный параметр диффузности. Блок для определения 110 может быть адаптирован для определения первого параметра диффузности первого пространственного аудио потока, а второй параметр диффузности для второго пространственного аудио потока.
Процессор 130 может быть адаптирован для блочной обработки пространственных звуковых потоков, аудио представлений, DOA и/или параметров диффузности, т.е. в форме сегментов выборок или значений. В некоторых вариантах сегмент может содержать предварительно определенное количество выборок, соответствующих частоте представления в некотором диапазоне частот за определенный промежуток времени пространственного аудио потока. Такой сегмент может соответствовать моно представлению и будет связан с DOA и параметром диффузности.
В вариантах блок для определения 110 может быть адаптирован для определения первого и второго аудио представления, первого и второго направления поступления, первого и второго параметров диффузности в зависимости от частоты и времени и/или процессор 130 может быть адаптирован для обработки первого и второго волновых представлений, параметров диффузности и/или измерения DOA и/или для определения объединенного аудио представления, измерения объединенного направления поступления и/или объединенного параметра диффузности в зависимости от частоты и времени.
В вариантах изобретения первое аудио представление может соответствовать первому моно представлению, второе аудио представление может соответствовать второму моно представлению, а объединенное аудио представление может соответствовать объединенному моно представлению. Иными словами, аудио представление может соответствовать одному аудио каналу.
В вариантах изобретения блок для определения 110 может быть адаптирован для определения и/или процессор может быть адаптирован для обработки первого и второго моно представлений, первого и второго DOA, первого и второго параметров диффузности, а процессор 130 может сформировать объединенное моно представление, обеспечить измерение объединенного DOA и/или объединенного параметра диффузности в зависимости от частоты и времени. В вариантах воплощений первый пространственный аудио поток может быть уже получен, например, в виде представления DirAC, блок для определения 110 может быть адаптирован для определения первого и второго моно представлений, первого и второго DOA, первого и второго параметров диффузности просто путем их извлечения из первого и второго аудио потоков, т.е. в виде дополнительной информации DirAC.
Далее будет рассмотрено подробно воплощение, для которого будут введены обозначения и модели данных. В вариантах блок для определения 110 может быть адаптирован для определения первого и второго аудио представлений и/или процессор 130 может быть адаптирован для получения объединенного моно представления в терминах сигнала давления p(t) или частотно-временного преобразования сигнала давления P(k,n), в котором k обозначает частоту индексирования, а n обозначает индекс времени.
В различных вариантах измерение направления поступления первой и второй волны, а также измерение объединенного направления поступления может проводиться в любых величинах, например таких, как вектор, угол, направление (азимут) и т.д., и они могут быть получены из любого измерения направления, представляющего аудио компонент, например вектора интенсивности, вектора скорости частицы и т.д. Измерение первого и второго волнового поля, а также измерение объединенного волнового поля могут выполняться с помощью любой физической величины, описывающей аудио компонент, которая может иметь действительные или комплексные значения, соответствующие сигналу давления, амплитуды или магнитуды скорости частиц, громкости и т.д. Кроме того, измерения могут проводиться во временной и/или частотной области.
Воплощения могут быть основаны на оценке представления плоских волн для измерения волнового поля волновых представлений входных потоков, которая может проводиться блоком оценки 120 на фиг.1A. Другими словами, измерение волнового поля может быть смоделировано с помощью представления плоской волны. В целом существует несколько эквивалентных исчерпывающих (т.е. полных) описаний плоской волны или волны в целом. Далее будет введено математическое описание для вычисления параметров диффузности и направления поступления или измерения направления для различных компонентов. Хотя только несколько описаний непосредственно связаны с физическими величинами, такими как, например, давление, скорость частицы и т.д., допустимо существование бесконечного числа различных способов описания волновых представлений, из которых только одно будет представлено в качестве примера, что, однако, ни в коей мере не означает ограничение воплощений настоящего изобретения.
Для того чтобы более подробно представить различные возможные описания, рассмотрим два вещественных числа а и b. Информация, содержащаяся в а и b, может быть передана путем отправки с и d,
Figure 00000001
,
где Ω является известной матрицей 2×2. Например, рассмотрим только линейные комбинации, хотя любые комбинации, т.е. также и нелинейные, допустимы.
Далее скалярные величины представлены маленькими буквами а, b, с, а векторы-столбцы представлены полужирными маленькими буквами a, b, c. Индекс ()T обозначает транспонирование, и, соответственно,
Figure 00000002
и (·) означают комплексное сопряжение. Комплексные обозначения фазы отличаются от временных. Например, давление p(t), являющееся действительным числом, из которого возможно измерение волнового поля, может быть выражено с помощью вектора Р, которое является комплексным числом, с помощью которого возможно получение еще одного измерения волнового поля, по формуле
Figure 00000003
,
где Re{·} обозначает действительную часть, а
Figure 00000004
угловую частоту. Кроме того, далее для обозначения векторных физических величин использованы прописные буквы. В следующем начальном примере во избежание путаницы следует обратить внимание, что все величины с индексом "PW", рассматриваемые далее, относятся к плоским волнам.
Для идеальной монохроматической плоской волны вектор скорости частиц UPW можно записать в виде
Figure 00000005
,
где ed - единичный вектор точки в направлении поступления волны, например, соответствующей измеренному направлению. Может быть показано, что
Figure 00000006
,
Figure 00000007
Ψ=0
где Ia обозначает действительную часть интенсивности [интенсивность звука - векторная величина, значение потока звуковой энергии, проходящего через единичную площадку за единицу времени в направлении локальной скорости частиц. ГОСТ 30457.3-2006 Акустика. Определение уровней звуковой мощности источников шума по интенсивности звука.], ρ0 обозначает плотность воздуха, с обозначает скорость звука, Е обозначает энергию звукового поля и Ψ обозначает размытие. Интересно отметить, что поскольку все компоненты ed являются вещественными числами, компоненты UPW находятся в фазе с РPW. На фиг.1B показана модель UPW и РPW в гауссовой плоскости. Как указывалось выше, все компоненты UPW имеют одни и те же фазы PPW, а именно θ. Их магнитуды, с другой стороны, связаны следующим образом
Figure 00000008
.
Даже когда присутствуют несколько источников звука, давление и скорости частиц все еще могут быть выражены в виде суммы отдельных компонент. Без ограничения общности, рассмотрим случай двух источников звука. На практике использование большего количества источников может быть выполнено просто.
Пусть P(1) и P(2) являются значениями давления, которые записаны для первого и второго источника, соответственно, например, пусть они представляют первое и второе измерение волнового поля.
Аналогичным образом, пусть U(1) и U(2) являются комплексными векторами скорости частиц. Учитывая линейность явления распространения, когда источники действуют одновременно, отмечаемые давление Р и скорость частицы U равны
Р=Р(1)(2),
U=U(1)+U(2).
Таким образом, действительная часть интенсивности
Figure 00000009
,
Figure 00000010
.
Таким образом,
Figure 00000011
.
Отметим, что кроме отдельных случаев,
Figure 00000012
.
Когда имеются два источника, например, плоских волн, волны находятся точно в одной фазе (хотя распространяются по отношению друг к другу по различным направлениям),
P(2)=γ·P(1),
причем γ является вещественным числом. Отсюда следует, что
Figure 00000009
,
Figure 00000010
,
Figure 00000013
и
Figure 00000014
.
Когда волны находятся в фазе и распространяются в одном направлении, они могут быть четко интерпретированы как одна волна.
Для γ=-1 и произвольного направления давление исчезает, и поток энергии отсутствует, т.е.
Figure 00000015
.
Когда волны строго перпендикулярны, то
P(2)=γ·ejπ/2P(1),
U(2)= γ·ejπ/2U(1),
Figure 00000016
,
Figure 00000017
,
Figure 00000018
,
причем γ является вещественным числом. Отсюда следует, что
Figure 00000009
,
Figure 00000010
,
Figure 00000019
и
Figure 00000020
.
С использованием этих уравнений может быть легко показано, что для плоской волны каждая из выбранных величин U, Р и еd или Р и Ia может давать эквивалентное и исчерпывающее описание, так же как и все другие физические величины, которые могут быть получены из них, т.е. любая комбинация из них в вариантах изобретения может использоваться вместо измерения волнового поля или направления волны. Например, в вариантах изобретения действительная 2-мерная норма вектора интенсивности может быть использована в качестве измерения волнового поля.
Минимальное описание, которое может быть использовано для выполнения объединения, указано в вариантах изобретения. Давление и векторы скорости частиц для i-й плоской волны могут быть выражены следующим образом:
Figure 00000021
,
Figure 00000022
,
причем ∠P(i) представляет фазу P(i). Выражение для объединенного вектора интенсивности, т.е. объединенного измерения волнового поля и объединенного направления поступления в этих переменных, запишется следующим образом:
Figure 00000023
.
Отметим, что первыми двумя слагаемыми являются
Figure 00000024
и
Figure 00000025
. Уравнение может быть еще более упрощено
Figure 00000026
.
Подставляя
Figure 00000027
,
получим
Figure 00000028
Это уравнение показывает, что информация, необходимая для вычисления Ia, может быть сведена к
Figure 00000029
,
Figure 00000030
,
Figure 00000031
. Другими словами, представление для каждой, например, плоской волны может быть сведено к амплитуде волны и направлению поступления. Кроме того, можно использовать относительную разность фаз между волнами. Когда необходимо объединить более чем две волны, могут быть использованы разности фаз между всеми парами волн. Очевидно, существует несколько других описаний, которые содержат такую же информацию. Например, будет эквивалентно, если известны либо векторы интенсивности, либо разность фаз.
Как правило, энергетического описания плоских волн может быть недостаточно для выполнения правильного объединения. Объединение может быть аппроксимировано в предположении перпендикулярности распространения волн. Исчерпывающего описания волн (т.е. полагая известными все физические величины волны) может быть достаточно для объединения, однако это не является необходимым во всех вариантах. В вариантах изобретения для проведения правильного объединения необходимо принимать во внимание амплитуду каждой волны, направление поступления каждой волны и относительную разность фаз между каждой парой объединяемых волн.
Блок для определения 110 и/или процессор 130 могут быть адаптированы для обработки первого и второго направления поступления и/или для обеспечения измерения объединенного направления поступления в терминах единичного вектора eDOA(k,n), причем
Figure 00000032
и
Figure 00000033
, где
Figure 00000034
и
U(k,n)=[Ux(k,n),Uy(k,n)Uz(k,n)]
обозначают частотно-временное преобразование u(t)=[ux(t),uy(t)uz(t)] вектора скорости частиц. Другими словами, мы полагаем, что p(t) и u(t)=[ux(t),uy(t)uz(t)] представляют давление и вектор скорости частицы, соответственно, для конкретной точки пространства, где [·]T обозначает транспонирование. Эти сигналы могут быть преобразованы в частотно-временную область с помощью соответствующего набора фильтров, например быстрого преобразования Фурье (STFT), как это было предложено, например, V.Pulkki и С.Faller, Directional audio coding: Filterbank and STFT-based design, in 120th AES Convention, May 20-23, 2006, Paris, France, May 2006.
Пусть P(k,n) и U(k,n)=[Ux(k,n),Uy(k,n)Uz(k,n)]
обозначают преобразованные сигналы, где k и n показывают частоту (или диапазон частот) и время, соответственно. Действительная часть вектора интенсивности Ia(k,n) может быть определена как
Figure 00000035
где (·) обозначает комплексное сопряжение и Re{·} выделяет действительную часть. Действительная часть вектора интенсивности выражает чистый поток энергии, характеризующий звуковое поле, см. F.J.Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989, и, таким образом, может быть использована в качестве измерения волнового поля.
Пусть с обозначает скорость звука в рассматриваемой среде и Е определяет энергию звукового поля в соответствии с F.J.Fahy
Figure 00000036
где
Figure 00000037
вычисленная 2-мерная норма. Далее будет подробно рассмотрено содержание моно потока DirAC.
Моно поток DirAC может состоять из моно сигнала p(t) и дополнительной информации. Эта дополнительная информация может включать частотно-временную зависимость направления поступления и частотно-временную зависимость измерения диффузности. Первая информация обозначается единичным вектором eDOA(k,n), который направлен в сторону поступления звука. Вторая информация, диффузность, обозначается
Ψ(k,n).
В вариантах изобретения блок 110 и/или процессор 130 могут быть адаптированы для предоставления/обработки первого и второго DOAS и/или объединенного DOA в терминах единичного вектора eDOA(k,n). Направления поступления могут быть получены как
eDOA(k,n)=-eI(k,n),
где единичный вектор eI(k,n) указывает направление, в котором направлена действительная часть вектора интенсивности точек, а именно
Figure 00000038
,
Figure 00000039
Альтернативный вариант, в вариантах, DOA может быть выражено в терминах азимута и угла возвышения в сферической системе координат. Например, если φ и ϑ являются азимутом и углом возвышения, соответственно, то
Figure 00000040
В вариантах изобретения, блок для определения 110 и/или процессор 130 могут быть адаптированы для предоставления/обработки первого и второго параметров диффузности и/или объединенного параметра диффузности Ψ(k,n) с помощью частотно-временной зависимости. Блок для определения 110 может быть адаптирован для предоставления первого и/или второго параметра диффузности и/или процессор 130 может быть адаптирован для получения объединенного параметра диффузности в терминах
Figure 00000041
где <·>t указывает усреднение по времени.
На практике существуют различные стратегии для получения P(k,n) и U(k,n). Одна из возможностей заключается в использовании В-формата микрофона, который обеспечивает 4 сигнала, а именно w(t), x(t), y(t) и z(t). Первый из них, w(t), соответствует давлению, регистрируемому всенаправленным микрофоном. Последние три являются показаниями давления микрофонов, имеющих модели диаграммы направленности в форме восьмерок, направленных вдоль трех осей декартовой системы координат соответственно. Эти сигналы также пропорциональны скоростям частиц. Таким образом, в некоторых вариантах
P(k,n)=W(k,n),
Figure 00000042
где W(k,n), X(k,n), Y(k,n) и Z(k,n) являются преобразованными сигналами в В-формате. Заметим, что множитель
Figure 00000043
в (6) получен из соглашения, используемого в определении В-формата сигналов, см. Michael Gerzon, Surround sound psychoacoustics. In Wireless World, volume 80, pages 483-486, December 1974.
Альтернативно, P(k,n) и U(k,n) могут быть оценены с помощью всенаправленного микрофона, как это предлагается в J.Merimaa, Applications of a 3-D microphone array, in 112th AES Convention, Paper 5501, Munich, May 2002. Этапы обработки, описанные выше, также показаны на фиг.2.
Фиг.2 показывает кодировщик DirAC 200, который приспособлен для вычисления моно канала аудио и дополнительной информации из соответствующих входных сигналов, например сигналов микрофона. Другими словами, фиг.2 представляет кодировщик DirAC 200 для определения диффузности и направления поступления из соответствующих сигналов микрофона. Фиг.2 представляет кодировщик DirAC 200, включающий блок 210 оценки P/U. Устройство оценки P/U принимает сигналы микрофона в качестве исходной информации, на которой основана оценка Р/U. Так как вся информация доступна, P/U можно просто оценить в соответствии с представленными выше уравнениями. Энергетический этап анализа 220 позволяет оценить направление поступления и параметр диффузности объединенного потока.
В вариантах, аудио потоки, отличающиеся от моно аудио потоков DirAC, могут быть объединены. Иными словами, в вариантах блок для определения 110 может быть адаптирован для преобразования любого другого аудио потока в первый и второй аудио потоки, такие как, например, стерео- или объемные аудио данные. В случае, когда в вариантах изобретения объединяются потоки DirAC, отличающиеся от моно, они могут обрабатываться различным образом. Если поток DirAC передает сигналы в В-формате, как, например, аудио-сигналы, то векторы скорости частиц известны и объединение будет простым, как далее будет показано подробно. Когда поток DirAC передает звуковые сигналы, отличающиеся от В-формата сигналов, или всенаправленный моно сигнал, блок для определения 110 может быть адаптирован, во-первых, для преобразования его в два моно потока DirAC, а затем воплощение изобретения может объединить преобразованные потоки. Таким образом, в вариантах первый и второй пространственный аудио потоки могут представлять преобразованные моно потоки DirAC.
Воплощения могут комбинировать доступные аудио каналы в приближении всенаправленной модели микрофона. Например, в случае стерео потока DirAC это можно достичь путем суммирования левого канала L и правого канала R.
Далее будут показаны физические явления в области генерации нескольких источников звука. Когда присутствуют несколько источников звука, можно аналогичным образом выразить давление и скорость частиц в виде суммы отдельных компонент.
Пусть Р(i)(k,n) и U(i)(k,n) являются давлением и скоростью частиц, которые были бы записаны для i-го источника, если бы он был единственным источником. В предположении линейности распространения, когда источники действуют вместе, давление P(k,n) и скорость частиц U(k,n) равны
Figure 00000044
и
Figure 00000045
.
Предыдущие уравнения показывают, что если и давление, и скорость частиц известны, получение объединенного моно потока DirAC будет простым. Такая ситуация представлена на фиг.3. На фиг.3 показан вариант выполнения оптимизированного или, возможно, идеального объединения нескольких звуковых потоков. Фиг.3 предполагает, что известны все векторы давления и скорости частиц. К сожалению, такое тривиальное объединение не представляется возможным для моно потоков DirAC, для которых скорость частиц U(i)(k,n) неизвестна.
Фиг.3 иллюстрирует потоки, для каждого из которых оценка Р/U осуществляется в блоках 301, 302-30N. Результаты блока оценки P/U представляют собой соответствующие частотно-временные представления отдельных сигналов Р(i)(k,n) и U(i)(k,n), которые затем могут быть объединены в соответствии с записанными выше уравнениями (7) и (8) с использованием двух сумматоров 310 и 311. После того как получены объединенные Р(k,n) и U(k,n), на энергетическом этапе анализа 320 можно непосредственно определить параметр диффузности Ψ(k,n) и направление поступления eDOA(k,n).
На фиг.4 показан вариант объединения нескольких моно потоков DirAC. В соответствии с описанным выше, N потоков будут объединены с использованием воплощения блока 100, изображенного на фиг.4. Как показано на фиг.4, каждый из N входных потоков может быть представлен моно представлением Р(i)(k,n) в зависимости от времени и частоты, направлением поступления
Figure 00000046
и Ψ(k,n), где (1) означает первый поток. На фиг.4 также показано соответствующее представление для объединенного потока.
Задача объединения двух или более моно потоков DirAC представлена на фиг.4. Давление P(k,n) можно получить просто путем суммирования известных величин Р(i)(k,n), так же как и в (7), и задача объединения двух или более моно потоков DirAC сводится к определению eDOA(k,n) и Ψ(k,n). Следующее воплощение основано на предположении, что поле каждого источника состоит из плоской волны, суммируемой для диффузного поля. Таким образом, давление и скорость частиц для i-го источника могут быть выражены как
Figure 00000047
Figure 00000048
где индексы "PW" и "diff" означают плоскую волну и диффузное поле, соответственно. В следующем воплощении представлена существующая стратегия для оценки направления поступления звука и диффузность. Соответствующие этапы обработки приведены на фиг.5.
Фиг.5 иллюстрирует другой блок 500 для объединения нескольких звуковых потоков, которые будут подробно рассмотрены ниже. Фиг.5 иллюстрирует обработки первого пространственного аудио потока с точки зрения первого моно представления Р(1), первого направления поступления
Figure 00000049
и первого параметра диффузности Ψ(1). В соответствии с фиг.5, первый пространственный аудио поток разбивается на приближенные представления плоских волн
Figure 00000050
, а также второй пространственный аудио поток и, возможно, другие пространственные звуковые потоки, соответственно
Figure 00000051
. Оценки указывают максимальное значение соответствующей формулы представления.
Блок оценки 120 может быть адаптирован для оценки множества N волновых представлений
Figure 00000052
и представлений диффузного поля
Figure 00000053
в виде приближений
Figure 00000054
для множества пространственных звуковых потоков, с 1≤i≤N. Процессор 130 может быть адаптирован для определения объединенного направления поступления на основе оценки
Figure 00000055
, где
Figure 00000056
,
Figure 00000057
,
Figure 00000058
,
Figure 00000059
,
Figure 00000060
,
с вещественными числами α(i)(k,n), β(i)(k,n)∈{0…1}.
На фиг.5 показан пунктирной линией блок оценки 120 и процессор 130. В варианте, показанном на фиг.5, блок для определения 110 отсутствует, так как предполагается, что первый пространственный аудио поток и второй пространственный аудио поток, а также, возможно, другие аудио потоки представлены в моно представлении DirAC, т.e. моно представление DOA и параметры диффузности четко выделены из потока. Как показано на фиг.5, процессор 130 может быть адаптирован для определения объединенного DOA на основе оценки.
Направление поступления звука, т.е. измерение направления, можно оценить величиной
Figure 00000061
, которая определяется как
Figure 00000062
где
Figure 00000063
позволяет оценить действительную часть вектора интенсивности объединенного потока. Она может быть получена следующим
Figure 00000064
где
Figure 00000065
и
Figure 00000066
являются оценочными значениями давления и скорости частиц соответствующих плоских волн, т.е. только в качестве измерений волнового поля. Они могут быть определены как
Figure 00000067
Figure 00000068
Figure 00000069
Figure 00000070
Коэффициенты α(i)(k,n) и β(i)(k,n), вообще говоря, зависят от частоты и могут быть обратно пропорциональными к диффузности Ψ(i)(k,n). В самом деле, когда диффузность Ψ(i)(k,n) близка к 0, то можно считать, что поле состоит из одной плоской волны, так что
Figure 00000071
Figure 00000072
это означает, что α(i)(k,n)=β(i)(k,n)=1.
Далее будут представлены два варианта воплощения, которые определяют α(i)(k,n) и β(i)(k,n). Во-первых, диффузные поля рассматриваются из энергетических соображений. В вариантах блок оценки 120 может быть адаптирован для определения коэффициентов α(i)(k,n) и β(i)(k,n) на основе диффузного поля. В воплощениях полагаем, что поле состоит из плоской волны, суммируемой в идеальном диффузном поле. В вариантах блок оценки 120 может быть адаптирован для определения α(i)(k,n) и β(i)(k,n) в соответствии с
Figure 00000073
полагая плотность воздуха ρ0 равной 1 и пренебрегая, для простоты, функциональной зависимостью (k,n), можно записать
Figure 00000074
В вариантах, процессор 130 может быть адаптирован для аппроксимации [приближения] диффузных полей на основе их статистических свойств, аппроксимацию можно получить следующим образом:
Figure 00000075
где Еdiff является энергией диффузного поля. Воплощения, таким образом, позволяют получить оценочные значения
Figure 00000076
Для вычисления мгновенных оценочных значений (т.е. для каждой частотно-временной сетки) в вариантах могут быть исключены операторы ожидания, тогда получим
Figure 00000077
Воспользовавшись приближением плоской волны, оценочные значения скорости частиц могут быть получены непосредственно
Figure 00000078
В вариантах может быть применено упрощенное моделирование скорости частиц. В вариантах блок оценки 120 может быть адаптирован для аппроксимации коэффициентов α(i)(k,n) и β(i)(k,n) на основе упрощенных моделей. Воплощения могут использовать альтернативное решение, которое может быть получено путем введения упрощенного моделирования скорости частиц
α(i)(k,n)=1,
Figure 00000079
Далее сформулируем вывод. Скорость частицы U(i)(k,n) моделируется как
Figure 00000080
Коэффициент β(i)(k,n) можно получить, подставляя (26) в (5), что приводит к выражению
Figure 00000081
Для получения мгновенных значений операторы ожидания могут быть исключены и решение для β(i)(k,n) имеет вид
Figure 00000082
Обратим внимание, что такой подход приводит к аналогичным результатам определения направления поступления звука, как и в соответствии с (19), однако, с меньшей вычислительной сложностью, учитывая, что коэффициент α(i)(k,n) равен единице.
В вариантах, процессор 130 может быть адаптирован для оценки диффузности, т.е. для оценки объединенного параметра диффузности. Диффузность объединенного потока, обозначаемая Ψ(k,n), может быть оценена непосредственно из известных величин Ψ(i)(k,n) and P(i)(k,n) и из оценки
Figure 00000083
, полученной описанным выше способом. В соответствии с энергетическими соображениями, введенными в предыдущем разделе, варианты могут использовать следующую оценку:
Figure 00000084
Известные значения
Figure 00000085
и
Figure 00000086
позволяют использовать альтернативные представления, данные в уравнении (b), в вариантах изобретения. В самом деле, направление волны может быть получено из
Figure 00000087
, в то время как
Figure 00000088
дает амплитуду и фазу i-й волны. Из последней величины легко могут быть вычислены все разности фаз ∆(i,j). Параметры объединенного потока DirAC затем могут быть вычислены подстановкой уравнения (b) в уравнения (а), (3) и (5).
Фиг.6 иллюстрирует воплощение метода для объединения двух или более потоков DirAC. Воплощения могут служить в качестве средства для объединения первого пространственного аудио потока со вторым пространственным аудио потоком для получения объединенного аудио потока. В вариантах, метод может включать этап определения для первого пространственного аудио потока первого аудио представления и первого DOA, а также для второго пространственного аудио потока второго аудио представления и второго DOA. В вариантах, когда представления DirAC пространственных аудио потоков могут быть доступны, на этапе определения выполняется простое чтение в соответствии с представлениями аудио потоков. На фиг.6 предполагается, что два или более потока DirAC могут быть просто получены из аудио потоков в соответствии с этапом 610.
В вариантах, метод может включать этап оценки первого представления волны, содержащий измерение первого направления поступления волн и первое измерение волнового поля для первого пространственного аудио потока на основе первого аудио представления, первого DOA и, возможно, первого параметра диффузности. Соответственно, метод может включать этап оценки второго представления волны, содержащий измерение второго направления поступления волн и второе измерение волнового поля для второго пространственного аудио потока на основе второго аудио представления, второго DOA и, возможно, второго параметра диффузности.
Метод может дополнительно содержать этап объединения первого представления волны и второго представления волны для получения представления объединенной волны, содержащего измерение поля объединенной волны, измерение DOA объединенной волны и этап объединения первого и второго аудио представлений для получения объединенного аудио представления, которое показано на фиг.6 на этапе 620 для звуковых моно каналов. Воплощение, показанное на фиг.6, содержит этап расчета α(i)(k,n) и β(i)(k,n) в соответствии с (19) и (25) и позволяет оценить давление и вектор скорости частиц для представлений плоских волн на этапе 640. Другими словами, этапы оценки первого и второго представления плоской волны осуществляются на этапах 630 и 640 на фиг.6 в терминах представлений плоской волны.
Объединение первого и второго представлений плоской волны осуществляется на этапе 650, где могут суммироваться давление и векторы скорости частиц всех потоков.
На этапе 660 на фиг.6 вычисление действительной части вектора интенсивности и оценка DOA осуществляются на основе объединенного представления плоских волн.
Воплощения могут включать этап объединения или обработки измерения объединенного поля, первого и второго моно представлений и первого и второго параметров диффузности для получения объединенного параметра диффузности. В варианте, изображенном на фиг.6, вычисление диффузности осуществляется на этапе 670, например, на основе (29).
Воплощения имеют преимущество в том, что объединения пространственных звуковых потоков могут быть выполнены с высоким качеством при умеренной сложности.
В зависимости от определенных требований к реализации предлагаемого метода, методы изобретения могут быть реализованы в аппаратной части или программном обеспечении. Реализация может быть выполнена с использованием цифровых носителей и, в частности, флэш-памяти, DVD или CD дисков с читаемыми электронным способом управляющими сигналами, хранящимися на них и выполняющими методы изобретения, которые совместимы с системой программирования компьютера. Таким образом, настоящее изобретение является программным кодом для ЭВМ, хранящимся на машиночитаемом носителе, программный код осуществляет методы изобретения, когда компьютерная программа запускается на компьютере или процессоре. Другими словами, методы изобретения представляют собой компьютерную программу, имеющую программный код и выполняющую хотя бы один из методов изобретения при ее запуске на компьютере.

Claims (15)

1. Аппаратный блок (100) для объединения первого пространственного аудиопотока со вторым пространственным аудиопотоком для получения объединенного аудио потока, включающий блок оценки (120) для оценки представления первой волны, содержащего измерение направления поступления первой волны
Figure 00000089
, характеризующее направление первой волны, и измерение первого волнового поля
Figure 00000090
, являющееся относительной магнитудой первой волны, для первого пространственного аудиопотока, имеющего первое аудиопредставление, содержащее измерение давления или магнитуды первого аудиосигнала (Р(1)), и первое направление поступления
Figure 00000091
, и для оценки представления второй волны, содержащего измерение направления поступления второй волны, характеризующее направление второй волны
Figure 00000092
, и измерение поля второй волны
Figure 00000093
, являющееся относительной магнитудой второй волны, для второго пространственного аудиопотока, имеющего второе аудиопредставление, содержащее измерение давления или магнитуды второго аудиосигнала (Р(2)), и второе направление поступления
Figure 00000094
; и процессор (130) для обработки первого и второго представления волны и получения представления объединенной волны, содержащего измерение объединенного волнового поля
Figure 00000095
, измерение объединенного направления поступления
Figure 00000096
и объединенного параметра диффузности
Figure 00000097
, причем объединенный параметр диффузности получен с использованием измерения объединенного волнового поля
Figure 00000095
, первого аудиопредставления (Р(1)) и второго аудиопредставления (Р(2)), и причем измерение объединенного волнового поля
Figure 00000095
основано на измерении поля первой волны, измерении поля второй волны, измерении направления поступления первой волны
Figure 00000089
и направления поступления второй волны
Figure 00000092
, при этом процессор (130) приспособлен для обработки первого аудиопредставления (Р(1)) и второго аудиопредставления (Р(2)) и получения объединенного аудиопредставления (Р), а также для формирования объединенного аудиопотока, содержащего объединенное аудиопредставление (Р), измерение объединенного направления поступления
Figure 00000098
и объединенного параметра диффузности
Figure 00000097
.
2. Аппаратный блок (100) по п.1, в котором блок оценки (120) приспособлен для оценки измерения первого волнового поля в терминах амплитуды поля первой волны, и для оценки измерения второго волнового поля в терминах амплитуды поля второй волны, и для оценки разности фаз между измерениями первого и второго волнового поля, и/или для оценки фазы поля первой волны и фазы поля второй волны.
3. Аппаратный блок (100) по п.1, включающая блок (110) для определения первого аудиопредставления для первого пространственного аудиопотока, измерения первого направления поступления и первого параметра диффузности, а также для определения второго аудиопредставления для второго пространственного аудиопотока, измерения второго направления поступления и второго параметра диффузности.
4. Аппаратный блок (100) по п.1, где процессор (130) адаптирован для определения объединенного аудиопредставления, измерения объединенного направления поступления и объединенного параметра диффузности с учетом частотно-временной зависимости.
5. Аппаратный блок (100) по п.1, где блок оценки (120) приспособлен для оценки первого и/или второго волновых представлений, причем процессор (130) адаптирован для получения объединенного аудиопредставления в терминах сигнала давления p(t) или частотно-временного преобразования сигнала давления P(k,n), где k обозначает индекс частоты, а n обозначает индекс времени.
6. Аппаратный блок (100) по п.5, где процессор (130) приспособлен для обработки измерения первого и второго направления поступления и/или для обеспечения измерения объединенного направления поступления в терминах единичных векторов eDOA(k,n), где
eDOA(k,n)=-eI(k,n) и
Figure 00000099
,
Figure 00000100
,
где P(k,n) является давлением объединенного потока, а U(k,n)=[Ux(k,n), Uy(k,n), Uz(k,n)] обозначает преобразование времени-частоты u(t)=[ux(t), uy(t), uz(t)] вектора скорости частиц объединенного аудиопотока, где Re{·} обозначает действительную часть.
7. Аппаратный блок (100) по п.6, в котором процессор (130) приспособлен для обработки первого и/или второго параметров диффузности и/или для получения объединенного параметра диффузности в терминах
Figure 00000101

Figure 00000102

где U(k,n)=[Ux(k,n), Uy(k,n), Uz(k,n)] обозначает преобразование времени-частоты вектора скорости частиц объединенного аудиопотока, где Re{·} обозначает u(t)=[ux(t), uy(t), uz(t)] действительную часть, P(k,n) обозначает частотно-временное преобразование сигнала давления p(t), k обозначает индекс частоты, n обозначает индекс времени, с является скоростью звука и
Figure 00000103
обозначает энергию звукового поля, ρ0 обозначает плотность воздуха и <·>t обозначает усреднение по времени.
8. Аппаратный блок (100) по п.7, в котором блок оценки (120) приспособлен для оценки множества из N волновых представлений
Figure 00000104
и представления диффузного поля
Figure 00000105
в качестве аппроксимации для множества N пространственных аудиопотоков
Figure 00000106
, где 1≤i≤N, и в котором процессор (130) адаптирован для определения объединенного направления поступления звука, основанного на оценке,
Figure 00000107
,
Figure 00000056
,
Figure 00000057
,
Figure 00000058
,
Figure 00000059
,
Figure 00000060
,
с вещественными числами α(i)(k,n), β(i)(k,n)∈{0…1}, U(k,n)=[Ux(k,n), Uy(k,n), Uz(k,n)] обозначает преобразование времени-частоты u(t)=[ux(t), uy(t), uz(t)] вектора скорости частиц объединенного аудиопотока, где Re{·} обозначает действительную часть, P(i)(k,n) обозначает частотно-временное преобразование сигнала давления p(i)(t), k обозначает индекс частоты, n обозначает индекс времени, с является скоростью звука, N - число пространственных звуковых потоков, с является скоростью звука, а ρ0 обозначает плотность воздуха.
9. Аппаратный блок (100) по п.8, где блок оценки (120) адаптирован для определения α(i)(k,n) и β(i)(k,n) в соответствии с
α(i)(k,n)=β(i)(k,n)
Figure 00000108
.
10. Аппаратный блок (100) по п.8, где процессор (130) адаптирован для определения α(i)(k,n) и β(i)(k,n) в соответствии с формулами
α(i)(k,n)=1,
Figure 00000109
11. Аппаратный блок (100) по п.9, в котором процессор (130) адаптирован для определения объединенного параметра диффузности по формуле
Figure 00000110
12. Аппаратный блок (100) по п.1, в котором первый пространственный аудиопоток дополнительно содержит первый параметр диффузности (Ψ(1)), при этом второй пространственный аудиопоток дополнительно содержит второй параметр диффузности (Ψ(2)), а процессор (130) приспособлен для вычисления объединенного параметра диффузности
Figure 00000097
с использованием первого параметра диффузности (Ψ(1)) и второго параметра диффузности (Ψ(2)).
13. Способ объединения первого пространственного аудиопотока со вторым пространственным аудиопотоком для получения объединенного аудиопотока, включающий оценку первого волнового представления, содержащего измерение направления первой волны
Figure 00000089
, характеризующее направление первой волны, и измерение поля первой волны
Figure 00000090
, являющееся относительной магнитудой первой волны, для первого пространственного аудиопотока, имеющего первое аудиопредставление, содержащее измерение давления или магнитуды первого аудиосигнала (Р(1)), и первое направление поступления звука
Figure 00000091
; и оценку второго волнового представления, содержащего направление второй волны, характеризующее направление второй волны
Figure 00000111
, и измерение поля второй волны
Figure 00000112
, являющееся относительной магнитудой второй волны, для второго пространственного аудиопотока, имеющего второе аудиопредставление, содержащее измерение давления или магнитуды второго аудиосигнала (Р(2)), и второе направление поступления звука
Figure 00000113
; и обработку представления первой волны и представления второй волны для получения объединенного представления волны
Figure 00000095
, содержащего измерение объединенного волнового поля, измерение объединенного направления поступления и
Figure 00000114
объединенного параметра диффузности
Figure 00000097
, причем объединенный параметр диффузности
Figure 00000097
получен на основе измерения направления первой волны и измерения направления второй волны; обработку первого аудиопредставления (Р(1)) и второго аудиопредставления (Р(2)) для получения объединенного аудиопредставления (Р), а также формирование объединенного аудиопотока, содержащего объединенное аудиопредставление (Р), измерение объединенного направления поступления
Figure 00000115
и объединенного параметра диффузности
Figure 00000097
.
14. Способ по п.13, в котором первый пространственный аудиопоток дополнительно содержит первый параметр диффузности (Ψ(1)); второй пространственный аудиопотока дополнительно содержит второй параметр диффузности (Ψ(2)), причем объединенный параметр диффузности
Figure 00000097
вычисляется на этапе дополнительной обработки, использующем первый параметр диффузности (Ψ(1)) и второй параметр диффузности (Ψ(2)).
15. Машиночитаемый носитель, содержащий сохраненную на нем компьютерную программу с программным кодом, способным выполнять осуществления способа по п.13, когда программа выполняется компьютером или процессором.
RU2011106582/08A 2008-08-13 2009-08-11 Устройство для объединения пространственных аудиопотоков RU2504918C2 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US8852008P 2008-08-13 2008-08-13
US61/088,520 2008-08-13
EP09001397A EP2154910A1 (en) 2008-08-13 2009-02-02 Apparatus for merging spatial audio streams
EP09001397.0 2009-02-02
PCT/EP2009/005827 WO2010017966A1 (en) 2008-08-13 2009-08-11 Apparatus for merging spatial audio streams

Publications (2)

Publication Number Publication Date
RU2011106582A RU2011106582A (ru) 2012-08-27
RU2504918C2 true RU2504918C2 (ru) 2014-01-20

Family

ID=40605771

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011106582/08A RU2504918C2 (ru) 2008-08-13 2009-08-11 Устройство для объединения пространственных аудиопотоков

Country Status (15)

Country Link
US (1) US8712059B2 (ru)
EP (2) EP2154910A1 (ru)
JP (1) JP5490118B2 (ru)
KR (1) KR101235543B1 (ru)
CN (1) CN102138342B (ru)
AT (1) ATE546964T1 (ru)
AU (1) AU2009281355B2 (ru)
BR (1) BRPI0912453B1 (ru)
CA (1) CA2734096C (ru)
ES (1) ES2382986T3 (ru)
HK (1) HK1157986A1 (ru)
MX (1) MX2011001653A (ru)
PL (1) PL2324645T3 (ru)
RU (1) RU2504918C2 (ru)
WO (1) WO2010017966A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2759160C2 (ru) * 2017-10-04 2021-11-09 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
US11272305B2 (en) 2016-03-15 2022-03-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Apparatus, method or computer program for generating a sound field description

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101415026B1 (ko) * 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
EP2375410B1 (en) * 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
US9456289B2 (en) * 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
ES2643163T3 (es) 2010-12-03 2017-11-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para codificación de audio espacial basada en geometría
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
CN104335599A (zh) 2012-04-05 2015-02-04 诺基亚公司 柔性的空间音频捕捉设备
RU2635884C2 (ru) * 2012-09-12 2017-11-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио
EP2733965A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
US9706324B2 (en) 2013-05-17 2017-07-11 Nokia Technologies Oy Spatial object oriented audio apparatus
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
US9693009B2 (en) 2014-09-12 2017-06-27 International Business Machines Corporation Sound source selection for aural interest
WO2016049106A1 (en) * 2014-09-25 2016-03-31 Dolby Laboratories Licensing Corporation Insertion of sound objects into a downmixed audio signal
GB2549532A (en) 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
WO2018064296A1 (en) 2016-09-29 2018-04-05 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
SG11202004389VA (en) * 2017-11-17 2020-06-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
GB2574238A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
CA3091150A1 (en) * 2018-07-02 2020-01-09 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
CN110517703B (zh) * 2019-08-15 2021-12-07 北京小米移动软件有限公司 一种声音采集方法、装置及介质
GB2590651A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy Combining of spatial audio parameters

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
RU2315371C2 (ru) * 2002-12-28 2008-01-20 Самсунг Электроникс Ко., Лтд. Способ и устройство для смешивания аудиопотока и носитель информации
US20080170718A1 (en) * 2007-01-12 2008-07-17 Christof Faller Method to generate an output audio signal from two or more input audio signals

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
KR20060122694A (ko) * 2005-05-26 2006-11-30 엘지전자 주식회사 두 채널 이상의 다운믹스 오디오 신호에 공간 정보비트스트림을 삽입하는 방법
KR20080046199A (ko) * 2005-09-21 2008-05-26 코닌클리케 필립스 일렉트로닉스 엔.브이. 원거리에 위치한 마이크로폰을 사용한 음성 작동 제어를가진 초음파 이미징 시스템
JP2007269127A (ja) 2006-03-30 2007-10-18 Mitsubishi Fuso Truck & Bus Corp 後車軸の傾斜角調整構造および調整方法
EP2112652B1 (en) * 2006-07-07 2012-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
JP5941610B2 (ja) * 2006-12-27 2016-06-29 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute トランスコーディング装置
JP2008184666A (ja) 2007-01-30 2008-08-14 Phyzchemix Corp 成膜装置
EP2128856A4 (en) * 2007-10-16 2011-11-02 Panasonic Corp DEVICE FOR PRODUCING A STREAM AND DECODING DEVICE AND CORRESPONDING METHOD

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2315371C2 (ru) * 2002-12-28 2008-01-20 Самсунг Электроникс Ко., Лтд. Способ и устройство для смешивания аудиопотока и носитель информации
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
US20080170718A1 (en) * 2007-01-12 2008-07-17 Christof Faller Method to generate an output audio signal from two or more input audio signals

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PULKKI, VILLE, Applications of directional audio coding in audio, 19th International Congress on Acoustics, Madrid, 2-7 сентября 2007, 6 c., [он-лайн] [найдено 28.09.2012] в Интернете: *
PULKKI, VILLE, Applications of directional audio coding in audio, 19th International Congress on Acoustics, Madrid, 2-7 сентября 2007, 6 c., [он-лайн] [найдено 28.09.2012] в Интернете: <URL: http://decoy.iki.fi/dsound/ambisonic/motherlode/source/rba-15-002.pdf> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11272305B2 (en) 2016-03-15 2022-03-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Apparatus, method or computer program for generating a sound field description
RU2759160C2 (ru) * 2017-10-04 2021-11-09 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
US11368790B2 (en) 2017-10-04 2022-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding
US11729554B2 (en) 2017-10-04 2023-08-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding

Also Published As

Publication number Publication date
KR101235543B1 (ko) 2013-02-21
PL2324645T3 (pl) 2012-07-31
ATE546964T1 (de) 2012-03-15
MX2011001653A (es) 2011-03-02
BRPI0912453A2 (pt) 2019-11-19
RU2011106582A (ru) 2012-08-27
CN102138342A (zh) 2011-07-27
BRPI0912453B1 (pt) 2020-12-01
EP2324645B1 (en) 2012-02-22
JP5490118B2 (ja) 2014-05-14
AU2009281355A1 (en) 2010-02-18
US8712059B2 (en) 2014-04-29
EP2324645A1 (en) 2011-05-25
EP2154910A1 (en) 2010-02-17
CA2734096C (en) 2015-12-01
KR20110055622A (ko) 2011-05-25
ES2382986T3 (es) 2012-06-15
CN102138342B (zh) 2014-03-12
WO2010017966A1 (en) 2010-02-18
JP2011530720A (ja) 2011-12-22
AU2009281355B2 (en) 2014-01-16
US20110216908A1 (en) 2011-09-08
CA2734096A1 (en) 2010-02-18
HK1157986A1 (en) 2012-07-06

Similar Documents

Publication Publication Date Title
RU2504918C2 (ru) Устройство для объединения пространственных аудиопотоков
JP7181371B2 (ja) レンダリング方法、レンダリング装置及び記録媒体
RU2499301C2 (ru) Устройство для определения преобразованного пространственного звукового сигнала
RU2556390C2 (ru) Устройство и способ основанного на геометрии кодирования пространственного звука
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
KR101146841B1 (ko) 바이노럴 오디오 신호를 생성하기 위한 방법 및 장치
KR101195980B1 (ko) 다채널 오디오 포맷들 사이의 변환 장치 및 방법
KR101044948B1 (ko) 스테레오 신호 생성 방법 및 장치
KR20070079945A (ko) 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치
Remaggi et al. Perceived quality and spatial impression of room reverberation in VR reproduction from measured images and acoustics
Pihlajamäki et al. Projecting simulated or recorded spatial sound onto 3D-surfaces
Kelly Subjective Evaluations of Spatial Room Impulse Response Convolution Techniques in Channel-and Scene-Based Paradigms