RU2384014C2 - Формирование рассеянного звука для схем бинаурального кодирования с использованием ключевой информации (всс) - Google Patents
Формирование рассеянного звука для схем бинаурального кодирования с использованием ключевой информации (всс) Download PDFInfo
- Publication number
- RU2384014C2 RU2384014C2 RU2007118674/09A RU2007118674A RU2384014C2 RU 2384014 C2 RU2384014 C2 RU 2384014C2 RU 2007118674/09 A RU2007118674/09 A RU 2007118674/09A RU 2007118674 A RU2007118674 A RU 2007118674A RU 2384014 C2 RU2384014 C2 RU 2384014C2
- Authority
- RU
- Russia
- Prior art keywords
- channels
- input
- envelope
- audio signal
- signal
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 95
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 77
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims description 46
- 230000002123 temporal effect Effects 0.000 claims description 46
- 238000002156 mixing Methods 0.000 claims description 40
- 230000009467 reduction Effects 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 22
- 230000007704 transition Effects 0.000 claims description 16
- 230000003111 delayed effect Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 9
- 230000001052 transient effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000011068 loading method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 2
- 230000002596 correlated effect Effects 0.000 claims 2
- 238000004590 computer program Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 230000035807 sensation Effects 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 13
- 238000007493 shaping process Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 8
- 230000001934 delay Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000004807 localization Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Stereophonic System (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Golf Clubs (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Electrophonic Musical Instruments (AREA)
- Television Systems (AREA)
- Control Of Amplification And Gain Control (AREA)
Abstract
Изобретение относится к кодированию аудиосигналов и последующему синтезу звуковых сцен из кодированных аудиоданных. Сущность изобретения состоит в том, что входной аудиосигнал, имеющий входную временную огибающую, преобразуют в выходной аудиосигнал, имеющий выходную временную огибающую, анализируют входную временную огибающую входного аудиосигнала. Входной аудиосигнал обрабатывают для создания обработанного аудиосигнала, где при обработке выполняют декорреляцию входного аудиосигнала. Выполняют настройку обработанного аудиосигнала на основе проанализированной входной временной огибающей для создания выходного аудиосигнала, где выходная временная огибающая, по существу, совпадает с входной временной огибающей. Технический результат - обеспечение при прослушивании ощущения пространственного расположения источника звука путем использования подходящего набора пространственной ключевой информации. 6 н. и 26 з.п. ф-лы, 18 ил.
Description
Описание
Перекрестные ссылки на родственные заявки
Данная заявка претендует на преимущество даты подачи предварительной патентной заявки США №60/620401, поданной 20.10.04 (Дело поверенного № Allamanche 1-2-17-3), основные положения которой включены сюда по ссылке.
Вдобавок предмет этой заявки относится к предмету следующих патентных заявок США, основные положения которых включены сюда по ссылке:
Патентная заявка США №09/848877, поданная 04.05.2001 (Дело поверенного № Faller 5);
Патентная заявка США №10/045458, поданная 07.11.2001 (Дело поверенного № Baumgarte 1-6-8), которая, в свою очередь, претендовала на преимущество даты подачи предварительной патентной заявки США №60/311565, поданной 10.08.2001;
Патентная заявка США №10/155437, поданная 24.05.2002 (Дело поверенного № Baumgarte 2-10);
Патентная заявка США №10/246570, поданная 18.09.2002 (Дело поверенного № Baumgarte 3-11);
Патентная заявка США №10/815591, поданная 01.04.2004 (Дело поверенного № Baumgarte 7-12);
Патентная заявка США №10/936464, поданная 08.09.2004 (Дело поверенного № Baumgarte 8-7-15);
Патентная заявка США №10/762100, поданная 20.01.2004 (Faller 13-1); и
Патентная заявка США №10/хххххх, поданная с той же датой, что и данная заявка (Дело поверенного № Allamanche 2-3-18-4).
Предмет данной заявки также касается вопросов, описанных в следующих статьях, основные положения которых включены сюда по ссылке:
F. Baumgarte and C. Faller, “Binaural Cue Coding-Part I: Psychoacoustic fundamentals and design principles”, IEEE Trans. on Speech and Audio Proc., vol.11, no.6, Nov.2003;
C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications”, IEEE Trans on Speech and Audio Proc., vol.11, no 6, Nov.2003; and
C. Faller, “Coding of spatial audio compatible with different playback formats”, Preprint 117th Conv. Aud. Eng. Soc., October 2004.
Область техники, к которой относится изобретение
Настоящее изобретение относится к кодированию аудиосигналов и последующему синтезу звуковых сцен из кодированных аудиоданных.
Уровень техники
Когда человек слышит аудиосигнал (то есть звуки), созданный конкретным источником звука, этот аудиосигнал поступает в его левое и правое ухо, как правило, в разные моменты времени и с двумя разными уровнями звука (например, в децибелах), причем эти разные моменты времени и уровни зависят от различий в траекториях, по которым распространяется каждый аудиосигнал, достигая левого и правого уха соответственно. Человеческий мозг интерпретирует эти различия во времени и уровне, обеспечивая ощущение того, что принимаемый аудиосигнал создается источником звука, находящимся в конкретном месте (например, по конкретному направлению и на конкретном расстоянии) по отношению к этому человеку. Звуковая сцена представляет собой совокупное воздействие аудиосигналов, одновременно слышимых человеком, которые создаются одним или несколькими разными источниками звука, находящимися в одном или нескольких различных местах по отношению к этому человеку.
Указанную обработку, осуществляемую мозгом, можно использовать для синтеза звуковых сцен, где аудиосигналы от одного или нескольких разных источников звука целенаправленно модифицируются для создания левого и правого аудиосигналов, которые обеспечивают ощущение того, что разные источники звука находятся в разных местах по отношению к слушателю.
На фиг.1 показана обобщенная блок-схема стандартного синтезатора 100 бинаурального сигнала, который преобразует сигнал от одного источника звука (например, монофонический сигнал) в левый и правый аудиосигналы бинаурального сигнала, где бинауральный сигнал определяется как два сигнала, принимаемые на барабанных перепонках слушателя. Вдобавок к сигналу источника звука синтезатор 100 получает набор пространственной ключевой информации, соответствующей желаемому положению источника звука по отношению к слушателю. В типовых реализациях набор пространственной ключевой информации содержит значение разницы уровней сигнала между каналами (ICLD) (которое идентифицирует разницу в уровне между левым и правым аудиосигналами, принимаемыми в левом и правом ухе соответственно) и значение временного сдвига между каналами (ICTD) (которое идентифицирует разницу во времени поступления левого и правого аудиосигналов, принимаемых в левом и правом ухе соответственно). Вдобавок или как альтернативный вариант некоторые технологии синтеза включают в себя моделирование передаточной функции, зависящей от направления, для звука от источника звука к барабанным перепонкам, которую также называют передаточной функцией, моделирующей восприятие звука человеком (HRTF). Смотри, например, работу J.Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983, основные положения которой включены сюда по ссылке.
Используя синтезатор 100 бинаурального сигнала по фиг.1, можно обрабатывать монофонический аудиосигнал, создаваемый одним источником звука, так чтобы при прослушивании через наушники создавалось ощущение пространственного расположения источника звука, путем использования подходящего набора пространственной ключевой информации (например, ICLD, ICTD и/или HRTF) для создания аудиосигнала для каждого уха. Смотри, например, работу D.R.Begaut, 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA, 1994.
Синтезатор 100 бинаурального сигнала по фиг.1 создает звуковые сцены простейшего типа, имеющие один источник звука, позиционированный относительно слушателя. Можно создавать более сложные звуковые сцены, содержащие два или более источников звука, находящихся в разных местах по отношению к слушателю, путем использования синтезатора звуковой сцены, который фактически реализуется с использованием множества экземпляров синтезатора бинаурального сигнала, где каждый экземпляр синтезатора бинаурального сигнала создает бинауральный сигнал, соответствующий тому или иному источнику звука. Поскольку каждый из разных источников звука имеет свое собственное местоположение по отношению к слушателю, для создания бинаурального аудиосигнала для каждого из различных источников звука используют свой собственный набор пространственной ключевой информации.
Сущность изобретения
Согласно одному варианту настоящее изобретение представляет собой способ и устройство для преобразования входного аудиосигнала, имеющего входную временную огибающую, в выходной аудиосигнал, имеющий выходную временную огибающую. Затем характеризуют входную временную огибающую входного аудиосигнала. Входной аудиосигнал обрабатывают для создания обработанного аудиосигнала, где в результате обработки выполняется декорреляция входного аудиосигнала. Обработанный аудиосигнал настраивают на основе охарактеризованной входной временной огибающей для создания выходного аудиосигнала, где выходная временная огибающая, по существу, совпадает с входной временной огибающей.
Согласно другому варианту настоящее изобретение представляет собой способ и устройство для кодирования С входных аудиоканалов с целью создания Е передаваемых аудиоканалов (аудиоканала). Для двух или более из С входных каналов создают один или несколько кодов ключевой информации. Выполняют смешение С входных каналов с сокращением числа каналов для создания Е передаваемых каналов (канала), где С>E≥1. Анализируют один или несколько из С входных каналов и Е передаваемых каналов (канал) для создания флага, указывающего, должен ли декодер Е передаваемых каналов (канала) выполнять формирование огибающей во время декодирования Е переданных каналов (канала).
Согласно еще одному варианту настоящее изобретение представляет собой поток кодированных аудиобитов, созданный способом, указанным в предыдущем абзаце.
Согласно следующему варианту настоящее изобретение представляет собой поток кодированных аудиобитов, содержащий Е передаваемых каналов (канал), один или несколько кодов ключевой информации и флаг. Один или несколько кодов ключевой информации создают путем создания одного или нескольких кодов ключевой информации для двух или более из С входных каналов. Е передаваемых каналов (канал) создают путем смешения С входных каналов с сокращением числа каналов, где С>E≥1. Флаг создают путем анализа одного или нескольких из С входных каналов и Е передаваемых каналов (канала), где флаг указывает, должен ли декодер Е переданных каналов (канала) выполнять формирование огибающей во время декодирования Е переданных каналов (канала).
Краткое описание чертежей
Другие аспекты, признаки и преимущества настоящего изобретения станут более очевидными из последующего подробного описания, прилагаемой формулы изобретения и сопроводительных чертежей, на которых одинаковые ссылочные позиции идентифицируют подобные или идентичные элементы.
Фиг.1 - обобщенная блок-схема стандартного синтезатора бинаурального сигнала;
фиг.2 - блок-схема системы базовой обработки аудиосигнала на основе бинаурального кодирования с использованием ключевой информации (BCC);
фиг.3 - блок-схема смесителя, сокращающего число каналов, которые можно использовать в качестве смесителя, сокращающего число каналов, по фиг.2;
фиг.4 - блок-схема синтезатора BCC, который можно использовать в качестве декодера по фиг.2;
фиг.5 - блок-схема блока оценки BCC по фиг.2 согласно одному варианту настоящего изобретения;
фиг.6 - схема создания данных о временном сдвиге между каналами (ICTD) и данных о разнице уровней между каналами (ICLD) для пятиканальной аудиосистемы;
фиг.7 - схема создания данных о межканальной корреляции (ICC) для пятиканальной аудиосистемы;
фиг.8 - блок-схема реализации синтезатора BCC по фиг.4, который можно использовать в декодере BCC для создания стерео- или многоканального аудиосигнала, заданного одним переданным суммарным сигналом s(n) плюс пространственной ключевой информации;
фиг.9 - иллюстрация изменений ICTD и ICLD в субполосе в зависимости от частоты;
фиг.10 - блок-схема, представляющая по меньше мере часть декодера BCC согласно одному варианту настоящего изобретения;
фиг.11 - пример применения схемы формирования огибающей по фиг.10 в контексте синтезатора BCC по фиг.4;
фиг.12 - пример альтернативного применения схемы формирования огибающей по фиг.10 в контексте синтезатора BCC по фиг.4, где формирование огибающей используется во временной области;
фиг.13А и 13В - иллюстрация возможных вариантов реализации блоков TPA и TP по фиг.12, где формирование огибающей используют только на частотах, превышающих частоту fTP среза;
фиг.14 - пример применения схемы формирования огибающей по фиг.10 в контексте схемы синтеза ICC на основе запаздывающей реверберации, описанной в патентной заявке США №10/815591, поданной 01.04.2004 (Дело поверенного № Baumgarte 7-12);
фиг.15 - блок-схема, представляющая по меньшей мере часть декодера BCC согласно варианту настоящего изобретения, которая является альтернативой для схемы, показанной на фиг.10;
фиг.16 - блок-схема, представляющая по меньшей мере часть декодера BCC, согласно варианту настоящего изобретения, которая является альтернативой для схем, показанных на фиг.10 и 15;
фиг.17 - пример применения схемы формирования огибающей по фиг.15 в контексте синтезатора BCC по фиг.4; и
фиг.18А-18С - блок-схемы возможных вариантов реализации блоков TPA, ITP и TP по фиг.17.
Подробное описание изобретения
При бинауральном кодировании с использованием ключевой информации (BCC) кодер кодирует С входных аудиоканалов для создания Е передаваемых аудиоканалов, где С>E≥1. В частности, два или более из С входных каналов обеспечивают в частотной области, а для каждой из одной или нескольких различных частотных полос в двух или более входных каналах в частотной области создают один или несколько кодов ключевой информации. Вдобавок для создания Е передаваемых каналов выполняют смешение С входных каналов с сокращением числа каналов. В некоторых вариантах реализации смешения с сокращением числа каналов по меньшей мере один из Е передаваемых каналов базируется на двух или более из С входных каналов, а по меньшей мере один из Е передаваемых каналов базируется только на одном из С входных каналов.
В одном варианте кодер BCC имеет два или более блока фильтров, блок оценки кодов и смеситель, сокращающий число каналов. Два или более блока фильтров преобразуют два или более из С входных каналов из временной области в частотную область. Блок оценки кодов создает один или несколько кодов ключевой информации для каждой из одной или нескольких различных частотных полос в двух или более преобразованных входных каналах. Смеситель, сокращающий число каналов, выполняет смешение С входных каналов с сокращением числа каналов для создания Е передаваемых каналов, где С>E≥1.
При декодировании BCC декодируют Е переданных аудиоканалов для создания С аудиоканалов воспроизведения. В частности, для каждой из одной или нескольких различных частотных полос выполняют в частотной области смешение одного или более из Е переданных каналов с увеличением числа каналов для создания двух или более из С каналов воспроизведения в частотной области, где С>E≥1. Для каждой из одной или нескольких различных частотных полос в двух или более каналах воспроизведения в частотной области используют один или несколько кодов ключевой информации для создания двух или более модифицированных каналов, и эти два или более модифицированных канала преобразуют из частотной области во временную область. В некоторых вариантах реализации смешения с увеличением числа каналов по меньшей мере один из С каналов воспроизведения базируется по меньшей мере на одном из Е переданных каналов и по меньшей мере на одном коде ключевой информации, а по меньшей мере один из С каналов воспроизведения базируется только на одном из Е переданных каналов и не зависит от какого-либо из кодов ключевой информации.
В одном варианте декодер BCC содержит смеситель, увеличивающий число каналов, синтезатор и один или несколько блоков обратных фильтров. Для каждой из одной или нескольких различных частотных полос смеситель, увеличивающий число каналов, выполняет в частотной области смешение одного или нескольких из Е переданных каналов с увеличением числа каналов для создания двух или более из С каналов воспроизведения в частотной области, где С>E≥1. Синтезатор использует один или несколько кодов ключевой информации для каждой из одной или нескольких различных частотных полос в двух или более каналах воспроизведения в частотной области для создания двух или более модифицированных каналов. Один или более блоков обратных фильтров преобразует два или более модифицированных канала из частотной области во временную область.
В зависимости от конкретной реализации данный канал воспроизведения может базироваться на одном переданном канале, а не на комбинации из двух или более переданных каналов. Например, при наличии только одного переданного канала каждый из С каналов воспроизведения базируется на этом одном переданном канале. В таких ситуациях смешение с увеличением числа каналов соответствует копированию соответствующего переданного канала. По существу, для приложений, в которых имеется только один переданный канал, смеситель, увеличивающий число каналов, можно реализовать с использованием репликатора, который копирует этот переданный канал для каждого канала воспроизведения.
Кодеры и/или декодеры BCC можно включить в ряд систем или приложений, в том числе, например, в цифровые видеомагнитофоны/плееры, цифровые аудиомагнитофоны/плееры, компьютеры, спутниковые передатчики/приемники, кабельные передатчики/приемники, наземные вещательные передатчики/приемники, системы домашних развлечений и системы домашнего кинотеатра.
Базовая обработка на основе BCC
На фиг.2 представлена блок-схема системы 200 базовой обработки аудиосигнала на основе бинаурального кодирования с использованием ключевой информации (BCC), содержащая кодер 202 и декодер 204. Кодер 202 включает в себя смеситель 206, сокращающий число каналов, и блок 208 оценки BCC.
Смеситель 206, сокращающий число каналов, преобразует C входных аудиоканалов xi(n) в Е передаваемых аудиоканалов yi(n), где С>E≥1. В этом описании сигналы, выраженные с использованием переменной n, являются сигналами временной области, в то время как сигналы, выраженные с использованием переменной k, являются сигналами частотной области. В зависимости от конкретной реализации смешение с сокращением числа каналов можно реализовать либо во временной либо в частотной области. Блок 208 оценки BCC создает коды BCC из С входных аудиоканалов и передает эти коды BCC в виде либо внутриполосной либо внеполосной дополнительной информации по отношению к Е передаваемым аудиоканалам. Типовые коды BCC включают в себя одно или несколько из: временной сдвиг между каналами (ICTD), разница уровней между каналами (ICLD) и данные о межканальной корреляции (ICC), оцененные между определенными парами входных каналов в функции частоты и времени. Конкретный вариант реализации определяет, между какими конкретными парами входных каналов выполняется оценка кодов BCC.
Данные ICC соответствуют когерентности бинаурального сигнала, которая относится к воспринимаемому размеру источника звука по горизонтали. Чем больше размер источника звука по горизонтали, тем ниже когерентность между левым и правым каналами результирующего бинаурального сигнала. Например, когерентность бинаурального сигнала соответствующего оркестру, разбросанному по сцене зала, обычно ниже, чем когерентность бинаурального сигнала, соответствующего одной скрипке, исполняющей сольную партию. В общем случае аудиосигнал с низкой когерентностью обычно воспринимается как развернутый в звуковом пространстве. Данные ICC, как таковые, обычно относятся к кажущемуся размеру источника по горизонтали и степени охвата слушателя. Смотри, например, J.Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983.
В зависимости от конкретного применения Е переданных аудиоканалов и соответствующие коды BCC можно передавать непосредственно в декодер 204 или запоминать в запоминающем устройстве подходящего типа для последующего обращения к ним со стороны декодера 204. В зависимости от ситуации термин «передача» может относиться либо к непосредственной передаче в декодер либо к запоминанию соответствующих данных для последующего предоставления их декодеру. В любом случае декодер 204 принимает переданные аудиоканалы и дополнительную информацию и выполняет смешение с увеличением числа каналов, а также синтез BCC, используя коды BCC для преобразования Е переданных аудиоканалов в аудиоканалы воспроизведения , число которых превышает Е (как правило, но не обязательно, равно С), для воспроизведения звука. В зависимости от конкретной реализации смешение с увеличением числа каналов можно выполнять либо во временной области либо в частотной области.
Вдобавок к обработке BCC, показанной на фиг.2, система базовой обработки аудиосигнала на основе BCC может включать в себя дополнительные этапы кодирования и декодирования для дальнейшего сжатия аудиосигналов в кодере с последующей распаковкой аудиосигналов в декодере. Такие аудиокодеки могут базироваться на стандартных технологиях сжатия/распаковки аудиосигналов, например, на технологиях, основанных на импульсно-кодовой модуляции (PCM), дифференциальной PCM (DPCM) или адаптивной DPCM (ADPCM).
Когда смеситель 206, сокращающий число каналов, создает один единственный суммарный сигнал (то есть Е=1), кодирование BCC позволяет представить многоканальные аудиосигналы со скоростью передачи битов, лишь слегка превышающую скорость, необходимую для представления монофонического аудиосигнала. Причина этого заключается в том, что оцененные данные ICTD, ICLD и ICC между каналами в паре имеют примерно на два порядка меньший объем информации, чем сам аудиосигнал.
Представляет интерес не только низкая скорость передачи битов при кодировании BCC, но также его свойство обратной совместимости. Один переданный суммарный сигнал соответствует монофоническому смешению с сокращением числа каналов исходного стерео- или многоканального сигнала. Для приемников, которые не поддерживают стерео- или многоканальное воспроизведение звука, прослушивание переданного суммарного сигнала является эффективным способом представления аудиоматериала на низкопрофильном оборудовании для монофонического воспроизведения. Следовательно, кодирование BCC можно также использовать для расширения существующих услуг, включая предоставление монофонического аудиоматериала многоканальной аудиосистеме. Например, существующие монофонические системы радиовещания могут быть модифицированы для стерео- или многоканального воспроизведения, если в существующий канал передачи можно будет встроить дополнительную информацию BCC. Аналогичные возможности существуют при смешении многоканального аудиосигнала с сокращением количества каналов до двух суммарных сигналов, которые соответствуют стереофоническим аудиосистемам.
При использовании BCC аудиосигналы обрабатывают с определенным временным и частотным разрешением. Используемое частотное разрешение в значительной степени определяется частотным разрешением слуховой системы человека. Психоакустика предполагает, что пространственное восприятие основано скорее всего на представлении критической полосы слышимых частот в акустическом входном сигнале. Это частотное разрешение учитывается посредством использования блока обратимых фильтров, например, на основе быстрого преобразования Фурье (FFT) или квадратурного зеркального фильтра (QMF), с субполосами, равными или пропорциональными ширине критической полосы слуховой системы человека.
Базовое смешение с сокращением числа каналов
В предпочтительных вариантах реализации переданный суммарный сигнал (сигналы) содержит все сигнальные компоненты входного аудиосигнала. Целью является полное сохранение каждой сигнальной компоненты. Простое суммирование входных аудиоканалов часто приводит к усилению или ослаблению сигнальных компонент. Другими словами, мощность сигнальных компонент в «простой» сумме часто оказывается больше или меньше суммы мощностей соответствующих сигнальных компонент каждого канала. Можно использовать технологию смешения с сокращением числа каналов, которая выравнивает суммарный сигнал, так что мощность сигнальных компонент в суммарном сигнале будет примерно такой же, как соответствующая мощность во всех входных каналах.
На фиг.3 показана блок-схема смесителя 300, сокращающего число каналов, который можно использовать в качестве смесителя 206 по фиг.2, сокращающего число каналов, в соответствии с конкретными вариантами реализации системы BCC 200. Смеситель 300, сокращающий число каналов, содержит блок (302) фильтров (FB) для каждого входного канала xi(n), блок 304 смешения с сокращением числа каналов, необязательный блок 306 масштабирования/задержки и блок 308 обратных фильтров (IFB) для каждого кодированного канала yi(n).
Каждый блок 302 фильтров преобразует каждый кадр (например, 20 мс) соответствующего цифрового входного канала xi(n) во временной области в набор входных коэффициентов
в частотной области. Блок 304 смешения с сокращением числа каналов выполняет указанные смешения каждой субполосы из С соответствующих входных коэффициентов в соответствующую субполосу из Е коэффициентов в частотной области, подвергшихся смешению с сокращением числа каналов. Уравнение (1) представляет смешение с сокращением числа каналов для k-й субполосы входных коэффициентов (,…,) для создания k-й субполосы коэффициентов (), подвергшихся смешению с сокращением числа каналов, следующим образом:
где D
CE - вешественнозначная матрица смешения с сокращением числа каналов с С до Е.
Необязательный блок 306 масштабирования/задержки содержит набор умножителей 310, каждый из которых умножает соответствующий коэффициент , подвергнутый смешению с сокращением числа каналов, на масштабный коэффициент для создания соответствующего масштабированного коэффициента . Мотивировка выполнения операции масштабирования такая же, как для операции выравнивания, обобщенной для смешения (с сокращением числа каналов) с помощью произвольных весовых коэффициентов для каждого канала. Если входные каналы являются независимыми, то тогда мощность сигнала (после смешения с сокращением числа каналов) в каждой субполосе задается уравнением (2) следующим образом:
Если субполосы не являются независимыми, то тогда значения мощности сигнала после смешения с сокращением числа каналов будут больше или меньше значений, вычисленных с использованием уравнения (2), из-за усиления или ослабления сигналов, когда сигнальные компоненты находятся в фазе или не в фазе соответственно. Во избежание этого операция смешения с сокращением числа каналов по уравнению (1) применяется в субполосах, после чего следует операция масштабирования, выполняемая умножителями 310. Масштабные коэффициенты (1#i#E) можно получить, используя уравнение (3) следующим образом:
где - мощность субполосы, вычисленная по уравнению (2), а - мощность соответствующего сигнала субполосы после смешения с сокращением числа каналов.
Вдобавок или вместо необязательного масштабирования блок 306 масштабирования/задержки может выполнить задержки этих сигналов.
Каждый блок 308 обратных фильтров преобразует набор соответствующих масштабированных коэффициентов в частотной области в кадр соответствующего переданного цифрового канала .
Хотя на фиг.3 показаны все С входных каналов, преобразуемых в частотную область для последующего смешения с сокращением числа каналов, в альтернативных вариантах реализации для одного или нескольких (но меньше, чем С-1) из С входных каналов может не выполняться часть или вся обработка, показанная на фиг.3, и тогда они будут передаваться в виде эквивалентного количества немодифицированных аудиоканалов. В зависимости от конкретной реализации эти немодифицированные аудиоканалы могут быть или не быть использованы блоком 208 оценки BCC по фиг.2 при создании переданных кодов BCC.
В варианте реализации смесителя 300, сокращающего число каналов, который создает один суммарный сигнал , число E=1, а сигналы каждой субполосы каждого входного канала с суммируются, а затем умножаются на коэффициент согласно уравнению (4) следующим образом:
где - кратковременная оценка мощности на временной отметке k, а - кратковременная оценка мощности Выравненные субполосы преобразуют обратно во временную область, в результате чего получают суммарный сигнал y(n), который передается в декодер BCC.
Базовый синтез BCC
На фиг.4 показана блок-схема синтезатора 400 BCC, который можно использовать для декодера 204 по фиг.2 согласно конкретным вариантам реализации системы 200 BCC. Синтезатор 400 BCC содержит блок 402 фильтров для каждого переданного канала yi(n), блок 404 смешения с увеличением числа каналов задержки 406, умножители 408, блок 410 корреляции и блок 412 обратных фильтров для каждого канала воспроизведения.
Каждый блок 402 фильтров преобразует каждый кадр соответствующего переданного цифрового канала yi(n) во временной области в набор входных коэффициентов в частотной области. Блок 404 смешения с увеличением числа каналов смешивает каждую субполосу из Е соответствующих переданных канальных коэффициентов в соответствующую субполосу из С коэффициентов частотной области, прошедших операцию смешения с увеличением числа каналов. Уравнение (4) представляет смешение с увеличением числа каналов k-й субполосы переданных канальных коэффициентов для создания k-й субполосы коэффициентов после смешения с увеличением числа каналов следующим образом:
где UEC вещественнозначная матрица смешения с увеличением числа каналов с Е до С. Выполнение смешения с увеличением числа каналов в частотной области позволяет использовать такое смешение отдельно в каждой субполосе.
Каждая задержка 406 использует значение di(k) задержки на основе соответствующего кода BCC для данных ICTD, чтобы обеспечить появление желаемых значений ICTD между определенными парами каналов воспроизведения. Каждый умножитель 408 использует масштабный коэффициент ai(k) на основе соответствующего кода BCC для данных ICLD, чтобы обеспечить желаемые значения ICLD между определенными парами каналов воспроизведения. Блок 410 корреляции выполняет операцию A декорреляции на основе соответствующих кодов BCC для данных ICC, чтобы обеспечить желаемые значения ICC между определенными парами каналов воспроизведения. Дополнительное описание операций, выполняемых блоком 410 корреляции, можно найти в патентной заявке США №10/155437, поданной 24.05.2002 (Baumgarte 2-10).
Синтез значений ICLD может оказаться менее проблемным, чем синтез значений ICTD и ICC, поскольку синтез ICLD включает простое масштабирование сигналов субполосы. Поскольку ключевая информация ICLD является наиболее широко используемой ключевой информацией направленности, обычно важнее, чтобы значения ICLD аппроксимировали соответствующие значения исходного аудиосигнала. Данные ICLD, как таковые, могут быть оценены между всеми канальными парами. Масштабные коэффициенты ai(k)(1#i#C) для каждой субполосы предпочтительно выбирать таким образом, чтобы мощность субполосы каждого канала воспроизведения аппроксимировала соответствующую мощность исходного входного аудиоканала.
Одной из целей может быть использование для синтеза значений ICTD и ICC относительно небольших модификаций сигналов. Данные BCC, как таковые, могут не включать значения ICTD и ICC для всех канальных пар. В этом случае синтезатор 400 BCC будет синтезировать значения ICTD и ICC только между некоторыми канальными парами.
Каждый блок 412 обратных фильтров преобразует набор соответствующих синтезированных коэффициентов в частотной области в кадр соответствующего цифрового канала воспроизведения.
Хотя на фиг.4 показаны все Е переданных каналов, преобразуемых в частотную область для последующего смешения с увеличением числа каналов и обработки BCC, в альтернативных вариантах реализации для одного или нескольких (но не всех) из Е переданных каналов может не выполняться вся обработка, показанная на фиг.4. Например, один или несколько переданных каналов могут представлять собой немодифицированные каналы, которые не подвергаются смешению с увеличением числа каналов. Вдобавок один или несколько из С каналов воспроизведения могут быть, в свою очередь, немодифицированными каналами, которые можно, но не обязательно использовать в качестве опорных каналов, к которым применяется обработка BCC для синтеза одного или нескольких других каналов воспроизведения. В любом случае указанные немодифицированные каналы могут подвергаться задержкам для компенсации времени обработки, затрачиваемого на смешение с увеличением числа каналов, и/или обработке BCC, используемой для создания остальных каналов воспроизведения.
Заметим, что хотя на фиг.4 показано С каналов воспроизведения, синтезируемых из Е переданных каналов, где С также является количеством исходных входных каналов, синтез BCC не ограничивается этим количеством каналов воспроизведения. В общем случае количество каналов воспроизведения может быть любым, включая число, большее или меньшее С, и даже возможны ситуации, когда количество каналов воспроизведения меньше или равно количеству переданных каналов.
«Значимые для восприятия различия» между аудиоканалами
Если предположить наличие одного суммарного сигнала, то при выполнении BCC синтезируется стерео- или многоканальный аудиосигнал, так что параметры ICTD, ICLD и ICC аппроксимируют соответствующую ключевую информацию (параметры) исходного аудиосигнала. Далее обсуждается роль ICTD, ICLD и ICC в отношении атрибутов звуковых пространственных образов.
Знания о пространственной слышимости предполагают, что для одного звукового события параметры ICTD и ICLD относятся к воспринимаемому направлению. При учете бинауральных импульсных характеристик (BRIR) в условиях помещения для одного источника имеет место взаимосвязь между размером звукового события по горизонтали и охватом слушателя и данными ICC, оцененными для начальной и конечной части характеристик BRIR. Однако взаимосвязь между ICC и этими свойствами для обычных сигналов (а не только для BRIR) не является прямой.
Стерео- и многоканальные аудиосигналы обычно содержат сложную смесь сигналов от одновременно действующих источников, на которые накладываются компоненты отраженного сигнала в результате записи в замкнутых пространствах или добавления со стороны инженера по звукозаписи для искусственного создания пространственного впечатления. Сигналы от разных источников и их отражения занимают различные области на плоскости время - частота. Это отражается с помощью параметров ICTD, ICLD и ICC, которые изменяются в функции времени и частоты. В этом случае взаимосвязь между мгновенными значениями ICTD, ICLD и ICC и направлениями звуковых событий и пространственным впечатлением не очевидна. Стратегия некоторых вариантов BCC состоит в синтезе указанной ключевой информации «вслепую», так чтобы она аппроксимировала соответствующую ключевую информацию исходного аудиосигнала.
Используют блоки фильтров с шириной субполос, равной удвоенной эквивалентной прямоугольной полосе (FRB). Свободное прослушивание обнаруживает, что качество звучания при использовании BCC не улучшается при выборе более высокого разрешения по частоте. Может оказаться желательным более низкое частотное разрешение, поскольку оно приводит к меньшим значениям ICTD, ICLD и ICC, которые потребуется передавать в декодер, что позволит использовать более низкую скорость передачи битов.
Что касается временного разрешения, то параметры ICTD, ICLD и ICC обычно учитывают с регулярными временными интервалами. Высокое качество получается тогда, когда ICTD, ICLD и ICC учитывают примерно каждые 4-16 мс. Заметим, что если ключевую информацию не учитывать с очень короткими временными интервалами, то эффект Хааза непосредственно не учитывается. В предположении использования классической пары опережения-запаздывания звуковых стимулов, если опережение и запаздывание попадают на временной интервал, где синтезируется только один набор ключевой информации, то тогда влияние локализации опережения не учитывается. Несмотря на это кодирование BCC обеспечивает качество звука со средней оценкой порядка 87 баллов по методу тестирования MUSHRA (то есть отличное качество звучания) и почти до 100 баллов для некоторых аудиосигналов.
Часто достигаемое небольшое различие восприятия между опорным сигналом и синтезированным сигналом означает, что ключевая информация, относящаяся к широкому диапазону атрибутов звуковых пространственных образов, учитывается в неявном виде путем синтеза ICTD, ICLD и ICC с регулярными временными интервалами. Далее приводится ряд аргументов по поводу того, как можно связать ICTD, ICLD и ICC с диапазоном атрибутов звуковых пространственных изображений.
Оценка пространственной ключевой информации
Далее описывается, каким образом оценивается ключевая информация (параметры) ICTD, ICLD и ICC. Скорость передачи бит для передачи этих (квантованных и кодированных) пространственных ключевых параметров может составлять как раз несколько кбит/с, и, тогда используя кодирования BCC, можно передавать стерео- и многоканальные аудиосигналы со скоростями передачи битов, близкими той, которая требуется для одного аудиоканала.
На фиг.5 показана блок-схема блока 208 оценки BCC по фиг.2 согласно одному варианту настоящего изобретения. Блок 208 оценки BCC содержит блоки 502 фильтров (FB), которые могут быть такими же, как блоки 302 фильтров по фиг.3, и блок 504 оценки, который создает пространственные ключевые параметры ICTD, ICLD и ICC для каждой отдельной субполосы, созданной блоками 502 фильтров.
Оценка ICTD, ICLD и ICC для стереосигналов
двух (например, стерео) аудиоканалов используют следующие меры:
ICTD [отсчеты]:
с кратковременной оценкой нормализованной функции перекрестной корреляции, заданной уравнением (8) следующим образом:
ICLD [децибел]:
ICC:
Заметим, что рассматривается абсолютное значение нормализованной перекрестной корреляции, а с12(k) имеет диапазон [0,1].
Оценка ICTD, ICLD и ICC для многоканальных аудиосигналов
Когда имеется больше двух входных каналов, как правило, достаточно определить ICTD и ICLD между опорным каналом (например, канал номер 1) и другими каналами, как показано на фиг.6 для случая С=5 каналов, где τ1 с(k) и ΔL12(k) обозначают ICTD и ICLD соответственно между опорным каналом 1 и каналом с.
В противоположность ICTD и ICLD параметр ICC обычно имеет больше степеней свободы. ICC по определению может иметь различные значения во всех возможных парах входных каналов. Для С каналов имеется С(С-1)/2 возможных канальных пар; например, для 5 каналов имеется 10 канальных пар, как показано на фиг.7А. Однако указанная схема требует оценки и передачи С(С-1)/2 значений ICC для каждой субполосы и каждого временного индекса, что повышает сложность вычислений и скорость передачи бит.
В альтернативном варианте для каждой субполосы ICTD и ICLD определяют направление, по которому воспринимается звуковое событие соответствующей сигнальной компоненты в данной субполосе. Затем для описания общей когерентности между всеми аудиоканалами можно использовать один единый параметр ICC на каждую субполосу. Хорошие результаты можно получить путем оценки и передачи ключевых параметров ICC только между двумя каналами с максимальной энергией в каждой субполосе на каждом временном индексе. Это показано на фиг.7В, где для моментов времени k-1 и k самыми мощными являются соответственно канальные пары (3,4) и (1,2). Для определения ICC между другими канальными парами можно использовать эвристическое правило.
Синтез пространственной ключевой информации
На фиг.8 показана блок-схема реализации синтезатора 400 BCC по фиг.4, который можно использовать в декодере BCC для создания стерео- или многоканального аудиосигнала, задаваемого одним переданным суммарным сигналом s(n) плюс пространственной ключевой информации. Суммарный сигнал s(n) разбивается на субполосы, где обозначает одну указанную субполосу. Для создания соответствующих субполос каждого из выходных каналов к соответствующей субполосе суммарного сигнала применяются задержки dc, масштабные коэффициенты ac и фильтры hc. (Для упрощения написания временной индекс k в задержках, масштабных коэффициентах и фильтрах опущен). Параметры ICTD синтезируют путем наложения задержек, параметры ICLD - путем масштабирования, а параметры ICC - путем применения фильтров декорреляции. Обработка, показанная на фиг.8, применяется независимо к каждой субполосе.
Синтез ICTD
Задержку d1 для опорного канала вычисляют таким образом, чтобы обеспечить минимум максимальной величины задержек dc. Чем меньше модифицируются сигналы субполос, тем меньше риск появления привнесенных искажений. Если частота дискретизации субполосы не обеспечивает достаточно высокое временное разрешение для синтеза ICTD, задержки можно накладывать более точно, используя подходящие всечастотные фильтры.
Синтез ICLD
Для того чтобы сигналы выходных субполос имели желаемую величину ΔL12(k) параметров ICLD между каналом с и опорным каналом 1, коэффициенты усиления ас должны удовлетворять уравнению (13) в следующем виде:
Вдобавок выходные субполосы предпочтительно нормализовать, так чтобы сумма мощностей всех выходных каналов равнялась мощности входного суммарного канала. Поскольку общая исходная мощность сигнала в каждой субполосе в суммарном сигнале сохраняется, такая нормализация дает абсолютную мощность субполосы для каждого выходного канала, аппроксимирующую соответствующую мощность исходного входного аудиосигнала кодера. При задании указанных ограничений масштабные коэффициенты ас задаются уравнением (14) следующим образом:
Синтез ICC
В некоторых вариантах целью синтеза ICC является уменьшение корреляции между субполосами после задержек и применения масштабирования без воздействия на параметры ICTD и ICLD. Этого можно достичь путем расчета фильтров hc на фиг.8, так чтобы ICTD и ICLD эффективно изменялись в функции частоты и чтобы среднее изменение равнялось нулю в каждой субполосе (критическая звуковая полоса).
На фиг.9 показано, как изменяются ICTD и ICLD в субполосе в функции частоты. Амплитуда изменения ICTD и ICLD определяет степень декорреляции и регулируется в функции ICC. Заметим, что ICTD изменяются плавно (как на фиг.9А), в то время как ICLD изменяются случайным образом (как на фиг.9В). ICLD может изменяться также плавно, как ICTD, но это приведет к большей корреляции результирующих аудиосигналов.
Другой способ синтеза ICC, подходящий, в частности, для синтеза многоканального параметра ICC, более подробно описан в работе C.Faller, Parametric multi-channel audio coding. Synthesis of coherence cues, IEEE Trans. on Speech and Audio Proc., 2003, основные положения которой включены сюда по ссылке. К каждому из выходных каналов для достижения желаемого значения ICC добавляются специальные величины искусственной запаздывающей реверберации в функции времени или частоты. Вдобавок может быть применена модификация спектра, так чтобы спектральная огибающая результирующего сигнала приближалась к спектральной огибающей исходного аудиосигнала.
Другие технологии синтеза, связанного и не связанного с ICC, для стереосигналов (или аудиоканальных пар) представлены в работах E.Schuijers, W.Oomen, B.den Brinker, and J.Breebaart, Advances in parametric coding for high-quality audio, in Preprint 114th Conv. Aud. Eng. Soc., Mar. 2003, и J.Engdegard, H.Purnhagen, J.Roden, and L.Liljeryd, Synthetic ambience in parametric stereo coding, in Preprint 117th Conv. Aud. Eng. Soc., May 2004, основные положения которых включены сюда по ссылке.
Кодирование BCC по схеме «с С до Е»
Как было описано ранее, кодирование BCC может быть реализовано с более чем одним каналом передачи. Описан вариант BCC, который представляет С аудиоканалов не в виде одного единственного (переданного) канала, а в виде Е каналов (этот вариант обозначен здесь как BCC по схеме «с С до Е»). Имеется по меньшей мере два обоснования для использования BCC по схеме «с С до Е»: BCC с одним каналом передачи обеспечивает обратную совместимость при обновлении существующих монофонических систем для стерео- или многоканального воспроизведения звука. Обновленные системы передают суммарный сигнал BCC, подвергшийся смешению с сокращением числа каналов, через существующую монофоническую инфраструктуру, передавая кроме того дополнительную информацию BCC. Кодирование BCC по схеме «с С до Е» применимо в случае Е-канального обратно совместимого кодирования С-канального аудиосигнала.
Кодирование BCC по схеме «с С до Е» вводит масштабируемость с точки зрения различной степени сокращения количества переданных каналов. Ожидается, что чем больше аудиоканалов передается, тем выше будет качество аудиосистемы.
Подробности обработки сигналов для кодирования BCC по схеме «с С до Е», например, то, каким образом определять ключевые параметры ICTD, ICLD и ICC, описаны в патентной заявке США №10/762100, поданной 20.01.2004 (Faller 13-1).
Формирование рассеянного звука
В некоторых вариантах реализации кодирование BCC включает в себя алгоритмы для синтеза ICTD, ICLD и ICC. Ключевую информацию ICC можно синтезировать посредством декорреляции сигнальных компонент в соответствующих субполосах. Это можно сделать путем изменения ICLD в зависимости от частоты, изменения ICTD и ICLD в зависимости от частоты, всечастотной фильтрации или с использованием идей, связанных с алгоритмами реверберации.
При применении этих способов к аудиосигналам характеристика временной огибающей сигналов не сохраняется. В частности, при их применении к переходным состояниям вероятно, что мгновенная энергия сигнала будет размыта на некотором интервале времени. Это приводит к таким привнесенным искажениям, как «упреждающее эхо» или «размытые переходы».
Базовый принцип некоторых вариантов настоящего изобретения связан с контролем за тем, чтобы звук, синтезированный декодером BCC, имел бы не только спектральные характеристики, подобные характеристикам исходного звука, но имел бы достаточно близкое сходство с временной огибающей исходного звука, чтобы обеспечить аналогичные характеристики его восприятия. В общем случае это достигается в схемах, подобных BCC, путем обеспечения их функцией динамического синтеза ICLD, который предусматривает применение операции масштабирования, зависящего от времени, для аппроксимации временной огибающей каждого канала в сигнале. В случае кратковременных сигналов (резкое вступление, звуки ударных инструментов и т.д.) временное разрешение для этого процесса может оказаться недостаточным для создания синтезированных сигналов, которые достаточно точно аппроксимируют исходную временную огибающую. В этом разделе описывается ряд подходов, позволяющих сделать это с достаточно высоким временным разрешением.
Кроме того, для декодеров, которые не имеют доступа к временной огибающей исходных сигналов, предлагается вместо аппроксимации использовать временную огибающую переданного «суммарного сигнала (сигналов)». В этом случае, по существу, отсутствует дополнительная информация, необходимая для передачи от кодера BCC на декодер BCC, чтобы переслать упомянутую информацию об огибающей. Таким образом, изобретение основано на следующем принципе.
Переданные аудиоканалы (то есть «суммарный канал (каналы)») - или линейные комбинации этих каналов, на которых может быть основан синтез BCC - анализируются экстрактором временной огибающей для получения временной огибающей с высоким временным разрешением (например, значительно точнее, чем размер блока BCC).
Последующий синтезированный звук для каждого выходного канала формируется таким образом, что даже после синтеза ICC он соответствует временной огибающей, определенной экстрактором настолько близко, насколько это возможно. Этим достигается то, что даже в случае кратковременных сигналов синтезированный выходной звук ухудшается незначительно из-за синтеза ICC/процесса декорреляции сигнала.
На фиг.10 показана блок-схема, представляющая по меньшей мере часть декодера 1000 BCC согласно одному варианту настоящего изобретения. На фиг.10 блок 1002 представляет обработку для синтеза BCC, которая включает в себя по меньшей мере синтез ICC. Блок 1002 синтеза BCC получает базовые каналы 1001 и создает синтезированные каналы 1003. В некоторых вариантах реализации блок 1002 представляет обработку для блоков 406, 408 и 410 по фиг.4, причем базовые каналы 1001 являются сигналами, созданными блоком 404 смешения, увеличивающим число каналов, а синтезированные каналы 1003 являются сигналами, созданными блоком 410 корреляции. На фиг.10 представлена обработка, реализованная для одного базового канала 1001' и соответствующего синтезированного канала. Аналогичная обработка также применяется к любому другому базовому каналу и соответствующему синтезированному каналу.
Экстрактор 1004 огибающей определяет точную временную огибающую «а» базового канала 1001', а экстрактор 1006 огибающей определяет точную временную огибающую «b» синтезированного канала 1003'. Блок 1008 обратной настройки огибающей использует временную огибающую b от экстрактора 1006 огибающей для нормализации огибающей (то есть «сглаживает» тонкую временную структуру) синтезированного канала 1003' для создания сглаженного сигнала 1005', имеющего сглаженную (например, монотонную) временную огибающую. В зависимости от конкретной реализации сглаживание может применяться либо перед либо после смешения с увеличением числа каналов. Блок 1010 настройки огибающей использует временную огибающую «а» от экстрактора 1004 огибающей для повторного наложения огибающей исходного сигнала на выравненный сигнал 1005' для создания выходного сигнала 1007' с временной огибающей, по существу, идентичной временной огибающей базового канала 1001'.
В зависимости от реализации эту обработку временной огибающей (которую здесь также называют «формирование огибающей») можно также применить ко всему синтезированному каналу (как здесь показано) или только к ортогонализованной части (например, часть, относящаяся к запаздывающей реверберации, декоррелированная часть) синтезированного канала (как описано ниже). Кроме того, в зависимости от реализации формирование огибающей можно применить либо к сигналам во временной области либо в зависимости от частоты (например, когда временную огибающую оценивают и накладывают отдельно на разных частотах).
Блок 1008 обратной настройки огибающей и блок 1010 настройки огибающей могут быть реализованы различными путями. При одном типе реализации огибающая сигнала обрабатывается посредством умножения отсчетов сигнала во временной области (или отсчетов спектра/субполосы) на функцию модификации амплитуды, зависящей от времени (например, «1/b» для блока 1008 обратной настройки огибающей и на «а» для блока 1010 настройки огибающей). В альтернативном варианте можно использовать свертку/фильтрацию спектрального представления сигнала по частоте способом, аналогичным способу, используемому в известном уровне техники в целях формирования шума квантования аудиокодера с низкой скоростью передачи битов. Аналогичным образом временную огибающую сигналов можно выделять либо непосредственно путем анализа временной структуры сигнала либо путем оценки автокорреляции спектра сигнала по частоте.
На фиг.11 показан пример применения схемы формирования огибающей по фиг.10 в контексте синтезатора 400 BCC по фиг.4. В этом варианте имеется единственный переданный суммарный сигнал s(n), создается С базовых сигналов путем копирования этого суммарного сигнала, и операция формирования огибающей применяется отдельно к каждой из различных субполос.В альтернативных вариантах порядок задержек, масштабирования и иной обработки может быть другим. Кроме того, в альтернативных вариантах формирование огибающей не ограничивается независимой обработкой каждой субполосы. Это особенно верно для реализаций на основе свертки/фильтрации, в которых используется ковариация по частотным полосам для получения информации о тонкой временной структуре сигнала.
На фиг.11А анализатор 1104 временного процесса (TPA) аналогичен экстрактору 1004 огибающей по фиг.10, а каждый временной процессор (TP) 1106 аналогичен комбинации экстрактора 1006 огибающей, блоку 1008 обратной настройки огибающей и блоку 1010 настройки огибающей по фиг.10.
На фиг.11В показана блок-схема одной возможной реализации TPA 1104 во временной области, где отсчеты базового сигнала возводятся в квадрат (1110), а затем подвергаются фильтрации по нижним частотам (1112) для характеризации временной огибающей «а» синтезированного сигнала.
На фиг.11С показана блок-схема одной возможной реализации ТР 1106 во временной области, где отсчеты синтезированного сигнала возводятся в квадрат (1114), а затем подвергаются фильтрации нижних частот (1116) для характеризации временной огибающей «b» синтезированного сигнала. Создается масштабный коэффициент (например, квадрат (a/b)) (1118), который затем применяется (1120) к синтезированному сигналу для создания выходного сигнала с временной огибающей, по существу, идентичной временной огибающей исходного базового канала.
В альтернативных вариантах реализации анализатора TPA 1104 и процессора TP 1106 временные огибающие характеризуются с использованием операций со значениями отсчетов сигнала, а не путем возведения их в квадрат. В указанных вариантах реализации в качестве масштабного коэффициента можно использовать отношение a/b, не применяя операцию извлечения квадратного корня.
Хотя операция масштабирования по фиг.11С соответствует реализации обработки TP во временной области, обработку TP (так же, как обработку TPA и обработку, обратную обработке TP (ITP)), можно также реализовать, используя сигналы в частотной области, как в варианте по фиг.17-18 (описаны ниже). По существу, применительно к данному описанию термин «функция масштабирования» следует интерпретировать как термин, охватывающий операции либо во временной области либо в частотной области, например операции фильтрации по фиг.18В и 18С.
В общем случае анализатор TPA 1104 и процессор TP 1106 предпочтительно спроектировать таким образом, чтобы они не изменяли мощность (то есть энергию) сигнала. В зависимости от конкретной реализации эта мощность сигнала может быть средней мощностью сигнала за короткое время в каждом канале, например, определяемой на основе общей мощности сигнала на канал за период времени, определенный окном синтеза, или можно использовать какие-либо другие подходящие меры мощности. Масштабирование для синтеза ICLD (например, с использованием умножителей 408) как таковое можно использовать перед или после формирования огибающей.
Заметим, что на фиг.11А имеется два выхода для каждого канала, причем обработка TP применяется только к одному из них. Это отражается в схеме синтеза ICC, которая смешивает две сигнальные компоненты: немодифицированный и ортогонализованный сигналы, где отношение немодифицированной и ортогонализованной сигнальных компонент определяет ICC. В варианте, показанном на фиг.11А, обработка TP применяется только к ортогонализованной сигнальной компоненте, причем узлы 1108 суммирования рекомбинируют немодифицированные сигнальные компоненты с соответствующими ортогонализованными сигнальными компонентами, сформированными во времени.
На фиг.12 показан альтернативный пример применения схемы формирования огибающей по фиг.10 в контексте синтезатора 400 BCC по фиг.4, где формирование огибающей применяется к временной области. Указанный вариант может быть обеспечен тогда, когда временное разрешение спектрального представления, в котором выполняется синтез ICTD, ICLD и ICC, недостаточно велико для эффективного подавления «упреждающего эха» путем наложения желаемой временной огибающей. Например, это может быть случай, когда кодирование BCC реализуется с помощью короткопериодного преобразования Фурье (STFT).
Как показано на фиг.12А, анализатор TPA 1204 и каждый процессор TP 1206 реализованы во временной области, где полнодиапазонный сигнал масштабируется таким образом, что он имеет желаемую временную огибающую (например, огибающую, полученную в результате оценки переданного суммарного сигнала). На фиг.12В и 12С показаны возможные варианты реализации TPA 1204 и TP 1206, аналогичные тем, которые показаны на фиг.11В и 11С.
В этом варианте обработка в TP применяется к выходному сигналу, а не только к ортогонализованным сигнальным компонентам. В альтернативных вариантах обработка TP во временной области может применяться именно к ортогонализованным сигнальным компонентам, если это требуется, и в этом случае немодифицированные и ортогонализованные субполосы преобразуют во временную область с помощью отдельных блоков обратных фильтров.
Поскольку всечастотное масштабирование выходных сигналов BCC может привести к искажениям, формирование огибающей можно применять только на определенных частотах, например на частотах, больших некоторой частоты fTP среза (например, 500 Гц). Заметим, что частотный диапазон для анализа (TPA) может отличаться от частотного диапазона для синтеза (TP).
На фиг.13А и 13В показаны возможные варианты реализации анализатора TPA 1204 и процессора TP 1206, где формирование огибающей применяется только на частотах, больших частоты fTP среза. В частности, на фиг.13А показано добавление в виде фильтра 1302 верхних частот, который отфильтровывает частоты, меньшие fTP, до характеризации временной огибающей. На фиг.13В показано добавление в виде блока 1304 двухполосных фильтров, имеющих частоту fTP среза между двумя субполосами, где временное формирование выполняется только для высокочастотной части. Затем блок 1306 двухполосных обратных фильтров рекомбинирует низкочастотную часть с высокочастотной частью, подвергнутой временному формированию, для создания выходного сигнала.
На фиг.14 показан пример применения схемы формирования огибающей по фиг.10 в контексте схемы синтеза ICC на основе запаздывающей реверберации, описанной в патентной заявке США №10/815591, поданной 01.04.2004 (Дело поверенного № Baumfarte 7-12). В этом варианте TPA 1404 и каждый TP 1406 применяются во временной области, как на фиг.12 или фиг.13, но при этом каждый TP 1406 применяется для выходного сигнала из блока 1402 запаздывающей реверберации (LR).
На фиг.15 показана блок-схема, представляющая по меньшей мере часть декодера 1500 BCC согласно варианту настоящего изобретения, которая является альтернативой схемы, показанной на фиг.10. На фиг.15 блок 1502 синтеза BCC, экстрактор 1504 огибающей и блок 1510 настройки огибающей аналогичны блоку 1002 синтеза BCC, экстрактору 1004 огибающей и блоку 1010 настройки огибающей по фиг.10. Однако на фиг.15 блок 1508 обратной настройки огибающей применяется до синтеза BCC, а не после синтеза BCC, как на фиг.10. Таким путем блок 1508 обратной настройки огибающей сглаживает базовый канал до того, как применяется синтез BCC.
На фиг.16 показана блок-схема, представляющая по меньшей мере часть декодера 1600 BCC согласно варианту настоящего изобретения, которая является альтернативой схемам, показанным на фиг.10 и 15. На фиг.16 экстрактор 1604 огибающей и блок 1610 настройки огибающей аналогичны экстрактору 1504 огибающей и блоку 1510 настройки огибающей по фиг.15. Однако в варианте по фиг.15 блок 1602 синтеза представляет синтез ICC на основе запаздывающей реверберации, аналогичный синтезу, показанному на фиг.16. В этом случае формирование огибающей применяется только к некоррелированному сигналу запаздывающей реверберации, а узел 1612 суммирования добавляет временно сформированный сигнал запаздывающей реверберации к исходному базовому каналу (который уже имеет желаемую временную огибающую). Заметим, что в этом случае блок обратной настройки огибающей применять не обязательно, поскольку сигнал запаздывающей реверберации имеет более или менее выравненную временную огибающую благодаря процессу ее создания в блоке 1602.
На фиг.17 показан пример применения схемы формирования огибающей по фиг.15 в контексте синтезатора 400 BCC по фиг.4. На фиг.17 анализатор TPA 1704, обратный процессор TP (ITP) 1708 и процессор TP 1710 аналогичны экстрактору 1504 огибающей, блоку 1508 обратной настройки огибающей и блоку 1510 настройки огибающей по фиг.15.
В этом варианте, основанном на частоте, формирование огибающей рассеянного звука реализуется путем применения свертки к элементам частотного разрешения блока 402 фильтров (например, преобразования STFT) по оси частоты. Существо этого способа смотри в патенте США №5781888 (Herre) и патенте США №5812971 (Herre), основные положения которых включены сюда по ссылке.
На фиг.18А показана блок-схема одной возможной реализации анализатора TPA 1704 по фиг.17. В этой реализации анализатор TPA 1704 реализован в виде операции анализа с кодированием с линейным предсказанием (LPC), которая определяет оптимальные коэффициенты предсказания для ряда спектральных коэффициентов по частоте. Указанный способ анализа с LPC хорошо известен, например, в области речевого кодирования, а также известно множество алгоритмов для эффективного вычисления коэффициентов LPC, например метод автокорреляции (включающий вычисление автокорреляционной функции сигнала с последующей рекурсией Левинсона - Дурбина). В результате такого вычисления на выходе получается набор коэффициентов LPC, которые представляют временную огибающую сигнала.
На фиг.18В и 18С показаны блок-схемы возможных вариантов реализации ITP 1708 и TP 1710 по фиг.17. В обоих вариантах реализации спектральные коэффициенты сигнала, подлежащего обработке, обрабатываются в порядке увеличения или уменьшения частоты, как символически показано здесь схемами поворотных переключателей, преобразующими эти коэффициенты в ряд, расположенный в последовательном порядке для обработки посредством фильтрации с предсказанием (и возврата назад после этой обработки). В случае ITP 1708 в результате фильтрации с предсказанием вычисляется остаток и таким образом «выравнивается» временная огибающая сигнала. В случае TP 1710 обратный фильтр вновь вводит временную огибающую, представленную коэффициентами LPC из TPA 1704.
Для вычисления временной огибающей сигнала процессором TPA 1704 важно исключить влияние окна анализа блока 402 фильтров, если такое окно используется. Это можно обеспечить либо путем нормализации результирующей огибающей с помощью (известной) формы окна анализа или путем использования отдельного блока фильтров анализа, где окно анализа не используется.
В контексте схемы формирования огибающей по фиг.16 можно также применить способ на основе свертки/фильтрации по фиг.17, причем на фиг.16 экстрактор 1604 огибающей и блок 1610 настройки огибающей основаны на TPA по фиг.18А и TP по фиг.18С соответственно.
Дополнительные альтернативные варианты
Можно разработать декодеры BCC, избирательно разрешающие/блокирующие формирование огибающей. Например, в декодере BCC можно применять стандартную схему синтеза BCC и разрешать формирование огибающей, когда временная огибающая синтезированного сигнала имеет флуктуации, достаточные для того, чтобы выгоды от формирования огибающей перевешивали любые привнесенные искажения, которые могут быть порождены при формировании огибающей. Такое управление разрешением/блокированием можно обеспечить следующими путями:
1. Обнаружение переходного состояния: если обнаружено переходное состояние, то обработка TP разрешается. Обнаружение переходного состояния можно реализовать с упреждением для эффективного формирования не только переходного состояния, но также сигнала, идущего чуть раньше и позже переходного состояния. Возможные способы обнаружения переходных состояний включают в себя:
наблюдение за временной огибающей переданного суммарного сигнала (сигналов) BCC, чтобы определить момент внезапного увеличения мощности, указывающего на появление переходного состояния; и
анализ коэффициента усиления фильтра с предсказанием (LPC). Если коэффициент усиления фильтра с предсказанием (LPC) превышает определенный порог, то можно предположить, что имеет место переходное состояние или большая флуктуация сигнала. Вычисления для анализа LPC выполняются на основе автокорреляции спектра.
2. Обнаружение случайности: имеются сценарии, в которых временная огибающая флуктуирует псевдослучайным образом. В указанном сценарии переходное состояние может не быть обнаружено, но обработка TP может еще применяться (например, указанному сценарию соответствует сигнал, передающий сплошные аплодисменты).
Вдобавок, в некоторых вариантах реализации для предотвращения возможных искажений в тональных сигналах обработку TP не применяют при высокой тональности переданного суммарного сигнала (сигналов).
Кроме того, аналогичные меры можно использовать в кодере BCC для определения необходимого момента активизации обработки TP. Поскольку кодер имеет доступ ко всем исходным входным сигналам, он может использовать более сложные алгоритмы (например, часть блока 208 оценки) для принятия решения о том, когда следует разрешить обработку TP. Результат этого решения (флаг, сигнализирующий о том, когда следует активизировать TP) может быть передан в декодер BCC (например, в качестве части дополнительной информации по фиг.2).
Хотя настоящее изобретение было описано в контексте схем кодирования BCC, где имеет место единственный суммарный сигал, настоящее изобретение можно также реализовать в контексте схем кодирования BCC, имеющих два или более суммарных сигнала. В этом случае временная огибающая для каждого из разных «базовых» суммарных сигналов может быть оценена до использования синтеза BCC, а различные выходные каналы BCC можно создать на основе разных временных огибающих в зависимости от того, какие суммарные сигналы были использованы для синтеза различных выходных каналов. Выходной канал, синтезированный из двух или более различных суммарных каналов, может быть создан на основе действительной временной огибающей, которая учитывает (например, посредством взвешенного усреднения) относительные вклады образующих суммарных каналов.
Хотя настоящее изобретение было описано в контексте схем кодирования BCC, включающих коды ICTD, ICLD и ICC, настоящее изобретение можно также реализовать в контексте других схем кодирования BCC, включающих только один или два из указанных трех типов кодов (например, ICLD и ICC, но без ICTD) и/или один или несколько дополнительных типов кодов. Кроме того, последовательность обработки при синтезе BCC и формировании огибающей может меняться в зависимости от вариантов реализации. Например, при применении формирования огибающей к сигналам в частотной области, как на фиг.14 и 16, формирование огибающей может быть реализовано как альтернативный вариант после синтеза ICTD (в тех вариантах, где используется синтез ICTD), но до синтеза ICLD. В других вариантах формирование огибающей можно применить к сигналам, подвергшимся смешению с увеличением числа каналов, прежде чем будет использован какой-либо иной синтез BCC.
Хотя настоящее изобретение было описано в контексте схем кодирования BCC, настоящее изобретение можно также реализовать в контексте других систем обработки аудиосигнала, в которых выполняется декорреляция аудиосигналов или другая аудиообработка, необходимая для декорреляции сигналов.
Хотя настоящее изобретение было описано в контексте вариантов реализаций, в которых кодер получает входной аудиосигнал во временной области и создает переданные аудиосигналы во временной области, а декодер получает переданные аудиосигналы во временной области и создает аудиосигналы воспроизведения во временной области, настоящее изобретение этим не ограничивается. Например, в других вариантах реализации любые один или несколько входных переданных аудиосигналов и сигналов воспроизведения могут быть представлены в частотной области.
Кодеры и/или декодеры BCC могут быть использованы вместе с множеством различных приложений или систем либо они могут являться их составными частями, причем это относится в том числе к системам для распространения телевизионных программ или электронной музыки, домашним кинотеатрам, телерадиовещанию, потоковым приложениям и/или приемным системам. Сюда относятся также системы для кодирования/декодирования передач, например, через наземные, спутниковые, кабельные сети, Интернет, сети Интранет или физические носители (например, компакт-диски, цифровые универсальные диски, полупроводниковые микросхемы, накопители на жестких дисках, карты памяти и т.п.). Кодеры и/или декодеры BCC можно также использовать в играх и игровых системах, в том числе, например, в интерактивных программных продуктах, предназначенных для взаимодействия с пользователем во время развлечения (игровой бой, ролевая игра, стратегическая игра, приключения, имитация, гонки, спортивные соревнования, галерея игровых автоматов, карты и настольные игры) и/или в образовательных целях, причем эти программы могут быть растиражированы для множества машин, платформ или носителей. Кроме того, кодеры и/или декодеры BCC могут быть встроены в аудиомагнитофоны/плееры или системы CD-ROM/DVD. Кодеры и/или декодеры BCC также могут быть встроены в программные приложения для персональных компьютеров, которые включают в себя цифровое декодирование (например, плеер, декодер) и программные приложения, имеющие возможности цифрового кодирования (например, кодер, риппер, рекодер и музыкальный автомат).
Настоящее изобретение можно реализовать в виде схемных процессов, в том числе возможна реализация в виде одной интегральной схемы (например, специализированной интегральной микросхемы (ASIC) или в виде вентильной матрицы, программируемой пользователем (FPGA)), многокристалльного модуля, одной платы или в виде узла, состоящего из множества схемных плат. Специалистам в данной области техники очевидно, что различные функции схемных элементов также можно реализовать в виде шагов обработки в программе. Указанное программное обеспечение можно использовать, например, в цифровом процессоре сигналов, микроконтроллере или компьютере общего назначения.
Настоящее изобретение можно воплотить в виде способов и устройств для практической реализации этих способов. Настоящее изобретение также можно воплотить в виде программного кода, воплощенного на материальном носителе, например на гибких дисках, ПЗУ на компакт-дисках (CD-ROM), накопителях на жестких дисках или на любом другом считываемом машиной носителе, где при загрузке указанного программного кода и выполнении его машиной, например компьютером, эта машина становится устройством для практической реализации изобретения. Настоящее изобретение можно также воплотить в виде программного кода, хранящегося, например, на носителе для хранения данных, который загружают в машину и/или который выполняется машиной, или передают через некоторую среду передачи или носитель, например, по электрическим проводам или кабелям, через волоконно-оптические каналы, или посредством электромагнитного излучения, где при загрузке этого программного кода в машину, такую как компьютер, и его исполнении, эта машина становится устройством для практической реализации изобретения. При реализации в процессоре общего назначения сегменты программного кода объединяются с процессором, создавая уникальное устройство, которое функционирует по аналогии со специализированными логическими схемами.
Кроме того, должно быть понятно, что специалисты в данной области техники смогут внести в изобретение различные изменения, касающиеся деталей, материалов и компоновки частей, которые были описаны и приведены в качестве примеров, чтобы объяснить природу этого изобретения, при условии, что эти изменения не будут выходить за рамки объема изобретения, сформулированного в прилагаемой формуле изобретения.
Хотя шаги способа в последующей формуле изобретения на способ, если они имеются, перечислены в определенной последовательности с соответствующими обозначениями, здесь не предполагается, что реализация этих шагов должна обязательно происходить именно в указанной конкретной последовательности, если эти перечисления не предполагают иную конкретную последовательность пунктов формулы изобретения для реализации некоторых или всех упомянутых шагов.
Claims (32)
1. Способ преобразования входного аудиосигнала, имеющего входную временную огибающую, в выходной аудиосигнал, имеющий выходную временную огибающую, причем способ содержит:
анализ входной временной огибающей входного аудиосигнала с высоким временным разрешением;
обработку входного аудиосигнала путем синтеза с помощью алгоритма синтеза для создания синтезированного канала, при этом этап обработки включает в себя декорреляцию входного аудиосигнала; и
настройку синтезированного канала на основе проанализированной входной временной огибающей для создания выходного аудиосигнала, выходной аудиосигнал имеет выходную временную огибающую, которая, по существу, идентична входной временной огибающей.
анализ входной временной огибающей входного аудиосигнала с высоким временным разрешением;
обработку входного аудиосигнала путем синтеза с помощью алгоритма синтеза для создания синтезированного канала, при этом этап обработки включает в себя декорреляцию входного аудиосигнала; и
настройку синтезированного канала на основе проанализированной входной временной огибающей для создания выходного аудиосигнала, выходной аудиосигнал имеет выходную временную огибающую, которая, по существу, идентична входной временной огибающей.
2. Способ по п.1, в котором этап обработки содержит синтез межканальной корреляции (ICC).
3. Способ по п.2, в котором синтез ICC на этапе обработки является частью синтеза с бинауральным кодированием с использованием ключевой информации (ВСС).
4. Способ по п.3, в котором синтез ВСС дополнительно содержит, по меньшей мере, одно из синтеза разницы уровней между каналами (ICLD) и синтеза временного сдвига между каналами (ICTD).
5. Способ по п.2, в котором синтез ICC содержит синтез ICC с запаздывающей реверберацией.
6. Способ по п.1, в котором настройка содержит:
анализ обработанной временной огибающей обработанного аудиосигнала и
настройку обработанного аудиосигнала на основе как проанализированной входной, так и обработанной временной огибающих для создания выходного аудиосигнала.
анализ обработанной временной огибающей обработанного аудиосигнала и
настройку обработанного аудиосигнала на основе как проанализированной входной, так и обработанной временной огибающих для создания выходного аудиосигнала.
7. Способ по п.6, в котором настройка содержит:
создание функции масштабирования на основе проанализированной входной и обработанной временной огибающих и
применение функции масштабирования к обработанному аудиосигналу для создания выходного аудиосигнала.
создание функции масштабирования на основе проанализированной входной и обработанной временной огибающих и
применение функции масштабирования к обработанному аудиосигналу для создания выходного аудиосигнала.
8. Способ по п.1, дополнительно содержащий настройку входного аудиосигнала на основе проанализированной входной временной огибающей для создания сглаженного аудиосигнала, где обработка применяется к сглаженному аудиосигналу для создания обработанного аудиосигнала.
9. Способ по п.1, в котором:
при обработке создают не коррелированный обработанный сигнал и коррелированный обработанный сигнал; и
настройку применяют к некоррелированному обработанному сигналу для создания настроенного обработанного сигнала, где выходной сигнал создают путем суммирования настроенного обработанного сигнала и коррелированного обработанного сигнала.
при обработке создают не коррелированный обработанный сигнал и коррелированный обработанный сигнал; и
настройку применяют к некоррелированному обработанному сигналу для создания настроенного обработанного сигнала, где выходной сигнал создают путем суммирования настроенного обработанного сигнала и коррелированного обработанного сигнала.
10. Способ по п.1, в котором:
анализ применяют только к заданным частотам входного аудиосигнала; и настройку применяют только к упомянутым заданным частотам обработанного аудиосигнала.
анализ применяют только к заданным частотам входного аудиосигнала; и настройку применяют только к упомянутым заданным частотам обработанного аудиосигнала.
11. Способ по п.10, в котором:
анализ применяют только к тем частотам входного аудиосигнала, которые превышают заданную частоту среза; и
настройку применяют только к тем частотам обработанного аудиосигнала, которые превышают эту заданную частоту среза.
анализ применяют только к тем частотам входного аудиосигнала, которые превышают заданную частоту среза; и
настройку применяют только к тем частотам обработанного аудиосигнала, которые превышают эту заданную частоту среза.
12. Способ по п.1, в котором каждое из анализа, обработки и настройки применяют к сигналу в частотной области.
13. Способ по п.12, в котором каждое из анализа, обработки и настройки применяют по отдельности к разным субполосам сигнала.
14. Способ по п.12, в котором частотная область соответствует быстрому преобразованию Фурье (FFT).
15. Способ по п.12, в котором частотная область соответствует квадратурному зеркальному фильтру (QMF).
16. Способ по п.1, в котором каждую из анализа и настройки применяют к сигналу во временной области.
17. Способ по п.16, в котором обработку применяют к сигналу в частотной области.
18. Способ по п.17, в котором частотная область соответствует FFT.
19. Способ по п.17, в котором частотная область соответствует QMF.
20. Способ по п.1, дополнительно содержащий определение того, разрешать или блокировать упомянутые анализ и настройку.
21. Способ по п.20, в котором определение основано на флаге разрешения/блокировки, созданном аудиокодером, который создал входной аудиосигнал.
22. Способ по п.20, в котором определение основано на анализе входного аудиосигнала для обнаружения переходных состояний во входном аудиосигнале, так что анализ и настройку разрешают, если обнаружено появление переходного состояния.
23. Устройство для преобразования входного аудиосигнала, имеющего входную временную огибающую, в выходной аудиосигнал, имеющий выходную временную огибающую, причем устройство содержит:
средство для анализа входной временной огибающей входного аудиосигнала с высоким временным разрешением;
средство для обработки входного аудиосигнала путем синтеза с помощью алгоритма синтеза для создания синтезированного канала, при этом
средство для обработки приспособлено для выполнения декорреляции входного аудиосигнала; и
средство для настройки синтезированного канала на основе проанализированной входной временной огибающей для создания выходного аудиосигнала, выходной аудиосигнал имеет выходную временную огибающую, которая, по существу, идентична входной временной огибающей.
средство для анализа входной временной огибающей входного аудиосигнала с высоким временным разрешением;
средство для обработки входного аудиосигнала путем синтеза с помощью алгоритма синтеза для создания синтезированного канала, при этом
средство для обработки приспособлено для выполнения декорреляции входного аудиосигнала; и
средство для настройки синтезированного канала на основе проанализированной входной временной огибающей для создания выходного аудиосигнала, выходной аудиосигнал имеет выходную временную огибающую, которая, по существу, идентична входной временной огибающей.
24. Устройство по п.23,
в котором средство для анализа включает в себя экстрактор огибающей,
в котором средство для обработки включает в себя синтезатор, приспособленный для обработки входного аудиосигнала; и
в котором средство для настройки включает в себя блок настройки огибающей, приспособленный для настройки обработанного аудиосигнала.
в котором средство для анализа включает в себя экстрактор огибающей,
в котором средство для обработки включает в себя синтезатор, приспособленный для обработки входного аудиосигнала; и
в котором средство для настройки включает в себя блок настройки огибающей, приспособленный для настройки обработанного аудиосигнала.
25. Устройство по п.24, в котором:
устройство является системой, выбранной из группы, состоящей из цифрового видеоплеера, цифрового аудиоплеера, компьютера, спутникового приемника, кабельного приемника, наземного вещательного приемника, системы домашних развлечений и системы домашнего кинотеатра; и
система содержит экстрактор огибающей, синтезатор и блок настройки огибающей.
устройство является системой, выбранной из группы, состоящей из цифрового видеоплеера, цифрового аудиоплеера, компьютера, спутникового приемника, кабельного приемника, наземного вещательного приемника, системы домашних развлечений и системы домашнего кинотеатра; и
система содержит экстрактор огибающей, синтезатор и блок настройки огибающей.
26. Способ кодирования С входных аудиоканалов для создания Е передаваемых аудиоканалов, причем способ содержит:
создание одного или нескольких кодов ключевой информации для двух или более из С входных каналов;
смешение С входных каналов с сокращением числа каналов для создания Е передаваемых каналов, где C>E≥1; и
анализ одного или нескольких из С входных каналов и Е передаваемых каналов для создания флага, указывающего, следует ли декодеру для Е переданных каналов выполнять формирование огибающей во время декодирования Е переданных каналов, причем шаг анализа включает в себя обнаружение переходного состояния с упреждением для формирования в декодере не только переходного состояния, но также сигнала до и после этого переходного состояния, при этом флаг устанавливают тогда, когда обнаруживают переходное состояние, или включает в себя обнаружение случайности для обнаружения того, флуктуирует ли временная огибающая псевдослучайным образом, причем упомянутый флаг устанавливают тогда, когда временная огибающая флуктуирует псевдослучайным образом, или включает в себя обнаружение тональности для того, чтобы не устанавливать флаг, когда Е переданных каналов являются тональными.
создание одного или нескольких кодов ключевой информации для двух или более из С входных каналов;
смешение С входных каналов с сокращением числа каналов для создания Е передаваемых каналов, где C>E≥1; и
анализ одного или нескольких из С входных каналов и Е передаваемых каналов для создания флага, указывающего, следует ли декодеру для Е переданных каналов выполнять формирование огибающей во время декодирования Е переданных каналов, причем шаг анализа включает в себя обнаружение переходного состояния с упреждением для формирования в декодере не только переходного состояния, но также сигнала до и после этого переходного состояния, при этом флаг устанавливают тогда, когда обнаруживают переходное состояние, или включает в себя обнаружение случайности для обнаружения того, флуктуирует ли временная огибающая псевдослучайным образом, причем упомянутый флаг устанавливают тогда, когда временная огибающая флуктуирует псевдослучайным образом, или включает в себя обнаружение тональности для того, чтобы не устанавливать флаг, когда Е переданных каналов являются тональными.
27. Способ по п.26, в котором при формировании огибающей настраивают временную огибающую декодированного канала, созданного декодером, для обеспечения фактического совпадения с временной огибающей соответствующего переданного канала.
28. Устройство для кодирования С входных аудиоканалов для создания Е передаваемых аудиоканалов, причем устройство содержит:
средство для создания одного или нескольких кодов ключевой информации для двух или более из С входных каналов;
средство для смешения С входных каналов с сокращением числа каналов для создания Е передаваемых каналов, где С>Е≥1; и
средство для анализа одного или нескольких из С входных каналов и Е передаваемых каналов для создания флага, указывающего, следует ли декодеру для Е переданных каналов выполнять формирование огибающей во время декодирования Е переданных каналов, причем средство анализа включает в себя обнаружение переходного состояния с упреждением для формирования в декодере не только переходного состояния, но также сигнала до и после этого переходного состояния, при этом упомянутый флаг устанавливают тогда, когда обнаруживают переходное состояние, или включает в себя обнаружение случайности для обнаружения того, флуктуирует ли временная огибающая псевдослучайным образом, причем упомянутый флаг устанавливают тогда, когда временная огибающая флуктуирует псевдослучайным образом, или включает в себя обнаружение тональности для того, чтобы не устанавливать флаг, когда Е переданных каналов являются тональными.
средство для создания одного или нескольких кодов ключевой информации для двух или более из С входных каналов;
средство для смешения С входных каналов с сокращением числа каналов для создания Е передаваемых каналов, где С>Е≥1; и
средство для анализа одного или нескольких из С входных каналов и Е передаваемых каналов для создания флага, указывающего, следует ли декодеру для Е переданных каналов выполнять формирование огибающей во время декодирования Е переданных каналов, причем средство анализа включает в себя обнаружение переходного состояния с упреждением для формирования в декодере не только переходного состояния, но также сигнала до и после этого переходного состояния, при этом упомянутый флаг устанавливают тогда, когда обнаруживают переходное состояние, или включает в себя обнаружение случайности для обнаружения того, флуктуирует ли временная огибающая псевдослучайным образом, причем упомянутый флаг устанавливают тогда, когда временная огибающая флуктуирует псевдослучайным образом, или включает в себя обнаружение тональности для того, чтобы не устанавливать флаг, когда Е переданных каналов являются тональными.
29. Устройство по п.28,
в котором средство для создания включает в себя блок оценки кода; и в котором средство для смешения с сокращением числа каналов включает в себя смеситель, сокращающий число каналов.
в котором средство для создания включает в себя блок оценки кода; и в котором средство для смешения с сокращением числа каналов включает в себя смеситель, сокращающий число каналов.
30. Устройство по п.29, в котором упомянутое устройство является системой, выбранной из группы, состоящей из цифрового видеомагнитофона, цифрового аудиомагнитофона, компьютера, спутникового передатчика, кабельного передатчика, наземного вещательного передатчика, системы домашних развлечений и системы домашнего кинотеатра; и
система содержит блок оценки кода и смеситель, сокращающий число каналов.
система содержит блок оценки кода и смеситель, сокращающий число каналов.
31. Машиночитаемый носитель, содержащий кодированный аудиобитовый поток, который при загрузке на декодер побуждает преобразование Е передаваемых аудиоканалов в выходной аудиосигнал, при этом закодированный аудиобитовый поток является созданным кодированием С входных аудиоканалов для создания Е передаваемых аудиоканалов, причем
для двух или более из С входных каналов создают один или несколько кодов ключевой информации;
С входных каналов смешивают с сокращением числа каналов для создания Е передаваемых каналов, где C>Е≥1;
флаг создают путем анализа одного или нескольких из С входных каналов и Е передаваемых каналов, причем флаг указывает, следует ли декодеру для Е переданных каналов выполнять формирование огибающей во время декодирования Е переданных каналов, причем флаг определяют путем обнаружения переходного состояния с упреждением для формирования в декодере не только переходного состояния, но также сигнала до и после переходного состояния, при этом флаг устанавливают тогда, когда обнаруживают переходное состояние, или включают обнаружение случайности для обнаружения того, флуктуирует ли временная огибающая псевдослучайным образом, причем флаг устанавливают тогда, когда временная огибающая флуктуирует псевдослучайным образом, или включают обнаружение тональности, чтобы не устанавливать флаг, когда Е переданных каналов являются тональными; и
Е передаваемых каналов, один или несколько кодов ключевой информации и флаг кодируют в кодированный аудиобитовый поток.
для двух или более из С входных каналов создают один или несколько кодов ключевой информации;
С входных каналов смешивают с сокращением числа каналов для создания Е передаваемых каналов, где C>Е≥1;
флаг создают путем анализа одного или нескольких из С входных каналов и Е передаваемых каналов, причем флаг указывает, следует ли декодеру для Е переданных каналов выполнять формирование огибающей во время декодирования Е переданных каналов, причем флаг определяют путем обнаружения переходного состояния с упреждением для формирования в декодере не только переходного состояния, но также сигнала до и после переходного состояния, при этом флаг устанавливают тогда, когда обнаруживают переходное состояние, или включают обнаружение случайности для обнаружения того, флуктуирует ли временная огибающая псевдослучайным образом, причем флаг устанавливают тогда, когда временная огибающая флуктуирует псевдослучайным образом, или включают обнаружение тональности, чтобы не устанавливать флаг, когда Е переданных каналов являются тональными; и
Е передаваемых каналов, один или несколько кодов ключевой информации и флаг кодируют в кодированный аудиобитовый поток.
32. Машиночитаемый носитель, содержащий компьютерный программный код, загрузка которого в компьютер побуждает преобразование входного аудиосигнала в соответствии с п.1 или кодирование С входных аудиосигналов в соответствии с п.26.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62040104P | 2004-10-20 | 2004-10-20 | |
US60/620,401 | 2004-10-20 | ||
US11/006,492 US8204261B2 (en) | 2004-10-20 | 2004-12-07 | Diffuse sound shaping for BCC schemes and the like |
US11/006,492 | 2004-12-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2007118674A RU2007118674A (ru) | 2008-11-27 |
RU2384014C2 true RU2384014C2 (ru) | 2010-03-10 |
Family
ID=36181866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2007118674/09A RU2384014C2 (ru) | 2004-10-20 | 2005-09-12 | Формирование рассеянного звука для схем бинаурального кодирования с использованием ключевой информации (всс) |
Country Status (20)
Country | Link |
---|---|
US (2) | US8204261B2 (ru) |
EP (1) | EP1803325B1 (ru) |
JP (1) | JP4625084B2 (ru) |
KR (1) | KR100922419B1 (ru) |
CN (2) | CN101853660B (ru) |
AT (1) | ATE413792T1 (ru) |
AU (1) | AU2005299070B2 (ru) |
BR (1) | BRPI0516392B1 (ru) |
CA (1) | CA2583146C (ru) |
DE (1) | DE602005010894D1 (ru) |
ES (1) | ES2317297T3 (ru) |
HK (1) | HK1104412A1 (ru) |
IL (1) | IL182235A (ru) |
MX (1) | MX2007004725A (ru) |
NO (1) | NO339587B1 (ru) |
PL (1) | PL1803325T3 (ru) |
PT (1) | PT1803325E (ru) |
RU (1) | RU2384014C2 (ru) |
TW (1) | TWI330827B (ru) |
WO (1) | WO2006045373A1 (ru) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2571921C2 (ru) * | 2014-04-08 | 2015-12-27 | Общество с ограниченной ответственностью "МедиаНадзор" | Способ фильтрации бинауральных воздействий в аудиопотоках |
RU2595943C2 (ru) * | 2011-01-05 | 2016-08-27 | Конинклейке Филипс Электроникс Н.В. | Аудиосистема и способ оперирования ею |
Families Citing this family (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8260393B2 (en) | 2003-07-25 | 2012-09-04 | Dexcom, Inc. | Systems and methods for replacing signal data artifacts in a glucose sensor data stream |
US8010174B2 (en) | 2003-08-22 | 2011-08-30 | Dexcom, Inc. | Systems and methods for replacing signal artifacts in a glucose sensor data stream |
US20140121989A1 (en) | 2003-08-22 | 2014-05-01 | Dexcom, Inc. | Systems and methods for processing analyte sensor data |
DE102004043521A1 (de) * | 2004-09-08 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes |
JPWO2006059567A1 (ja) * | 2004-11-30 | 2008-06-05 | 松下電器産業株式会社 | ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 |
CN101151659B (zh) * | 2005-03-30 | 2014-02-05 | 皇家飞利浦电子股份有限公司 | 多通道音频编码器、设备、方法及其解码器、设备和方法 |
CN101138274B (zh) * | 2005-04-15 | 2011-07-06 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
EP1905004A2 (en) * | 2005-05-26 | 2008-04-02 | LG Electronics Inc. | Method of encoding and decoding an audio signal |
KR101251426B1 (ko) * | 2005-06-03 | 2013-04-05 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법 |
AU2006266655B2 (en) * | 2005-06-30 | 2009-08-20 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
WO2007004831A1 (en) * | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
US8082157B2 (en) * | 2005-06-30 | 2011-12-20 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
JP5108767B2 (ja) * | 2005-08-30 | 2012-12-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号をエンコーディング及びデコーディングするための装置とその方法 |
JP5173811B2 (ja) * | 2005-08-30 | 2013-04-03 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号デコーディング方法及びその装置 |
US8577483B2 (en) * | 2005-08-30 | 2013-11-05 | Lg Electronics, Inc. | Method for decoding an audio signal |
EP1922722A4 (en) * | 2005-08-30 | 2011-03-30 | Lg Electronics Inc | METHOD FOR DECODING A SOUND SIGNAL |
US7788107B2 (en) * | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
US8019614B2 (en) * | 2005-09-02 | 2011-09-13 | Panasonic Corporation | Energy shaping apparatus and energy shaping method |
EP1761110A1 (en) * | 2005-09-02 | 2007-03-07 | Ecole Polytechnique Fédérale de Lausanne | Method to generate multi-channel audio signals from stereo signals |
WO2007032648A1 (en) * | 2005-09-14 | 2007-03-22 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
KR100857111B1 (ko) * | 2005-10-05 | 2008-09-08 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
US7672379B2 (en) * | 2005-10-05 | 2010-03-02 | Lg Electronics Inc. | Audio signal processing, encoding, and decoding |
US7751485B2 (en) * | 2005-10-05 | 2010-07-06 | Lg Electronics Inc. | Signal processing using pilot based coding |
US7696907B2 (en) | 2005-10-05 | 2010-04-13 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
ES2478004T3 (es) * | 2005-10-05 | 2014-07-18 | Lg Electronics Inc. | Método y aparato para decodificar una señal de audio |
US7646319B2 (en) * | 2005-10-05 | 2010-01-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US7653533B2 (en) * | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
US20070133819A1 (en) * | 2005-12-12 | 2007-06-14 | Laurent Benaroya | Method for establishing the separation signals relating to sources based on a signal from the mix of those signals |
KR100803212B1 (ko) * | 2006-01-11 | 2008-02-14 | 삼성전자주식회사 | 스케일러블 채널 복호화 방법 및 장치 |
US7752053B2 (en) * | 2006-01-13 | 2010-07-06 | Lg Electronics Inc. | Audio signal processing using pilot based coding |
ES2335246T3 (es) * | 2006-03-13 | 2010-03-23 | France Telecom | Sintesis y especializacion sonora conjunta. |
WO2007107670A2 (fr) * | 2006-03-20 | 2007-09-27 | France Telecom | Procede de post-traitement d'un signal dans un decodeur audio |
WO2007111568A2 (en) * | 2006-03-28 | 2007-10-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and arrangement for a decoder for multi-channel surround sound |
EP1853092B1 (en) | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US7876904B2 (en) * | 2006-07-08 | 2011-01-25 | Nokia Corporation | Dynamic decoding of binaural audio signals |
CN101652810B (zh) * | 2006-09-29 | 2012-04-11 | Lg电子株式会社 | 用于处理混合信号的装置及其方法 |
WO2008039041A1 (en) * | 2006-09-29 | 2008-04-03 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
EP2084901B1 (en) | 2006-10-12 | 2015-12-09 | LG Electronics Inc. | Apparatus for processing a mix signal and method thereof |
US7555354B2 (en) * | 2006-10-20 | 2009-06-30 | Creative Technology Ltd | Method and apparatus for spatial reformatting of multi-channel audio content |
WO2008060111A1 (en) * | 2006-11-15 | 2008-05-22 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
KR101062353B1 (ko) | 2006-12-07 | 2011-09-05 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 그 장치 |
JP5450085B2 (ja) * | 2006-12-07 | 2014-03-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
EP2595152A3 (en) * | 2006-12-27 | 2013-11-13 | Electronics and Telecommunications Research Institute | Transkoding apparatus |
WO2008082276A1 (en) * | 2007-01-05 | 2008-07-10 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
FR2911426A1 (fr) * | 2007-01-15 | 2008-07-18 | France Telecom | Modification d'un signal de parole |
CN101627425A (zh) * | 2007-02-13 | 2010-01-13 | Lg电子株式会社 | 用于处理音频信号的装置和方法 |
US20100121470A1 (en) * | 2007-02-13 | 2010-05-13 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
JP5355387B2 (ja) * | 2007-03-30 | 2013-11-27 | パナソニック株式会社 | 符号化装置および符号化方法 |
US8548615B2 (en) * | 2007-11-27 | 2013-10-01 | Nokia Corporation | Encoder |
WO2009075511A1 (en) * | 2007-12-09 | 2009-06-18 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
WO2009116280A1 (ja) * | 2008-03-19 | 2009-09-24 | パナソニック株式会社 | ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法 |
KR101600352B1 (ko) * | 2008-10-30 | 2016-03-07 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 장치 및 방법 |
JP5524237B2 (ja) * | 2008-12-19 | 2014-06-18 | ドルビー インターナショナル アーベー | 空間キューパラメータを用いてマルチチャンネルオーディオ信号に反響を適用する方法と装置 |
WO2010138311A1 (en) * | 2009-05-26 | 2010-12-02 | Dolby Laboratories Licensing Corporation | Equalization profiles for dynamic equalization of audio data |
JP5365363B2 (ja) * | 2009-06-23 | 2013-12-11 | ソニー株式会社 | 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム |
JP2011048101A (ja) * | 2009-08-26 | 2011-03-10 | Renesas Electronics Corp | 画素回路および表示装置 |
US8786852B2 (en) | 2009-12-02 | 2014-07-22 | Lawrence Livermore National Security, Llc | Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto |
WO2011104146A1 (en) | 2010-02-24 | 2011-09-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program |
EP2362375A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an audio signal using harmonic locking |
CA3097372C (en) | 2010-04-09 | 2021-11-30 | Dolby International Ab | Mdct-based complex prediction stereo coding |
KR20120004909A (ko) | 2010-07-07 | 2012-01-13 | 삼성전자주식회사 | 입체 음향 재생 방법 및 장치 |
US8908874B2 (en) * | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
KR101429564B1 (ko) | 2010-09-28 | 2014-08-13 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 디코딩된 다중채널 오디오 신호 또는 디코딩된 스테레오 신호를 포스트프로세싱하기 위한 장치 및 방법 |
EP2612321B1 (en) * | 2010-09-28 | 2016-01-06 | Huawei Technologies Co., Ltd. | Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal |
TWI450266B (zh) * | 2011-04-19 | 2014-08-21 | Hon Hai Prec Ind Co Ltd | 電子裝置及音頻資料的解碼方法 |
US9395304B2 (en) | 2012-03-01 | 2016-07-19 | Lawrence Livermore National Security, Llc | Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto |
JP5997592B2 (ja) * | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
EP2856776B1 (en) | 2012-05-29 | 2019-03-27 | Nokia Technologies Oy | Stereo audio signal encoder |
US9460729B2 (en) | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
US20140379333A1 (en) * | 2013-02-19 | 2014-12-25 | Max Sound Corporation | Waveform resynthesis |
US9191516B2 (en) * | 2013-02-20 | 2015-11-17 | Qualcomm Incorporated | Teleconferencing using steganographically-embedded audio data |
WO2014210284A1 (en) | 2013-06-27 | 2014-12-31 | Dolby Laboratories Licensing Corporation | Bitstream syntax for spatial voice coding |
JP6242489B2 (ja) | 2013-07-29 | 2017-12-06 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法 |
RU2642386C2 (ru) | 2013-10-03 | 2018-01-24 | Долби Лабораторис Лайсэнзин Корпорейшн | Адаптивное генерирование рассеянного сигнала в повышающем микшере |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
WO2017125559A1 (en) | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling |
CA2985019C (en) | 2016-02-17 | 2022-05-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing |
CN110800048B (zh) * | 2017-05-09 | 2023-07-28 | 杜比实验室特许公司 | 多通道空间音频格式输入信号的处理 |
TWI687919B (zh) * | 2017-06-15 | 2020-03-11 | 宏達國際電子股份有限公司 | 音頻訊號處理方法、音頻定位系統以及非暫態電腦可讀取媒體 |
CN109326296B (zh) * | 2018-10-25 | 2022-03-18 | 东南大学 | 一种非自由场条件下的散射声有源控制方法 |
WO2020100141A1 (en) * | 2018-11-15 | 2020-05-22 | Boaz Innovative Stringed Instruments Ltd. | Modular string instrument |
KR102603621B1 (ko) * | 2019-01-08 | 2023-11-16 | 엘지전자 주식회사 | 신호 처리 장치 및 이를 구비하는 영상표시장치 |
Family Cites Families (98)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4236039A (en) | 1976-07-19 | 1980-11-25 | National Research Development Corporation | Signal matrixing for directional reproduction of sound |
US4815132A (en) | 1985-08-30 | 1989-03-21 | Kabushiki Kaisha Toshiba | Stereophonic voice signal transmission system |
DE3639753A1 (de) * | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
DE3943879B4 (de) | 1989-04-17 | 2008-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Digitales Codierverfahren |
SG49883A1 (en) | 1991-01-08 | 1998-06-15 | Dolby Lab Licensing Corp | Encoder/decoder for multidimensional sound fields |
DE4209544A1 (de) | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
US5703999A (en) | 1992-05-25 | 1997-12-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels |
DE4236989C2 (de) | 1992-11-02 | 1994-11-17 | Fraunhofer Ges Forschung | Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle |
US5371799A (en) | 1993-06-01 | 1994-12-06 | Qsound Labs, Inc. | Stereo headphone sound source localization system |
US5463424A (en) | 1993-08-03 | 1995-10-31 | Dolby Laboratories Licensing Corporation | Multi-channel transmitter/receiver system providing matrix-decoding compatible signals |
JP3227942B2 (ja) | 1993-10-26 | 2001-11-12 | ソニー株式会社 | 高能率符号化装置 |
DE4409368A1 (de) | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
JP3277679B2 (ja) | 1994-04-15 | 2002-04-22 | ソニー株式会社 | 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置 |
JPH0969783A (ja) | 1995-08-31 | 1997-03-11 | Nippon Steel Corp | オーディオデータ符号化装置 |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5771295A (en) | 1995-12-26 | 1998-06-23 | Rocktron Corporation | 5-2-5 matrix system |
US7012630B2 (en) | 1996-02-08 | 2006-03-14 | Verizon Services Corp. | Spatial sound conference system and apparatus |
DE69734543T2 (de) | 1996-02-08 | 2006-07-20 | Koninklijke Philips Electronics N.V. | Mit 2-kanal- und 1-kanal-übertragung kompatible n-kanalübertragung |
US5825776A (en) | 1996-02-27 | 1998-10-20 | Ericsson Inc. | Circuitry and method for transmitting voice and data signals upon a wireless communication channel |
US5889843A (en) | 1996-03-04 | 1999-03-30 | Interval Research Corporation | Methods and systems for creating a spatial auditory environment in an audio conference system |
US5812971A (en) | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
KR0175515B1 (ko) | 1996-04-15 | 1999-04-01 | 김광호 | 테이블 조사 방식의 스테레오 구현 장치와 방법 |
US6987856B1 (en) | 1996-06-19 | 2006-01-17 | Board Of Trustees Of The University Of Illinois | Binaural signal processing techniques |
US6697491B1 (en) | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
JP3707153B2 (ja) | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
SG54379A1 (en) | 1996-10-24 | 1998-11-16 | Sgs Thomson Microelectronics A | Audio decoder with an adaptive frequency domain downmixer |
SG54383A1 (en) | 1996-10-31 | 1998-11-16 | Sgs Thomson Microelectronics A | Method and apparatus for decoding multi-channel audio data |
US5912976A (en) | 1996-11-07 | 1999-06-15 | Srs Labs, Inc. | Multi-channel audio enhancement system for use in recording and playback and methods for providing same |
US6131084A (en) | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6111958A (en) | 1997-03-21 | 2000-08-29 | Euphonics, Incorporated | Audio spatial enhancement apparatus and methods |
US6236731B1 (en) | 1997-04-16 | 2001-05-22 | Dspfactory Ltd. | Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids |
US5860060A (en) | 1997-05-02 | 1999-01-12 | Texas Instruments Incorporated | Method for left/right channel self-alignment |
US5946352A (en) | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
US6108584A (en) | 1997-07-09 | 2000-08-22 | Sony Corporation | Multichannel digital audio decoding method and apparatus |
DE19730130C2 (de) * | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
US5890125A (en) | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
MY121856A (en) * | 1998-01-26 | 2006-02-28 | Sony Corp | Reproducing apparatus. |
US6021389A (en) | 1998-03-20 | 2000-02-01 | Scientific Learning Corp. | Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
TW444511B (en) | 1998-04-14 | 2001-07-01 | Inst Information Industry | Multi-channel sound effect simulation equipment and method |
JP3657120B2 (ja) | 1998-07-30 | 2005-06-08 | 株式会社アーニス・サウンド・テクノロジーズ | 左,右両耳用のオーディオ信号を音像定位させるための処理方法 |
JP2000151413A (ja) | 1998-11-10 | 2000-05-30 | Matsushita Electric Ind Co Ltd | オーディオ符号化における適応ダイナミック可変ビット割り当て方法 |
JP2000152399A (ja) | 1998-11-12 | 2000-05-30 | Yamaha Corp | 音場効果制御装置 |
US6408327B1 (en) | 1998-12-22 | 2002-06-18 | Nortel Networks Limited | Synthetic stereo conferencing over LAN/WAN |
US6282631B1 (en) | 1998-12-23 | 2001-08-28 | National Semiconductor Corporation | Programmable RISC-DSP architecture |
EP1173925B1 (en) | 1999-04-07 | 2003-12-03 | Dolby Laboratories Licensing Corporation | Matrixing for lossless encoding and decoding of multichannels audio signals |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
JP4438127B2 (ja) | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
US6823018B1 (en) | 1999-07-28 | 2004-11-23 | At&T Corp. | Multiple description coding communication system |
US6434191B1 (en) | 1999-09-30 | 2002-08-13 | Telcordia Technologies, Inc. | Adaptive layered coding for voice over wireless IP applications |
US6614936B1 (en) | 1999-12-03 | 2003-09-02 | Microsoft Corporation | System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding |
US6498852B2 (en) | 1999-12-07 | 2002-12-24 | Anthony Grimani | Automatic LFE audio signal derivation system |
US6845163B1 (en) | 1999-12-21 | 2005-01-18 | At&T Corp | Microphone array for preserving soundfield perceptual cues |
JP4842483B2 (ja) | 1999-12-24 | 2011-12-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチチャネルオーディオ信号処理装置及び方法 |
US6782366B1 (en) | 2000-05-15 | 2004-08-24 | Lsi Logic Corporation | Method for independent dynamic range control |
JP2001339311A (ja) | 2000-05-26 | 2001-12-07 | Yamaha Corp | オーディオ信号圧縮回路および伸長回路 |
US6850496B1 (en) | 2000-06-09 | 2005-02-01 | Cisco Technology, Inc. | Virtual conference room for voice conferencing |
US6973184B1 (en) | 2000-07-11 | 2005-12-06 | Cisco Technology, Inc. | System and method for stereo conferencing over low-bandwidth links |
US7236838B2 (en) | 2000-08-29 | 2007-06-26 | Matsushita Electric Industrial Co., Ltd. | Signal processing apparatus, signal processing method, program and recording medium |
US6996521B2 (en) | 2000-10-04 | 2006-02-07 | The University Of Miami | Auxiliary channel masking in an audio signal |
JP3426207B2 (ja) | 2000-10-26 | 2003-07-14 | 三菱電機株式会社 | 音声符号化方法および装置 |
TW510144B (en) | 2000-12-27 | 2002-11-11 | C Media Electronics Inc | Method and structure to output four-channel analog signal using two channel audio hardware |
US6885992B2 (en) * | 2001-01-26 | 2005-04-26 | Cirrus Logic, Inc. | Efficient PCM buffer |
US20030007648A1 (en) | 2001-04-27 | 2003-01-09 | Christopher Currell | Virtual audio system and techniques |
US7006636B2 (en) | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US20030035553A1 (en) | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7644003B2 (en) | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US6934676B2 (en) | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
US7668317B2 (en) | 2001-05-30 | 2010-02-23 | Sony Corporation | Audio post processing in DVD, DTV and other audio visual products |
SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
JP2003044096A (ja) | 2001-08-03 | 2003-02-14 | Matsushita Electric Ind Co Ltd | マルチチャンネルオーディオ信号符号化方法、マルチチャンネルオーディオ信号符号化装置、記録媒体および音楽配信システム |
EP1421720A4 (en) * | 2001-08-27 | 2005-11-16 | Univ California | COCHLEAR IMPLANTS AND APPARATUSES / METHODS FOR IMPROVING AUDIO SIGNALS BY IMPLEMENTING FREQUENCY MODULATION AND AMPLITUDE (FAME) CODING STRATEGIES |
US6539957B1 (en) * | 2001-08-31 | 2003-04-01 | Abel Morales, Jr. | Eyewear cleaning apparatus |
CN1705980A (zh) | 2002-02-18 | 2005-12-07 | 皇家飞利浦电子股份有限公司 | 参数音频编码 |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
ES2268340T3 (es) | 2002-04-22 | 2007-03-16 | Koninklijke Philips Electronics N.V. | Representacion de audio parametrico de multiples canales. |
DE60326782D1 (de) | 2002-04-22 | 2009-04-30 | Koninkl Philips Electronics Nv | Dekodiervorrichtung mit Dekorreliereinheit |
EP2879299B1 (en) | 2002-05-03 | 2017-07-26 | Harman International Industries, Incorporated | Multi-channel downmixing device |
US6940540B2 (en) | 2002-06-27 | 2005-09-06 | Microsoft Corporation | Speaker detection and tracking using audiovisual data |
AU2003244932A1 (en) | 2002-07-12 | 2004-02-02 | Koninklijke Philips Electronics N.V. | Audio coding |
EP1523863A1 (en) | 2002-07-16 | 2005-04-20 | Koninklijke Philips Electronics N.V. | Audio coding |
WO2004008437A2 (en) | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
US8437868B2 (en) | 2002-10-14 | 2013-05-07 | Thomson Licensing | Method for coding and decoding the wideness of a sound source in an audio scene |
KR101008520B1 (ko) | 2002-11-28 | 2011-01-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 신호 코딩 |
JP2004193877A (ja) | 2002-12-10 | 2004-07-08 | Sony Corp | 音像定位信号処理装置および音像定位信号処理方法 |
KR101049751B1 (ko) | 2003-02-11 | 2011-07-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
FI118247B (fi) | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
US20060171542A1 (en) | 2003-03-24 | 2006-08-03 | Den Brinker Albertus C | Coding of main and side signal representing a multichannel signal |
CN100339886C (zh) * | 2003-04-10 | 2007-09-26 | 联发科技股份有限公司 | 可以检测声音信号的暂态位置的编码器及编码方法 |
CN1460992A (zh) * | 2003-07-01 | 2003-12-10 | 北京阜国数字技术有限公司 | 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组 |
US7343291B2 (en) | 2003-07-18 | 2008-03-11 | Microsoft Corporation | Multi-pass variable bitrate media encoding |
US20050069143A1 (en) | 2003-09-30 | 2005-03-31 | Budnikov Dmitry N. | Filtering for spatial audio rendering |
US7672838B1 (en) | 2003-12-01 | 2010-03-02 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals |
US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7903824B2 (en) | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
US7653533B2 (en) | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
-
2004
- 2004-12-07 US US11/006,492 patent/US8204261B2/en active Active
-
2005
- 2005-09-12 EP EP05785586A patent/EP1803325B1/en active Active
- 2005-09-12 CA CA2583146A patent/CA2583146C/en active Active
- 2005-09-12 AU AU2005299070A patent/AU2005299070B2/en active Active
- 2005-09-12 CN CN2010101384551A patent/CN101853660B/zh active Active
- 2005-09-12 BR BRPI0516392A patent/BRPI0516392B1/pt active IP Right Grant
- 2005-09-12 KR KR1020077008796A patent/KR100922419B1/ko active IP Right Grant
- 2005-09-12 ES ES05785586T patent/ES2317297T3/es active Active
- 2005-09-12 RU RU2007118674/09A patent/RU2384014C2/ru active
- 2005-09-12 PT PT05785586T patent/PT1803325E/pt unknown
- 2005-09-12 MX MX2007004725A patent/MX2007004725A/es active IP Right Grant
- 2005-09-12 PL PL05785586T patent/PL1803325T3/pl unknown
- 2005-09-12 JP JP2007537134A patent/JP4625084B2/ja active Active
- 2005-09-12 DE DE602005010894T patent/DE602005010894D1/de active Active
- 2005-09-12 AT AT05785586T patent/ATE413792T1/de active
- 2005-09-12 CN CN2005800359507A patent/CN101044794B/zh active Active
- 2005-09-12 WO PCT/EP2005/009784 patent/WO2006045373A1/en active Application Filing
- 2005-10-11 TW TW094135353A patent/TWI330827B/zh active
-
2007
- 2007-03-21 NO NO20071492A patent/NO339587B1/no unknown
- 2007-03-27 IL IL182235A patent/IL182235A/en active IP Right Grant
- 2007-11-23 HK HK07112769A patent/HK1104412A1/xx unknown
-
2009
- 2009-08-31 US US12/550,519 patent/US8238562B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2595943C2 (ru) * | 2011-01-05 | 2016-08-27 | Конинклейке Филипс Электроникс Н.В. | Аудиосистема и способ оперирования ею |
RU2571921C2 (ru) * | 2014-04-08 | 2015-12-27 | Общество с ограниченной ответственностью "МедиаНадзор" | Способ фильтрации бинауральных воздействий в аудиопотоках |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2384014C2 (ru) | Формирование рассеянного звука для схем бинаурального кодирования с использованием ключевой информации (всс) | |
RU2339088C1 (ru) | Индивидуальное формирование каналов для схем всс и т.п. | |
RU2383939C2 (ru) | Компактная дополнительная информация для параметрического кодирования пространственного звука | |
US7761304B2 (en) | Synchronizing parametric coding of spatial audio with externally provided downmix | |
JP5106115B2 (ja) | オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング |