RU2450369C2 - Устройство и способ для кодирования многоканального звукового сигнала - Google Patents

Устройство и способ для кодирования многоканального звукового сигнала Download PDF

Info

Publication number
RU2450369C2
RU2450369C2 RU2010116295/08A RU2010116295A RU2450369C2 RU 2450369 C2 RU2450369 C2 RU 2450369C2 RU 2010116295/08 A RU2010116295/08 A RU 2010116295/08A RU 2010116295 A RU2010116295 A RU 2010116295A RU 2450369 C2 RU2450369 C2 RU 2450369C2
Authority
RU
Russia
Prior art keywords
signal
audio signal
module
channel audio
inter
Prior art date
Application number
RU2010116295/08A
Other languages
English (en)
Other versions
RU2010116295A (ru
Inventor
Джонатан Аластэр ГИББЗ (GB)
Джонатан Аластэр ГИББЗ
Original Assignee
Моторола Мобилити, Инк.,
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Моторола Мобилити, Инк., filed Critical Моторола Мобилити, Инк.,
Publication of RU2010116295A publication Critical patent/RU2010116295A/ru
Application granted granted Critical
Publication of RU2450369C2 publication Critical patent/RU2450369C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M3/00Conversion of analogue values to or from differential modulation
    • H03M3/30Delta-sigma modulation
    • H03M3/458Analogue/digital converters using delta-sigma modulation as an intermediate step
    • H03M3/466Multiplexed conversion systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Изобретение относится к кодированию многоканального звукового сигнала, в частности к сведению фонограмм стереофонического речевого сигнала к монофоническому сигналу для кодирования с помощью монофонического кодера, такого как кодер линейного предсказания. Техническим результатом является повышение качества и эффективности кодирования. Указанный результат достигается тем, что устройство для кодирования многоканального звукового сигнала содержит приемник многоканального звукового сигнала, содержащего первый и второй звуковые сигналы от первого и второго микрофонов, модуль разности времени для определения межвременной разности между первым и вторым звуковыми сигналами посредством объединения последовательных наблюдений взаимных корреляций между первым и вторым звуковыми сигналами, при этом взаимные корреляции нормализуются для вывода вероятностей состояния, накапливаемых с использованием алгоритма Витерби, для достижения межвременной разности со встроенным гистерезисом, и алгоритм Витерби вычисляет показатель вероятности состояния для каждого заданного состояния в виде объединенного вклада от всех маршрутов, входящих в это состояние, модуль задержек для компенсации многоканального звукового сигнала посредством задержки первого или второго звукового сигнала в ответ на сигнал межвременной разности, монофонический модуль для генерирования монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала, и кодер монофонического сигнала. 2 н. и 8 з.п. ф-лы, 5 ил.

Description

Область техники, к которой относится изобретение
Изобретение относится к устройству и способу, предназначенным для кодирования многоканального звукового сигнала, и в частности, но не исключительно, к сведению фонограмм стереофонического речевого сигнала к монофоническому сигналу для кодирования с помощью монофонического кодера, такого как кодер линейного предсказания с кодированием.
Уровень техники
Эффективное кодирование звуковых сигналов является критическим для увеличивающегося количества прикладных программ и систем. Например, в мобильной связи для снижения количества данных, которые необходимо передавать через радиоинтерфейс, используются эффективные кодеры речевых сигналов.
Например, Международный союз по телекоммуникациям (ITU) стандартизирует кодер речевых сигналов, известный как встраиваемый кодек переменного потока данных (EV-VBR), который может кодировать речевой сигнал высокого качества со скоростями передачи данных, находящимися в пределах от 8 до 64 кбит/с. Этот кодер, так же как множество других эффективных кодеров речевых сигналов, использует методы линейного предсказания с кодированием (CELP), чтобы достигать высокой степени сжатия процесса кодирования при работе на более низких скоростях передачи данных.
В некоторых применениях может захватываться больше чем один звуковой сигнал, и, в частности, в звуковых системах может записываться стереофонический сигнал с использованием двух микрофонов. Например, стереофоническая запись обычно может использоваться в аудио- и видеоконференцсвязи, а также в прикладных программах широковещательной передачи.
Во многих многоканальных системах кодирования и, в частности, во многих многоканальных системах кодирования речи, кодирование низкого уровня основано на кодировании единственного канала. В таких системах многоканальный сигнал может быть преобразован в монофонический сигнал для нижних уровней кодера, чтобы выполнять кодирование. Генерирование такого монофонического сигнала упоминается как сведение фонограмм. Такое сведение фонограмм может быть связано с параметрами, которые описывают аспекты стереофонического сигнала относительно монофонического сигнала. В частности, сведение фонограмм может генерировать информацию о межканальной разности времени прихода сигналов (ITD), которая характеризует разницу согласования во времени между левым и правым каналами. Например, если два микрофона расположены на расстоянии друг от друга, сигнал от динамика, расположенного ближе к одному микрофону, чем к другому, будет достигать последнего микрофона с задержкой относительно первого микрофона. Эта ITD может быть определена и может использоваться в декодере, чтобы восстанавливать стереофонический сигнал из монофонического сигнала. ITD может значительно улучшать качество перспективы восстанавливаемого стереофонического сигнала, поскольку было найдено, что ITD имеет доминантное перцепционное влияние на определение местонахождения стереофонического сигнала для частот ниже приблизительно 1 кГц. Таким образом, важно также оценивать ITD.
Традиционно, монофонический сигнал генерируется посредством суммирования стереофонических сигналов вместе. Затем монофонический сигнал кодируется и передается в декодер вместе с ITD.
Например, Европейский институт стандартизации электросвязи в своем ETSI TS126290 технического описания "Extended Adaptive Multi-Rate - Wideband (AMR-WB+) Codec; Transcoding Functions" определяет сведение фонограмм стереофонического сигнала, где монофонический сигнал определяется просто как средняя величина от левого и правого каналов следующим образом.
xML(n)=0,5(xLL(n)+xRL(n)),
где xML(n) представляет n выборку монофонического сигнала, xLL(n) представляет n выборку сигнала левого канала, а xRL(n) представляет n выборку сигнала правого канала.
Другой пример сведения фонограмм обеспечен в работе H. Purnhagen, "Low Complexity Parametric Stereo Coding in MPEG-4", Proceedings 7th International Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pp 163-168. В этом документе описан способ сведения фонограмм, который получает выходной монофонический сигнал в виде взвешенной суммы поступающих каналов на основе частот по диапазонам, используя информацию, полученную относительно межканальной разности интенсивности (IID). В частности:
М[k,i]=gl L[k,i]+gr R[k,i],
где М[k,i] представляет i выборку k элемента разрешения по частоте монофонического сигнала, L[k,i] представляет i выборку k элемента разрешения по частоте сигнала левого канала и R[k,i] представляет i выборку k элемента разрешения по частоте сигнала правого канала, gl - весовой коэффициент левого канала, а gr - весовой коэффициент правого канала.
Характерная особенность таких подходов заключается в том, что они либо приводят к монофоническим сигналам, имеющим высокое время реверберации, либо имеют большую сложность и/или задержку. Например, способ AMR-WB+ сведения фонограмм обеспечивает выходной сигнал, время реверберации которого является приблизительно таким, как время полета по помещению плюс время полета между этими двумя микрофонами. Сведение фонограмм, обеспечиваемое в работе Purnhagen, имеет большую сложность и накладывает задержки из-за анализа и восстановления частот.
Однако множество монофонических кодеров обеспечивают лучшие результаты для сигналов с низким временем реверберации. Например, кодеры речевых сигналов CELP (линейное предсказание с кодированием) низкой скорости передачи битов и другие кодеры, которые используют возбуждение на основе импульса, чтобы представлять речевые сигналы и звуковые сигналы, работают лучше всего, когда присутствуют сигналы, имеющие короткое время реверберации. Соответственно функционирование кодера и качество получаемого в результате кодированного сигнала имеет тенденцию быть близкими к оптимальным.
Следовательно, может быть выгодна улучшенная система, и, в частности, может быть выгодна система, обеспечивающая возможность повышенной гибкости, облегченной реализации, улучшенного качества кодирования, улучшенной эффективности кодирования, уменьшенной задержки и/или улучшенных функциональных характеристик.
Сущность изобретения
Соответственно изобретение стремится предпочтительно смягчить, улучшить или устранить один или больше из вышеупомянутых недостатков в отдельности или в любом сочетании.
В соответствии с аспектом изобретения обеспечено устройство для кодирования многоканального звукового сигнала, причем устройство содержит: приемник для приема многоканального звукового сигнала, содержащего по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона; модуль разности времени для определения межвременной разности первого звукового сигнала и второго звукового сигнала; модуль задержек для генерирования компенсированного многоканального звукового сигнала из многоканального звукового сигнала посредством задерживания по меньшей мере одного из первого звукового сигнала и второго звукового сигнала в ответ на сигнал межвременной разности; монофонический модуль для генерирования монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала; и кодер монофонического сигнала для кодирования монофонического сигнала.
Изобретение может обеспечивать улучшенное кодирование многоканального звукового сигнала. В частности, улучшенное качество для заданной скорости передачи данных может быть достигнуто во многих вариантах осуществления. Изобретение может обеспечивать улучшенное монофоническое кодирование монофонического сигнала сведения фонограмм из стереофонического сигнала посредством снижения времен реверберации монофонического сигнала сведения фонограмм. Модуль задержек может задерживать либо первый звуковой сигнал, либо второй звуковой сигнал, в зависимости от того, который микрофон является ближайшим к (основному) источнику звуковых сигналов. Межвременная разность может быть индикацией межвременной разности между соответствующими компонентами звуковых сигналов от первого и второго звуковых сигналов, исходящих из одного и того же источника звуковых сигналов. Модуль для генерирования монофонического сигнала может быть выполнен с возможностью суммировать два канала объединенного многоканального звукового сигнала, которые соответствуют первому и второму звуковым сигналам. В некоторых вариантах осуществления суммирование может быть взвешенным суммированием.
В соответствии с дополнительным признаком изобретения модуль разности времени выполнен с возможностью определять взаимные корреляции между первым звуковым сигналом и вторым звуковым сигналом для множества сдвигов по времени, и определять межвременную разность в ответ на взаимные корреляции.
Признак может обеспечивать возможность улучшенного определения межвременной разности. Признак может улучшать качество закодированного звукового сигнала и/или может облегчать реализацию и/или снижать сложность. В частности, признак может обеспечивать улучшенное стереофоническое восприятие стереофонического сигнала, сформированного из монофонического сигнала и межвременной разности. Взаимные корреляции могут указывать вероятность того, что межвременная разность равна сдвигу по времени индивидуальных взаимных корреляций.
В соответствии с другим аспектом изобретения обеспечен способ кодирования многоканального звукового сигнала, причем способ содержит: прием многоканального звукового сигнала, содержащего по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона; определение межвременной разности между первым звуковым сигналом и вторым звуковым сигналом; генерирование компенсированного многоканального звукового сигнала из многоканального звукового сигнала посредством задерживания по меньшей мере одного из первого звукового сигнала и второго звукового сигнала в ответ на сигнал межвременной разности; генерирование монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала; и кодирование монофонического сигнала в кодере монофонического сигнала.
Эти и другие аспекты, признаки и преимущества изобретения будут очевидны и объяснены со ссылкой на вариант (варианты) осуществления, описанные в дальнейшем.
Краткое описание чертежей
Ниже будут описаны варианты осуществления изобретения, только посредством примера, со ссылкой на чертежи, на которых
фиг. 1 иллюстрирует пример устройства для кодирования многоканального звукового сигнала в соответствии с некоторыми вариантами осуществления изобретения;
фиг. 2 иллюстрирует пример модуля обработки данных, предназначенного для оценивания межвременной разности в соответствии с некоторыми вариантами осуществления изобретения;
фиг. 3 иллюстрирует пример процессора отбеливания в соответствии с некоторыми вариантами осуществления изобретения;
фиг. 4 иллюстрирует пример обновления состояния для конечного автомата матрицы в соответствии с некоторыми вариантами осуществления изобретения; и
фиг. 5 иллюстрирует пример способа кодирования многоканального звукового сигнала в соответствии с некоторыми вариантами осуществления изобретения.
Подробное описание некоторых вариантов осуществления изобретения
Последующее описание сфокусировано на вариантах осуществления изобретения, применимых к кодированию многоканального звукового сигнала с использованием монофонического кодера и, в частности, к кодированию стереофонического речевого сигнала с использованием монофонического кодера CELP.
Фиг. 1 иллюстрирует устройство для кодирования многоканального звукового сигнала в соответствии с некоторыми вариантами осуществления изобретения. В конкретном примере стереофонический речевой сигнал подвергается сведению фонограмм к монофоническому сигналу и кодируется с использованием монофонического кодера.
Устройство содержит два микрофона 101, 103, захватывающие звуковые сигналы из аудиосреды, в которой расположены эти два микрофона. В примере два микрофона используются для записи речевых сигналов в помещении и расположены с внутренним расстоянием до 3 метров. В конкретном применении, микрофоны 101, 103 могут, например, записывать речевые сигналы от множества людей в помещении, и использование двух микрофонов может обеспечивать лучшую зону уверенного приема звуковых сигналов для этого помещения.
Микрофоны 101, 103 связаны с процессором 105 обработки кадров, который принимает первый и второй сигналы от первого и второго микрофонов 101, 103, соответственно. Процессор обработки кадров делит сигналы на последовательные кадры. В конкретном примере частота дискретизации сигналов составляет 16 киловыборок в секунду, а продолжительность кадра составляет 20 мс, приводя к тому, что каждый кадр содержит 320 выборок. Следует отметить, что обработка кадров не обязательно приводит к дополнительной задержке в речевом тракте, поскольку этот кадр может быть тем же кадром, что используется для речевого кодирования, или обработка кадра может выполняться, например, на старых выборках речевых сигналов.
Процессор 105 обработки кадров подсоединен к процессору 107 ITD, который выполнен с возможностью определять межвременную разность между первым звуковым сигналом и вторым звуковым сигналом. Межвременная разность представляет собой индикацию задержки сигнала в одном канале относительно сигнала в другом канале. В этом примере межвременная разность может быть положительной или отрицательной, в зависимости от того, который из каналов является запаздывающим относительно другого. Задержка обычно будет происходить из-за разницы в задержках между доминирующим источником речи (то есть человеком, говорящим в настоящее время) и микрофонами 101, 103.
Процессор 107 ITD помимо этого подсоединен к двум элементам 109, 111 задержки. Первый элемент 109 задержки выполнен с возможностью вводить задержку в первый звуковой канал, а второй элемент 109 задержки выполнен с возможностью вводить задержку во второй звуковой канал. Величина вводимой задержки зависит от оцененной межвременной разности. Кроме того, в конкретном примере в любое данное время используется только один из элементов задержки. Таким образом, в зависимости от знака оцененной межвременной разности задержка вводится либо в первый, либо во второй звуковой сигнал. В частности, величина задержки устанавливается так, чтобы быть настолько близкой к оцененной межвременной разности, насколько возможно. В результате этого звуковые сигналы на выходе элементов 109, 111 задержки являются близко выровненными по времени и, в частности, будут иметь межвременную разность, которая обычно может быть близка к нулю.
Элементы 109, 111 задержки подсоединены к блоку 113 объединения, который генерирует монофонический сигнал посредством объединения каналов компенсированного многоканального звукового сигнала и, в частности, посредством объединения двух выходных сигналов от элементов 109, 111 задержки. В примере блок 113 объединения представляет собой простой модуль суммирования, который складывает два сигнала вместе. Кроме того, сигналы масштабируются с помощью коэффициента 0,5, чтобы поддерживать амплитуду монофонического сигнала, подобную амплитуде индивидуальных сигналов до объединения.
Таким образом, выходной сигнал блока 113 объединения представляет собой монофонический сигнал, который является сведением фонограмм двух захваченных сигналов. Кроме того, из-за задержки и снижения межвременной разности, сгенерированный монофонический сигнал имеет значительно уменьшенную реверберацию.
Блок 113 объединения подсоединен к монофоническому кодеру 115, который выполняет монофоническое кодирование монофонического сигнала для генерирования закодированных данных. В конкретном примере монофонический кодер представляет собой кодер линейного предсказания с кодированием (CELP) в соответствии со встраиваемым кодеком переменного потока данных (EV-VBR), стандартизируемым Международным союзом по телекоммуникациям (ITU).
Кодеры CELP, как известно, обеспечивают чрезвычайно эффективное кодирование и, в частности, обеспечивают хорошее качество речи даже для низких скоростей передачи данных. Однако кодеры CELP имеют тенденцию не выполнять операции также хорошо для сигналов с большим временем реверберации, и поэтому не являются подходящими для кодирования традиционно производимых монофонических сведений фонограмм. Однако, из-за компенсации задержки и образующейся в результате уменьшенной реверберации, монофонические кодеры CELP могут использоваться в устройстве фиг. 1, чтобы обеспечивать весьма эффективное кодирование речевого монофонического сигнала сведения фонограмм. Следует оценить, что эти преимущества являются особенно подходящими для монофонических кодеров CELP, но не ограничены этим, и могут применяться ко многим другим кодерам.
Монофонический кодер 115 подсоединен к мультиплексору 117 вывода, который помимо этого подсоединен к процессору 107 ITD. В примере мультиплексор 117 вывода мультиплексирует данные кодирования от монофонического кодера 115 и данные, представляющие межвременную разность, от процессора 107 ITD в единый выходной битовый поток. Включение межвременной разности в битовый поток может помогать декодеру в восстановлении стереофонического сигнала из монофонического сигнала, декодированного из данных кодирования.
Таким образом, описанная система обеспечивает улучшенную функциональную характеристику и, в частности, может обеспечивать улучшенное качество звучания для данной скорости передачи данных. В частности, улучшенное использование монофонического кодера, такого как кодер CELP, может приводить к значительно улучшенному качеству. Кроме того, описанные функциональные возможности являются простыми в реализации и имеют относительно низкие требуемые ресурсы.
В дальнейшем со ссылкой на фиг. 2 будет описана оценка межвременной разности, выполняемая процессором 107 ITD.
Алгоритм, используемый процессором 107 ITD, определяет оценку межвременной разности посредством объединения последовательных результатов наблюдения взаимных корреляций между первым и вторым звуковыми сигналами для различных возможных сдвигов по времени между каналами. Корреляции выполняются в децимированной остаточной области LPC, чтобы обеспечивать более хорошо определенные корреляции, облегчать реализацию и снижать потребности в вычислениях. В примере взаимные корреляции обрабатываются так, чтобы вывести вероятность, связанную с каждой потенциальной задержкой между -12 мс и +12 мс (±~4 метра), а затем вероятности накапливаются, используя модифицированный алгоритм, подобный алгоритму Витерби. Результат представляет собой оценку межвременной разности со встроенным гистерезисом.
Процессор 107 ITD содержит процессор 201 децимации, который принимает кадры выборок для двух каналов от процессора 105 обработки кадров. Процессор 201 децимации сначала выполняет фильтрацию фильтром нижних частот, за которой следует децимация. В конкретном примере, фильтр нижних частот имеет ширину полосы пропускания, равную приблизительно 2 кГц, и коэффициент децимации, равный четырем, используется для сигнала 16 киловыборок в секунду, что приводит к децимированной частоте дискретизации сигналов, составляющей 4 киловыборки в секунду. Воздействие фильтрования и децимации в некоторой степени снижает количество обрабатываемых выборок, таким образом уменьшая потребности в вычислениях. Однако, кроме того, этот подход позволяет фокусировать оценку межвременной разности на более низких частотах, где перцепционная значимость межвременной разности является наиболее существенной. Таким образом, фильтрование и децимация не только уменьшают затраты вычислительных ресурсов, но также обеспечивают синергетический эффект, гарантирующий, что оценка межвременной разности является релевантной для наиболее воспринимаемых частот.
Процессор 201 децимации подсоединен к процессору 203 отбеливания, который выполнен с возможностью применять алгоритм спектрального отбеливания к первому и второму звуковым сигналам до корреляции. Спектральное отбеливание приводит к сигналам временной области двух сигналов, имеющим наибольшее сходство с совокупностью импульсов, в случае вокализованной или тональной речи, таким образом обеспечивая возможность при последовательной корреляции приводить к лучше определенным значениям взаимной корреляции и, в частности, приводить к более узким максимумам корреляции (частотная характеристика импульса соответствует равномерному или белому спектру, и наоборот, представление временной области белого спектра является импульсом).
В конкретном примере, спектральное отбеливание содержит вычислительные коэффициенты линейного предсказания для первого и второго звуковых сигналов и для фильтрования первого и второго звуковых сигналов в ответ на коэффициенты линейного предсказания.
Элементы процессора 203 отбеливания показаны на фиг. 3. В частности, сигналы от процессора 201 децимации подаются в процессоры 301, 303 LPC, которые определяют коэффициенты линейного предсказания (LPC) для фильтров линейного предсказания для двух сигналов. Следует оценить, что специалистам в данной области техники известны различные алгоритмы для определения LPC, и что можно использовать любой соответствующий алгоритм, не приуменьшая изобретение.
В примере два звуковых сигнала подаются в два фильтра 305, 307, которые подсоединены к процессорам 301, 303 LPC. Два фильтра определены так, что они являются обратными фильтрами для фильтров линейного предсказания, определяемых процессорами 301, 303 LPC. В частности, процессоры 301, 303 LPC определяют коэффициенты для обратных фильтров для фильтров линейного предсказания, и коэффициенты двух фильтров устанавливаются на эти значения.
Выходной сигнал двух обратных фильтров 305, 307 в случае вокализованной речи напоминает совокупности последовательностей импульсов, и таким образом позволяет выполнять значительно более точную взаимную корреляцию, чем это возможно в речевой области.
Процессор 203 отбеливания подсоединен к коррелятору 205, который выполнен с возможностью определять взаимные корреляции между выходными сигналами двух фильтров 305, 307 для множества сдвигов по времени.
В частности, коррелятор может определять значения:
Figure 00000001
где t - сдвиг по времени, x и y - выборки из двух сигналов, а N представляет выборки в определенном кадре.
Корреляция выполняется для совокупности возможных сдвигов по времени. В конкретном примере корреляция выполняется для суммы 97 сдвигов по времени, соответствующей максимальному сдвигу по времени ±12 мс. Однако следует оценить, что в других вариантах осуществления могут использоваться другие совокупности сдвигов по времени.
Таким образом, коррелятор генерирует 97 значений взаимной корреляции с каждой взаимной корреляцией, соответствующей конкретному сдвигу по времени между двумя каналами, и таким образом, возможной межвременной разности. Значение взаимной корреляции соответствует индикации относительно того, насколько близко согласовываются два сигнала для конкретного сдвига по времени. Таким образом, для высокого значения взаимной корреляции, сигналы точно согласовываются, и имеется, соответственно, высокая вероятность того, что сдвиг по времени является точной оценкой межвременной разности. И наоборот, для низкого значения взаимной корреляции сигналы точно не согласовываются, и имеется, соответственно, низкая вероятность того, что сдвиг по времени является точной оценкой межвременной разности. Таким образом, для каждого кадра коррелятор 205 генерирует 97 значений взаимной корреляции с каждым значением, являющимся индикацией вероятности того, что соответствующий сдвиг по времени является правильной межвременной разностью.
В примере коррелятор 205 выполнен с возможностью выполнять организацию окон на первом и втором звуковых сигналах до взаимной корреляции. В частности, каждый блок выборок кадров из двух сигналов подвергается организации окон с 20 мс окном, содержащим прямоугольную центральную секцию, составляющую 14 мс, и два участка Hann по 3 мс на каждом конце. Эта организация окон может улучшать точность и снижать воздействие краевых эффектов на краю окна корреляции.
Также, в примере, взаимная корреляция нормализуется. Нормализация, в частности, должна гарантировать, что максимальное значение взаимной корреляции, которое может быть достигнуто (то есть когда два сигнала идентичны), имеет значение единицы. Нормализация обеспечивается для значений взаимной корреляции, которые являются относительно независимыми от уровней сигналов для входных сигналов и проверенных коррелированных сдвигов по времени, таким образом обеспечивая более точную индикацию вероятности. В частности, это обеспечивает возможность улучшенного сравнивания и обработки для последовательности кадров.
В простом варианте осуществления выходной сигнал коррелятора 205 можно оценивать прямо, и межвременную разность для текущего кадра можно устанавливать на значение, которое имеет самую высокую вероятность, как показано значением взаимной корреляции. Однако такой способ может иметь тенденцию обеспечивать менее достоверный выходной сигнал, поскольку речевой сигнал колеблется от вокализованного до невокализованного при молчании, и в описанном примере, сигнал коррелятора подается в процессор 207 состояний, который обрабатывает значения корреляции для множества состояний, чтобы обеспечивать более точную оценку межвременной разности.
В примере значения корреляции используются как обновляемые этапы в накапливающем сумматоре показателей алгоритма Витерби, реализованном в процессоре 207 состояний.
Таким образом, процессор 207 состояний, в частности, реализует накапливающий сумматор показателей, который имеет ряд состояний, соответствующих сдвигам по времени. Таким образом, каждое состояние представляет сдвиг по времени и имеет связанное накопленное значение показателей.
Соответственно конечный автомат основанной на алгоритме Витерби матрицы в форме накапливающего сумматора показателей сохраняет значение показателя для каждого из сдвигов по времени, для которых было рассчитано значение корреляции (то есть в конкретном примере для 97 состояний/сдвигов по времени). Каждое состояние/сдвиг по времени, в частности, связано с вероятностным показателем, который является показательным для вероятности того, какая межвременная разность соответствует сдвигу по времени этого состояния.
Вероятностные показатели для всех сдвигов по времени пересчитываются в каждом кадре, чтобы принять во внимание значения корреляции, которые были определены для текущего кадра. В частности, показатели маршрутов рассчитываются для состояний/сдвигов по времени в зависимости от взаимных корреляций. В конкретном примере взаимные корреляции преобразуются в логарифмическую область с помощью применения формулы log(0,5+pi) где pi - i значение корреляции (которое находится между 0 и 1 из-за процесса нормализации и соответствует вероятности того, какая межвременная разность соответствует связанному сдвигу по времени).
В примере вклад в данный вероятностный показатель определяется из предыдущего вероятностного показателя того сдвига по времени и значения корреляции для сдвигов, которые были рассчитаны для текущего кадра. Кроме того, делается вклад от значений корреляции, связанных с соседними сдвигами, соответствующими ситуации, где межвременная разность изменяется от одного значения к другому (то есть так, что наиболее вероятное состояние изменяется от такого, которое соответствует одному сдвигу по времени, к такому, которое соответствует другому сдвигу по времени).
Показатели маршрутов для маршрутов от соседних состояний, соответствующих примыкающим значениям межвременной разности, взвешиваются значительно ниже, чем показатель маршрута для маршрута от одного и того же состояния. В частности, эксперименты показали, что конкретная выгодная функциональная характеристика была найдена для значений соседних корреляций, которым присваиваются весовые коэффициенты по меньшей мере в пять раз выше, чем для взаимных корреляций одного и того же состояния. В конкретном примере показатели маршрутов примыкающих состояний взвешивались с помощью коэффициента 0,009, а показатель маршрута того же самого состояния взвешивался с помощью коэффициента 0,982.
Фиг. 4 иллюстрирует пример обновления показателей для кадра t для конечного автомата матрицы. В конкретном примере показатель вероятности состояния для состояния sn в момент времени t рассчитывается из показателя маршрутов для маршрутов из подмножества предыдущих состояний, содержащих состояние sn в момент времени t-1, и примыкающие состояния sn-1 и sn+1 в момент времени t-1. В частности, показатель вероятности состояния для состояния sn имеет вид:
Figure 00000002
где ptx - рассчитанный взвешенный показатель маршрута от состояния x к состоянию n в кадре t.
В примере вероятностные показатели модифицируются в каждом кадре посредством вычитания самого низкого показателя вероятности состояния из всех показателей вероятности состояний. Это уменьшает проблемы переполнения от непрерывно увеличивающихся показателей вероятности состояний.
В примере вклады в данный показатель сдвига по времени включены только для подмножества сдвигов, содержащих сам сдвиг и примыкающие сдвиги. Однако следует оценить, что в других вариантах осуществления могут рассматриваться другие подмножества сдвигов по времени.
В примере показатели состояний для конечного автомата матрицы обновляются в каждом кадре. Однако, в отличие от общепринятых алгоритмов Витерби, процессор 207 состояний не выбирает предпочтительный маршрут для каждого состояния, а вычисляет показатель вероятности состояния для данного состояния в виде объединенного вклада от всех маршрутов, входящих в это состояние. Также процессор 207 состояний не осуществляет обратное прослеживание через матрицу, чтобы определять сохраняющие работоспособность маршруты. Скорее, в примере, текущая оценка межвременной разности может быть просто выбрана, как сдвиг по времени, соответствующий состоянию, в настоящее время имеющему самый высокий показатель вероятности состояния. Таким образом, в конечном автомате не вводится никакой задержки. Кроме того, поскольку вероятностный показатель состояний зависит от предыдущих значений (и других состояний), по существу достигнут гистерезис.
В частности, процессор 207 состояний подсоединен к процессору 209 ITD, который определяет межвременную разность из сдвига по времени, связанного с состоянием, имеющим самый высокий показатель вероятности состояния. В частности, он может прямо устанавливать межвременную разность равной сдвигу по времени состояния, имеющего самый высокий показатель вероятности состояния.
Процессор 209 ITD подсоединен к процессору 211 задержки, определяющему задержку, которую нужно применять к элементам 109, 111 задержки. Во-первых, процессор 211 задержки компенсирует межвременную разность с помощью коэффициента децимации, применяемого в процессоре 201 децимации. В простом варианте осуществления оцениваемая межвременная разность может быть задана как ряд децимированных выборок (например, при 4 кГц, соответствующих дискретности 250 мкс), и она может быть преобразована в ряд недецимированных выборок посредством ее умножения на коэффициент децимации (например, в 16 кГц выборки, умножая их на коэффициент 4).
В примере процессор 211 задержки устанавливает значения для обоих элементов 109, 111 задержки. В частности, в зависимости от знака межвременной разности, один из элементов задержки устанавливается на нуль, а другой элемент задержки устанавливается на рассчитанное количество недецимированных выборок.
Описанный подход для вычисления межвременной разности обеспечивает улучшенное качество кодированного сигнала и, в частности, обеспечивает уменьшенную реверберацию монофонического сигнала до кодирования, таким образом улучшая работу и функциональную характеристику монофонического кодера 115 CELP.
Были выполнены особые испытания, где три стереофонических испытательных сигнала записывались в конференц-зале с помощью пары микрофонов в различных конфигурациях. В первой конфигурации микрофоны были размещены на расстоянии 1 м друг от друга, и двое говорящих мужчин находились на оси за каждым из этих двух микрофонов, и был записан тестовый разговор. Во второй конфигурации два микрофона были размещены на расстоянии 3 м друг от друга, и говорящие мужчины снова были на оси за каждым из этих двух микрофонов. В заключительной конфигурации микрофоны были на расстоянии 2 м друг от друга, а два говорящих человека были сбоку от оси микрофонов, но на противоположных сторонах от оси, повернувшись к каждому из двух микрофонов. Во всех этих сценариях алгоритм хорошо отслеживал задержки, и когда результирующий монофонический сигнал был закодирован с помощью базового алгоритма для кодека ITU-T EV-VBR, в каждом сценарии наблюдалось усиление, составляющее приблизительно 0,3 дБ в SEGSNR и WSEGSNR.
В некоторых вариантах осуществления переход от одной задержки к другой достигается с помощью простого изменения количества выборок, где соответствующий сигнал задерживается элементами 109, 111 задержки. Однако, в некоторых вариантах осуществления, могут быть включены функциональные возможности для выполнения плавного перехода от одной задержки к другой.
В частности, устройство может быть выполнено с возможностью перехода от первой задержки ко второй задержке, генерируя первый сигнал, который задерживается элементом задержки до перехода, и второй сигнал, который задерживается элементом задержки вслед за переходом. Затем первый и второй сигналы объединяются для генерирования комбинированного сигнала, который включает в себя вклад и от сигнала до перехода, и от сигнала после перехода. Вклад от двух сигналов постепенно изменяется так, что первоначально вклад преобладающе или исключительно поступает от первого сигнала, а в конце перехода вклад преобладающе или исключительно поступает от второго сигнала.
Таким образом, во время перехода задержки аппарат может синтезировать два сигнала, соответствующие начальной и заключительной задержке. Два сигнала могут быть объединены посредством взвешенного суммирования, такого как:
s=a·s1+b·s2,
где s1 и s2 представляют первый и второй сигналы, а a и b - весовые коэффициенты, которые модифицируются во время переходного интервала (который, в частности, может быть равен одному кадру). В частности, первоначально значения могут быть установлены на a=1 и b=0, а заключительные значения могут быть установлены на a=0 и b=1. Переход между этими значениями может быть выполнен в соответствии с любой соответствующей функцией и, в частности, во время перехода может поддерживать соотношение a+b=1.
Таким образом, в таких вариантах осуществления плавный переход между различными задержками достигается посредством синтезирования сигналов для обеих задержек и постепенного перехода от одного к другому во временной области.
В конкретном примере, применяется присоединенное с наложением 20 мс окно half-Hann (половины Hann), чтобы гарантировать, что переход от одной задержки к следующей выполняется настолько незаметно, насколько возможно.
Фиг. 5 иллюстрирует способ кодирования многоканального звукового сигнала в соответствии с некоторыми вариантами осуществления изобретения.
Способ инициируется на этапе 501, на котором принимается многоканальный звуковой сигнал, содержащий по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона.
Этап 501 сопровождается этапом 503, на котором определяется межвременная разность между первым звуковым сигналом и вторым звуковым сигналом.
Этап 503 сопровождается этапом 505, на котором генерируется компенсированный многоканальный звуковой сигнал из многоканального звукового сигнала посредством задерживания по меньшей мере одного из первого и второго стереофонических сигналов в ответ на сигнал межвременной разности.
Этап 505 сопровождается этапом 507, на котором генерируется монофонический сигнал посредством объединения каналов компенсированного многоканального звукового сигнала.
Этап 507 сопровождается этапом 509, на котором монофонический сигнал кодируется кодером монофонического сигнала.
Следует оценить, что в приведенном выше описании для ясности описаны варианты осуществления изобретения со ссылкой на различные функциональные модули и процессоры. Однако должно быть очевидно, что может использоваться любое подходящее распределение функциональных возможностей между различными функциональными модулями или процессорами без приуменьшения изобретения. Например, функциональные возможности, иллюстрируемые как выполняемые отдельными процессорами или контроллерами, могут выполняться одним и тем же процессором или контроллерами. Следовательно, ссылки на конкретные функциональные модули сделаны только для того, чтобы их можно было рассматривать скорее как ссылки на подходящее средство для обеспечения описанных функциональных возможностей, чем указывающие на строгую логическую или физическую структуру или организацию.
Изобретение может быть реализовано в любой соответствующей форме, включая аппаратное обеспечение, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Если требуется, изобретение может быть реализовано, по меньшей мере частично, как компьютерное программное обеспечение, выполняемое на одном или больше процессорах для обработки данных и/или процессорах цифровых сигналов. Элементы и компоненты варианта осуществления изобретения могут быть физически, функционально и логически реализованы любым соответствующим способом. Действительно, функциональные возможности могут быть реализованы в единственном модуле, во множестве модулей или как часть других функциональных модулей. Также изобретение может быть реализовано в единственном модуле или может быть физически и функционально распределено между различными модулями и процессорами.
Хотя настоящее изобретение было описано в связи с некоторыми вариантами осуществления, оно не предназначено для того, чтобы быть ограниченным конкретной формой, сформулированной в данном описании. Скорее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Дополнительно, хотя признак может фигурировать как описанный в связи с конкретными вариантами осуществления, специалистам в данной области техники должно быть понятно, что в соответствии с изобретением различные признаки описанных вариантов осуществления могут быть объединены. В формуле изобретения термин "содержащий" не исключает присутствие других элементов или этапов.
Кроме того, хотя они перечислены индивидуально, множество модулей, средств, элементов или этапов способа могут быть реализованы, например, с помощью единственного модуля или процессора. Дополнительно, хотя отдельные признаки могут быть включены в различные пункты формулы изобретения, возможно, их можно выгодно объединять, и включение в различные пункты формулы изобретения не подразумевает, что комбинация признаков не является выполнимой и/или выгодной. Также включение признаков в одну категорию формулы изобретения не подразумевает ограничение этой категорией, а скорее указывает, что этот признак является в равной степени подходящим для других категорий, соответственно. Кроме того, порядок признаков в пунктах формулы изобретения не подразумевает какой-либо конкретный порядок, в котором должны действовать признаки, и, в частности, порядок отдельных этапов в заявляемом способе не подразумевает, что этапы должны выполняться в этом порядке. Скорее, этапы могут выполняться в любом подходящем порядке.

Claims (10)

1. Устройство для кодирования многоканального звукового сигнала, причем устройство содержит
приемник для приема многоканального звукового сигнала, содержащего по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона,
модуль разности времени для определения межвременной разности между первым звуковым сигналом и вторым звуковым сигналом посредством объединения последовательных наблюдений взаимных корреляций между первым звуковым сигналом и вторым звуковым сигналом, и при этом взаимные корреляции нормализуются так, чтобы выводить вероятности состояния, которые накапливаются с использованием алгоритма, подобного Витерби, для достижения межвременной разности со встроенным гистерезисом, и алгоритм, подобный Витерби, вычисляет показатель вероятности состояния для каждого заданного состояния в виде объединенного вклада от всех маршрутов, входящих в это состояние;
модуль задержек для генерирования компенсированного многоканального звукового сигнала из многоканального звукового сигнала посредством задержки по меньшей мере одного из первого звукового сигнала и второго звукового сигнала в ответ на сигнал межвременной разности,
монофонический модуль для генерирования монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала и
кодер монофонического сигнала для кодирования монофонического сигнала.
2. Устройство по п.1, в котором модуль разности времени выполнен с возможностью определять взаимные корреляции между первым звуковым сигналом и вторым звуковым сигналом для множества сдвигов по времени и определять межвременную разность в ответ на взаимные корреляции.
3. Устройство по п.2, в котором модуль разности времени выполнен с возможностью выполнять фильтрацию нижних частот первого звукового сигнала и второго звукового сигнала до взаимной корреляции.
4. Устройство по п.2, в котором модуль разности времени выполнен с возможностью децимировать первый звуковой сигнал и второй звуковой сигнал до взаимной корреляции.
5. Устройство по п.2, в котором модуль задержек выполнен с возможностью компенсировать межвременную разность для коэффициента децимации для выполнения децимации, чтобы определять задержку по меньшей мере для одного из первого звукового сигнала и второго звукового сигнала.
6. Устройство по п.2, в котором модуль разности времени выполнен с возможностью применять спектральное отбеливание к первому звуковому сигналу и второму звуковому сигналу до корреляции.
7. Устройство по п.2, в котором модуль разности времени выполнен с возможностью выполнять организацию окон первого звукового сигнала и второго звукового сигнала до взаимной корреляции.
8. Устройство по п.2, в котором модуль разности времени содержит
конечный автомат матрицы, имеющий множество состояний, причем каждое из множества состояний соответствует сдвигу по времени из множества сдвигов по времени,
модуль маршрутов для определения показателей маршрутов для состояний конечного автомата матрицы в ответ на взаимные корреляции,
вычислительный модуль для определения показателей состояний для состояний в ответ на показатели маршрутов, связанные с маршрутами от предыдущих состояний к текущим состояниям, и
модуль для определения межвременной разности в ответ на показатели состояний.
9. Устройство по п.1, в котором модуль задержек выполнен с возможностью переходить от первой задержки ко второй задержке, генерируя первый компенсированный многоканальный звуковой сигнал в ответ на первую задержку и второй компенсированный многоканальный звуковой сигнал в ответ на вторую задержку, и объединять первый компенсированный многоканальный звуковой сигнал и второй компенсированный многоканальный звуковой сигнал для генерирования компенсированного многоканального звукового сигнала.
10. Способ кодирования многоканального звукового сигнала, причем способ содержит
прием многоканального звукового сигнала, содержащего по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона,
определение межвременной разности между первым звуковым сигналом и вторым звуковым сигналом посредством объединения последовательных наблюдений взаимных корреляций между первым звуковым сигналом и вторым звуковым сигналом и при этом взаимные корреляции обрабатывают так, чтобы выводить вероятности, которые накапливают с использованием алгоритма, подобного Витерби, который вычисляет показатель вероятности состояния для каждого заданного состояния в виде объединенного вклада от всех маршрутов, входящих в это состояние;
генерирование компенсированного многоканального звукового сигнала из многоканального звукового сигнала посредством задержки по меньшей мере одного из первого звукового сигнала и второго звукового сигнала в ответ на сигнал межвременной разности,
генерирование монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала и
кодирование монофонического сигнала в кодере монофонического сигнала.
RU2010116295/08A 2007-09-25 2008-09-09 Устройство и способ для кодирования многоканального звукового сигнала RU2450369C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0718682.8 2007-09-25
GB0718682.8A GB2453117B (en) 2007-09-25 2007-09-25 Apparatus and method for encoding a multi channel audio signal

Publications (2)

Publication Number Publication Date
RU2010116295A RU2010116295A (ru) 2011-11-10
RU2450369C2 true RU2450369C2 (ru) 2012-05-10

Family

ID=38670458

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010116295/08A RU2450369C2 (ru) 2007-09-25 2008-09-09 Устройство и способ для кодирования многоканального звукового сигнала

Country Status (13)

Country Link
US (3) US8577045B2 (ru)
EP (1) EP2206110B1 (ru)
JP (1) JP5277508B2 (ru)
KR (1) KR101120913B1 (ru)
CN (1) CN101809655B (ru)
BR (1) BRPI0817982B1 (ru)
CA (1) CA2698600C (ru)
GB (1) GB2453117B (ru)
MX (1) MX2010002846A (ru)
MY (1) MY169423A (ru)
RU (1) RU2450369C2 (ru)
WO (1) WO2009042386A1 (ru)
ZA (1) ZA201001672B (ru)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2623886C2 (ru) * 2012-12-12 2017-06-29 Долби Интернэшнл Аб Способ и устройство для сжатия и восстановления представления системы амбисоник высшего порядка для звукового поля
RU2682026C1 (ru) * 2015-03-09 2019-03-14 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство для определения параметра межканальной разности времени
RU2763374C2 (ru) * 2015-09-25 2021-12-28 Войсэйдж Корпорейшн Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы
US12125492B2 (en) 2020-10-15 2024-10-22 Voiceage Coproration Method and system for decoding left and right channels of a stereo sound signal

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8483853B1 (en) 2006-09-12 2013-07-09 Sonos, Inc. Controlling and manipulating groupings in a multi-zone media system
US8788080B1 (en) 2006-09-12 2014-07-22 Sonos, Inc. Multi-channel pairing in a media system
US9202509B2 (en) 2006-09-12 2015-12-01 Sonos, Inc. Controlling and grouping in a multi-zone media system
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2237267A4 (en) * 2007-12-21 2012-01-18 Panasonic Corp STEREOSIGNALUMSETZER, STEREOSIGNALWANDLER AND METHOD THEREFOR
BRPI1008915A2 (pt) * 2009-02-27 2018-01-16 Panasonic Corp dispositivo de determinação de tom e método de determinação de tom
CN102157152B (zh) 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
US8463414B2 (en) 2010-08-09 2013-06-11 Motorola Mobility Llc Method and apparatus for estimating a parameter for low bit rate stereo transmission
US8923997B2 (en) 2010-10-13 2014-12-30 Sonos, Inc Method and apparatus for adjusting a speaker system
US11265652B2 (en) 2011-01-25 2022-03-01 Sonos, Inc. Playback device pairing
US11429343B2 (en) 2011-01-25 2022-08-30 Sonos, Inc. Stereo playback configuration and control
EP2671221B1 (en) 2011-02-03 2017-02-01 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
US8938312B2 (en) 2011-04-18 2015-01-20 Sonos, Inc. Smart line-in processing
US9042556B2 (en) 2011-07-19 2015-05-26 Sonos, Inc Shaping sound responsive to speaker orientation
WO2013029225A1 (en) * 2011-08-29 2013-03-07 Huawei Technologies Co., Ltd. Parametric multichannel encoder and decoder
WO2013088208A1 (en) * 2011-12-15 2013-06-20 Nokia Corporation An audio scene alignment apparatus
US8811630B2 (en) 2011-12-21 2014-08-19 Sonos, Inc. Systems, methods, and apparatus to filter audio
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US9729115B2 (en) 2012-04-27 2017-08-08 Sonos, Inc. Intelligently increasing the sound level of player
US9524098B2 (en) 2012-05-08 2016-12-20 Sonos, Inc. Methods and systems for subwoofer calibration
USD721352S1 (en) 2012-06-19 2015-01-20 Sonos, Inc. Playback device
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US9690271B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration
US9690539B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration user interface
US9668049B2 (en) 2012-06-28 2017-05-30 Sonos, Inc. Playback device calibration user interfaces
US9706323B2 (en) 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
US8930005B2 (en) 2012-08-07 2015-01-06 Sonos, Inc. Acoustic signatures in a playback system
US8965033B2 (en) 2012-08-31 2015-02-24 Sonos, Inc. Acoustic optimization
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US9008330B2 (en) 2012-09-28 2015-04-14 Sonos, Inc. Crossover frequency adjustments for audio speakers
US8976959B2 (en) * 2012-11-21 2015-03-10 Clinkle Corporation Echo delay encoding
USD721061S1 (en) 2013-02-25 2015-01-13 Sonos, Inc. Playback device
JP6224827B2 (ja) 2013-06-10 2017-11-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法
CN104681029B (zh) 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
US9226087B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9226073B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
CN103856869A (zh) * 2014-03-12 2014-06-11 深圳市中兴移动通信有限公司 音效处理方法和摄像装置
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
US9367283B2 (en) 2014-07-22 2016-06-14 Sonos, Inc. Audio settings
USD883956S1 (en) 2014-08-13 2020-05-12 Sonos, Inc. Playback device
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
US9910634B2 (en) 2014-09-09 2018-03-06 Sonos, Inc. Microphone calibration
US9891881B2 (en) 2014-09-09 2018-02-13 Sonos, Inc. Audio processing algorithm database
US10127006B2 (en) 2014-09-09 2018-11-13 Sonos, Inc. Facilitating calibration of an audio playback device
US9973851B2 (en) 2014-12-01 2018-05-15 Sonos, Inc. Multi-channel playback of audio content
US10664224B2 (en) 2015-04-24 2020-05-26 Sonos, Inc. Speaker calibration user interface
WO2016172593A1 (en) 2015-04-24 2016-10-27 Sonos, Inc. Playback device calibration user interfaces
USD906278S1 (en) 2015-04-25 2020-12-29 Sonos, Inc. Media player device
USD886765S1 (en) 2017-03-13 2020-06-09 Sonos, Inc. Media playback device
USD920278S1 (en) 2017-03-13 2021-05-25 Sonos, Inc. Media playback device with lights
US20170085972A1 (en) 2015-09-17 2017-03-23 Sonos, Inc. Media Player and Media Player Design
USD768602S1 (en) 2015-04-25 2016-10-11 Sonos, Inc. Playback device
US10248376B2 (en) 2015-06-11 2019-04-02 Sonos, Inc. Multiple groupings in a playback system
US9460727B1 (en) * 2015-07-01 2016-10-04 Gopro, Inc. Audio encoder for wind and microphone noise reduction in a microphone array system
US9613628B2 (en) 2015-07-01 2017-04-04 Gopro, Inc. Audio decoder for wind and microphone noise reduction in a microphone array system
US9729118B2 (en) 2015-07-24 2017-08-08 Sonos, Inc. Loudness matching
US9877134B2 (en) * 2015-07-28 2018-01-23 Harman International Industries, Incorporated Techniques for optimizing the fidelity of a remote recording
US9538305B2 (en) 2015-07-28 2017-01-03 Sonos, Inc. Calibration error conditions
US9736610B2 (en) 2015-08-21 2017-08-15 Sonos, Inc. Manipulation of playback device response using signal processing
US9712912B2 (en) 2015-08-21 2017-07-18 Sonos, Inc. Manipulation of playback device response using an acoustic filter
USD1043613S1 (en) 2015-09-17 2024-09-24 Sonos, Inc. Media player
CN108028985B (zh) 2015-09-17 2020-03-13 搜诺思公司 用于计算设备的方法
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals
US10074373B2 (en) * 2015-12-21 2018-09-11 Qualcomm Incorporated Channel adjustment for inter-frame temporal shift variations
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
WO2017125559A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling
US11106423B2 (en) 2016-01-25 2021-08-31 Sonos, Inc. Evaluating calibration of a playback device
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
CN105897738B (zh) * 2016-05-20 2017-02-22 电子科技大学 一种用于多信道环境的实时流编码方法
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US9860670B1 (en) 2016-07-15 2018-01-02 Sonos, Inc. Spectral correction using spatial calibration
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
USD851057S1 (en) 2016-09-30 2019-06-11 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
US10412473B2 (en) 2016-09-30 2019-09-10 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
USD827671S1 (en) 2016-09-30 2018-09-04 Sonos, Inc. Media playback device
US10712997B2 (en) 2016-10-17 2020-07-14 Sonos, Inc. Room association based on name
CN106647103B (zh) * 2017-03-09 2019-12-06 电子科技大学 一种用于孤子自频移全光模数转换的编码装置及方法
CN108877815B (zh) * 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
CN109215667B (zh) 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
CN109427338B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号的编码方法和编码装置
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
US10872611B2 (en) * 2017-09-12 2020-12-22 Qualcomm Incorporated Selecting channel adjustment method for inter-frame temporal shift variations
US11741114B2 (en) * 2017-12-19 2023-08-29 ExxonMobil Technology and Engineering Company Data analysis platform
ES2909343T3 (es) * 2018-04-05 2022-05-06 Fraunhofer Ges Forschung Aparato, método o programa informático para estimar una diferencia de tiempo entre canales
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US11206484B2 (en) 2018-08-28 2021-12-21 Sonos, Inc. Passive speaker authentication
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device
US11670317B2 (en) 2021-02-23 2023-06-06 Kyndryl, Inc. Dynamic audio quality enhancement

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003090206A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Signal synthesizing
WO2004093495A1 (en) * 2003-04-17 2004-10-28 Koninklijke Philips Electronics N.V. Audio signal synthesis
RU2005104123A (ru) * 2002-07-16 2005-07-10 Конинклейке Филипс Электроникс Н.В. (Nl) Аудиокодирование
EP1565036A2 (en) * 2004-02-12 2005-08-17 Agere System Inc. Late reverberation-based synthesis of auditory scenes
WO2005083679A1 (en) * 2004-02-17 2005-09-09 Koninklijke Philips Electronics N.V. An audio distribution system, an audio encoder, an audio decoder and methods of operation therefore
RU2005135648A (ru) * 2003-04-17 2006-03-20 Конинклейке Филипс Электроникс Н.В. (Nl) Генерация аудиосигналов

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4544919A (en) * 1982-01-03 1985-10-01 Motorola, Inc. Method and means of determining coefficients for linear predictive coding
JPS58152542A (ja) * 1982-03-05 1983-09-10 株式会社東芝 X線診断装置
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
DE4320990B4 (de) * 1993-06-05 2004-04-29 Robert Bosch Gmbh Verfahren zur Redundanzreduktion
JP2762957B2 (ja) 1995-05-22 1998-06-11 日本電気株式会社 災害用電話システム、及び交換機、電話機
US5844947A (en) * 1995-12-28 1998-12-01 Lucent Technologies Inc. Viterbi decoder with reduced metric computation
KR100189906B1 (ko) * 1996-04-17 1999-06-01 윤종용 비터비 복호화방법 및 그 회로
US6236731B1 (en) * 1997-04-16 2001-05-22 Dspfactory Ltd. Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids
US6253172B1 (en) * 1997-10-16 2001-06-26 Texas Instruments Incorporated Spectral transformation of acoustic signals
US6452985B1 (en) * 1998-03-18 2002-09-17 Sony Corporation Viterbi decoding apparatus and Viterbi decoding method
JP2000004495A (ja) * 1998-06-16 2000-01-07 Oki Electric Ind Co Ltd 複数マイク自由配置による複数話者位置推定方法
JP2000044995A (ja) 1998-07-29 2000-02-15 Toppan Printing Co Ltd インキローラー洗浄剤
US6973184B1 (en) * 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
DE60326782D1 (de) 2002-04-22 2009-04-30 Koninkl Philips Electronics Nv Dekodiervorrichtung mit Dekorreliereinheit
KR101049751B1 (ko) * 2003-02-11 2011-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
ES2291939T3 (es) * 2003-09-29 2008-03-01 Koninklijke Philips Electronics N.V. Codificacion de señales de audio.
US7313720B1 (en) * 2004-02-12 2007-12-25 Network Appliance, Inc. Technique for increasing the number of persistent consistency point images in a file system
ATE405925T1 (de) 2004-09-23 2008-09-15 Harman Becker Automotive Sys Mehrkanalige adaptive sprachsignalverarbeitung mit rauschunterdrückung
US7653155B1 (en) * 2004-11-04 2010-01-26 Sandia Corporation Using convolutional decoding to improve time delay and phase estimation in digital communications
WO2006070757A1 (ja) * 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
KR100936684B1 (ko) * 2005-01-13 2010-01-13 후지쯔 가부시끼가이샤 음 수신 장치
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7583808B2 (en) * 2005-03-28 2009-09-01 Mitsubishi Electric Research Laboratories, Inc. Locating and tracking acoustic sources with microphone arrays
JP4948401B2 (ja) * 2005-05-31 2012-06-06 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
US7653533B2 (en) * 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
EP1953736A4 (en) * 2005-10-31 2009-08-05 Panasonic Corp STEREO CODING DEVICE AND METHOD FOR PREDICTING STEREO SIGNAL
CN1809105B (zh) * 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
WO2007110103A1 (en) * 2006-03-24 2007-10-04 Dolby Sweden Ab Generation of spatial downmixes from parametric representations of multi channel signals
US7599441B2 (en) * 2006-06-20 2009-10-06 Newport Media, Inc. Low complexity soft-input Viterbi decoding for digital communication systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003090206A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Signal synthesizing
RU2005104123A (ru) * 2002-07-16 2005-07-10 Конинклейке Филипс Электроникс Н.В. (Nl) Аудиокодирование
WO2004093495A1 (en) * 2003-04-17 2004-10-28 Koninklijke Philips Electronics N.V. Audio signal synthesis
RU2005135648A (ru) * 2003-04-17 2006-03-20 Конинклейке Филипс Электроникс Н.В. (Nl) Генерация аудиосигналов
EP1565036A2 (en) * 2004-02-12 2005-08-17 Agere System Inc. Late reverberation-based synthesis of auditory scenes
WO2005083679A1 (en) * 2004-02-17 2005-09-09 Koninklijke Philips Electronics N.V. An audio distribution system, an audio encoder, an audio decoder and methods of operation therefore

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2623886C2 (ru) * 2012-12-12 2017-06-29 Долби Интернэшнл Аб Способ и устройство для сжатия и восстановления представления системы амбисоник высшего порядка для звукового поля
US10038965B2 (en) 2012-12-12 2018-07-31 Dolby Laboratories Licensing Corporation Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US10257635B2 (en) 2012-12-12 2019-04-09 Dolby Laboratories Licensing Corporation Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US10609501B2 (en) 2012-12-12 2020-03-31 Dolby Laboratories Licensing Corporation Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
RU2744489C2 (ru) * 2012-12-12 2021-03-10 Долби Интернэшнл Аб Способ и устройство для сжатия и восстановления представления системы амбисоник высшего порядка для звукового поля
US11184730B2 (en) 2012-12-12 2021-11-23 Dolby Laboratories Licensing Corporation Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US11546712B2 (en) 2012-12-12 2023-01-03 Dolby Laboratories Licensing Corporation Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
RU2682026C1 (ru) * 2015-03-09 2019-03-14 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство для определения параметра межканальной разности времени
RU2763374C2 (ru) * 2015-09-25 2021-12-28 Войсэйдж Корпорейшн Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы
US12125492B2 (en) 2020-10-15 2024-10-22 Voiceage Coproration Method and system for decoding left and right channels of a stereo sound signal

Also Published As

Publication number Publication date
GB2453117B (en) 2012-05-23
WO2009042386A4 (en) 2009-06-25
CN101809655A (zh) 2010-08-18
WO2009042386A1 (en) 2009-04-02
EP2206110B1 (en) 2017-01-11
JP5277508B2 (ja) 2013-08-28
CN101809655B (zh) 2012-07-25
RU2010116295A (ru) 2011-11-10
EP2206110A1 (en) 2010-07-14
GB0718682D0 (en) 2007-10-31
MX2010002846A (es) 2010-04-01
JP2010541007A (ja) 2010-12-24
US20110085671A1 (en) 2011-04-14
US20170116997A1 (en) 2017-04-27
MY169423A (en) 2019-04-03
US9570080B2 (en) 2017-02-14
KR101120913B1 (ko) 2012-02-27
CA2698600C (en) 2015-01-20
ZA201001672B (en) 2016-02-24
US20130282384A1 (en) 2013-10-24
BRPI0817982B1 (pt) 2020-05-05
EP2206110A4 (en) 2015-12-09
BRPI0817982A2 (pt) 2015-04-07
GB2453117A (en) 2009-04-01
CA2698600A1 (en) 2009-04-02
KR20100057666A (ko) 2010-05-31
US8577045B2 (en) 2013-11-05

Similar Documents

Publication Publication Date Title
RU2450369C2 (ru) Устройство и способ для кодирования многоканального звукового сигнала
KR101621287B1 (ko) 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법
RU2305870C2 (ru) Оптимизированное по точности кодирование с переменной длиной кадра
JP2021103326A (ja) チャネル間時間差を推定する装置及び方法
JP6063555B2 (ja) マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法
US8463414B2 (en) Method and apparatus for estimating a parameter for low bit rate stereo transmission
US11664034B2 (en) Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal
RU2762302C1 (ru) Устройство, способ или компьютерная программа для оценки разности во времени между каналами
US8359196B2 (en) Stereo sound decoding apparatus, stereo sound encoding apparatus and lost-frame compensating method
US10553223B2 (en) Adaptive channel-reduction processing for encoding a multi-channel audio signal
US20090204397A1 (en) Linear predictive coding of an audio signal

Legal Events

Date Code Title Description
PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20141125

PC41 Official registration of the transfer of exclusive right

Effective date: 20180111