RU2450369C2 - Устройство и способ для кодирования многоканального звукового сигнала - Google Patents
Устройство и способ для кодирования многоканального звукового сигнала Download PDFInfo
- Publication number
- RU2450369C2 RU2450369C2 RU2010116295/08A RU2010116295A RU2450369C2 RU 2450369 C2 RU2450369 C2 RU 2450369C2 RU 2010116295/08 A RU2010116295/08 A RU 2010116295/08A RU 2010116295 A RU2010116295 A RU 2010116295A RU 2450369 C2 RU2450369 C2 RU 2450369C2
- Authority
- RU
- Russia
- Prior art keywords
- signal
- audio signal
- module
- channel audio
- inter
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims description 18
- 230000004044 response Effects 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000002087 whitening effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 239000000126 substance Substances 0.000 abstract 1
- 230000007704 transition Effects 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000001934 delay Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004061 bleaching Methods 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M3/00—Conversion of analogue values to or from differential modulation
- H03M3/30—Delta-sigma modulation
- H03M3/458—Analogue/digital converters using delta-sigma modulation as an intermediate step
- H03M3/466—Multiplexed conversion systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Изобретение относится к кодированию многоканального звукового сигнала, в частности к сведению фонограмм стереофонического речевого сигнала к монофоническому сигналу для кодирования с помощью монофонического кодера, такого как кодер линейного предсказания. Техническим результатом является повышение качества и эффективности кодирования. Указанный результат достигается тем, что устройство для кодирования многоканального звукового сигнала содержит приемник многоканального звукового сигнала, содержащего первый и второй звуковые сигналы от первого и второго микрофонов, модуль разности времени для определения межвременной разности между первым и вторым звуковыми сигналами посредством объединения последовательных наблюдений взаимных корреляций между первым и вторым звуковыми сигналами, при этом взаимные корреляции нормализуются для вывода вероятностей состояния, накапливаемых с использованием алгоритма Витерби, для достижения межвременной разности со встроенным гистерезисом, и алгоритм Витерби вычисляет показатель вероятности состояния для каждого заданного состояния в виде объединенного вклада от всех маршрутов, входящих в это состояние, модуль задержек для компенсации многоканального звукового сигнала посредством задержки первого или второго звукового сигнала в ответ на сигнал межвременной разности, монофонический модуль для генерирования монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала, и кодер монофонического сигнала. 2 н. и 8 з.п. ф-лы, 5 ил.
Description
Область техники, к которой относится изобретение
Изобретение относится к устройству и способу, предназначенным для кодирования многоканального звукового сигнала, и в частности, но не исключительно, к сведению фонограмм стереофонического речевого сигнала к монофоническому сигналу для кодирования с помощью монофонического кодера, такого как кодер линейного предсказания с кодированием.
Уровень техники
Эффективное кодирование звуковых сигналов является критическим для увеличивающегося количества прикладных программ и систем. Например, в мобильной связи для снижения количества данных, которые необходимо передавать через радиоинтерфейс, используются эффективные кодеры речевых сигналов.
Например, Международный союз по телекоммуникациям (ITU) стандартизирует кодер речевых сигналов, известный как встраиваемый кодек переменного потока данных (EV-VBR), который может кодировать речевой сигнал высокого качества со скоростями передачи данных, находящимися в пределах от 8 до 64 кбит/с. Этот кодер, так же как множество других эффективных кодеров речевых сигналов, использует методы линейного предсказания с кодированием (CELP), чтобы достигать высокой степени сжатия процесса кодирования при работе на более низких скоростях передачи данных.
В некоторых применениях может захватываться больше чем один звуковой сигнал, и, в частности, в звуковых системах может записываться стереофонический сигнал с использованием двух микрофонов. Например, стереофоническая запись обычно может использоваться в аудио- и видеоконференцсвязи, а также в прикладных программах широковещательной передачи.
Во многих многоканальных системах кодирования и, в частности, во многих многоканальных системах кодирования речи, кодирование низкого уровня основано на кодировании единственного канала. В таких системах многоканальный сигнал может быть преобразован в монофонический сигнал для нижних уровней кодера, чтобы выполнять кодирование. Генерирование такого монофонического сигнала упоминается как сведение фонограмм. Такое сведение фонограмм может быть связано с параметрами, которые описывают аспекты стереофонического сигнала относительно монофонического сигнала. В частности, сведение фонограмм может генерировать информацию о межканальной разности времени прихода сигналов (ITD), которая характеризует разницу согласования во времени между левым и правым каналами. Например, если два микрофона расположены на расстоянии друг от друга, сигнал от динамика, расположенного ближе к одному микрофону, чем к другому, будет достигать последнего микрофона с задержкой относительно первого микрофона. Эта ITD может быть определена и может использоваться в декодере, чтобы восстанавливать стереофонический сигнал из монофонического сигнала. ITD может значительно улучшать качество перспективы восстанавливаемого стереофонического сигнала, поскольку было найдено, что ITD имеет доминантное перцепционное влияние на определение местонахождения стереофонического сигнала для частот ниже приблизительно 1 кГц. Таким образом, важно также оценивать ITD.
Традиционно, монофонический сигнал генерируется посредством суммирования стереофонических сигналов вместе. Затем монофонический сигнал кодируется и передается в декодер вместе с ITD.
Например, Европейский институт стандартизации электросвязи в своем ETSI TS126290 технического описания "Extended Adaptive Multi-Rate - Wideband (AMR-WB+) Codec; Transcoding Functions" определяет сведение фонограмм стереофонического сигнала, где монофонический сигнал определяется просто как средняя величина от левого и правого каналов следующим образом.
xML(n)=0,5(xLL(n)+xRL(n)),
где xML(n) представляет n выборку монофонического сигнала, xLL(n) представляет n выборку сигнала левого канала, а xRL(n) представляет n выборку сигнала правого канала.
Другой пример сведения фонограмм обеспечен в работе H. Purnhagen, "Low Complexity Parametric Stereo Coding in MPEG-4", Proceedings 7th International Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pp 163-168. В этом документе описан способ сведения фонограмм, который получает выходной монофонический сигнал в виде взвешенной суммы поступающих каналов на основе частот по диапазонам, используя информацию, полученную относительно межканальной разности интенсивности (IID). В частности:
М[k,i]=gl L[k,i]+gr R[k,i],
где М[k,i] представляет i выборку k элемента разрешения по частоте монофонического сигнала, L[k,i] представляет i выборку k элемента разрешения по частоте сигнала левого канала и R[k,i] представляет i выборку k элемента разрешения по частоте сигнала правого канала, gl - весовой коэффициент левого канала, а gr - весовой коэффициент правого канала.
Характерная особенность таких подходов заключается в том, что они либо приводят к монофоническим сигналам, имеющим высокое время реверберации, либо имеют большую сложность и/или задержку. Например, способ AMR-WB+ сведения фонограмм обеспечивает выходной сигнал, время реверберации которого является приблизительно таким, как время полета по помещению плюс время полета между этими двумя микрофонами. Сведение фонограмм, обеспечиваемое в работе Purnhagen, имеет большую сложность и накладывает задержки из-за анализа и восстановления частот.
Однако множество монофонических кодеров обеспечивают лучшие результаты для сигналов с низким временем реверберации. Например, кодеры речевых сигналов CELP (линейное предсказание с кодированием) низкой скорости передачи битов и другие кодеры, которые используют возбуждение на основе импульса, чтобы представлять речевые сигналы и звуковые сигналы, работают лучше всего, когда присутствуют сигналы, имеющие короткое время реверберации. Соответственно функционирование кодера и качество получаемого в результате кодированного сигнала имеет тенденцию быть близкими к оптимальным.
Следовательно, может быть выгодна улучшенная система, и, в частности, может быть выгодна система, обеспечивающая возможность повышенной гибкости, облегченной реализации, улучшенного качества кодирования, улучшенной эффективности кодирования, уменьшенной задержки и/или улучшенных функциональных характеристик.
Сущность изобретения
Соответственно изобретение стремится предпочтительно смягчить, улучшить или устранить один или больше из вышеупомянутых недостатков в отдельности или в любом сочетании.
В соответствии с аспектом изобретения обеспечено устройство для кодирования многоканального звукового сигнала, причем устройство содержит: приемник для приема многоканального звукового сигнала, содержащего по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона; модуль разности времени для определения межвременной разности первого звукового сигнала и второго звукового сигнала; модуль задержек для генерирования компенсированного многоканального звукового сигнала из многоканального звукового сигнала посредством задерживания по меньшей мере одного из первого звукового сигнала и второго звукового сигнала в ответ на сигнал межвременной разности; монофонический модуль для генерирования монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала; и кодер монофонического сигнала для кодирования монофонического сигнала.
Изобретение может обеспечивать улучшенное кодирование многоканального звукового сигнала. В частности, улучшенное качество для заданной скорости передачи данных может быть достигнуто во многих вариантах осуществления. Изобретение может обеспечивать улучшенное монофоническое кодирование монофонического сигнала сведения фонограмм из стереофонического сигнала посредством снижения времен реверберации монофонического сигнала сведения фонограмм. Модуль задержек может задерживать либо первый звуковой сигнал, либо второй звуковой сигнал, в зависимости от того, который микрофон является ближайшим к (основному) источнику звуковых сигналов. Межвременная разность может быть индикацией межвременной разности между соответствующими компонентами звуковых сигналов от первого и второго звуковых сигналов, исходящих из одного и того же источника звуковых сигналов. Модуль для генерирования монофонического сигнала может быть выполнен с возможностью суммировать два канала объединенного многоканального звукового сигнала, которые соответствуют первому и второму звуковым сигналам. В некоторых вариантах осуществления суммирование может быть взвешенным суммированием.
В соответствии с дополнительным признаком изобретения модуль разности времени выполнен с возможностью определять взаимные корреляции между первым звуковым сигналом и вторым звуковым сигналом для множества сдвигов по времени, и определять межвременную разность в ответ на взаимные корреляции.
Признак может обеспечивать возможность улучшенного определения межвременной разности. Признак может улучшать качество закодированного звукового сигнала и/или может облегчать реализацию и/или снижать сложность. В частности, признак может обеспечивать улучшенное стереофоническое восприятие стереофонического сигнала, сформированного из монофонического сигнала и межвременной разности. Взаимные корреляции могут указывать вероятность того, что межвременная разность равна сдвигу по времени индивидуальных взаимных корреляций.
В соответствии с другим аспектом изобретения обеспечен способ кодирования многоканального звукового сигнала, причем способ содержит: прием многоканального звукового сигнала, содержащего по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона; определение межвременной разности между первым звуковым сигналом и вторым звуковым сигналом; генерирование компенсированного многоканального звукового сигнала из многоканального звукового сигнала посредством задерживания по меньшей мере одного из первого звукового сигнала и второго звукового сигнала в ответ на сигнал межвременной разности; генерирование монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала; и кодирование монофонического сигнала в кодере монофонического сигнала.
Эти и другие аспекты, признаки и преимущества изобретения будут очевидны и объяснены со ссылкой на вариант (варианты) осуществления, описанные в дальнейшем.
Краткое описание чертежей
Ниже будут описаны варианты осуществления изобретения, только посредством примера, со ссылкой на чертежи, на которых
фиг. 1 иллюстрирует пример устройства для кодирования многоканального звукового сигнала в соответствии с некоторыми вариантами осуществления изобретения;
фиг. 2 иллюстрирует пример модуля обработки данных, предназначенного для оценивания межвременной разности в соответствии с некоторыми вариантами осуществления изобретения;
фиг. 3 иллюстрирует пример процессора отбеливания в соответствии с некоторыми вариантами осуществления изобретения;
фиг. 4 иллюстрирует пример обновления состояния для конечного автомата матрицы в соответствии с некоторыми вариантами осуществления изобретения; и
фиг. 5 иллюстрирует пример способа кодирования многоканального звукового сигнала в соответствии с некоторыми вариантами осуществления изобретения.
Подробное описание некоторых вариантов осуществления изобретения
Последующее описание сфокусировано на вариантах осуществления изобретения, применимых к кодированию многоканального звукового сигнала с использованием монофонического кодера и, в частности, к кодированию стереофонического речевого сигнала с использованием монофонического кодера CELP.
Фиг. 1 иллюстрирует устройство для кодирования многоканального звукового сигнала в соответствии с некоторыми вариантами осуществления изобретения. В конкретном примере стереофонический речевой сигнал подвергается сведению фонограмм к монофоническому сигналу и кодируется с использованием монофонического кодера.
Устройство содержит два микрофона 101, 103, захватывающие звуковые сигналы из аудиосреды, в которой расположены эти два микрофона. В примере два микрофона используются для записи речевых сигналов в помещении и расположены с внутренним расстоянием до 3 метров. В конкретном применении, микрофоны 101, 103 могут, например, записывать речевые сигналы от множества людей в помещении, и использование двух микрофонов может обеспечивать лучшую зону уверенного приема звуковых сигналов для этого помещения.
Микрофоны 101, 103 связаны с процессором 105 обработки кадров, который принимает первый и второй сигналы от первого и второго микрофонов 101, 103, соответственно. Процессор обработки кадров делит сигналы на последовательные кадры. В конкретном примере частота дискретизации сигналов составляет 16 киловыборок в секунду, а продолжительность кадра составляет 20 мс, приводя к тому, что каждый кадр содержит 320 выборок. Следует отметить, что обработка кадров не обязательно приводит к дополнительной задержке в речевом тракте, поскольку этот кадр может быть тем же кадром, что используется для речевого кодирования, или обработка кадра может выполняться, например, на старых выборках речевых сигналов.
Процессор 105 обработки кадров подсоединен к процессору 107 ITD, который выполнен с возможностью определять межвременную разность между первым звуковым сигналом и вторым звуковым сигналом. Межвременная разность представляет собой индикацию задержки сигнала в одном канале относительно сигнала в другом канале. В этом примере межвременная разность может быть положительной или отрицательной, в зависимости от того, который из каналов является запаздывающим относительно другого. Задержка обычно будет происходить из-за разницы в задержках между доминирующим источником речи (то есть человеком, говорящим в настоящее время) и микрофонами 101, 103.
Процессор 107 ITD помимо этого подсоединен к двум элементам 109, 111 задержки. Первый элемент 109 задержки выполнен с возможностью вводить задержку в первый звуковой канал, а второй элемент 109 задержки выполнен с возможностью вводить задержку во второй звуковой канал. Величина вводимой задержки зависит от оцененной межвременной разности. Кроме того, в конкретном примере в любое данное время используется только один из элементов задержки. Таким образом, в зависимости от знака оцененной межвременной разности задержка вводится либо в первый, либо во второй звуковой сигнал. В частности, величина задержки устанавливается так, чтобы быть настолько близкой к оцененной межвременной разности, насколько возможно. В результате этого звуковые сигналы на выходе элементов 109, 111 задержки являются близко выровненными по времени и, в частности, будут иметь межвременную разность, которая обычно может быть близка к нулю.
Элементы 109, 111 задержки подсоединены к блоку 113 объединения, который генерирует монофонический сигнал посредством объединения каналов компенсированного многоканального звукового сигнала и, в частности, посредством объединения двух выходных сигналов от элементов 109, 111 задержки. В примере блок 113 объединения представляет собой простой модуль суммирования, который складывает два сигнала вместе. Кроме того, сигналы масштабируются с помощью коэффициента 0,5, чтобы поддерживать амплитуду монофонического сигнала, подобную амплитуде индивидуальных сигналов до объединения.
Таким образом, выходной сигнал блока 113 объединения представляет собой монофонический сигнал, который является сведением фонограмм двух захваченных сигналов. Кроме того, из-за задержки и снижения межвременной разности, сгенерированный монофонический сигнал имеет значительно уменьшенную реверберацию.
Блок 113 объединения подсоединен к монофоническому кодеру 115, который выполняет монофоническое кодирование монофонического сигнала для генерирования закодированных данных. В конкретном примере монофонический кодер представляет собой кодер линейного предсказания с кодированием (CELP) в соответствии со встраиваемым кодеком переменного потока данных (EV-VBR), стандартизируемым Международным союзом по телекоммуникациям (ITU).
Кодеры CELP, как известно, обеспечивают чрезвычайно эффективное кодирование и, в частности, обеспечивают хорошее качество речи даже для низких скоростей передачи данных. Однако кодеры CELP имеют тенденцию не выполнять операции также хорошо для сигналов с большим временем реверберации, и поэтому не являются подходящими для кодирования традиционно производимых монофонических сведений фонограмм. Однако, из-за компенсации задержки и образующейся в результате уменьшенной реверберации, монофонические кодеры CELP могут использоваться в устройстве фиг. 1, чтобы обеспечивать весьма эффективное кодирование речевого монофонического сигнала сведения фонограмм. Следует оценить, что эти преимущества являются особенно подходящими для монофонических кодеров CELP, но не ограничены этим, и могут применяться ко многим другим кодерам.
Монофонический кодер 115 подсоединен к мультиплексору 117 вывода, который помимо этого подсоединен к процессору 107 ITD. В примере мультиплексор 117 вывода мультиплексирует данные кодирования от монофонического кодера 115 и данные, представляющие межвременную разность, от процессора 107 ITD в единый выходной битовый поток. Включение межвременной разности в битовый поток может помогать декодеру в восстановлении стереофонического сигнала из монофонического сигнала, декодированного из данных кодирования.
Таким образом, описанная система обеспечивает улучшенную функциональную характеристику и, в частности, может обеспечивать улучшенное качество звучания для данной скорости передачи данных. В частности, улучшенное использование монофонического кодера, такого как кодер CELP, может приводить к значительно улучшенному качеству. Кроме того, описанные функциональные возможности являются простыми в реализации и имеют относительно низкие требуемые ресурсы.
В дальнейшем со ссылкой на фиг. 2 будет описана оценка межвременной разности, выполняемая процессором 107 ITD.
Алгоритм, используемый процессором 107 ITD, определяет оценку межвременной разности посредством объединения последовательных результатов наблюдения взаимных корреляций между первым и вторым звуковыми сигналами для различных возможных сдвигов по времени между каналами. Корреляции выполняются в децимированной остаточной области LPC, чтобы обеспечивать более хорошо определенные корреляции, облегчать реализацию и снижать потребности в вычислениях. В примере взаимные корреляции обрабатываются так, чтобы вывести вероятность, связанную с каждой потенциальной задержкой между -12 мс и +12 мс (±~4 метра), а затем вероятности накапливаются, используя модифицированный алгоритм, подобный алгоритму Витерби. Результат представляет собой оценку межвременной разности со встроенным гистерезисом.
Процессор 107 ITD содержит процессор 201 децимации, который принимает кадры выборок для двух каналов от процессора 105 обработки кадров. Процессор 201 децимации сначала выполняет фильтрацию фильтром нижних частот, за которой следует децимация. В конкретном примере, фильтр нижних частот имеет ширину полосы пропускания, равную приблизительно 2 кГц, и коэффициент децимации, равный четырем, используется для сигнала 16 киловыборок в секунду, что приводит к децимированной частоте дискретизации сигналов, составляющей 4 киловыборки в секунду. Воздействие фильтрования и децимации в некоторой степени снижает количество обрабатываемых выборок, таким образом уменьшая потребности в вычислениях. Однако, кроме того, этот подход позволяет фокусировать оценку межвременной разности на более низких частотах, где перцепционная значимость межвременной разности является наиболее существенной. Таким образом, фильтрование и децимация не только уменьшают затраты вычислительных ресурсов, но также обеспечивают синергетический эффект, гарантирующий, что оценка межвременной разности является релевантной для наиболее воспринимаемых частот.
Процессор 201 децимации подсоединен к процессору 203 отбеливания, который выполнен с возможностью применять алгоритм спектрального отбеливания к первому и второму звуковым сигналам до корреляции. Спектральное отбеливание приводит к сигналам временной области двух сигналов, имеющим наибольшее сходство с совокупностью импульсов, в случае вокализованной или тональной речи, таким образом обеспечивая возможность при последовательной корреляции приводить к лучше определенным значениям взаимной корреляции и, в частности, приводить к более узким максимумам корреляции (частотная характеристика импульса соответствует равномерному или белому спектру, и наоборот, представление временной области белого спектра является импульсом).
В конкретном примере, спектральное отбеливание содержит вычислительные коэффициенты линейного предсказания для первого и второго звуковых сигналов и для фильтрования первого и второго звуковых сигналов в ответ на коэффициенты линейного предсказания.
Элементы процессора 203 отбеливания показаны на фиг. 3. В частности, сигналы от процессора 201 децимации подаются в процессоры 301, 303 LPC, которые определяют коэффициенты линейного предсказания (LPC) для фильтров линейного предсказания для двух сигналов. Следует оценить, что специалистам в данной области техники известны различные алгоритмы для определения LPC, и что можно использовать любой соответствующий алгоритм, не приуменьшая изобретение.
В примере два звуковых сигнала подаются в два фильтра 305, 307, которые подсоединены к процессорам 301, 303 LPC. Два фильтра определены так, что они являются обратными фильтрами для фильтров линейного предсказания, определяемых процессорами 301, 303 LPC. В частности, процессоры 301, 303 LPC определяют коэффициенты для обратных фильтров для фильтров линейного предсказания, и коэффициенты двух фильтров устанавливаются на эти значения.
Выходной сигнал двух обратных фильтров 305, 307 в случае вокализованной речи напоминает совокупности последовательностей импульсов, и таким образом позволяет выполнять значительно более точную взаимную корреляцию, чем это возможно в речевой области.
Процессор 203 отбеливания подсоединен к коррелятору 205, который выполнен с возможностью определять взаимные корреляции между выходными сигналами двух фильтров 305, 307 для множества сдвигов по времени.
В частности, коррелятор может определять значения:
где t - сдвиг по времени, x и y - выборки из двух сигналов, а N представляет выборки в определенном кадре.
Корреляция выполняется для совокупности возможных сдвигов по времени. В конкретном примере корреляция выполняется для суммы 97 сдвигов по времени, соответствующей максимальному сдвигу по времени ±12 мс. Однако следует оценить, что в других вариантах осуществления могут использоваться другие совокупности сдвигов по времени.
Таким образом, коррелятор генерирует 97 значений взаимной корреляции с каждой взаимной корреляцией, соответствующей конкретному сдвигу по времени между двумя каналами, и таким образом, возможной межвременной разности. Значение взаимной корреляции соответствует индикации относительно того, насколько близко согласовываются два сигнала для конкретного сдвига по времени. Таким образом, для высокого значения взаимной корреляции, сигналы точно согласовываются, и имеется, соответственно, высокая вероятность того, что сдвиг по времени является точной оценкой межвременной разности. И наоборот, для низкого значения взаимной корреляции сигналы точно не согласовываются, и имеется, соответственно, низкая вероятность того, что сдвиг по времени является точной оценкой межвременной разности. Таким образом, для каждого кадра коррелятор 205 генерирует 97 значений взаимной корреляции с каждым значением, являющимся индикацией вероятности того, что соответствующий сдвиг по времени является правильной межвременной разностью.
В примере коррелятор 205 выполнен с возможностью выполнять организацию окон на первом и втором звуковых сигналах до взаимной корреляции. В частности, каждый блок выборок кадров из двух сигналов подвергается организации окон с 20 мс окном, содержащим прямоугольную центральную секцию, составляющую 14 мс, и два участка Hann по 3 мс на каждом конце. Эта организация окон может улучшать точность и снижать воздействие краевых эффектов на краю окна корреляции.
Также, в примере, взаимная корреляция нормализуется. Нормализация, в частности, должна гарантировать, что максимальное значение взаимной корреляции, которое может быть достигнуто (то есть когда два сигнала идентичны), имеет значение единицы. Нормализация обеспечивается для значений взаимной корреляции, которые являются относительно независимыми от уровней сигналов для входных сигналов и проверенных коррелированных сдвигов по времени, таким образом обеспечивая более точную индикацию вероятности. В частности, это обеспечивает возможность улучшенного сравнивания и обработки для последовательности кадров.
В простом варианте осуществления выходной сигнал коррелятора 205 можно оценивать прямо, и межвременную разность для текущего кадра можно устанавливать на значение, которое имеет самую высокую вероятность, как показано значением взаимной корреляции. Однако такой способ может иметь тенденцию обеспечивать менее достоверный выходной сигнал, поскольку речевой сигнал колеблется от вокализованного до невокализованного при молчании, и в описанном примере, сигнал коррелятора подается в процессор 207 состояний, который обрабатывает значения корреляции для множества состояний, чтобы обеспечивать более точную оценку межвременной разности.
В примере значения корреляции используются как обновляемые этапы в накапливающем сумматоре показателей алгоритма Витерби, реализованном в процессоре 207 состояний.
Таким образом, процессор 207 состояний, в частности, реализует накапливающий сумматор показателей, который имеет ряд состояний, соответствующих сдвигам по времени. Таким образом, каждое состояние представляет сдвиг по времени и имеет связанное накопленное значение показателей.
Соответственно конечный автомат основанной на алгоритме Витерби матрицы в форме накапливающего сумматора показателей сохраняет значение показателя для каждого из сдвигов по времени, для которых было рассчитано значение корреляции (то есть в конкретном примере для 97 состояний/сдвигов по времени). Каждое состояние/сдвиг по времени, в частности, связано с вероятностным показателем, который является показательным для вероятности того, какая межвременная разность соответствует сдвигу по времени этого состояния.
Вероятностные показатели для всех сдвигов по времени пересчитываются в каждом кадре, чтобы принять во внимание значения корреляции, которые были определены для текущего кадра. В частности, показатели маршрутов рассчитываются для состояний/сдвигов по времени в зависимости от взаимных корреляций. В конкретном примере взаимные корреляции преобразуются в логарифмическую область с помощью применения формулы log(0,5+pi) где pi - i значение корреляции (которое находится между 0 и 1 из-за процесса нормализации и соответствует вероятности того, какая межвременная разность соответствует связанному сдвигу по времени).
В примере вклад в данный вероятностный показатель определяется из предыдущего вероятностного показателя того сдвига по времени и значения корреляции для сдвигов, которые были рассчитаны для текущего кадра. Кроме того, делается вклад от значений корреляции, связанных с соседними сдвигами, соответствующими ситуации, где межвременная разность изменяется от одного значения к другому (то есть так, что наиболее вероятное состояние изменяется от такого, которое соответствует одному сдвигу по времени, к такому, которое соответствует другому сдвигу по времени).
Показатели маршрутов для маршрутов от соседних состояний, соответствующих примыкающим значениям межвременной разности, взвешиваются значительно ниже, чем показатель маршрута для маршрута от одного и того же состояния. В частности, эксперименты показали, что конкретная выгодная функциональная характеристика была найдена для значений соседних корреляций, которым присваиваются весовые коэффициенты по меньшей мере в пять раз выше, чем для взаимных корреляций одного и того же состояния. В конкретном примере показатели маршрутов примыкающих состояний взвешивались с помощью коэффициента 0,009, а показатель маршрута того же самого состояния взвешивался с помощью коэффициента 0,982.
Фиг. 4 иллюстрирует пример обновления показателей для кадра t для конечного автомата матрицы. В конкретном примере показатель вероятности состояния для состояния sn в момент времени t рассчитывается из показателя маршрутов для маршрутов из подмножества предыдущих состояний, содержащих состояние sn в момент времени t-1, и примыкающие состояния sn-1 и sn+1 в момент времени t-1. В частности, показатель вероятности состояния для состояния sn имеет вид:
где ptx - рассчитанный взвешенный показатель маршрута от состояния x к состоянию n в кадре t.
В примере вероятностные показатели модифицируются в каждом кадре посредством вычитания самого низкого показателя вероятности состояния из всех показателей вероятности состояний. Это уменьшает проблемы переполнения от непрерывно увеличивающихся показателей вероятности состояний.
В примере вклады в данный показатель сдвига по времени включены только для подмножества сдвигов, содержащих сам сдвиг и примыкающие сдвиги. Однако следует оценить, что в других вариантах осуществления могут рассматриваться другие подмножества сдвигов по времени.
В примере показатели состояний для конечного автомата матрицы обновляются в каждом кадре. Однако, в отличие от общепринятых алгоритмов Витерби, процессор 207 состояний не выбирает предпочтительный маршрут для каждого состояния, а вычисляет показатель вероятности состояния для данного состояния в виде объединенного вклада от всех маршрутов, входящих в это состояние. Также процессор 207 состояний не осуществляет обратное прослеживание через матрицу, чтобы определять сохраняющие работоспособность маршруты. Скорее, в примере, текущая оценка межвременной разности может быть просто выбрана, как сдвиг по времени, соответствующий состоянию, в настоящее время имеющему самый высокий показатель вероятности состояния. Таким образом, в конечном автомате не вводится никакой задержки. Кроме того, поскольку вероятностный показатель состояний зависит от предыдущих значений (и других состояний), по существу достигнут гистерезис.
В частности, процессор 207 состояний подсоединен к процессору 209 ITD, который определяет межвременную разность из сдвига по времени, связанного с состоянием, имеющим самый высокий показатель вероятности состояния. В частности, он может прямо устанавливать межвременную разность равной сдвигу по времени состояния, имеющего самый высокий показатель вероятности состояния.
Процессор 209 ITD подсоединен к процессору 211 задержки, определяющему задержку, которую нужно применять к элементам 109, 111 задержки. Во-первых, процессор 211 задержки компенсирует межвременную разность с помощью коэффициента децимации, применяемого в процессоре 201 децимации. В простом варианте осуществления оцениваемая межвременная разность может быть задана как ряд децимированных выборок (например, при 4 кГц, соответствующих дискретности 250 мкс), и она может быть преобразована в ряд недецимированных выборок посредством ее умножения на коэффициент децимации (например, в 16 кГц выборки, умножая их на коэффициент 4).
В примере процессор 211 задержки устанавливает значения для обоих элементов 109, 111 задержки. В частности, в зависимости от знака межвременной разности, один из элементов задержки устанавливается на нуль, а другой элемент задержки устанавливается на рассчитанное количество недецимированных выборок.
Описанный подход для вычисления межвременной разности обеспечивает улучшенное качество кодированного сигнала и, в частности, обеспечивает уменьшенную реверберацию монофонического сигнала до кодирования, таким образом улучшая работу и функциональную характеристику монофонического кодера 115 CELP.
Были выполнены особые испытания, где три стереофонических испытательных сигнала записывались в конференц-зале с помощью пары микрофонов в различных конфигурациях. В первой конфигурации микрофоны были размещены на расстоянии 1 м друг от друга, и двое говорящих мужчин находились на оси за каждым из этих двух микрофонов, и был записан тестовый разговор. Во второй конфигурации два микрофона были размещены на расстоянии 3 м друг от друга, и говорящие мужчины снова были на оси за каждым из этих двух микрофонов. В заключительной конфигурации микрофоны были на расстоянии 2 м друг от друга, а два говорящих человека были сбоку от оси микрофонов, но на противоположных сторонах от оси, повернувшись к каждому из двух микрофонов. Во всех этих сценариях алгоритм хорошо отслеживал задержки, и когда результирующий монофонический сигнал был закодирован с помощью базового алгоритма для кодека ITU-T EV-VBR, в каждом сценарии наблюдалось усиление, составляющее приблизительно 0,3 дБ в SEGSNR и WSEGSNR.
В некоторых вариантах осуществления переход от одной задержки к другой достигается с помощью простого изменения количества выборок, где соответствующий сигнал задерживается элементами 109, 111 задержки. Однако, в некоторых вариантах осуществления, могут быть включены функциональные возможности для выполнения плавного перехода от одной задержки к другой.
В частности, устройство может быть выполнено с возможностью перехода от первой задержки ко второй задержке, генерируя первый сигнал, который задерживается элементом задержки до перехода, и второй сигнал, который задерживается элементом задержки вслед за переходом. Затем первый и второй сигналы объединяются для генерирования комбинированного сигнала, который включает в себя вклад и от сигнала до перехода, и от сигнала после перехода. Вклад от двух сигналов постепенно изменяется так, что первоначально вклад преобладающе или исключительно поступает от первого сигнала, а в конце перехода вклад преобладающе или исключительно поступает от второго сигнала.
Таким образом, во время перехода задержки аппарат может синтезировать два сигнала, соответствующие начальной и заключительной задержке. Два сигнала могут быть объединены посредством взвешенного суммирования, такого как:
s=a·s1+b·s2,
где s1 и s2 представляют первый и второй сигналы, а a и b - весовые коэффициенты, которые модифицируются во время переходного интервала (который, в частности, может быть равен одному кадру). В частности, первоначально значения могут быть установлены на a=1 и b=0, а заключительные значения могут быть установлены на a=0 и b=1. Переход между этими значениями может быть выполнен в соответствии с любой соответствующей функцией и, в частности, во время перехода может поддерживать соотношение a+b=1.
Таким образом, в таких вариантах осуществления плавный переход между различными задержками достигается посредством синтезирования сигналов для обеих задержек и постепенного перехода от одного к другому во временной области.
В конкретном примере, применяется присоединенное с наложением 20 мс окно half-Hann (половины Hann), чтобы гарантировать, что переход от одной задержки к следующей выполняется настолько незаметно, насколько возможно.
Фиг. 5 иллюстрирует способ кодирования многоканального звукового сигнала в соответствии с некоторыми вариантами осуществления изобретения.
Способ инициируется на этапе 501, на котором принимается многоканальный звуковой сигнал, содержащий по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона.
Этап 501 сопровождается этапом 503, на котором определяется межвременная разность между первым звуковым сигналом и вторым звуковым сигналом.
Этап 503 сопровождается этапом 505, на котором генерируется компенсированный многоканальный звуковой сигнал из многоканального звукового сигнала посредством задерживания по меньшей мере одного из первого и второго стереофонических сигналов в ответ на сигнал межвременной разности.
Этап 505 сопровождается этапом 507, на котором генерируется монофонический сигнал посредством объединения каналов компенсированного многоканального звукового сигнала.
Этап 507 сопровождается этапом 509, на котором монофонический сигнал кодируется кодером монофонического сигнала.
Следует оценить, что в приведенном выше описании для ясности описаны варианты осуществления изобретения со ссылкой на различные функциональные модули и процессоры. Однако должно быть очевидно, что может использоваться любое подходящее распределение функциональных возможностей между различными функциональными модулями или процессорами без приуменьшения изобретения. Например, функциональные возможности, иллюстрируемые как выполняемые отдельными процессорами или контроллерами, могут выполняться одним и тем же процессором или контроллерами. Следовательно, ссылки на конкретные функциональные модули сделаны только для того, чтобы их можно было рассматривать скорее как ссылки на подходящее средство для обеспечения описанных функциональных возможностей, чем указывающие на строгую логическую или физическую структуру или организацию.
Изобретение может быть реализовано в любой соответствующей форме, включая аппаратное обеспечение, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Если требуется, изобретение может быть реализовано, по меньшей мере частично, как компьютерное программное обеспечение, выполняемое на одном или больше процессорах для обработки данных и/или процессорах цифровых сигналов. Элементы и компоненты варианта осуществления изобретения могут быть физически, функционально и логически реализованы любым соответствующим способом. Действительно, функциональные возможности могут быть реализованы в единственном модуле, во множестве модулей или как часть других функциональных модулей. Также изобретение может быть реализовано в единственном модуле или может быть физически и функционально распределено между различными модулями и процессорами.
Хотя настоящее изобретение было описано в связи с некоторыми вариантами осуществления, оно не предназначено для того, чтобы быть ограниченным конкретной формой, сформулированной в данном описании. Скорее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Дополнительно, хотя признак может фигурировать как описанный в связи с конкретными вариантами осуществления, специалистам в данной области техники должно быть понятно, что в соответствии с изобретением различные признаки описанных вариантов осуществления могут быть объединены. В формуле изобретения термин "содержащий" не исключает присутствие других элементов или этапов.
Кроме того, хотя они перечислены индивидуально, множество модулей, средств, элементов или этапов способа могут быть реализованы, например, с помощью единственного модуля или процессора. Дополнительно, хотя отдельные признаки могут быть включены в различные пункты формулы изобретения, возможно, их можно выгодно объединять, и включение в различные пункты формулы изобретения не подразумевает, что комбинация признаков не является выполнимой и/или выгодной. Также включение признаков в одну категорию формулы изобретения не подразумевает ограничение этой категорией, а скорее указывает, что этот признак является в равной степени подходящим для других категорий, соответственно. Кроме того, порядок признаков в пунктах формулы изобретения не подразумевает какой-либо конкретный порядок, в котором должны действовать признаки, и, в частности, порядок отдельных этапов в заявляемом способе не подразумевает, что этапы должны выполняться в этом порядке. Скорее, этапы могут выполняться в любом подходящем порядке.
Claims (10)
1. Устройство для кодирования многоканального звукового сигнала, причем устройство содержит
приемник для приема многоканального звукового сигнала, содержащего по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона,
модуль разности времени для определения межвременной разности между первым звуковым сигналом и вторым звуковым сигналом посредством объединения последовательных наблюдений взаимных корреляций между первым звуковым сигналом и вторым звуковым сигналом, и при этом взаимные корреляции нормализуются так, чтобы выводить вероятности состояния, которые накапливаются с использованием алгоритма, подобного Витерби, для достижения межвременной разности со встроенным гистерезисом, и алгоритм, подобный Витерби, вычисляет показатель вероятности состояния для каждого заданного состояния в виде объединенного вклада от всех маршрутов, входящих в это состояние;
модуль задержек для генерирования компенсированного многоканального звукового сигнала из многоканального звукового сигнала посредством задержки по меньшей мере одного из первого звукового сигнала и второго звукового сигнала в ответ на сигнал межвременной разности,
монофонический модуль для генерирования монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала и
кодер монофонического сигнала для кодирования монофонического сигнала.
приемник для приема многоканального звукового сигнала, содержащего по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона,
модуль разности времени для определения межвременной разности между первым звуковым сигналом и вторым звуковым сигналом посредством объединения последовательных наблюдений взаимных корреляций между первым звуковым сигналом и вторым звуковым сигналом, и при этом взаимные корреляции нормализуются так, чтобы выводить вероятности состояния, которые накапливаются с использованием алгоритма, подобного Витерби, для достижения межвременной разности со встроенным гистерезисом, и алгоритм, подобный Витерби, вычисляет показатель вероятности состояния для каждого заданного состояния в виде объединенного вклада от всех маршрутов, входящих в это состояние;
модуль задержек для генерирования компенсированного многоканального звукового сигнала из многоканального звукового сигнала посредством задержки по меньшей мере одного из первого звукового сигнала и второго звукового сигнала в ответ на сигнал межвременной разности,
монофонический модуль для генерирования монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала и
кодер монофонического сигнала для кодирования монофонического сигнала.
2. Устройство по п.1, в котором модуль разности времени выполнен с возможностью определять взаимные корреляции между первым звуковым сигналом и вторым звуковым сигналом для множества сдвигов по времени и определять межвременную разность в ответ на взаимные корреляции.
3. Устройство по п.2, в котором модуль разности времени выполнен с возможностью выполнять фильтрацию нижних частот первого звукового сигнала и второго звукового сигнала до взаимной корреляции.
4. Устройство по п.2, в котором модуль разности времени выполнен с возможностью децимировать первый звуковой сигнал и второй звуковой сигнал до взаимной корреляции.
5. Устройство по п.2, в котором модуль задержек выполнен с возможностью компенсировать межвременную разность для коэффициента децимации для выполнения децимации, чтобы определять задержку по меньшей мере для одного из первого звукового сигнала и второго звукового сигнала.
6. Устройство по п.2, в котором модуль разности времени выполнен с возможностью применять спектральное отбеливание к первому звуковому сигналу и второму звуковому сигналу до корреляции.
7. Устройство по п.2, в котором модуль разности времени выполнен с возможностью выполнять организацию окон первого звукового сигнала и второго звукового сигнала до взаимной корреляции.
8. Устройство по п.2, в котором модуль разности времени содержит
конечный автомат матрицы, имеющий множество состояний, причем каждое из множества состояний соответствует сдвигу по времени из множества сдвигов по времени,
модуль маршрутов для определения показателей маршрутов для состояний конечного автомата матрицы в ответ на взаимные корреляции,
вычислительный модуль для определения показателей состояний для состояний в ответ на показатели маршрутов, связанные с маршрутами от предыдущих состояний к текущим состояниям, и
модуль для определения межвременной разности в ответ на показатели состояний.
конечный автомат матрицы, имеющий множество состояний, причем каждое из множества состояний соответствует сдвигу по времени из множества сдвигов по времени,
модуль маршрутов для определения показателей маршрутов для состояний конечного автомата матрицы в ответ на взаимные корреляции,
вычислительный модуль для определения показателей состояний для состояний в ответ на показатели маршрутов, связанные с маршрутами от предыдущих состояний к текущим состояниям, и
модуль для определения межвременной разности в ответ на показатели состояний.
9. Устройство по п.1, в котором модуль задержек выполнен с возможностью переходить от первой задержки ко второй задержке, генерируя первый компенсированный многоканальный звуковой сигнал в ответ на первую задержку и второй компенсированный многоканальный звуковой сигнал в ответ на вторую задержку, и объединять первый компенсированный многоканальный звуковой сигнал и второй компенсированный многоканальный звуковой сигнал для генерирования компенсированного многоканального звукового сигнала.
10. Способ кодирования многоканального звукового сигнала, причем способ содержит
прием многоканального звукового сигнала, содержащего по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона,
определение межвременной разности между первым звуковым сигналом и вторым звуковым сигналом посредством объединения последовательных наблюдений взаимных корреляций между первым звуковым сигналом и вторым звуковым сигналом и при этом взаимные корреляции обрабатывают так, чтобы выводить вероятности, которые накапливают с использованием алгоритма, подобного Витерби, который вычисляет показатель вероятности состояния для каждого заданного состояния в виде объединенного вклада от всех маршрутов, входящих в это состояние;
генерирование компенсированного многоканального звукового сигнала из многоканального звукового сигнала посредством задержки по меньшей мере одного из первого звукового сигнала и второго звукового сигнала в ответ на сигнал межвременной разности,
генерирование монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала и
кодирование монофонического сигнала в кодере монофонического сигнала.
прием многоканального звукового сигнала, содержащего по меньшей мере первый звуковой сигнал от первого микрофона и второй звуковой сигнал от второго микрофона,
определение межвременной разности между первым звуковым сигналом и вторым звуковым сигналом посредством объединения последовательных наблюдений взаимных корреляций между первым звуковым сигналом и вторым звуковым сигналом и при этом взаимные корреляции обрабатывают так, чтобы выводить вероятности, которые накапливают с использованием алгоритма, подобного Витерби, который вычисляет показатель вероятности состояния для каждого заданного состояния в виде объединенного вклада от всех маршрутов, входящих в это состояние;
генерирование компенсированного многоканального звукового сигнала из многоканального звукового сигнала посредством задержки по меньшей мере одного из первого звукового сигнала и второго звукового сигнала в ответ на сигнал межвременной разности,
генерирование монофонического сигнала посредством объединения каналов компенсированного многоканального звукового сигнала и
кодирование монофонического сигнала в кодере монофонического сигнала.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0718682.8 | 2007-09-25 | ||
GB0718682.8A GB2453117B (en) | 2007-09-25 | 2007-09-25 | Apparatus and method for encoding a multi channel audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2010116295A RU2010116295A (ru) | 2011-11-10 |
RU2450369C2 true RU2450369C2 (ru) | 2012-05-10 |
Family
ID=38670458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010116295/08A RU2450369C2 (ru) | 2007-09-25 | 2008-09-09 | Устройство и способ для кодирования многоканального звукового сигнала |
Country Status (13)
Country | Link |
---|---|
US (3) | US8577045B2 (ru) |
EP (1) | EP2206110B1 (ru) |
JP (1) | JP5277508B2 (ru) |
KR (1) | KR101120913B1 (ru) |
CN (1) | CN101809655B (ru) |
BR (1) | BRPI0817982B1 (ru) |
CA (1) | CA2698600C (ru) |
GB (1) | GB2453117B (ru) |
MX (1) | MX2010002846A (ru) |
MY (1) | MY169423A (ru) |
RU (1) | RU2450369C2 (ru) |
WO (1) | WO2009042386A1 (ru) |
ZA (1) | ZA201001672B (ru) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2623886C2 (ru) * | 2012-12-12 | 2017-06-29 | Долби Интернэшнл Аб | Способ и устройство для сжатия и восстановления представления системы амбисоник высшего порядка для звукового поля |
RU2682026C1 (ru) * | 2015-03-09 | 2019-03-14 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и устройство для определения параметра межканальной разности времени |
RU2763374C2 (ru) * | 2015-09-25 | 2021-12-28 | Войсэйдж Корпорейшн | Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы |
US12125492B2 (en) | 2020-10-15 | 2024-10-22 | Voiceage Coproration | Method and system for decoding left and right channels of a stereo sound signal |
Families Citing this family (98)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8483853B1 (en) | 2006-09-12 | 2013-07-09 | Sonos, Inc. | Controlling and manipulating groupings in a multi-zone media system |
US8788080B1 (en) | 2006-09-12 | 2014-07-22 | Sonos, Inc. | Multi-channel pairing in a media system |
US9202509B2 (en) | 2006-09-12 | 2015-12-01 | Sonos, Inc. | Controlling and grouping in a multi-zone media system |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
EP2237267A4 (en) * | 2007-12-21 | 2012-01-18 | Panasonic Corp | STEREOSIGNALUMSETZER, STEREOSIGNALWANDLER AND METHOD THEREFOR |
BRPI1008915A2 (pt) * | 2009-02-27 | 2018-01-16 | Panasonic Corp | dispositivo de determinação de tom e método de determinação de tom |
CN102157152B (zh) | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
US8463414B2 (en) | 2010-08-09 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus for estimating a parameter for low bit rate stereo transmission |
US8923997B2 (en) | 2010-10-13 | 2014-12-30 | Sonos, Inc | Method and apparatus for adjusting a speaker system |
US11265652B2 (en) | 2011-01-25 | 2022-03-01 | Sonos, Inc. | Playback device pairing |
US11429343B2 (en) | 2011-01-25 | 2022-08-30 | Sonos, Inc. | Stereo playback configuration and control |
EP2671221B1 (en) | 2011-02-03 | 2017-02-01 | Telefonaktiebolaget LM Ericsson (publ) | Determining the inter-channel time difference of a multi-channel audio signal |
US8938312B2 (en) | 2011-04-18 | 2015-01-20 | Sonos, Inc. | Smart line-in processing |
US9042556B2 (en) | 2011-07-19 | 2015-05-26 | Sonos, Inc | Shaping sound responsive to speaker orientation |
WO2013029225A1 (en) * | 2011-08-29 | 2013-03-07 | Huawei Technologies Co., Ltd. | Parametric multichannel encoder and decoder |
WO2013088208A1 (en) * | 2011-12-15 | 2013-06-20 | Nokia Corporation | An audio scene alignment apparatus |
US8811630B2 (en) | 2011-12-21 | 2014-08-19 | Sonos, Inc. | Systems, methods, and apparatus to filter audio |
US9084058B2 (en) | 2011-12-29 | 2015-07-14 | Sonos, Inc. | Sound field calibration using listener localization |
US9729115B2 (en) | 2012-04-27 | 2017-08-08 | Sonos, Inc. | Intelligently increasing the sound level of player |
US9524098B2 (en) | 2012-05-08 | 2016-12-20 | Sonos, Inc. | Methods and systems for subwoofer calibration |
USD721352S1 (en) | 2012-06-19 | 2015-01-20 | Sonos, Inc. | Playback device |
US9219460B2 (en) | 2014-03-17 | 2015-12-22 | Sonos, Inc. | Audio settings based on environment |
US9690271B2 (en) | 2012-06-28 | 2017-06-27 | Sonos, Inc. | Speaker calibration |
US9690539B2 (en) | 2012-06-28 | 2017-06-27 | Sonos, Inc. | Speaker calibration user interface |
US9668049B2 (en) | 2012-06-28 | 2017-05-30 | Sonos, Inc. | Playback device calibration user interfaces |
US9706323B2 (en) | 2014-09-09 | 2017-07-11 | Sonos, Inc. | Playback device calibration |
US9106192B2 (en) | 2012-06-28 | 2015-08-11 | Sonos, Inc. | System and method for device playback calibration |
US8930005B2 (en) | 2012-08-07 | 2015-01-06 | Sonos, Inc. | Acoustic signatures in a playback system |
US8965033B2 (en) | 2012-08-31 | 2015-02-24 | Sonos, Inc. | Acoustic optimization |
US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
US9008330B2 (en) | 2012-09-28 | 2015-04-14 | Sonos, Inc. | Crossover frequency adjustments for audio speakers |
US8976959B2 (en) * | 2012-11-21 | 2015-03-10 | Clinkle Corporation | Echo delay encoding |
USD721061S1 (en) | 2013-02-25 | 2015-01-13 | Sonos, Inc. | Playback device |
JP6224827B2 (ja) | 2013-06-10 | 2017-11-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法 |
CN104681029B (zh) | 2013-11-29 | 2018-06-05 | 华为技术有限公司 | 立体声相位参数的编码方法及装置 |
US9226087B2 (en) | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
US9226073B2 (en) | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
CN103856869A (zh) * | 2014-03-12 | 2014-06-11 | 深圳市中兴移动通信有限公司 | 音效处理方法和摄像装置 |
US9264839B2 (en) | 2014-03-17 | 2016-02-16 | Sonos, Inc. | Playback device configuration based on proximity detection |
US9367283B2 (en) | 2014-07-22 | 2016-06-14 | Sonos, Inc. | Audio settings |
USD883956S1 (en) | 2014-08-13 | 2020-05-12 | Sonos, Inc. | Playback device |
US9952825B2 (en) | 2014-09-09 | 2018-04-24 | Sonos, Inc. | Audio processing algorithms |
US9910634B2 (en) | 2014-09-09 | 2018-03-06 | Sonos, Inc. | Microphone calibration |
US9891881B2 (en) | 2014-09-09 | 2018-02-13 | Sonos, Inc. | Audio processing algorithm database |
US10127006B2 (en) | 2014-09-09 | 2018-11-13 | Sonos, Inc. | Facilitating calibration of an audio playback device |
US9973851B2 (en) | 2014-12-01 | 2018-05-15 | Sonos, Inc. | Multi-channel playback of audio content |
US10664224B2 (en) | 2015-04-24 | 2020-05-26 | Sonos, Inc. | Speaker calibration user interface |
WO2016172593A1 (en) | 2015-04-24 | 2016-10-27 | Sonos, Inc. | Playback device calibration user interfaces |
USD906278S1 (en) | 2015-04-25 | 2020-12-29 | Sonos, Inc. | Media player device |
USD886765S1 (en) | 2017-03-13 | 2020-06-09 | Sonos, Inc. | Media playback device |
USD920278S1 (en) | 2017-03-13 | 2021-05-25 | Sonos, Inc. | Media playback device with lights |
US20170085972A1 (en) | 2015-09-17 | 2017-03-23 | Sonos, Inc. | Media Player and Media Player Design |
USD768602S1 (en) | 2015-04-25 | 2016-10-11 | Sonos, Inc. | Playback device |
US10248376B2 (en) | 2015-06-11 | 2019-04-02 | Sonos, Inc. | Multiple groupings in a playback system |
US9460727B1 (en) * | 2015-07-01 | 2016-10-04 | Gopro, Inc. | Audio encoder for wind and microphone noise reduction in a microphone array system |
US9613628B2 (en) | 2015-07-01 | 2017-04-04 | Gopro, Inc. | Audio decoder for wind and microphone noise reduction in a microphone array system |
US9729118B2 (en) | 2015-07-24 | 2017-08-08 | Sonos, Inc. | Loudness matching |
US9877134B2 (en) * | 2015-07-28 | 2018-01-23 | Harman International Industries, Incorporated | Techniques for optimizing the fidelity of a remote recording |
US9538305B2 (en) | 2015-07-28 | 2017-01-03 | Sonos, Inc. | Calibration error conditions |
US9736610B2 (en) | 2015-08-21 | 2017-08-15 | Sonos, Inc. | Manipulation of playback device response using signal processing |
US9712912B2 (en) | 2015-08-21 | 2017-07-18 | Sonos, Inc. | Manipulation of playback device response using an acoustic filter |
USD1043613S1 (en) | 2015-09-17 | 2024-09-24 | Sonos, Inc. | Media player |
CN108028985B (zh) | 2015-09-17 | 2020-03-13 | 搜诺思公司 | 用于计算设备的方法 |
US9693165B2 (en) | 2015-09-17 | 2017-06-27 | Sonos, Inc. | Validation of audio calibration using multi-dimensional motion check |
US10152977B2 (en) * | 2015-11-20 | 2018-12-11 | Qualcomm Incorporated | Encoding of multiple audio signals |
US10115403B2 (en) * | 2015-12-18 | 2018-10-30 | Qualcomm Incorporated | Encoding of multiple audio signals |
US10074373B2 (en) * | 2015-12-21 | 2018-09-11 | Qualcomm Incorporated | Channel adjustment for inter-frame temporal shift variations |
US9743207B1 (en) | 2016-01-18 | 2017-08-22 | Sonos, Inc. | Calibration using multiple recording devices |
WO2017125559A1 (en) * | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling |
US11106423B2 (en) | 2016-01-25 | 2021-08-31 | Sonos, Inc. | Evaluating calibration of a playback device |
US10003899B2 (en) | 2016-01-25 | 2018-06-19 | Sonos, Inc. | Calibration with particular locations |
US9886234B2 (en) | 2016-01-28 | 2018-02-06 | Sonos, Inc. | Systems and methods of distributing audio to one or more playback devices |
US9978381B2 (en) * | 2016-02-12 | 2018-05-22 | Qualcomm Incorporated | Encoding of multiple audio signals |
US9864574B2 (en) | 2016-04-01 | 2018-01-09 | Sonos, Inc. | Playback device calibration based on representation spectral characteristics |
US9860662B2 (en) | 2016-04-01 | 2018-01-02 | Sonos, Inc. | Updating playback device configuration information based on calibration data |
US9763018B1 (en) | 2016-04-12 | 2017-09-12 | Sonos, Inc. | Calibration of audio playback devices |
CN105897738B (zh) * | 2016-05-20 | 2017-02-22 | 电子科技大学 | 一种用于多信道环境的实时流编码方法 |
US9794710B1 (en) | 2016-07-15 | 2017-10-17 | Sonos, Inc. | Spatial audio correction |
US9860670B1 (en) | 2016-07-15 | 2018-01-02 | Sonos, Inc. | Spectral correction using spatial calibration |
US10372406B2 (en) | 2016-07-22 | 2019-08-06 | Sonos, Inc. | Calibration interface |
US10459684B2 (en) | 2016-08-05 | 2019-10-29 | Sonos, Inc. | Calibration of a playback device based on an estimated frequency response |
GB201615538D0 (en) * | 2016-09-13 | 2016-10-26 | Nokia Technologies Oy | A method , apparatus and computer program for processing audio signals |
USD851057S1 (en) | 2016-09-30 | 2019-06-11 | Sonos, Inc. | Speaker grill with graduated hole sizing over a transition area for a media device |
US10412473B2 (en) | 2016-09-30 | 2019-09-10 | Sonos, Inc. | Speaker grill with graduated hole sizing over a transition area for a media device |
USD827671S1 (en) | 2016-09-30 | 2018-09-04 | Sonos, Inc. | Media playback device |
US10712997B2 (en) | 2016-10-17 | 2020-07-14 | Sonos, Inc. | Room association based on name |
CN106647103B (zh) * | 2017-03-09 | 2019-12-06 | 电子科技大学 | 一种用于孤子自频移全光模数转换的编码装置及方法 |
CN108877815B (zh) * | 2017-05-16 | 2021-02-23 | 华为技术有限公司 | 一种立体声信号处理方法及装置 |
CN109215667B (zh) | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
CN109427338B (zh) * | 2017-08-23 | 2021-03-30 | 华为技术有限公司 | 立体声信号的编码方法和编码装置 |
US10891960B2 (en) * | 2017-09-11 | 2021-01-12 | Qualcomm Incorproated | Temporal offset estimation |
US10872611B2 (en) * | 2017-09-12 | 2020-12-22 | Qualcomm Incorporated | Selecting channel adjustment method for inter-frame temporal shift variations |
US11741114B2 (en) * | 2017-12-19 | 2023-08-29 | ExxonMobil Technology and Engineering Company | Data analysis platform |
ES2909343T3 (es) * | 2018-04-05 | 2022-05-06 | Fraunhofer Ges Forschung | Aparato, método o programa informático para estimar una diferencia de tiempo entre canales |
US10299061B1 (en) | 2018-08-28 | 2019-05-21 | Sonos, Inc. | Playback device calibration |
US11206484B2 (en) | 2018-08-28 | 2021-12-21 | Sonos, Inc. | Passive speaker authentication |
US10734965B1 (en) | 2019-08-12 | 2020-08-04 | Sonos, Inc. | Audio calibration of a portable playback device |
US11670317B2 (en) | 2021-02-23 | 2023-06-06 | Kyndryl, Inc. | Dynamic audio quality enhancement |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003090206A1 (en) * | 2002-04-22 | 2003-10-30 | Koninklijke Philips Electronics N.V. | Signal synthesizing |
WO2004093495A1 (en) * | 2003-04-17 | 2004-10-28 | Koninklijke Philips Electronics N.V. | Audio signal synthesis |
RU2005104123A (ru) * | 2002-07-16 | 2005-07-10 | Конинклейке Филипс Электроникс Н.В. (Nl) | Аудиокодирование |
EP1565036A2 (en) * | 2004-02-12 | 2005-08-17 | Agere System Inc. | Late reverberation-based synthesis of auditory scenes |
WO2005083679A1 (en) * | 2004-02-17 | 2005-09-09 | Koninklijke Philips Electronics N.V. | An audio distribution system, an audio encoder, an audio decoder and methods of operation therefore |
RU2005135648A (ru) * | 2003-04-17 | 2006-03-20 | Конинклейке Филипс Электроникс Н.В. (Nl) | Генерация аудиосигналов |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4544919A (en) * | 1982-01-03 | 1985-10-01 | Motorola, Inc. | Method and means of determining coefficients for linear predictive coding |
JPS58152542A (ja) * | 1982-03-05 | 1983-09-10 | 株式会社東芝 | X線診断装置 |
US5434948A (en) * | 1989-06-15 | 1995-07-18 | British Telecommunications Public Limited Company | Polyphonic coding |
DE4320990B4 (de) * | 1993-06-05 | 2004-04-29 | Robert Bosch Gmbh | Verfahren zur Redundanzreduktion |
JP2762957B2 (ja) | 1995-05-22 | 1998-06-11 | 日本電気株式会社 | 災害用電話システム、及び交換機、電話機 |
US5844947A (en) * | 1995-12-28 | 1998-12-01 | Lucent Technologies Inc. | Viterbi decoder with reduced metric computation |
KR100189906B1 (ko) * | 1996-04-17 | 1999-06-01 | 윤종용 | 비터비 복호화방법 및 그 회로 |
US6236731B1 (en) * | 1997-04-16 | 2001-05-22 | Dspfactory Ltd. | Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids |
US6253172B1 (en) * | 1997-10-16 | 2001-06-26 | Texas Instruments Incorporated | Spectral transformation of acoustic signals |
US6452985B1 (en) * | 1998-03-18 | 2002-09-17 | Sony Corporation | Viterbi decoding apparatus and Viterbi decoding method |
JP2000004495A (ja) * | 1998-06-16 | 2000-01-07 | Oki Electric Ind Co Ltd | 複数マイク自由配置による複数話者位置推定方法 |
JP2000044995A (ja) | 1998-07-29 | 2000-02-15 | Toppan Printing Co Ltd | インキローラー洗浄剤 |
US6973184B1 (en) * | 2000-07-11 | 2005-12-06 | Cisco Technology, Inc. | System and method for stereo conferencing over low-bandwidth links |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
DE60326782D1 (de) | 2002-04-22 | 2009-04-30 | Koninkl Philips Electronics Nv | Dekodiervorrichtung mit Dekorreliereinheit |
KR101049751B1 (ko) * | 2003-02-11 | 2011-07-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
US6988064B2 (en) * | 2003-03-31 | 2006-01-17 | Motorola, Inc. | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
ES2291939T3 (es) * | 2003-09-29 | 2008-03-01 | Koninklijke Philips Electronics N.V. | Codificacion de señales de audio. |
US7313720B1 (en) * | 2004-02-12 | 2007-12-25 | Network Appliance, Inc. | Technique for increasing the number of persistent consistency point images in a file system |
ATE405925T1 (de) | 2004-09-23 | 2008-09-15 | Harman Becker Automotive Sys | Mehrkanalige adaptive sprachsignalverarbeitung mit rauschunterdrückung |
US7653155B1 (en) * | 2004-11-04 | 2010-01-26 | Sandia Corporation | Using convolutional decoding to improve time delay and phase estimation in digital communications |
WO2006070757A1 (ja) * | 2004-12-28 | 2006-07-06 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
KR100936684B1 (ko) * | 2005-01-13 | 2010-01-13 | 후지쯔 가부시끼가이샤 | 음 수신 장치 |
EP1691348A1 (en) | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
US7583808B2 (en) * | 2005-03-28 | 2009-09-01 | Mitsubishi Electric Research Laboratories, Inc. | Locating and tracking acoustic sources with microphone arrays |
JP4948401B2 (ja) * | 2005-05-31 | 2012-06-06 | パナソニック株式会社 | スケーラブル符号化装置およびスケーラブル符号化方法 |
US7653533B2 (en) * | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
EP1953736A4 (en) * | 2005-10-31 | 2009-08-05 | Panasonic Corp | STEREO CODING DEVICE AND METHOD FOR PREDICTING STEREO SIGNAL |
CN1809105B (zh) * | 2006-01-13 | 2010-05-12 | 北京中星微电子有限公司 | 适用于小型移动通信设备的双麦克语音增强方法及系统 |
WO2007110103A1 (en) * | 2006-03-24 | 2007-10-04 | Dolby Sweden Ab | Generation of spatial downmixes from parametric representations of multi channel signals |
US7599441B2 (en) * | 2006-06-20 | 2009-10-06 | Newport Media, Inc. | Low complexity soft-input Viterbi decoding for digital communication systems |
-
2007
- 2007-09-25 GB GB0718682.8A patent/GB2453117B/en not_active Expired - Fee Related
-
2008
- 2008-09-09 BR BRPI0817982A patent/BRPI0817982B1/pt active IP Right Grant
- 2008-09-09 EP EP08799366.3A patent/EP2206110B1/en not_active Not-in-force
- 2008-09-09 WO PCT/US2008/075703 patent/WO2009042386A1/en active Application Filing
- 2008-09-09 JP JP2010527010A patent/JP5277508B2/ja not_active Expired - Fee Related
- 2008-09-09 MX MX2010002846A patent/MX2010002846A/es active IP Right Grant
- 2008-09-09 US US12/679,121 patent/US8577045B2/en active Active
- 2008-09-09 KR KR1020107006423A patent/KR101120913B1/ko active IP Right Grant
- 2008-09-09 RU RU2010116295/08A patent/RU2450369C2/ru active
- 2008-09-09 CA CA2698600A patent/CA2698600C/en active Active
- 2008-09-09 MY MYPI2010001088A patent/MY169423A/en unknown
- 2008-09-09 CN CN2008801087221A patent/CN101809655B/zh active Active
-
2010
- 2010-03-08 ZA ZA2010/01672A patent/ZA201001672B/en unknown
-
2013
- 2013-06-18 US US13/920,549 patent/US9570080B2/en active Active
-
2017
- 2017-01-04 US US15/398,364 patent/US20170116997A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003090206A1 (en) * | 2002-04-22 | 2003-10-30 | Koninklijke Philips Electronics N.V. | Signal synthesizing |
RU2005104123A (ru) * | 2002-07-16 | 2005-07-10 | Конинклейке Филипс Электроникс Н.В. (Nl) | Аудиокодирование |
WO2004093495A1 (en) * | 2003-04-17 | 2004-10-28 | Koninklijke Philips Electronics N.V. | Audio signal synthesis |
RU2005135648A (ru) * | 2003-04-17 | 2006-03-20 | Конинклейке Филипс Электроникс Н.В. (Nl) | Генерация аудиосигналов |
EP1565036A2 (en) * | 2004-02-12 | 2005-08-17 | Agere System Inc. | Late reverberation-based synthesis of auditory scenes |
WO2005083679A1 (en) * | 2004-02-17 | 2005-09-09 | Koninklijke Philips Electronics N.V. | An audio distribution system, an audio encoder, an audio decoder and methods of operation therefore |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2623886C2 (ru) * | 2012-12-12 | 2017-06-29 | Долби Интернэшнл Аб | Способ и устройство для сжатия и восстановления представления системы амбисоник высшего порядка для звукового поля |
US10038965B2 (en) | 2012-12-12 | 2018-07-31 | Dolby Laboratories Licensing Corporation | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US10257635B2 (en) | 2012-12-12 | 2019-04-09 | Dolby Laboratories Licensing Corporation | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US10609501B2 (en) | 2012-12-12 | 2020-03-31 | Dolby Laboratories Licensing Corporation | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
RU2744489C2 (ru) * | 2012-12-12 | 2021-03-10 | Долби Интернэшнл Аб | Способ и устройство для сжатия и восстановления представления системы амбисоник высшего порядка для звукового поля |
US11184730B2 (en) | 2012-12-12 | 2021-11-23 | Dolby Laboratories Licensing Corporation | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US11546712B2 (en) | 2012-12-12 | 2023-01-03 | Dolby Laboratories Licensing Corporation | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
RU2682026C1 (ru) * | 2015-03-09 | 2019-03-14 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и устройство для определения параметра межканальной разности времени |
RU2763374C2 (ru) * | 2015-09-25 | 2021-12-28 | Войсэйдж Корпорейшн | Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы |
US12125492B2 (en) | 2020-10-15 | 2024-10-22 | Voiceage Coproration | Method and system for decoding left and right channels of a stereo sound signal |
Also Published As
Publication number | Publication date |
---|---|
GB2453117B (en) | 2012-05-23 |
WO2009042386A4 (en) | 2009-06-25 |
CN101809655A (zh) | 2010-08-18 |
WO2009042386A1 (en) | 2009-04-02 |
EP2206110B1 (en) | 2017-01-11 |
JP5277508B2 (ja) | 2013-08-28 |
CN101809655B (zh) | 2012-07-25 |
RU2010116295A (ru) | 2011-11-10 |
EP2206110A1 (en) | 2010-07-14 |
GB0718682D0 (en) | 2007-10-31 |
MX2010002846A (es) | 2010-04-01 |
JP2010541007A (ja) | 2010-12-24 |
US20110085671A1 (en) | 2011-04-14 |
US20170116997A1 (en) | 2017-04-27 |
MY169423A (en) | 2019-04-03 |
US9570080B2 (en) | 2017-02-14 |
KR101120913B1 (ko) | 2012-02-27 |
CA2698600C (en) | 2015-01-20 |
ZA201001672B (en) | 2016-02-24 |
US20130282384A1 (en) | 2013-10-24 |
BRPI0817982B1 (pt) | 2020-05-05 |
EP2206110A4 (en) | 2015-12-09 |
BRPI0817982A2 (pt) | 2015-04-07 |
GB2453117A (en) | 2009-04-01 |
CA2698600A1 (en) | 2009-04-02 |
KR20100057666A (ko) | 2010-05-31 |
US8577045B2 (en) | 2013-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2450369C2 (ru) | Устройство и способ для кодирования многоканального звукового сигнала | |
KR101621287B1 (ko) | 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법 | |
RU2305870C2 (ru) | Оптимизированное по точности кодирование с переменной длиной кадра | |
JP2021103326A (ja) | チャネル間時間差を推定する装置及び方法 | |
JP6063555B2 (ja) | マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法 | |
US8463414B2 (en) | Method and apparatus for estimating a parameter for low bit rate stereo transmission | |
US11664034B2 (en) | Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal | |
RU2762302C1 (ru) | Устройство, способ или компьютерная программа для оценки разности во времени между каналами | |
US8359196B2 (en) | Stereo sound decoding apparatus, stereo sound encoding apparatus and lost-frame compensating method | |
US10553223B2 (en) | Adaptive channel-reduction processing for encoding a multi-channel audio signal | |
US20090204397A1 (en) | Linear predictive coding of an audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC43 | Official registration of the transfer of the exclusive right without contract for inventions |
Effective date: 20141125 |
|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20180111 |