RU2713094C1 - Устройство и способ обработки многоканального аудиосигнала - Google Patents
Устройство и способ обработки многоканального аудиосигнала Download PDFInfo
- Publication number
- RU2713094C1 RU2713094C1 RU2018145037A RU2018145037A RU2713094C1 RU 2713094 C1 RU2713094 C1 RU 2713094C1 RU 2018145037 A RU2018145037 A RU 2018145037A RU 2018145037 A RU2018145037 A RU 2018145037A RU 2713094 C1 RU2713094 C1 RU 2713094C1
- Authority
- RU
- Russia
- Prior art keywords
- signals
- signal
- phase
- unit
- channel
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000005236 sound signal Effects 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 title claims abstract description 41
- 230000006978 adaptation Effects 0.000 claims abstract description 37
- 238000000926 separation method Methods 0.000 claims abstract description 31
- 230000008859 change Effects 0.000 claims abstract description 24
- 238000006243 chemical reaction Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000002441 reversible effect Effects 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims 1
- 238000007906 compression Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 239000000126 substance Substances 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001066 destructive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 101150068393 argx gene Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/005—Reproducing at a different information rate from the information rate of recording
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
Изобретение относится к акустике. Устройство для обработки многоканального аудиосигнала, выполненное с возможностью модуляции масштаба времени многоканального аудиосигнала, содержит: блок объединения сигналов, выполненный с возможностью получения суммарного и разностного сигналов, блок фазовой адаптации, блок разделения сигналов. Блок фазовой адаптации выполнен с возможностью получения обработанного сигнала путем изменения фазы суммарного сигнала. Блок фазовой адаптации выполнен с возможностью изменения фазы путем применения способа фазового вокодера, причем блок фазовой адаптации выполнен с возможностью изменения фазы путем применения фазовой синхронизации. Блок фазовой адаптации выполнен с возможностью изменения фазы таким образом, что поддерживается горизонтальная фазовая когерентность. Блок разделения выполнен с возможностью разделения сигналов на основании по меньшей мере одного обработанного сигнала и разностного сигнала или обработанного разностного сигнала, причем блок разделения выполнен с возможностью обращения комбинации канальных сигналов, применяемой блоком объединения. Технический результат – повышение качества звучания. 3 н. и 23 з.п. ф-лы, 5 ил.
Description
Изобретение относится к устройству для обработки многоканального аудиосигнала. Многоканальный аудиосигнал содержит множество, т.е. по меньшей мере два, канальных сигнала. Устройство осуществляет модуляцию масштаба времени многоканального аудиосигнала. Изобретение также относится к соответствующему способу и компьютерной программе.
Изменение масштаба времени (TSM) относится к обработке для замедления или ускорения воспроизведения аудиосигнала без влияния на его основной тон. TSM совместно с преобразованием частоты дискретизации также позволяет изменять основной тон, не изменяя темп. Проблема для TSM состоит в поддержании всех остальных характеристик аудиосигнала (кроме либо темпа, либо основного тона) и, в частности, качества звучания. Обработка не должна создавать слышимые артефакты.
Для одноканальных входных сигналов, наиболее важной характеристикой является тембр. Для сигналов, имеющих более одного канала, также должны поддерживаться пространственные характеристики. Пространственные характеристики содержат положение и ширину источника прямого звука и диффузность внешнего звука. Их можно количественно выражать межканальными разностями уровней (ICLD), межканальными разностями времен (ICTD), межканальными разностями фаз (ICPD) или межканальной когерентностью (ICC).
Существуют два принципиально разных подхода к изменению масштаба времени. Один применяется во временной области, и другой применяется в частотной области.
Обработка во временной области использует схему синхронизированного перекрытия с добавлением (SOLA). Сигнал разрезается на перекрывающиеся кадры и эти кадры сдвигаются и объединяются для растяжения или сжатия сигнала. Положение сдвига обычно вычисляется путем максимизации меры подобия, например, корреляции между кадром сигнала и его сдвинутой копией.
Этот способ во временной области имеет низкую вычислительную сложность. Он дает хорошие результаты для монофонических (в отличие от полифонических) сигналов, например, речи или тонов, издаваемых флейтой, поскольку смещение сдвига можно определять как целое кратное периода основной частоты во избежание нарушений непрерывности и деструктивной интерференции в выходном сигнале. Другими словами, сдвинутые кадры сигнала добавляются фазокогерентным образом. Для полифонических входных сигналов с множественными тонами, имеющими разные основные частоты, сдвиг невозможно определить, в связи с чем, подобие форм волны имеет место для всех тонов (основных тонов).
Для многих музыкальных сигналов, лучшие результаты в отношении качества звучания получаются путем применения обработки в частотной области. Этот способ использует, например, схему фазового вокодера [1] как показано в блок-схеме, изображенной на фиг. 1 и кратко объяснено ниже.
Входной аудиосигнал x(n) преобразуется в частотную область с использованием кратковременного преобразования Фурье (STFT). Эквивалентно, можно использовать другой тип банка фильтров или преобразования для которого может применяться обратная обработка с достаточно малой ошибкой реконструкции.
В упомянутом варианте осуществления входной сигнал x(n) разрезается на перекрывающиеся кадры, и дискретное преобразование Фурье (DFT) вычисляется для каждого кадра согласно следующему уравнению (1), давая представление кратковременного преобразования Фурье (STFT) сигнала, также именуемое коэффициентами STFT (или спектральными коэффициентами), согласно
Индекс временного кадра обозначается m, k - дискретный индекс частоты, удовлетворяющий условию 0≤k≤N-1, и wa - вырезающая функция. Нормализованная угловая частота Ωk задается как Ωk=2πk/N. DFT имеет размер N, и Ra является размером скачка анализа.
Индексы для времени и частоты по возможности исключены из описания для краткости.
Выходной сигнал временной области y(n) вычисляется из выходных спектральных коэффициентов Y(m, k) на стадии синтеза посредством преобразования, обратного STFT, которое осуществляется в два этапа:
во-первых, обратное дискретное преобразование Фурье вычисляется для каждого из M кадров согласно
во-вторых, применяется процедура перекрытия с добавлением согласно
где ws(n) - необязательное окно синтеза, и Rs - размер скачка синтеза.
Изменение масштаба времени достигается путем установления размера Rs скачка синтеза и размера Ra скачка анализа на разные значения: сигнал растягивается по времени, если Ra<Rs, и сжимается, если Ra>Rs.
Окно wa анализа и окно ws синтеза выбираются таким образом, что если Ra=Rs и Y(m,k)=X(m,k), то входной и выходной сигналы идентичны.
Коэффициенты X(m,k) кратковременного преобразования Фурье для действительнозначных входных сигналов (что справедливо для рассматриваемых здесь аудиосигналов) являются комплекснозначными числами, которые можно выражать в полярных координатах их модулем |X| и фазой Φx как
X=|X|exp(jΦx), (4)
Φx=argX, (5)
где j=√-1.
Если два размера скачка Ra и Rs отличаются, т.е. если Ra≠Rs, то фазы Y(m,k) должны изменяться таким образом, чтобы достигалась «горизонтальная фазовая когерентность». Это означает, что для синусоиды постоянной частоты, последовательные кадры перекрываются когерентно без нарушений непрерывности или фазовой нейтрализации (деструктивной интерференции).
Подход фазового вокодера подходит для полифонических входных сигналов, например, музыкальных записей. Его недостаток состоит в том, что изменение фазы может создавать артефакт, известный как «переходное размытие», т.е. временная огибающая сигнала изменяется таким образом, что нотные вступления восприниматься как имеющие меньшую атаку и менее ударный звук. Дополнительная обработка может применяться к выходной фазе для ослабления переходного размытия, например, путем применения так называемого способа «фазовой синхронизации» [2] или путем переустановления фазы в течение периодов тишины [3].
После пригодной процедуры изменения фазы получается выходной сигнал. Спектральные коэффициенты выходного сигнала можно выражать в полярных координатах как Y=|Y|exp(jΦy) где Φy обозначает измененную фазу. Процесс вычисления фазы Φy в дальнейшем именуется фазовой адаптацией (PA).
Известны различные способы обработки входных двухканальных аудиосигналов:
Один вариант предполагает понижающее микширование многоканального сигнала до одноканального сигнала, т.е. сложение масштабированных версий всех каналов и обработку одноканального (монофонического) сигнала. Обработка монофонического результата микширования входного сигнала имеет недостаток в том, что стереофоническая информация утрачивается, и, таким образом, снижается качество звучания.
Другой вариант предполагает независимую обработку разделенных входных канальных сигналов. Основной недостаток раздельной обработки каждого канального сигнала состоит в том, что вносится произвольная декорреляция между каналами, которая искажает стереофонической образ. Поскольку фазовая адаптация изменения масштаба времени является сигналозависимой обработкой, соотношения между фазами отдельных каналов не сохраняются, когда соответствующие канальные сигналы отличаются. Искажения пространственной информации могут восприниматься как размывание или расширение стереофонического образа источников прямого звука (например, певцов или солиста).
Задачей изобретения является усовершенствование существующих способов изменения масштаба времени в отношении качества пространственных характеристик, например, стереофонического образа, обработанного сигнала.
Задача достигается посредством устройства а также посредством способа.
Задача достигается посредством устройства для обработки многоканального аудиосигнала. Многоканальный аудиосигнал содержит множество, по меньшей мере два, канальных сигналов. Устройство выполнено с возможностью осуществления модуляции масштаба времени многоканального аудиосигнала, т.е. многоканальный аудиосигнал замедляется или ускоряется без влияния на его основной тон. Устройство содержит блок фазовой адаптации и блок разделения. Блок фазовой адаптации выполнен с возможностью обеспечения по меньшей мере одного обработанного сигнала путем изменения фазы сигнала на основании комбинаций канальных сигналов. Блок разделения выполнен с возможностью обеспечения разделенных сигналов на основании по меньшей мере одного обработанного сигнала.
Изобретение улучшает обработку сигналов и в особенности аудио или речевых сигналов. Особое внимание уделяется проблеме обработки стереофонических входных сигналов, имеющих два или более каналов.
Преимущество изобретения состоит в том, что пространственные характеристики входного аудиосигнала сохраняются таким образом, что воспринимаемый стереофонической образ не искажается. В частности, положения и диффузность источников звука не изменяются вследствие обработки TSM.
Таким образом, изобретение решает проблему существенного искаженная пространственных характеристик выходного сигнала в уровне техники, что особенно заметно при прослушивании источников звука, панорамированных к центру стереофонического образа.
Устройство осуществляет изменение масштаба времени многоканального аудиосигнала путем осуществления фазовой адаптации. В уровне техники известны разные процедуры изменения фазы (в том числе, фазовая синхронизация и другие средства).
Один вариант осуществления для изменения фазы предусматривает изменение фазы таким образом, что распространение фазы между соседними кадрами с размером Rs скачка синтеза идентично распространению фазы входного сигнала для размера Ra скачка анализа. Это гарантирует, что поддерживается горизонтальная фазовая когерентность (т.е. временная эволюция фазы в каждом частотном бине). Это достигается путем вычисления мгновенной частоты во временном кадре m на основании фазы входного сигнала текущего и предыдущего временного кадра и размера Ra скачка анализа и параметров STFT (кратковременного преобразования Фурье). Желаемое распространение фазы вычисляется с использованием мгновенной частоты и размера Rs скачка синтеза.
В дополнительном варианте осуществления, вышеизложенный способ дополняется способом, содержащим «фазовую синхронизацию». Фазовая синхронизация призвана повышать вертикальную фазовую когерентность, т.е. поддерживать соотношение фазы между соседними частотными бинами в каждом кадре. Это повышает качество звучания, что, например, заметно при обработке музыкальных сигналов, содержащих переходные сигналы или ударные ноты.
Блок фазовой адаптации выполнен с возможностью адаптации фазы по меньшей мере одной комбинации канальных сигналов, содержащихся в многоканальном аудиосигнале. Для этого сигналы, подлежащие обработке блоком фазовой адаптации, задаются в полярных координатах модулем и фазой.
Блок разделения, следующий за блоком фазовой адаптации, обеспечивает разделенные сигналы на основании обработанного сигнала, т.е. на основании сигнала с измененной фазой. Блок разделения реверсирует комбинацию сигналов и извлекает или формирует разделенные сигналы.
Следовательно, устройство изменяет фазу по меньшей мере одной комбинации канальных сигналов и обеспечивает отдельные измененные сигналы путем разделения адаптированной по фазе комбинации канальных сигналов на разделенные сигналы.
Фазовая адаптация согласно изобретению наиболее пригодна как дополнение к изменению масштаба времени с использованием фазового вокодера, т.е. обработки в частотной области. Однако ее также можно применять как дополнение к TSM во временной области. Для этого TSM временной области позволяет обрабатывать по меньшей мере один сигнал, который получается путем объединения канальных сигналов, содержащихся в многоканальном аудиосигнале. Блок разделения, следующий за TSM временной области, обеспечивает разделенные сигналы на основании обработанного сигнала.
Согласно варианту осуществления, блок фазовой адаптации выполнен с возможностью обеспечения N обработанных сигналов путем изменения фаз N сигналов на основании комбинаций N канальных сигналов. Блок разделения выполнен с возможностью обеспечения N разделенных сигналов на основании обработанных сигналов. N - количество канальных сигналов, содержащихся в многоканальном аудиосигнале и является целым числом, большим или равным двум. Согласно варианту осуществления, N - количество всех канальных сигналов, содержащихся в многоканальном аудиосигнале. Следовательно, N канальных сигналов преобразуются в N объединенных сигналов, которые после фазовой адаптации делятся на N сигналов.
Согласно варианту осуществления, N комбинаций канальных сигналов являются линейными комбинациями канальных сигналов. Согласно варианту осуществления, блок фазовой адаптации оперирует различными комбинациями канальных сигналов, тогда как комбинации являются линейными комбинациями, например, суммой или разностью канальных сигналов.
Согласно варианту осуществления, N равно двум (N=2) и две комбинации двух канальных сигналов являются суммарным и разностным сигналом. В другом варианте осуществления, N больше двух.
В дополнительном варианте осуществления, устройство содержит блок преобразования. Блок преобразования выполнен с возможностью обеспечения преобразованных сигналов путем преобразования сигналов из временной области в частотную область. Блок преобразования позволяет преобразовывать сигналы из временной в частотную область и, затем, обрабатывать эти сигналы в частотной области. Сигналы, подлежащие преобразованию, в одном варианте осуществления являются канальными сигналами, содержащимися в многоканальном аудиосигнале.
Согласно варианту осуществления, блок преобразования выполнен с возможностью обеспечения преобразованных сигналов путем применения кратковременного преобразования Фурье. Кратковременное преобразование Фурье или, альтернативно, кратковременное преобразование Фурье (STFT), является преобразованием Фурье локальных секций сигнала по мере его изменения со временем. На практике, более длинный сигнал делится на более короткие сегменты равной длины, и преобразование Фурье вычисляется раздельно на каждом сегменте.
В дополнительном варианте осуществления, устройство содержит блок объединения, причем блок объединения выполнен с возможностью обеспечения объединенных сигналов на основании канальных сигналов. Блок преобразования выполнен с возможностью обеспечения преобразованных сигналов на основании объединенных сигналов путем применения преобразования. Здесь, канальные сигналы объединяются, и комбинации преобразуются в частотную область.
В другом варианте осуществления, последовательность блока объединения и блока преобразования является обратной. В этом варианте осуществления, блок объединения, содержащийся в устройстве, выполнен с возможностью обеспечения объединенных сигналов на основании преобразованных сигналов, обеспеченных блоком преобразования. В этом варианте осуществления, блок объединения принимает преобразованные сигналы от блока преобразования и объединяет их для обеспечения объединенных сигналов. Таким образом, канальные сигналы по отдельности преобразуются в частотную область и объединяются в этой области блоком объединения.
В дополнительном варианте осуществления, блок объединения выполнен с возможностью обеспечения суммарного сигнала в качестве объединенного сигнала путем вычисления суммы двух преобразованных сигналов. В этом варианте осуществления, линейная комбинация канальных сигналов через их преобразованные сигналы в форме суммирования используется для обеспечения по меньшей мере одного объединенного сигнала. Если многоканальный аудиосигнал содержит, например, два канальных сигнала в качестве стереосигналов, то оба канальных сигнала суммируются друг с другом для получения одного объединенного сигнала, который является суммарным сигналом. В другом варианте осуществления, блок объединения вычисляет сумму канальных сигналов из по меньшей мере двух канальных сигналов.
Согласно варианту осуществления, блок объединения выполнен с возможностью обеспечения разностного сигнала в качестве объединенного сигнала путем вычисления разности между двумя преобразованными сигналами. В этом варианте осуществления, линейная комбинация сигналов является разностью между двумя сигналами. Сигналы, подлежащие объединению, являются здесь преобразованными сигналами. В другом варианте осуществления, блок объединения вычисляет разность между двумя канальными сигналами.
Согласно варианту осуществления, блок объединения выполнен с возможностью обеспечения объединенных сигналов путем применения матрицы смешивания, обозначенной g, имеющей размеры N×N, к многоканальному сигналу, содержащему N преобразованных сигналов, согласно
N - количество канальных сигналов, содержащихся в многоканальном аудиосигнале, и - матрицированный многоканальный сигнал на основании преобразованных сигналов и представляет, таким образом, объединенные сигналы в общей форме.
Другими словами: блок объединения выполнен с возможностью обеспечения объединенных сигналов путем применения матрицы смешивания имеющий размеры N×N к N преобразованным сигналам, предпочтительно в матрицированном формате, в котором преобразованные сигналы основаны на N канальных сигналах, принадлежащих многоканальному аудиосигналу.
Поскольку матрица смешивания имеет одинаковое количество столбцов и строк, количество сигналов, подлежащих объединению, равно количеству объединенных сигналов, как показано в следующем уравнении:
Применение матрицы смешивания эквивалентно вычислению k-го канального сигнала объединенного сигнала путем суммирования всех канальных сигналов многоканального аудиосигнала, умноженных на соответствующие элементы k-ой строки матрицы, как показано в следующем уравнении:
В другом варианте осуществления, заданная матрица смешивания применяется к сигналу на основании N канальных сигналов. Матрица смешивания позволяет объединять любое заданное количество сигналов, которые являются либо преобразованными, либо канальными сигналами.
В дополнительном варианте осуществления, блок фазовой адаптации выполнен с возможностью изменения фаз путем применения способа фазового вокодера. Фазовый вокодер является вокодером, масштабирующим оба частотную и временную области аудиосигналов с использованием информации фазы.
Согласно варианту осуществления, блок фазовой адаптации выполнен с возможностью обеспечения обработанных сигналов их полярными координатами, имеющими амплитуды и измененные фазы. Таким образом, в одном варианте осуществления с N=2 канальные сигналы Ys, Yd, обработанные сигналы задаются следующим образом: Ys/d=|Ys/d|exp(jΦs/d), где Φs/d=argYs/d и j=√-1.
Блок разделения обеспечивает одиночные сигналы на основании обработанных сигналов, которые основаны на объединенных сигналов. Сигналы, обеспеченные блоком разделения, подлежат использованию в качестве канальных сигналов с измененным масштабом времени. Следовательно, согласно варианту осуществления, если многоканальный аудиосигнал содержит N канальных сигналов, то блок разделения обеспечивает N разделенных сигналов.
Согласно варианту осуществления, блок разделения выполнен с возможностью обеспечения разделенного сигнала на основании разности между двумя из обработанных сигналов.
В дополнительном варианте осуществления, блок разделения выполнен с возможностью обеспечения разделенного сигнала на основании суммы двух обработанных сигналов.
Согласно варианту осуществления, блок разделения применяет коэффициент, например, 0,5, к амплитуде соответствующей комбинации обработанных сигналов.
Согласно варианту осуществления, блок разделения выполнен с возможностью обеспечения N разделенных сигналов путем применения обратной матрицы смешивания имеющий размеры N×N к матрицированному сигналу на основании N обработанных сигналов. N - количество канальных сигналов, содержащихся в многоканальном аудиосигнале. Этот вариант осуществления позволяет обрабатывать любое заданное количество обработанных сигналов и обеспечивать соответствующее количество разделенных сигналов. Обратная матрица смешивания является обратной матрице смешивания, используемой для получения объединенных сигналов.
Согласно варианту осуществления, устройство содержит блок коррекции, причем блок коррекции выполнен с возможностью изменения разделенных сигналов путем замены амплитуд разделенных сигналов амплитудами на основании амплитуд канальных сигналов, содержащихся в многоканальном аудиосигнале.
Этот вариант осуществления предусматривает обработку линейной комбинации канальных сигналов и применение процедуру коррекции модуля после изменения сигналов в частотной области.
Таким образом, новизна представленного способа, в этом варианте осуществления, является двойной:
1) применение обработки TSM, предпочтительно, к линейным комбинациям, например, к суммарному сигналу и разностному сигналу и
2) применение обработки для восстановления модуля выходного сигнала в частотно-временной области для восстановления межканальных разностей уровней (ICLD).
В дополнительном варианте осуществления, блок коррекции выполнен с возможностью замены амплитуд разделенных сигналов амплитудами соответствующих преобразованных сигналов, обеспеченных блоком преобразования, т.е. амплитудами канальных сигналов в частотной области.
Блок коррекции, таким образом, заменяет амплитуды разделенных сигналов, имеющих адаптированную фазу амплитудами соответствующих сигналов до адаптации. Следовательно, исходные амплитуды восстанавливаются.
Нижеследующие варианты осуществления имеют дело с сигналами в частотной области и позволяют обрабатывать их во временной области.
Согласно варианту осуществления, устройство содержит обратный блок преобразования. Обратный блок преобразования выполнен с возможностью обеспечения измененных канальных сигналов на основании разделенных сигналов путем применения обратного преобразования. Это обратное преобразование преобразует согласно варианту осуществления сигналы из частотной во временную область.
Согласно другому варианту осуществления, устройство содержит обратный блок преобразования. Обратный блок преобразования выполнен с возможностью обеспечения измененных и скорректированных канальных сигналов на основании скорректированных сигналов, обеспеченных блоком коррекции путем применения обратного преобразования.
Согласно другому варианту осуществления, обратный блок преобразования выполнен с возможностью применения обратного кратковременного преобразования Фурье.
Таким образом, обратный блок преобразования выполнен с возможностью обращать разновидность преобразования, осуществляемого на этапе, предшествующем фазовой адаптации.
Согласно варианту осуществления, устройство содержит блок извлечения, причем блок извлечения выполнен с возможностью обеспечения канальных сигналов, содержащихся в многоканальном аудиосигнале. В этом варианте осуществления, устройство, например, принимает многоканальный аудиосигнал, и блок извлечения обеспечивает отдельные канальные сигналы. В другом варианте осуществления, канальные сигналы раздельно подаются на устройство.
Следующий вариант осуществления позволяет облегчать вычислительные этапы и требования к блокам.
Согласно варианту осуществления, устройство выполнено с возможностью осуществления этапов на комбинациях канальных сигналов на основании разности с меньшей точностью, чем на различных комбинациях канальных сигналов.
Задача также решается посредством способа обработки многоканального аудиосигнала.
Способ содержит по меньшей мере следующие этапы:
обеспечение по меньшей мере одного объединенного сигнала на основании канальных сигналов, содержащихся в многоканальном аудиосигнале,
обеспечение обработанного сигнала путем осуществления модуляции масштаба времени объединенного сигнала, и
обеспечение измененных канальных сигналов на основании разделения обработанных сигналов.
Модуляция масштаба времени в одном варианте осуществления осуществляется посредством фазовой адаптации.
Согласно варианту осуществления, способ дополнительно содержит изменение амплитуды измененных канальных сигналов путем замены амплитуд амплитудами на основании амплитуд соответствующих канальных сигналов.
В этом варианте осуществления выполняются следующие этапы: канальные сигналы объединяются в объединенные сигналы. Объединенные сигналы или сигналы на основании объединенных сигналов претерпевают фазовую адаптацию для осуществления изменения масштаба времени. Адаптированные по фазе сигналы разделяются на отдельные сигналы. Сигналы содержат фазы и амплитуды. Амплитуды/модули этих сигналов заменяются амплитудами на основании канальных сигналов.
Варианты осуществления устройства также могут осуществляться на этапах способа и в соответствующих вариантах осуществления способа. Таким образом, приведенные объяснения вариантов осуществления устройства также относятся и к способу.
Задача также решается посредством компьютерной программы для осуществления, при выполнении на компьютере или процессоре, способа любого из предыдущих вариантов осуществления.
Изобретение будет объяснено далее со ссылкой на прилагаемые чертежи и варианты осуществления, изображенные в прилагаемых чертежах, в которых:
фиг. 1 - блок-схема способа изменения масштаба времени в частотной области согласно уровню техники,
фиг. 2 - блок-схема способа изменения масштаба времени согласно изобретению для входных аудиосигналов с двумя каналами,
фиг. 3 - схема варианта осуществления устройства,
фиг. 4 - другой вариант осуществления устройства и
фиг. 5 - общая версия варианта осуществления на фиг. 4.
Блок-схема варианта осуществления способа согласно изобретению изображена на фиг. 2 на примере входных сигналов, имеющих два канала (например, левый и правый каналы стереозвука).
Входной аудиосигнал представляет собой x=[x1 x2]T, где x1 обозначает первый канальный сигнал, и x2 обозначает второй канальный сигнал. Представление кратковременного преобразования Фурье (STFT) вычисляется для x1 и x2, давая X1 и X2, соответственно, на этапе STFT.
Согласно изобретению, суммарный сигнал Xs и разностный сигнал Xd вычисляются на этапе, именуемом MS, из канальных сигналов - в данном случае: преобразованных канальных сигналов X1 и X2 - многоканального аудиосигнала согласно
Xs=(X1+X2), (6)
Xd=(X1-X2). (7)
В другом варианте осуществления, порядок STFT и объединения сигналов на этапе MS переключается. При этом предполагается, что вычисление суммарных и разностных сигналов также может осуществляться во временной области, и что STFT можно вычислять из суммарных и разностных сигналов временной области. Однако преимущественно применять порядок, показанный на фиг. 2, для снижения вычислительной нагрузки.
Затем суммарный сигнал Xs и разностный сигнал Xd обрабатываются посредством способа фазовой адаптации (PA), например, с использованием способа фазового вокодера, описанного в [2], или любого другого способа изменения масштаба времени. Обработанные суммарный сигнал и разностный сигнал обозначаются Ys и Yd, соответственно.
После этого следует обратное преобразование на этапе обратного MS, например, путем преобразования сигналов Ys и Yd посредством обратного кратковременного преобразования Фурье.
Обработанные сигналы для первого и второго каналов получаются в показанном варианте осуществления путем применения нижеследующих уравнений (8) и (9), т.е. обратной обработки уравнений (6) и (7).
Следовательно, два разделенных сигнала Y1 и Y2 задаются в показанном варианте осуществления в виде:
Y1=0,5(Ys+Yd), (8)
Y2=0,5(Ys-Yd). (9)
В общей форме, вычисление суммарного сигнала и разностного сигнала (в качестве примеров объединенных сигналов) выражаются в матричной форме как
где X=[X1 … XN]T - коэффициенты STFT входного сигнала, N - количество каналов, - коэффициенты STFT матрицированного сигнала, и g - матрица смешивания размером N×N.
Например, суммарный сигнал Xs и разностный сигнал Xd, заданные уравнениями (6) и (7), получаются для N=2 путем установления и .
Обратная обработка матричной операции, т.е. вычисление канальных сигналов Y=[Y1 … YN]T из матрицированного сигнала получается из
где - результат обработки PA, применяемой к и g -1 - матрица, обратная g. Согласно этому обобщению, предложенный способ также можно применять к сигналам, имеющим более двух каналов.
Очень преимущественный этап показанного варианта осуществления состоит в коррекции модуля спектральных коэффициентов таким образом, что полученные комплекснозначные спектральные коэффициенты имеют фазу результата этапа разделения с использованием уравнений (8) и (9) и модуль X1 и X2 преобразованных канальных сигналов.
Разделенные сигналы задаются в полярных координатах как:
Y1/2=|Y1/2|exp(jΦy,1/2), где Φy,1/2=argY1/2 и j=√-1.
Следовательно, для показанных двухканальных входных сигналов, скорректированные сигналы Z1 и Z2 после этапа MC задаются как:
Z1=|X1|exp(jΦy,1), (12)
Z2=|X2|exp(jΦy,2). (13)
Этот этап гарантирует сохранение межканальных разностей уровней (ICLD) аудиосигнала.
Следовательно, на этом этапе модули обработанных сигналов заменяются исходными амплитудами преобразованных канальных сигналов.
В общем случае входных сигналов, имеющих более двух каналов, каждый выходной сигнал после обратной матричной операции, т.е. после разделения в разделенных сигналах после адаптации отдельных фаз, изменяется согласно варианту осуществления таким образом, что его модуль заменяется модулем соответствующего, предпочтительно, преобразованного канального сигнала (до матрицирования, т.е. до вычисления комбинаций разных канальных сигналов).
Обработка PA имеет значительную вычислительную сложность. Это предусматривает различные этапы обработки, которые могут быть реализованы со сниженной точностью для снижения вычислительной нагрузки.
Например, вычисление полярных координат (модуля и фазы) комплексного числа, заданного его декартовыми координатами (действительной и мнимой составляющими) может быть реализовано с более низкой или более высокой точностью. Часто, вычисления с более низкой точностью имеют более низкие вычислительные затраты, но вносят ошибку.
Вычислительная нагрузка может снижаться с учетом того факта, что для типичных аудиосигналов (например, музыкальных записей или широковещательных сигналов) суммарный сигнал имеет более высокую энергию, чем разностный сигнал. Ошибки, обусловленные приближениями в вычислении, оказывают меньшее влияние, когда они вносятся в разностный сигнал и большее влияние, когда они возникают в суммарном сигнале. Это можно использовать путем применения способов с меньшей точностью для вычисления разностного сигнала Yd и способов с большей точностью при вычислении суммарного сигнала Ys.
Другое средство для снижения вычислительной нагрузки состоит в пропуске некоторых этапов обработки. Например, фазовая синхронизация может пропускаться при вычислении разностного сигнала Yd. Фазовая синхронизация относится к дополнительному этапу обработки для повышения качества звучания. Для снижения вычислительной нагрузки, фазы разностного сигнала Yd вычисляются таким образом, что распространение фазы поддерживается без применения обработки фазовой синхронизации.
Другое средство для снижения вычислительной нагрузки состоит в применении обработки высокого качества (большой точности на всех этапах обработки наподобие фазовой синхронизации) только до максимального значения частоты. Для цифрового сигнала, дискретизированного с частотой, например 48 кГц, обработка высокого качества применяется только к частотным диапазонам до максимального значения 10 кГц. Максимальная частота, до которой применяется обработка с наилучшим возможным качеством, может дополнительно снижаться для вычисления разностного сигнала.
На фиг. 3 показан вариант осуществления устройства 1, которое осуществляет изменение масштаба времени многоканального аудиосигнала 100. Многоканальный аудиосигнал 100 может содержать более двух канальных сигнала. Изменение масштаба времени является достигается посредством фазовой адаптации.
Блок 2 извлечения извлекает канальные сигналы x1, x2, содержащиеся в многоканальном аудиосигнале 100. В показанном варианте осуществления, существует только два канальных сигнала. Тем не менее, изобретение не ограничивается двумя канальными сигналами.
В другом, не показанном, варианте осуществления, канальные сигналы x1, x2 по отдельности поступают на устройство 1. Следовательно, для такого варианта осуществления блок извлечения не требуется.
Канальные сигналы x1, x2 являются сигналами во временной области и, в показанном варианте осуществления, поступают на блок 3 преобразования. Блок 3 преобразования преобразует канальные сигналы x1, x2 в частотную область, и, таким образом, обеспечивает преобразованные сигналы X1, X2.
Преобразованные сигналы X1, X2 подаются на блок 4 объединения. Блок 4 объединения объединяет преобразованные сигналы X1, X2, в данном примере, путем применения их линейных комбинаций, например, путем вычисления суммы Xs преобразованных сигналов и разности Xd между ними. Количество объединенных сигналов в одном варианте осуществления равно количеству канальных сигналов.
В другом, не показанном, варианте осуществления, последовательность блока 3 преобразования и блока 4 объединения является обратной. Это означает, что блок 4 объединения объединяет канальные сигналы, и блок 3 преобразования преобразует объединенные сигналы в этом другом, не показанном, варианте осуществления.
В изображенном варианте осуществления, объединенные сигналы, а именно, объединенные преобразованные канальные сигналы Xs и Xd, подаются на блок 5 фазовой адаптации.
Блок 5 фазовой адаптации изменяет фазы объединенных сигналов Xs и Xd и обеспечивает обработанные сигналы Ys и Yd. Обработанные сигналы Ys и Yd имеют адаптированные фазы, отражающие подходящее изменение масштаба времени объединенных сигналов Xs и Xd. Следовательно, объединенные сигналы замедляются или ускоряются.
Для получения канальных сигналах с измененным масштабом времени, обработанные сигналы Ys и Yd разделяются блоком 6 разделения, обеспечивающим разделенные сигналы Y1 и Y2, которые претерпевают обратное преобразование блоком 7 обратного преобразования. Полученные измененные канальные сигналы Y1 и Y2 являются временными сигналами и имеют желаемый масштаб времени.
На фиг. 4 показан другой вариант осуществления устройства 1.
Конструкция устройства 1, показанного на фиг. 4, аналогична варианту осуществления, показанному на фиг. 3. Различие между обоими вариантами осуществления заключается в блоках, следующих за блоком 6 разделения. Объяснение других элементов приведено в описании фиг. 3.
Блок 6 разделения в варианте осуществления, показанном на фиг. 4, также обеспечивает разделенные сигналы Y1 и Y2. Эти сигналы частотной области Y1 и Y2 подаются в этом варианте осуществления на блок 8 коррекции, предшествующий блоку 7 обратного преобразования.
Блок 8 коррекции заменяет амплитуды разделенных сигналов Y1 и Y2 амплитудами соответствующих преобразованных сигналов X1 и X2, т.е. амплитудами или модулями до фазовой адаптации и, в особенности, до объединения канальных сигналов.
Полученные сигналы Z1 и Z2, скорректированные или измененные по амплитуде (ср. уравнения (12) и (13)) подаются на блок 7 обратного преобразования и преобразуются во временную область как измененные и скорректированные канальные сигналы z1, z2.
Для обеспечения коррекции, блок 3 преобразования соединён с блоком 8 коррекции.
В дополнительном, не показанном, варианте осуществления, последовательность блока 3 преобразования и блока 4 объединения переключается, и блок 3 преобразования, таким образом, преобразует объединенные сигналы. Для коррекции разделенных сигналов Y1, Y2 блок 8 коррекции обращается, таким образом, к дополнительным преобразованиям соответствующих канальных сигналов x1, x2.
Вариант осуществления, представленный на фиг. 5, является обобщенной версией показанного на фиг. 4.
Здесь, многоканальный аудиосигнал 100 содержит N канальных сигналов x1, x2, …, xN, где N - целое число, большее двух.
Канальные сигналы x1, x2, …, xN, которые являются временными сигналами, извлеченными блоком 2 извлечения, подаются на блок 3 преобразования, обеспечивающий преобразованные сигналы в частотной области X1, X2, …, XN, которые задаются здесь вектором (альтернативно, задаются как X).
После этого блок 5 фазовой адаптации обеспечивает обработанные сигналы (здесь заданные вектором: ), которые разделяются блоком 6 разделения. Разделенные сигналы Y1, Y2, …, YN (здесь заданный вектором ) корректируются в отношении их амплитуд блоком 8 коррекции. Скорректированные сигналы Z1, Z2, …, ZN (заданные здесь вектором ), подаются на блок 7 обратного преобразования, давая N измененных и скорректированных канальных сигналов z1, z2, …, zN. Переход от верхнего регистра к нижнему регистру, указывает преобразование из частотной во временную область.
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все этапы способа могут выполняться аппаратным устройством (или с его помощью), например, микропроцессором, программируемым компьютером или электронной схемой. В некоторых вариантах осуществления, некоторые один или более из наиболее важных этапов способа могут выполняться таким устройством.
Передаваемый или кодированный сигнал согласно изобретению может сохраняться на цифровом носителе данных или может передаваться по среде передачи, например, беспроводной среде передачи или проводной среде передачи, например, интернете.
В зависимости от некоторых требований реализации, варианты осуществления изобретения могут быть реализованы аппаратными средствами или программными средствами. Реализация может осуществляться с использованием цифрового носителя данных, например, флоппи-диска, DVD, Blu-Ray, CD, ROM, PROM и EPROM, EEPROM или флеш-памяти, на котором хранятся электронно считываемые сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, благодаря чему, осуществляется соответствующий способ. Таким образом, цифровой носитель данных может считываться компьютером.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой, благодаря чему, осуществляется один из описанных здесь способов.
В общем случае, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код позволяет осуществлять один из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из описанных здесь способов, хранящихся на машиночитаемом носителе.
Другими словами, вариант осуществления способа согласно изобретению, таким образом, представляет собой компьютерную программу, имеющую программный код для осуществления одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.
Таким образом, дополнительный вариант осуществления способа согласно изобретению представляет собой носитель данных (или постоянный носитель данных, например, цифровой носитель данных или машиночитаемый носитель), на котором записана компьютерная программа для осуществления одного из описанных здесь способов. Носитель данных, цифровой носитель данных или записанный носитель обычно является материальным и/или постоянным.
Таким образом, дополнительный вариант осуществления изобретения способа представляет собой поток данных или последовательность сигналов, представляющую компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов может, например, быть выполнена с возможностью переноса через соединение для передачи данных, например, через интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью или адаптированное для осуществления одного из описанных здесь способов.
Дополнительный вариант осуществления содержит компьютер, на котором установлена компьютерная программа для осуществления одного из описанных здесь способов.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью переноса (например, электронного или оптического) компьютерной программы для осуществления одного из описанных здесь способов на приемник. Приемником может быть, например, компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система может, например, содержат файловый сервер для переноса компьютерной программы на приемник.
В некоторых вариантах осуществления, программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) может использоваться для осуществления некоторых или всех из функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления, вентильная матрица, программируемая пользователем может взаимодействовать с микропроцессором для осуществления одного из описанных здесь способов. В общем случае, способы, предпочтительно, осуществляются любым аппаратным устройством.
Вышеописанные варианты осуществления призваны лишь иллюстрировать принципы настоящего изобретения. Следует понимать, что описанные здесь модификации и вариации конфигураций и подробностей будут очевидны специалистам в данной области техники. Таким образом, предполагается ограничение лишь объемом нижеследующей формулы изобретения, но не конкретными подробностями, представленными в настоящем документе в качестве описания и пояснения вариантов осуществления.
Список литературы
[1] M. Dolson, ʺThe Phase Vocoder: A Tutorialʺ, Computer Music Journal, vol. 10, pp. 14-27, 1986.
[2] J. Laroche and M. Dolson, ʺImproved Phase Vocoder Time-Scale Modification of Audioʺ, IEEE Transaction on Speech and Audio Processing, vol. 7, no. 3, pp. 323-332, 1999.
[3] T. Karrer, E. Lee, and J. Borchers, ʺPhaVoRIT: A Phase Vocoder for Real-Time Interactive Time-Stretching,ʺ in Proc. of ICMC, 2006.
Claims (50)
1. Устройство (1) для обработки многоканального аудиосигнала (100), содержащего множество канальных сигналов (x1, x2), причем устройство (1) выполнено с возможностью осуществления модуляции масштаба времени многоканального аудиосигнала (100), и
при этом устройство (1) содержит:
блок (4) объединения для обеспечения объединенных сигналов (Xs, Xd) на основании канальных сигналов (x1, x2), причем блок (4) объединения выполнен с возможностью обеспечения суммарного сигнала (Xs) путем вычисления суммы двух канальных сигналов (x1, x2) и обеспечения разностного сигнала (Xd) путем вычисления разности двух канальных сигналов (x1, x2);
блок (5) фазовой адаптации, причем блок (5) фазовой адаптации выполнен с возможностью обеспечения по меньшей мере одного обработанного сигнала (Ys) путем изменения фазы суммарного сигнала (Xs), причем блок (5) фазовой адаптации выполнен с возможностью изменения фазы путем применения способа фазового вокодера, причем блок (5) фазовой адаптации выполнен с возможностью изменения фазы путем применения фазовой синхронизации, или блок (5) фазовой адаптации выполнен с возможностью изменения фазы таким образом, что поддерживается горизонтальная фазовая когерентность, и
блок (6) разделения, причем блок (6) разделения выполнен с возможностью обеспечения разделенных сигналов (Y1, Y2) на основании по меньшей мере одного обработанного сигнала (Ys) и разностного сигнала (Xd) или обработанного разностного сигнала (Yd), в котором блок (6) разделения выполнен с возможностью обращения комбинации канальных сигналов, применяемой блоком (4) объединения.
2. Устройство (1) по п. 1, в котором блок (5) фазовой адаптации выполнен с возможностью обеспечения N обработанных сигналов (Ys, Yd) путем изменения фаз N сигналов (Xs, Xd) на основании комбинаций N канальных сигналов (x1, x2),
причем блок (6) разделения выполнен с возможностью обеспечения N разделенных сигналов (Y1, Y2) на основании обработанного сигнала (Ys, Yd),
где N - количество канальных сигналов (x1, x2), содержащихся в многоканальном аудиосигнале (100).
3. Устройство (1) по п. 2, в котором N комбинаций канальных сигналов (x1, x2) являются линейными комбинациями канальных сигналов (x1, x2).
4. Устройство (1) по п. 1, причем устройство (1) содержит блок (3) преобразования, и
при этом блок (3) преобразования выполнен с возможностью обеспечения преобразованных сигналов (X1, X2) путем преобразования сигналов из временной области в частотную область.
5. Устройство (1) по п. 4, в котором блок (3) преобразования выполнен с возможностью применения кратковременного преобразования Фурье.
6. Устройство (1) по п. 4,
в котором блок (4) объединения выполнен с возможностью обеспечения объединенных сигналов (Xs, Xd) на основании канальных сигналов (x1, x2), и
при этом блок (3) преобразования выполнен с возможностью обеспечения преобразованных сигналов на основании объединенных сигналов путем применения преобразования.
7. Устройство (1) по п. 4,
в котором блок (4) объединения выполнен с возможностью обеспечения объединенных сигналов (Xs, Xd) на основании преобразованных сигналов (X1, X2), обеспеченных блоком (3) преобразования.
8. Устройство (1) по п. 7, в котором блок (4) объединения выполнен с возможностью обеспечения суммарного сигнала (Xs) путем вычисления суммы двух преобразованных сигналов (X1, X2).
9. Устройство (1) по п. 7, в котором блок (4) объединения выполнен с возможностью обеспечения разностного сигнала (Xd) путем вычисления разности между двумя преобразованными сигналами (X1, X2).
10. Устройство (1) по п. 7, в котором блок (4) объединения выполнен с возможностью обеспечения объединенных сигналов (Xs, Xd) путем применения матрицы смешивания (g), имеющей размеры N×N, к N преобразованным сигналам (X1, X2) на основании N канальных сигналов (x1, x2), принадлежащих многоканальному аудиосигналу (100),
где N - количество канальных сигналов (x1, x2), содержащихся в многоканальном аудиосигнале (100).
11. Устройство (1) по п. 4, в котором блок (3) преобразования выполнен с возможностью применения размера Ra скачка анализа,
причем устройство дополнительно содержит блок (7) обратного преобразования, причем блок (7) обратного преобразования выполнен с возможностью преобразования сигналов из частотной области во временную область и применения размера Rs скачка синтеза, и
при этом размер Rs скачка синтеза и размер Ra скачка анализа установлены на разные значения, таким образом, что изменение масштаба времени является растяжением сигнала по времени, когда Ra < Rs, или таким образом, что изменение масштаба времени является сжатием сигнала по времени, когда Ra > Rs.
12. Устройство (1) по п. 2, в котором блок (6) разделения выполнен с возможностью обеспечения разделенного сигнала (Y1, Y2) на основании разности между двумя из обработанных сигналов (Ys, Yd).
13. Устройство (1) по п. 2, в котором блок (6) разделения выполнен с возможностью обеспечения разделенного сигнала (Y1, Y2) на основании суммы двух обработанных сигналов (Ys, Yd).
14. Устройство (1) по п. 2, в котором блок (6) разделения выполнен с возможностью обеспечения N разделенных сигналов (Y1, Y2) путем применения обратной матрицы смешивания (g-1), имеющей размеры N×N, в матрицированный сигнал на основании N обработанных сигналов (Ys, Yd),
где N - количество канальных сигналов (x1, x2), содержащихся в многоканальном аудиосигнале (100).
15. Устройство (1) по п. 1, причем устройство (1) содержит блок (8) коррекции, и
при этом блок (8) коррекции выполнен с возможностью изменения разделенных сигналов (Y1, Y2) путем замены амплитуд разделенных сигналов (Y1, Y2) амплитудами на основании амплитуд канальных сигналов (x1, x2).
16. Устройство (1) по п. 15, в котором блок (8) коррекции выполнен с возможностью замены амплитуд разделенных сигналов (Y1, Y2) амплитудами преобразованных сигналов (X1, X2), обеспеченных блоком (3) преобразования.
17. Устройство (1) по п. 1, причем устройство (1) содержит блок (7) преобразования, и
при этом блок (7) обратного преобразования выполнен с возможностью обеспечения измененных канальных сигналов (y1, y2) на основании разделенных сигналов (Y1, Y2) путем применения обратного преобразования.
18. Устройство (1) по п. 15, причем устройство (1) содержит блок (7) обратного преобразования, и
при этом блок (7) обратного преобразования выполнен с возможностью обеспечения измененных и скорректированных канальных сигналов (z1, z2) на основании скорректированных сигналов (Z1, Z2), обеспеченных блоком (8) коррекции путем применения обратного преобразования.
19. Устройство (1) по п. 17, в котором блок (7) обратного преобразования выполнен с возможностью применения обратного кратковременного преобразования Фурье.
20. Устройство (1) по п. 1, причем устройство (1) содержит блок (2) извлечения, и
при этом блок (2) извлечения выполнен с возможностью обеспечения канальных сигналов (x1, x2), содержащихся в многоканальном аудиосигнале (100).
21. Устройство (1) по п. 1, причем устройство (1) выполнено с возможностью осуществления этапов на комбинациях канальных сигналов (x1, x2) на основании разности между сигналами с меньшей точностью, чем на различных комбинациях сигналов.
22. Устройство (1) по п. 1, в котором блок (5) фазовой адаптации выполнен с возможностью обеспечения обработанного разностного сигнала (Yd) путем изменения фазы разностного сигнала, и
при этом блок (6) разделения выполнен с возможностью обеспечения разделенных сигналов (Y1, Y2) на основании обработанного разностного сигнала (Yd).
23. Способ обработки многоканального аудиосигнала (100), содержащего множество канальных сигналов (x1, x2), причем способ предусматривает изменение масштаба времени многоканального аудиосигнала (100), причем способ содержит этапы, на которых:
обеспечивают объединенные сигналы (Xs, Xd) на основании канальных сигналов (x1, x2), причем объединенные сигналы содержат суммарный сигнал (Xs), вычисленный из суммы двух канальных сигналов (x1, x2), и разностный сигнал (Xd), вычисленный из разности двух канальных сигналов (x1, x2),
обеспечивают по меньшей мере один обработанный сигнал (Ys) путем изменения фазы суммарного сигнала (Xs), причем обеспечение обработанного сигнала содержит изменение фазы путем применения способа фазового вокодера, или изменение фазы путем применения фазовой синхронизации, или изменение фазы таким образом, что поддерживается горизонтальная фазовая когерентность, и
обеспечивают разделенные сигналы (Y1, Y2) на основании по меньшей мере одного обработанного сигнала (Ys) и разностного сигнала (Xd) или обработанного разностного сигнала (Yd), причем обеспечение разделенных сигналов (Y1, Y2) содержит обращение комбинации канальных сигналов, применяемой путем обеспечения объединенных сигналов (Xs, Xd).
24. Способ по п. 23, дополнительно содержащий этапы, на которых:
изменяют амплитуды измененных канальных сигналов путем замены амплитуд измененных канальных сигналов амплитудами на основании амплитуд соответствующих канальных сигналов.
25. Способ по п. 23, содержащий этап, на котором обеспечивают обработанный разностный сигнал (Yd) путем изменения фазы разностного сигнала, и
обеспечивают разделенные сигналы (Y1, Y2) на основании обработанного разностного сигнала (Yd).
26. Физический носитель, на котором сохранена компьютерная программа для осуществления, при выполнении на компьютере или в процессоре, способа по п. 23.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16170723 | 2016-05-20 | ||
EP16170723.7 | 2016-05-20 | ||
EP16179531.5A EP3246923A1 (en) | 2016-05-20 | 2016-07-14 | Apparatus and method for processing a multichannel audio signal |
EP16179531.5 | 2016-07-14 | ||
PCT/EP2017/061895 WO2017198737A1 (en) | 2016-05-20 | 2017-05-17 | Apparatus and method for processing a multichannel audio signal |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2713094C1 true RU2713094C1 (ru) | 2020-02-03 |
Family
ID=56080267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2018145037A RU2713094C1 (ru) | 2016-05-20 | 2017-05-17 | Устройство и способ обработки многоканального аудиосигнала |
Country Status (12)
Country | Link |
---|---|
US (1) | US11929089B2 (ru) |
EP (2) | EP3246923A1 (ru) |
JP (1) | JP6728400B2 (ru) |
KR (1) | KR102329707B1 (ru) |
CN (1) | CN109416915B (ru) |
AU (1) | AU2017266294B2 (ru) |
CA (1) | CA3023401C (ru) |
ES (1) | ES2841302T3 (ru) |
MX (1) | MX2018014041A (ru) |
PL (1) | PL3459078T3 (ru) |
RU (1) | RU2713094C1 (ru) |
WO (1) | WO2017198737A1 (ru) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008046967A1 (en) * | 2006-10-18 | 2008-04-24 | Nokia Corporation | Time scaling of multi-channel audio signals |
EP1918911A1 (en) * | 2006-11-02 | 2008-05-07 | RWTH Aachen University | Time scale modification of an audio signal |
WO2012150482A1 (en) * | 2011-05-04 | 2012-11-08 | Nokia Corporation | Encoding of stereophonic signals |
EP1810279B1 (en) * | 2004-11-04 | 2013-12-11 | Koninklijke Philips N.V. | Encoding and decoding of multi-channel audio signals |
US20150380001A1 (en) * | 2010-04-09 | 2015-12-31 | Dolby International Ab | Mdct-based complex prediction stereo coding |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
JP2000049614A (ja) | 1998-07-31 | 2000-02-18 | Kobe Steel Ltd | 再生装置 |
US8019598B2 (en) * | 2002-11-15 | 2011-09-13 | Texas Instruments Incorporated | Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition |
US20050137729A1 (en) * | 2003-12-18 | 2005-06-23 | Atsuhiro Sakurai | Time-scale modification stereo audio signals |
US7391870B2 (en) | 2004-07-09 | 2008-06-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Apparatus and method for generating a multi-channel output signal |
US7957960B2 (en) * | 2005-10-20 | 2011-06-07 | Broadcom Corporation | Audio time scale modification using decimation-based synchronized overlap-add algorithm |
US20070135952A1 (en) * | 2005-12-06 | 2007-06-14 | Dts, Inc. | Audio channel extraction using inter-channel amplitude spectra |
EP2002963A4 (en) | 2006-03-30 | 2009-11-04 | Mitsui Chemicals Inc | METHOD FOR PRODUCING AN ORIENTED FILM |
CN101079265B (zh) * | 2007-07-11 | 2011-06-08 | 无锡中星微电子有限公司 | 一种语音信号处理系统 |
KR101253278B1 (ko) * | 2008-03-04 | 2013-04-11 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 복수의 입력 데이터 스트림을 믹싱하는 장치 및 방법 |
PL3246919T3 (pl) * | 2009-01-28 | 2021-03-08 | Dolby International Ab | Ulepszona transpozycja harmonicznych |
EP2214165A3 (en) * | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
US8705769B2 (en) * | 2009-05-20 | 2014-04-22 | Stmicroelectronics, Inc. | Two-to-three channel upmix for center channel derivation |
CN101989426B (zh) * | 2009-08-05 | 2012-09-05 | 立积电子股份有限公司 | 立体音频解码器以及多工信号解码方法 |
WO2011029984A1 (en) * | 2009-09-11 | 2011-03-17 | Nokia Corporation | Method, apparatus and computer program product for audio coding |
EP2362375A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an audio signal using harmonic locking |
FR2966634A1 (fr) * | 2010-10-22 | 2012-04-27 | France Telecom | Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase |
EP2710592B1 (en) * | 2011-07-15 | 2017-11-22 | Huawei Technologies Co., Ltd. | Method and apparatus for processing a multi-channel audio signal |
JP6019266B2 (ja) | 2013-04-05 | 2016-11-02 | ドルビー・インターナショナル・アーベー | ステレオ・オーディオ・エンコーダおよびデコーダ |
SG11201510513WA (en) | 2013-06-21 | 2016-01-28 | Fraunhofer Ges Forschung | Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals |
WO2015038578A2 (en) * | 2013-09-12 | 2015-03-19 | Dolby Laboratories Licensing Corporation | System aspects of an audio codec |
CN103714847B (zh) * | 2013-12-31 | 2016-05-04 | 中山大学花都产业科技研究院 | 一种基于dsp的多通道数字音频处理器 |
-
2016
- 2016-07-14 EP EP16179531.5A patent/EP3246923A1/en not_active Withdrawn
-
2017
- 2017-05-17 AU AU2017266294A patent/AU2017266294B2/en active Active
- 2017-05-17 WO PCT/EP2017/061895 patent/WO2017198737A1/en active Search and Examination
- 2017-05-17 ES ES17726861T patent/ES2841302T3/es active Active
- 2017-05-17 CN CN201780031302.7A patent/CN109416915B/zh active Active
- 2017-05-17 EP EP17726861.2A patent/EP3459078B1/en active Active
- 2017-05-17 CA CA3023401A patent/CA3023401C/en active Active
- 2017-05-17 PL PL17726861T patent/PL3459078T3/pl unknown
- 2017-05-17 JP JP2018560586A patent/JP6728400B2/ja active Active
- 2017-05-17 RU RU2018145037A patent/RU2713094C1/ru active
- 2017-05-17 MX MX2018014041A patent/MX2018014041A/es unknown
- 2017-05-17 KR KR1020187033574A patent/KR102329707B1/ko active IP Right Grant
-
2018
- 2018-10-31 US US16/176,280 patent/US11929089B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1810279B1 (en) * | 2004-11-04 | 2013-12-11 | Koninklijke Philips N.V. | Encoding and decoding of multi-channel audio signals |
WO2008046967A1 (en) * | 2006-10-18 | 2008-04-24 | Nokia Corporation | Time scaling of multi-channel audio signals |
EP1918911A1 (en) * | 2006-11-02 | 2008-05-07 | RWTH Aachen University | Time scale modification of an audio signal |
US20150380001A1 (en) * | 2010-04-09 | 2015-12-31 | Dolby International Ab | Mdct-based complex prediction stereo coding |
WO2012150482A1 (en) * | 2011-05-04 | 2012-11-08 | Nokia Corporation | Encoding of stereophonic signals |
Non-Patent Citations (2)
Title |
---|
E. Moulines and J. Laroche, "Non-parametric techniques for pitch-scale and time-scale modification of speech", Speech Communication, vol. 16, no. 2, pp. 175-205, 1995. * |
Laroche, J. and Dolson, M., "Improved Phase- Vocoder Time-Scale Modification of Audio." // IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 7, NO. 3, MAY 1999. Shi Dong Expanded three-channel mid/side coding for three-dimensional multichannel audio systems // EURASIP Journal on Audio, Speech, and Music Processing 2014. * |
Also Published As
Publication number | Publication date |
---|---|
JP6728400B2 (ja) | 2020-07-22 |
KR20190013756A (ko) | 2019-02-11 |
AU2017266294B2 (en) | 2019-10-17 |
CA3023401C (en) | 2022-04-05 |
ES2841302T3 (es) | 2021-07-08 |
EP3459078B1 (en) | 2020-11-04 |
CN109416915B (zh) | 2020-11-24 |
BR112018073894A2 (pt) | 2019-02-26 |
AU2017266294A1 (en) | 2018-11-29 |
WO2017198737A1 (en) | 2017-11-23 |
US11929089B2 (en) | 2024-03-12 |
KR102329707B1 (ko) | 2021-11-22 |
JP2019518988A (ja) | 2019-07-04 |
US20190066712A1 (en) | 2019-02-28 |
CN109416915A (zh) | 2019-03-01 |
EP3459078A1 (en) | 2019-03-27 |
CA3023401A1 (en) | 2017-11-23 |
EP3246923A1 (en) | 2017-11-22 |
MX2018014041A (es) | 2019-04-01 |
PL3459078T3 (pl) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI643487B (zh) | 使用訊框控制同步化技術來編碼或解碼多通道信號之裝置及方法 | |
US20200388300A1 (en) | Subband Block Based Harmonic Transposition | |
JP5854520B2 (ja) | オーディオ信号用の位相ボコーダに基づく帯域幅拡張方法における改善された振幅応答及び時間的整列のための装置及び方法 | |
US7734473B2 (en) | Method and apparatus for time scaling of a signal | |
EP2710592B1 (en) | Method and apparatus for processing a multi-channel audio signal | |
JP4227772B2 (ja) | オーディオ復号装置と復号方法およびプログラム | |
BR122020007866B1 (pt) | Sistema configurado para gerar um componente de alta frequência de um sinal de áudio, método para gerar um componente de alta frequência de um sinal de áudio e método para projetar um transpositor de harmônicos | |
US20210158827A1 (en) | Time-Alignment of QMF Based Processing Data | |
JP6130507B2 (ja) | 帯域幅制限されたオーディオ信号から帯域幅拡張された信号を生成するための装置および方法 | |
RU2713094C1 (ru) | Устройство и способ обработки многоканального аудиосигнала | |
BR112018073894B1 (pt) | Aparelho e método para processar um sinal de áudio multicanal | |
Mejstrik et al. | Estimates of the Reconstruction Error in Partially Redressed Warped Frames Expansions | |
AU2019240701A1 (en) | Improved Subband Block Based Harmonic Transposition | |
BR122019025118B1 (pt) | Sistema e método para gerar um sinal de tempo alongado e/ou um sinal de frequência transposta a partir de um sinal de entrada e meio de armazenamento legível por computador |