RU2598326C2 - Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал - Google Patents
Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал Download PDFInfo
- Publication number
- RU2598326C2 RU2598326C2 RU2012113063/08A RU2012113063A RU2598326C2 RU 2598326 C2 RU2598326 C2 RU 2598326C2 RU 2012113063/08 A RU2012113063/08 A RU 2012113063/08A RU 2012113063 A RU2012113063 A RU 2012113063A RU 2598326 C2 RU2598326 C2 RU 2598326C2
- Authority
- RU
- Russia
- Prior art keywords
- signal
- transition
- audio signal
- processed
- audio
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 145
- 238000012545 processing Methods 0.000 title claims abstract description 65
- 230000001052 transient effect Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims description 74
- 230000007704 transition Effects 0.000 claims abstract description 172
- 238000003780 insertion Methods 0.000 claims description 19
- 230000037431 insertion Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000002035 prolonged effect Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000002411 adverse Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- AXTGDCSMTYGJND-UHFFFAOYSA-N 1-dodecylazepan-2-one Chemical compound CCCCCCCCCCCCN1CCCCCC1=O AXTGDCSMTYGJND-UHFFFAOYSA-N 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 102000002508 Peptide Elongation Factors Human genes 0.000 description 1
- 108010068204 Peptide Elongation Factors Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000016507 interphase Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Electrophonic Musical Instruments (AREA)
- Amplifiers (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Изобретение относится к средствам обработки аудио сигнала с переходом. Технический результат заключается в .улучшении качества аудио сигнала. Обрабатывают аудио сигнал, в котором удалена первая часть, содержащая переходный сигнал, либо аудио сигнал с переходом для получения итогового обработанного сигнала. Вставляют вторую временную часть в обработанный аудио сигнал, откуда первая часть была удалена или туда, где находится переходный сигнал в обработанном аудио сигнале; при этом, вторая часть содержит переходный сигнал, который не подвергался обработке в отличие от исходного сигнала, где стадия обработки сигнала выполнена с возможностью растяжения аудио сигнала без переходной части, посредством которого первая часть растягивается до второй части, более продолжительной по времени, чем первая часть, а модуль вставки сигнала выполнен с возможностью копирования части аудио сигнала, включающего переходный сигнал, а также частей до и после переходного сигнала так, чтобы при суммировании первой части и частей, предшествующей и последующей переходному сигналу, получался сигнал, равный по длительности второй части. Модуль вставки выполнен с возможностью вставки немодифицированной копии в обработанный аудио сигнал или вставки копии сигнала, включающего переходную часть, где были изменены только начальная часть или конечная часть. 3 н. и 8 з.п. ф-лы, 17 ил.
Description
Настоящее изобретение применяется в области обработки аудио сигналов, а именно, там, где обработка аудио сигналов включает применение аудио эффектов к сигналам, имеющим переходный сигнал.
Известно, что при подобной обработке аудио сигналов изменяется скорость воспроизведения сигнала, в то время как тон речевого сигнала остается прежним. При такой обработке используются фазовые речевые кодеры или такие методы, как метод совмещения и добавления (с синхронизацией тона) (P)SOLA, который описан в работах J.L. Flanagan and R. М. Golden, The Bell System Technical Journal, November 1966, pp.1394 to 1509; United States Patent 6549884 Laroche, J. & Dolson, M: Phase-vocoder pitch-shifting; Jean Laroche and Mark Dolson, New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing And Other Exotic Effects", Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, New York, Oct. 17-20, 1999; and Zolzer, U: DAFX: Digital Audio Effects; Wiley & Sons; Edition: 1 (February 26, 2002); pp.201-298.
Кроме того, аудио сигналы могут передаваться с помощью таких методов, как фазовые речевые кодеры или (P)SOLA, когда передаваемый аудио сигнал имеет ту же самую длину воспроизведения/повторного воспроизведения, что и исходный сигнал до передачи, но тон сигнала при этом меняется. Это достигается при ускоренном воспроизведении удлиненного сигнала, где фактор ускорения для выполнения ускоренного воспроизведения зависит от фактора удлинения, применяемого для растягивания исходного аудио сигнала во времени. Когда сигнал имеет дискретную репрезентацию во времени, эта процедура соответствует субдискретизации удлиненного сигнала или децимации удлиненного сигнала согласно коэффициенту, равному коэффициенту удлинения, при этом частота сигнала остается неизменной.
Особую сложность при обработке аудио сигналов такого типа представляют переходные сигналы. Переходные сигналы - это составляющие сигнала, когда энергия сигнала на всей частоте или на определенной частоте резко меняется, то есть резко увеличивается или резко уменьшается. Особенностью переходных сигналов является распределение энергии сигнала в спектре. Обычно энергия аудио сигнала во время перехода распределяется по всей частотной полосе, в то время как в порциях без переходного сигнала энергия обычно концентрируется в частотах низкого диапазона аудио сигнала или других определенных частотах.
Это означает, что часть сигнала без переходной помехи, которая также называется постоянной или тональной частью сигнала, имеет неравномерный спектр. Другими словами, энергия сигнала включена в сравнительно небольшое количество спектральных линий/спектральных частот, которые значительно выделяются над уровнем помех аудио сигнала. В части перехода энергия аудио сигнала распределяется по многим частотным полосам, особенно, в части высоких частот, поэтому часть аудио сигнала с переходом будет относительно равномерна по сравнению с тональной частью. Как правило, переходный сигнал представляет собой значительные изменения во времени, что означает, что сигнал будет включать более высокие гармоники, когда выполняется преобразование Фурье. Важной особенностью этого множества высоких гармоник является то, что фазы этих высоких гармоник взаимосвязаны особым образом, так что совмещение всех синусоидальных волн приводит к резкому изменению энергии сигнала. Иными словами, в данном случае существует сильная корреляция в спектре.
К особым случаям необходимо отнести «вертикальное соответствие». «Вертикальное соответствие» относится к временно-частотной репрезентации спектра сигнала, где горизонтальное направление соответствует развитию сигнала во времени, а вертикальное направление описывает взаимозависимость спектральных компонентов и частоты.
В ходе обычных стадий обработки, которые выполняются для того, чтобы растянуть или уменьшить во времени аудио сигнал, вертикальное соответствие разрушается, что означает, что переходный сигнал «размывается» во времени, когда он подвергается процедуре растягивания или уменьшения во времени. Это происходит, например, при применении фазового речевого кодера или любого другого метода, который выполняет частотно-зависимую обработку, изменяя фазу аудио сигнала, которая различна для различных частотных коэффициентов.
Когда при обработке аудио сигнала нарушается вертикальное соответствие переходного сигнала, обрабатываемый сигнал оказывается подобным исходному сигналу в той части, где отсутствует переход, то есть в стационарной части. Часть сигнала, где присутствует переход, имеет худшее качество. Неконтролируемое изменение вертикального соответствия переходного сигнала приводит к его временному рассеиванию. В связи с тем, что гармонические составляющие формируют переходный сигнал, изменение фаз всех этих составляющих в хаотичном порядке неизбежно приводит к появлению шумов.
Однако переходные части очень важны в плане динамики аудио сигнала, например, музыкального сигнала или речевого сигнала, где неожиданные изменения энергии в определенные моменты влияют на субъективность аудио сигнала. Иными словами, переходы, как правило, являются «ключевыми моментами» аудио сигнала, которые определяют субъективный характер сигнала. Переходные сигналы, в которых вертикальное соответствие было устранено с помощью процедуры обработки сигнала или было уменьшено в соответствии с частью перехода исходного сигнала, после обработки оказываются искаженными, реверберирующими и неестественными для слушателя.
Современные методы позволяют растянуть время вокруг перехода. Методы временной и/или тональной обработки сигналов описаны в следующих работах и патентах: Laroche L., Dolson М.: Improved phase vocoder timescale modification of audio", IEEE Trans. Speech and Audio Processing, vol. 7, no. 3, pp.323 - 332; Emmanuel Ravelli, Mark Sandler and Juan P. Bello: Fast implementation for non-linear time-scaling of stereo audio; Proc. of the 8th Int. Conference on Digital Audio Effects (DAFx'05), Madrid, Spain, September 20-22, 2005; Duxbury, С.M. Davies, and M. Sandler (2001, December). Separation of transient information in musical audio using multiresolution analysis techniques. In Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-01), Limerick, Ireland; and Robel, A.: A NEW APPROACH TO TRANSIENT PROCESSING IN THE PHASE VOCODER; Proc. of the 6th Int. Conference on Digital Audio Effects (DAFx-03), London, UK, September 8-11, 2003.
В процессе растягивания аудио сигнала во времени с помощью фазового речевого кодера части сигнала с переходом «размываются» посредством рассеивания, так как нарушается так называемое вертикальное соответствие сигнала. При использовании так называемых методов пересечения-наложения, например, (P)SOLA может возникнуть искажение эхо-компонента до и после перехода. Такая проблема может возникнуть при растягивании переходного сигнала. При выполнении преобразования переходного сигнала параметры преобразования варьируются, это значит, что тон составляющих сигнала также будет изменен, поэтому сигнал будет восприниматься как искаженный.
Целью настоящего изобретения является улучшение качества при обработке аудио сигнала.
Цель достигается благодаря применению устройства для обработки аудио сигнала в соответствии с п.1, устройства для воспроизведения аудио сигнала в соответствии с п.12, метода обработки аудио сигнала в соответствии с п.13, метода получения аудио сигнала в соответствии с п.14, метода получения сигнала с переходом и служебной информацией в соответствии с п.15 или благодаря применению компьютерной программы в соответствии с п.16.
В ходе решения проблем с качеством, которые появляются в процессе нерегулируемой обработки переходной части аудио сигнала, настоящее изобретение позволяет исключить переходную часть из процесса обработки аудио сигнала, если она отрицательно сказывается на качестве сигнала, таким образом, что переходная часть удаляется до этапа обработки, а после него вставляется заново, либо переходная часть обрабатывается, но затем удаляется из аудио сигнала и заменяется необработанной переходной частью.
Предпочтительным является вариант, когда переходные части, добавляемые в обработанный сигнал, являются копиями соответствующих частей исходного аудио сигнала. Таким образом, обработанный сигнал состоит из части без перехода, которая подверглась изменениям, и части, включающей переход, которая осталась без изменений или была изменена особым образом. Например, исходная часть переходного сигнала могла быть подвергнута децимации, любому типу взвешивания или другой обработке. В качестве альтернативы часть переходного сигнала может быть заменена на синтезированный переходный сигнал, который получен таким образом, что он является подобным исходному переходу, соответствуя таким параметрам, как изменение энергии за определенный период или другим параметрам, характеризующим переходную часть. Таким образом, оказывается возможным определить параметры переходной части исходного аудио сигнала, удалить его до этапа обработки сигнала или заменить подвергшийся обработке переходный сигнал синтезированным переходным сигналом, созданным на основе параметров перехода. Более эффективным является метод копирования части оригинального сигнала до процесса обработки с последующей ее вставкой в обработанный аудио сигнал, так как эта процедура гарантирует, что переходная часть в обработанном аудио сигнале идентична переходу исходного сигнала. Эта процедура гарантирует, что особое влияние переходного сигнала на восприятие сигнала сохраняется в обработанном сигнале, если его сравнивать с исходным сигналом до этапа обработки. Таким образом, субъективное и объективное качество в отношении переходной части не ухудшается при любой обработке аудио сигнала.
Варианты настоящего изобретения представляют новый метод обработки переходной части сигнала, улучшающий восприятие, который создает временное «размывание» посредством рассеивания сигнала. Метод включает этап удаления переходной части сигнала до этапа растягивания и затем, соответственно, этап вставки неизмененной переходной части в измененный (растянутый) сигнал.
Предпочтительные формы осуществления настоящего изобретения описываются в соответствии со следующими иллюстративными схемами:
Фиг.1 иллюстрирует предпочтительную форму реализации изобретенного устройства или метода для обработки аудио сигнала с переходной частью;
Фиг.2 иллюстрирует предпочтительную форму реализации модуля удаления переходного сигнала на фиг.1;
Фиг.3а иллюстрирует предпочтительную форму реализации сигнального процессора на фиг.1;
Фиг.3b иллюстрирует следующую форму реализации сигнального процессора на фиг.1; Фиг.4 иллюстрирует предпочтительную форму реализации модуля вставки сигнала на фиг.1;
Фиг.5а иллюстрирует общую схему применения;
Фиг.5b показывает схему реализации частей сигнального процессора на фиг.1;
Фиг.5 с показывает этап растягивания аудио сигнала процессором на фиг.1;
Фиг.6 иллюстрирует трансформированную форму реализации речевого кодера,
используемого сигнальным процессором на фиг.1;
Фиг.7а иллюстрирует кодер в ситуации увеличения частотной полосы;
Фиг.7b иллюстрирует декодер в ситуации увеличения частотной полосы;
Фиг.8а иллюстрирует репрезентацию энергии входящего сигнала с переходом;
Фиг.8b иллюстрирует сигнал фиг.8а, организованный с помощью метода окон;
Фиг.8 с иллюстрирует сигнал без переходной части до этапа растягивания;
Фиг.8d иллюстрирует сигнал фиг.8 с после этапа растягивания;
Фиг.8е иллюстрирует обработанный сигнал после вставки переходной части исходного сигнала;
Фиг.9 иллюстрирует устройство для получения служебной информации для аудио сигнала.
Фиг.1 демонстрирует предпочтительную форму реализации устройства для обработки аудио сигнала, имеющего переход. Устройство включает модуль удаления переходного сигнала 100, который на входе 101 принимает аудио сигнал с переходом. Выход 102 модуля удаления переходного сигнала соединяется с сигнальным процессором 110. Выход 111 сигнального процессора соединяется с модулем вставки сигнала 120. Выход 121 модуля вставки сигнала, где получается обработанный аудио сигнал, имеющий исходную или синтезированную переходную часть, может быть соединен со следующим устройством, таким как формирователь сигналов 130, который может выполнять дальнейшую обработку полученного сигнала, например, субдискретизацию/децимацию, проводимую в целях увеличения диапазона частот; этот этап показан далее на фиг.7а и 7b.
Однако формирователь сигналов 130 не может применяться, если обработанный аудио сигнал, полученный на выходе модуля вставки сигнала 130, используется как он есть, то есть сохраняется для дальнейшей обработки, передается в наушники или в цифровой/аналоговый конвертер, который в итоге соединяется со звукоусилительным оборудованием для воспроизводства обработанного сигнала.
В случае увеличения диапазона частот сигнал на линии 121 может оказаться сигналом высокой частоты. Сигнальный процессор генерирует сигнал высокой частоты из входящего сигнала низкой частоты, низкочастотная переходная часть удаляется из аудио сигнала 101 и вставляется в высокочастотный сигнал. Желательно, чтобы этот этап проводился в процессе обработки сигнала, не нарушая вертикальное соответствие, а именно децимацию. Этап децимации должен проводиться до этапа вставки сигнала, чтобы прошедший этап децимации переходный сигнал был вставлен в сигнал высокой частоты на выходе модуля 110.
При такой реализации настоящего изобретения формирователь сигнала может выполнять дальнейшую обработку высокочастотного сигнала, например, распределение по пакетам, добавление шумов, инверсивное фильтрование, добавление гармоник и др. процедуры, которые выполняются, например, MPEG 4 Spectral Band Replication.
Модуль вставки сигнала 120, как правило, получает служебную информацию от модуля удаления переходного сигнала 100 по каналу 123 для того, чтобы выбрать для вставки в сигнал 111 необходимую часть необработанного сигнала.
В том случае, если настоящее изобретение включает устройства 100, 110, 120, 130, процесс обработки сигнала проходит этапы, показанные на фиг.8а-8е. Не всегда требуется удалять переходный сигнал до этапа обработки сигнала процессором 110. При такой реализации настоящего изобретения не требуется наличие модуля удаления 100, модуль вставки сигнала 120 определяет часть сигнала, которая должна быть вырезана из обработанного сигнала на выходе 111 и заменена частью исходного сигнала, что схематично показано линией 121, или синтезированным сигналом, показанным линией 141, где синтезированный сигнал генерируется сигнальным генератором 140. Для получения необходимого переходного сигнала модуль вставки сигнала 120 соединяется с сигнальным генератором и передает параметры переходного сигнала. Однако связь 141 между модулями 140 и 120 является двусторонней. Если устройство обработки сигнала имеет особый детектор переходного сигнала, тогда информация о переходном сигнале передается от этого детектора (не показан на фиг.1) генератору переходного сигнала 140. Генератор переходного сигнала может сразу передавать части переходного сигнала, а может сохранять переходные сигналы, взвешивать их с использованием параметров переходного сигнала, а затем генерировать/синтезировать переходный сигнал для дальнейшего его использования модулем вставки 120.
Одна из форм реализации настоящего изобретения позволяет модулю удаления переходного сигнала 100 удалять часть аудио сигнала, содержащую переходный сигнал, для получения аудио сигнала без переходной части.
Далее сигнальный процессор может обрабатывать аудио сигнал без переходного сигнала, что является предпочтительным, либо процессор обрабатывает аудио сигнал с переходной частью, на выходе получается обработанный аудио сигнал 111.
Модуль вставки сигнала 120 вставляет часть сигнала в обработанный аудио сигнал, откуда был удален переходный сигнал. Вставляемый переходный сигнал не подвергался обработке сигнальным процессором 110. Таким образом, на выходе 121 получается итоговый аудио сигнал.
Фиг.2 иллюстрирует предпочтительную реализацию модуля удаления переходного сигнала 100. Первый вариант реализации применяется для аудио сигналов, которые не имеют служебной информации/метаинформации о переходных сигналах. В этом случае модуль удаления переходного сигнала 100 включает детектор перехода 103, калькулятор (вычислитель) затухания/усиления 104 и модуль удаления переходного сигнала (модуль удаления первой части) 105. Второй вариант реализации модуля 100 предназначен для аудио сигналов, имеющих информацию о переходе, которая кодируется при помощи кодирующего устройства, что будет описано далее в соответствии с фиг.9. Модуль удаления сигнала 100 включает модуль извлечения служебной информации 106, который извлекает служебную информацию 107, присоединенную к аудио сигналу. Временная характеристика перехода, содержащаяся в служебной информации 107 может передаваться в вычислитель затухания/усиления 104. В том случае, если аудио сигнал в качестве метаинформации включает не только информацию о времени перехода, то есть точное время включения перехода, но и время начала/окончания той части аудио сигнала, которая должна быть удалена, отсутствует необходимость в применении вычислителя затухания/усиления 104. Информация о начале/окончании перехода 108 напрямую передается в модуль удаления переходного сигнала 105. Информация 108, как и другие линии, обозначенные пунктирной линией, являются факультативными.
Как показано на фиг.2, вычислитель затухания/усиления 104 имеет на выходе информацию 109. Служебная информация 109 отличается от времени начала/окончания переходного сигнала, если принимать во внимание этап обработки аудио сигнала процессором 110 на фиг.1. Далее, аудио сигнал передается на вход модуля удаления 105.
Желательно, чтобы вычислитель затухания/усиления 104 определял время начала/окончания удаляемого переходного сигнала (первой части). Это время вычисляется на основе времени перехода, поэтому не только сам переход, но и некоторые окружающие его части удаляются модулем 105. Предпочтительной является ситуация, когда часть сигнала с переходом не просто вырезается как прямоугольное временное окно, но происходит выделение по методу затухания и усиления. Для выделения части сигнала по методу затухания или усиления могут применяться различные виды окон, имеющих более плавную форму по сравнению с прямоугольным окном, например тип окон приподнятый косинус. Таким образом, при удалении части сигнала это не скажется отрицательно на частоте, как в случае применения прямоугольного окна. Однако, в целом, возможно применение различных типов окон. По окончании этапа обработки методом окон остается сигнал, не разделенный на окна.
В этом контексте может применяться любой метод подавления переходного сигнала, в результате применения которого получается остаточный сигнал с уменьшенным переходом или сигнал полностью без перехода. По сравнению с полным удалением перехода, когда часть сигнала определенный период времени равна нулю, подавление перехода оказывается более предпочтительным в тех случаях, когда части сигнала, равные нулю, оказывают неблагоприятное влияние на процесс дальнейшей обработки аудио сигнала, так как подобные параметры не характерны для аудио сигналов.
Естественно, все вычисления, выполняемые детектором перехода 103 и вычислителем затухания/усиления 104 могут применяться на стороне кодирования, что будет описано в соответствии с фиг.9. Это относится также к таким результатам вычислений, как время перехода и/или время начала/окончания первой части, которые передаются в сигнальный манипулятор, служебная информация или метаинформация, передаваемые вместе с аудио сигналом или отдельно от него, то есть по отдельному каналу внутри особого сигнала с метаданными.
Фиг.3а иллюстрирует предпочтительную форму реализации сигнального процессора 110 в соответствии с фиг.1. Эта реализация включает анализатор выбора частоты 112 и последовательно соединенный процессор с функцией выбора частоты 113. Модуль 113 функционирует таким образом, что он применяет негативное влияние на вертикальное соответствие исходного аудио сигнала. Примером его применения может послужить растягивание сигнала во времени или уменьшение сигнала во времени (сокращение), когда растягивание и уменьшение сигнала производится с учетом выбора частоты. Так, например, в процессе обработки в аудио сигнале происходят фазовые изменения, которые должны быть различными для разных частот. В результате на выходе из модуля 13 получают обработанный сигнал без переходного сигнала или обработанный сигнал с обработанным переходным сигналом (который заменяется необработанным переходным сигналом).
В контексте применения речевого кодера предпочтительный метод обработки показан на фиг.3b. Как правило, фазовый речевой кодер включает анализатор поддиапазонов/преобразований 114, последовательно соединенный процессор 115 для выполнения обработки с учетом частоты множества сигналов на выходе модуля 114, модуль комбинирования поддиапазонов/преобразованияй 116, который комбинирует сигналы, обработанные модулем 115 в целях получения обработанного сигнала во временной области на выходе 117, где этот обработанный сигнал снова является сигналом с полным диапазоном частот или сигналом, прошедшим через фильтр низких частот, поскольку диапазон обработанного сигнала 117 больше, чем диапазон, представленный между модулями 115 и 116, так как модуль комбинирования 116 производит комбинацию сигналов с учетом частоты.
Дальнейшее описание речевого кодера последовательно проводится на основе фиг.5а, 5b, 5с и 6.
Предпочтительная форма реализации модуля вставки сигнала 120 на фиг.1 показана на фиг.4. Модуль вставки включает вычислитель 122 для вычисления длительности добавляемой части (второй части). Для того, чтобы вычислить длительность вставляемой части сигнала в случае, если переходная часть была удалена до этапа обработки сигнальным процессором 110 на фиг.1, необходимо знать длительность удаленной части и параметры временного растягивания (или сокращения). Например, длительность вставляемой части вычисляется путем умножения длительности удаленной части на коэффициент растягивания.
Информация о продолжительности вставляемой части направляется в калькулятор 123 (модуль вычисления первой и второй границ второй части аудио сигнала, например, процессор взаимной корреляции) для вычисления начальной и конечной границ вставляемой части внутри аудио сигнала. Модуль вычисления 123 производит вычисления на основе взаимной корреляции между обработанным аудио сигналом без перехода, полученного на входе 124, и аудио сигналом с переходом, который обеспечивает вставляемую часть на входе 125. Желательно, чтобы модуль вычисления 123 дополнительно контролировался входом 126 (для обеспечения выбора между положительным и отрицательным сдвигом) в связи с тем, что положительный сдвиг перехода во вставляемой части более предпочтителен, чем отрицательный сдвиг перехода, который будет описан далее.
Начальная и конечная границы вставляемой части направляются в модуль выделения (экстрактор второй части) 127. Экстрактор 127 вырезает часть сигнала, то есть ту часть исходного сигнала, которая направлена на вход 125. При вырезке используется прямоугольный фильтр в связи с применением регулятора плавности перехода 128 (модуль, выполняющий взаимное пересечение первой и второй границ с обработанным аудио сигналом). Регулятор плавности перехода 128 взвешивает начальную и конечную части вставляемого сигнала. Начальная часть взвешивается с увеличением коэффициентов от 0 до 1, конечная часть взвешивается с уменьшением коэффициентов от 1 до 0 так, что между ними образуется плавный переход и вместе они составляют необходимый сигнал. Регулятор плавности перехода 128 подобным образом обрабатывает аудио сигнал после вырезки. Плавный переход гарантирует отсутствие помех во временной области, которые могут затруднять восприятие, как это происходит в случае помех переключения, если границы обработанного сигнала без перехода не совмещаются с границей вставляемой части.
Далее в соответствии с фиг.5а, 5b, 5с и 6 показана предпочтительная форма реализации сигнального процессора 110 в контексте фазового речевого кодера.
На фиг.5 и 6 показаны реализации речевого кодера в соответствии с настоящим изобретением. На фиг.5а показан вариант фазового речевого кодера, в котором сигнал поступает на вход 500 и формируется на выходе 510. Каждый канал блока фильтров, схематично показанный на фиг.5а, включает полосовой фильтр 501 и генератор 502. Выходные сигналы с генераторов каждого канала соединяются в комбинирующем модуле, который на фиг.5 показан как сумматор 503, для получения выходного сигнала. Каждый фильтр 501 обеспечивает, с одной стороны, амплитудный сигнал и, с другой стороны, частотный сигнал. Амплитудный сигнал и частотный сигнал - это временные сигналы, которые показывают изменение амплитуды в фильтре 501 за определенный период, а частотный сигнал показывает изменение частоты сигнала, который прошел этап фильтрации фильтром 501.
Схематичное устройство фильтра 501 показано на фиг.5b. Каждый фильтр на фиг.5а может быть устроен так, как на фиг.5b, однако частоты fi, которые направляются на вход микшера 551 и сумматора 552, варьируются от канала к каналу. Микшированные выходные сигналы проходят этап фильтрации фильтром низких частот 553, в то время как низкочастотные сигналы от них отличаются, так как они созданы местными генераторами низких частот (LO частоты), которые отклоняются от фазы на 90°. Верхний фильтр низких частот 553 обеспечивает квадратурный сигнал 554, а нижний фильтр 553 создает сфазированный сигнал 555. Эти два сигнала, I и Q, направляются в координатный преобразователь 556, который генерирует амплитудное фазовое представление из прямоугольного представления. Амплитудный сигнал на фиг.5а, соответственно, является сигналом на выходе 557. Фазовый сигнал направляется в фазовый преобразователь 558. На выходе модуля 558 отсутствуют фазовые значения, которые обычно представлены значениями от 0 до 360°, но представлены фазовые значения, которые линейно увеличиваются. Такое фазовое значение обрабатывается фазово-частотным конвертером 559, который может определять фазовую разницу, вычитая фазу предыдущей временной точки из фазы текущей точки, для того, чтобы определить значение частоты для текущей временной точки. Это значение частоты суммируется с постоянным значением частоты fi канала фильтрации i для определения варьирующего значения частоты на выходе 560. Значение частоты на выходе 560 имеет постоянный параметр fi и переменный параметр -отклонение частоты, который показывает, как текущая частота сигнала в канале фильтрации отклоняется от средней частоты fi.
Как показано на фиг.5а и 5b, фазовый речевой кодер разделяет спектральную информацию и временную информацию. Спектральная информация представлена особым каналом или частотой fi, что означает, что каждый канал имеет определенную частоту, в то время как временная информация содержится в показателе отклонения частот или показателе амплитудного изменения за определенный период.
На фиг.5 с показан процесс обработки сигнала при увеличении ширины диапазона на этапе речевого кодера, а именно в той части, которая указана пунктирными линиями на фиг.5а.
Для масштабирования по времени, например, амплитудных сигналов A(t) каждого канала или частоты сигналов f(t), для каждого сигнала может быть проведена децимация или интерполяция соответственно. Для дальнейшей передачи, что важно для настоящего изобретения, производится интерполяция, то есть временное увеличение или расширение сигналов A(t) и f(t), в результате чего получаются расширенные сигналы A'(t) и f (t), при этом интерполяция контролируется параметром расширения частотного диапазона. При интерполяции фазового изменения, то есть значения до суммирования постоянной частоты сумматором 552, частота каждого отдельного генератора 502 на фиг.5а не изменяется. Временные изменения общего аудио сигнала замедляются в 2 раза. В результате временно расширенный тон имеет исходную высоту, то есть исходную базовую волну со своими гармониками.
При выполнении обработки сигнала, показанного на фиг.5 с, производится такая обработка каждого канала с полосовым фильтром, как это показано на фиг.5а. Полученный в результате временный сигнал направляется в дециматор и подвергается децимации. Аудио сигнал уменьшается до исходной длины, в то время как частоты одновременно удваиваются. Это приводит к двукратному изменению тона аудио сигнала, однако, сам сигнал становится равным по длине исходному сигналу, то есть имеет такое же количество составляющих.
В качестве альтернативы блоку фильтров, показанному на фиг.5а, может применяться вариант фазового речевого кодера с преобразованием, как показано на фиг.6. В этом случае аудио сигнал 100 в виде последовательности временных выборок передается в FFT процессор или процессор кратковременного преобразования Фурье 600. Процессор FFT 600, схематично показанный на фиг.6, выполняет оконное преобразование аудио сигнала для того, чтобы затем, с помощью кратковременного преобразования Фурье, вычислить амплитуду и фазу спектра. Вычисление выполняется для последовательности спектров, которые соотносятся с пересекающимися частями аудио сигнала.
При самой неблагоприятной ситуации вычисляется новый спектр для каждой новой выборки сигнала, или, например, для каждой двадцатой выборки. Размер шага выборки а между двумя спектрами сообщается контроллером 602. Контроллер 602 далее передает информацию в IFFT процессор 604, который выполняет процедуру пересечения. А именно, IFFT процессор 604 производит одно обратное кратковременное преобразование Фурье для каждого спектра на основе амплитуды и фазы измененного спектра для того, чтобы затем выполнить процедуру суммирования и получить пересечения, в результате чего получается итоговый сигнал во временной области. Процедура суммирования и получения пересечений позволяет устранить последствия оконного преобразования.
Увеличить сигнал возможно при использовании параметра b, который указывает на расстояние между двумя спектрами, когда они обрабатываются IFFT процессором 604. Параметр b должен быть больше, чем параметр а, указывающий на расстояние между спектрами, когда они подвергаются обработке процессором FFT. Основная идея состоит в том, чтобы увеличить аудио сигнал при обратной процедуре FFT, просто располагая части сигнала дальше друг от друга, чем при процедуре FFT. В результате временные изменения в синтезированном аудио сигнале происходят более медленно, чем в исходном аудио сигнале.
Отсутствие обратного фазового масштабирования в модуле 606 приводит к появлению помех. Например, для каждой частотной выборки применяются фазовые значения, последовательно меняющиеся на 45°. Это означает, что сигнал в процессе обработки блоком фильтров, увеличивает фазовое значение на 1/8 цикла, то есть на 45° за каждый временной интервал, который является интервалом между двумя последовательными преобразованиями FFT. Теперь, если обратное преобразование FFT увеличивает расстояние между частями сигнала, это означает, что увеличение фазы на 45° случается за более долгий временной промежуток. В результате фазового сдвига появляется несоответствие в последующей процедуре пересечения-добавления, что приводит к нежелательному сокращению сигнала. Чтобы этого избежать, фазовые параметры подвергаются масштабированию с помощью тех же коэффициентов, с помощью которых аудио сигнал увеличивается во времени. Значение фазы для каждого спектрального значения FFT, таким образом, увеличивается на коэффициент b/а и несоответствие устраняется.
Фиг.5с показывает, что увеличение сигнала достигается путем интерполяции контрольных значений амплитуды/частоты сигнала на каждый сигнальный генератор в блоке фильтров на фиг.5а. Увеличение сигнала на фиг.6 достигается при помощи увеличения расстояния между двумя IFFT спектрами по сравнению с расстоянием между двумя FFT спектрами, то есть показатель b больше, чем показатель а. Во избежание появления помех проводится фазовое масштабирование с применением параметра b/а.
Детальное описание фазовых речевых кодеров приводится в следующих документах:
"The phase Vocoder: A tutorial", Mark Dolson, Computer Music Journal, vol. 10, no. 4, pp.14 - 27, 1986, or "New phase Vocoder techniques for pitch-shifting, harmonizing and other exotic effects", L.Laroche und M.Dolson, Proceedings 1999 IEEE Workshop on applications of signal processing to audio and acoustics, New Paltz, New York, October 17 - 20, 1999, pages 91 to 94; "New approached to transient processing interphase vocoder", A.Robel, Proceeding of the 6th international conference on digital audio effects (DAFx-03), London, UK, September 8-11, 2003, pages DAFx-1 to DAFx-6; "Phase-locked Vocoder", Meller Puckette, Proceedings 1995, IEEE ASSP, Conference on applications of signal processing to audio and acoustics, or US Patent Application Number 6,549,884.
Возможно применение альтернативных методов увеличения сигнала, например метод «Синхронного тонального суммирования и наложения». Этот метод, сокращенно PSOLA, является методом синтезирования, при котором записи речевых сигналов помещаются в базу данных. Поскольку они являются временными сигналами, к ним добавляется информация о базовой частоте (тоне) и маркируется начало каждой части. На этапе соединения эти части вырезаются вместе с окружением с помощью оконной функции и добавляются к синтезируемому сигналу в нужном месте. Если необходимая частота выше или ниже частоты сигнала из базы данных, то она изменяется в соответствии с исходным сигналом. В процессе корректировки длительности сигнала, его части могут быть опущены или, наоборот, дублироваться на выходе. Этот метод называется TD-PSOLA, где TD обозначает временную область и тем самым подчеркивается, что метод применяется во временной области. Продолжением этого метода является метод Multiband Resynthesis OverLap Add, сокращенно MBROLA. При применении этого метода сегменты базы данных согласовываются по частоте в процессе предварительной обработки, а также нормализуется положение гармоник по фазе. Таким образом, на этапе синтеза переходного сигнала и обрабатываемого сигнала появляется меньшее количество помех, что приводит к улучшению качества.
В качестве альтернативы, аудио сигнал может пройти этап фильтрования при помощи полосового фильтра до процедуры увеличения, таким образом, сигнал после увеличения и децимации уже будет включать необходимые части и последующий этап фильтрации полосовым фильтром окажется невостребованным. В этом случае полосовой фильтр функционирует таким образом, что часть сигнала, которая была бы отфильтрована после увеличения диапазона частот, все еще сохраняется в выходном сигнале на выходе полосового фильтра. Таким образом, полосовой фильтр включает диапазон частот, который не содержится в аудио сигнале после увеличения и децимации. Сигнал с этим диапазоном частот - это необходимый сигнал, который формирует синтезированный высокочастотный сигнал.
Сигнальный манипулятор, показанный на фиг.1, может дополнительно включать формирователь сигнала 130 для дальнейшей обработки аудио сигнала с необработанным «естественным» или синтезированным переходным сигналом, обозначенным как 121. Формирователь сигнала может представлять собой сигнальный дециматор с функцией увеличения частотного диапазона, который на выходе формирует высокочастотный сигнал. Полученный сигнал далее корректируется, чтобы максимально соответствовать параметрам исходного высокочастотного сигнала при помощи параметров высоких частот (HF), которые передаются вместе с потоком данных HFR (реконструкция высоких частот).
На фиг.7а и 7b показана схема увеличения диапазона частот, когда используется выходной сигнал формирователя сигнала кодером 720 на фиг.7b. Аудио сигнал направляется на вход модуля 700, где комбинируются фильтры низких и высоких частот. Этот модуль, с одной стороны, включает фильтры низких частот (TP), с помощью которых генерируется фильтрованный аудио сигнал 700, показанный как 703 на фиг.7а. Прошедший этап фильтрации с помощью низкочастотных фильтров аудио сигнал кодируется аудио кодером 704. В качестве кодера может выступать МР3 кодер (MPEG 1 Layer 3) или ААС кодер, известный как кодер МР4, описанный в Стандарте MPEG4. В качестве кодера 704 могут использоваться другие аудио кодеры, которые обеспечивают прозрачное или максимально прозрачное представление аудио сигнала 703 с ограниченной полосой частот, для того чтобы получить кодированный или желательно «прозрачно» кодированный, сигнал 705.
Верхняя полоса частот аудио сигнала формируется на выходе 706 после этапа обработки сигнала фильтрами высоких частот 702, которые указаны как "HP". Высокие частоты сигнала, то есть диапазон высоких частот или HF диапазон, указанный как часть HF, направляется в вычислитель 707, который выполняет вычисления различных параметров. Такими параметрами являются, например, спектральный пакет верхней полосы 706, который имеет довольно грубое разрешение, например, один коэффициент масштабирования для психоакустической группы частот или для каждого диапазона Барка на шкале Барка соответственно.
Следующим параметром, который вычисляется модулем 707, является шумовой порог верхнего диапазона, энергия которого в каждом диапазоне может соотносится с энергией пакета этого диапазона. Еще одним параметром, который определяется вычислителем параметров 707, является значение тональности для каждой части диапазона высоких частот, которое показывает, как спектральная энергия распределяется в диапазоне, то есть показывает, насколько равномерно распределяется спектральная энергия в диапазоне, присутствует ли нетональный сигнал в этом диапазоне, есть ли место концентрации энергии в диапазоне. Данный параметр вычисляется в том случае, если сигнал является тональным.
Следующие параметры характеризуют пики частот, которые значительно выделяются в диапазоне высоких частот, то есть определяют их высоту и частоту. Согласно концепции увеличения полосы частот при восстановлении кодированных синусоидальных частей диапазона высоких частот пики синусоид восстанавливаются по остаточному принципу или вообще не восстанавливаются.
Вычислитель параметров 707 вычисляет только параметры 708 для диапазона высоких частот, которые могут применяться для подобных этапов редукции, а также использоваться кодером 704 для определения дискретных спектральных значений, например при дифференциальном кодировании, на этапе прогнозирования, при кодировании по методу Хаффмана и т.д. Параметры 708 и аудио сигнал 705 направляются в модуль формирования потока данных 709, который формирует выходной вспомогательный поток данных 710, который обычно является битовым потоком, соответствующим определенному формату, например соответствующему стандарту MPEG 4.
Сторона декодера, как она реализуется в соответствии с настоящим изобретением, показана на фиг.7b. Поток данных 710 поступает в интепретатор потока данных 711, который отделяет информацию о параметрах расширения полосы частот 708 от аудио сигнала 705. Параметры 708 декодируются при помощи декодера параметров 712, в результате чего имеются декодированные параметры 713. Параллельно этому декодируется аудио сигнал 705 при помощи аудио декодера 714.
В зависимости от варианта изобретения аудио сигнал 100 может быть сформирован на первом входном канале 715. На выходе 715 формируется аудио сигнал с небольшим диапазоном частот, поэтому он является сигналом низкого качества. Для улучшения качества выполняется изобретенное расширение полосы частот 720 для получения на выходе аудио сигнала 712 с расширенной или увеличенной полосой частот, что означает улучшение качества сигнала.
Согласно WO 98/57436 к аудио сигналу применяется процедура сокращения полосы частот на стороне кодера, при этом кодируется только низкий диапазон частот аудио сигнала при помощи аудио кодера высокого качества. Диапазон высоких частот характеризуется не точно, с помощью ряда параметров, которые представляют весь спектральный пакет верхнего диапазона. На стороне декодера верхний диапазон затем синтезируется. Для этих целей предлагается гармоническая транспозиция, в то время как нижний диапазон декодированного аудио сигнала направляется в блок фильтров. Каналы блоков фильтров нижнего диапазона соединяются с каналами блоков фильтров верхнего диапазона, либо они функционируют по методу «заплат», то есть каждый фильтрованный сигнал подвергается корректировке. Синтезированный блок фильтров, который выполняет анализ, принимает фильтрованные сигналы в нижнем диапазоне, а также фильтрованные сигналы нижнего диапазона, гармонически скорректированные с верхним диапазоном. На выходе синтезированного блока фильтров формируется аудио сигнал с расширенной полосой частот, который передается со стороны кодера на сторону декодера на очень низкой скорости передачи данных. Особой сложностью отличаются вычисления на этапе обработки сигнала в блоке фильтров, а также корректировка на этом этапе.
Представленный метод позволяет решить указанную выше проблему. Новизна изобретенного метода заключается в том, что, в отличие от существующих методов, часть сигнала, подвергнутая оконному преобразованию и содержащая переходный сигнал, удаляется из обрабатываемого сигнала. Вставляемая часть сигнала (обычно отличающаяся от первой части) выбирается дополнительно и вставляется заново в обработанный сигнал, при этом сохраняется временный пакет, содержащий окружения перехода. Вставляемая часть сигнала выбирается таким образом, что она максимально подходит той части сигнала, откуда производилась вырезка и которая была изменена в процессе растягивания. Вычисление параметров взаимной корреляции на границе полученного сигнала и исходной части перехода обеспечивают максимально точное попадание переходного сигнала.
Таким образом, на субъективное качество переходного сигнала теперь не влияют рассеивание и эхо-эффекты.
Для того, чтобы определить длительность вставляемого переходного сигнала, выполняется вычисление точной позиции перехода, для этого применяется метод центроидного вычисления энергии в течение необходимого временного отрезка.
Размер вставляемой переходной части определяется на основе параметра растягивания во времени и на основе размера удаленной части. Желательно, чтобы этим параметрам соответствовал не только один переходный сигнал, а имелось в наличие для повторной вставки несколько близких по своим характеристикам переходов.
Согласно параметрам взаимной корреляции переходный сигнал максимально вписывается в сигнал, даже если есть незначительное несоответствие его исходной позиции. Благодаря эффекту предварительной и, особенно, последующей маскировки, позиция вставляемого переходного сигнала может не идеально соответствовать его позиции в исходном сигнале.
При вставке исходной части сигнала его тембр и высота тона должны быть изменены, так как частота дискретизации была изменена на этапе последовательной децимации. Обычно это маскируется самим переходным сигналом при помощи временных психоакустических механизмов маскировки. Особенно, если растягивание проводилось при помощи коэффициента, который является целым числом, то тембр меняется незначительно, так как в этом случае меняются волны гармоник n.th (n - коэффициент растягивания) за пределами переходного сигнала.
При использовании нового метода эффективно устраняются помехи (рассеивание, предваряющие и последующие эхо-сигналы), которые появляются в результате применения метода временного растягивания и транспозиции. При этом устраняется угроза ухудшения качества сопутствующей (возможно тональной) части сигнала.
Метод подходит для любых аудио приложений, однако скорость воспроизведения аудио сигналов или их тонов должна быть изменена.
Далее описываются формы реализации настоящего изобретения в соответствии с фиг.8а и 8b. На фиг.8а показана репрезентация аудио сигнала, но, в отличие от простой последовательности аудио сигналов во временной области, фиг.8а демонстрирует пакет энергий сигнала. Это происходит, например, в том случае, если аудио сигналы во временной области организовываются пакетами. На фиг.8а показан аудио сигнал 800, имеющий переход 801, который характеризуется резким повышением и понижением энергии во временной области. Естественно, переходом считается резкое понижение энергии, если для нее был характерен высокий уровень, или резкое понижение энергии, если для нее был характерен высокий уровень в течение определенного времени. Особым типом переходного сигнала являются аплодисменты или любой звук, производимый перкуссионным инструментом. Кроме этого, переходным сигналом считается резкое начало игры на инструменте, когда он начинает играть на тон выше, то есть те случаи, когда звуковая энергия появляется в определенном диапазоне частот или множестве диапазонов, но превышает их пороговый уровень за очень короткое время.
Другие колебания энергии как, например, колебания энергии 802 аудио сигнала 800 на фиг.8 а не рассматриваются как переходные сигналы. Детекторы переходных сигналов широко применяются и подробно описываются в специальной литературе. Их функционирование основано на множестве различных алгоритмов, которые включают частотно-избирательную обработку, сравнение результатов частотно-избирательной обработки с пороговыми данными и последующее принятие решение относительно рассматриваемого сигнала.
На фиг.8b показан переходный сигнал, к которому применено оконное преобразование. Область, ограниченная сплошной линией, удалена из сигнала после его взвешивания с применением оконной функции. Область, обозначенная пунктирной линией, добавлена после обработки сигнала. Переход, который появился в определенный временной промежуток 803, вырезается из аудио сигнала 800. На всякий случай не только переходный сигнал, но и прилегающие части вырезаются из исходного сигнала. Таким образом, определяется первая (удаляемая) часть 804, начальной точкой которого является момент 805 и конечной точкой является момент 806. Обычно первая (удаляемая) часть 804 включает переходный сигнал 803. На фиг.8с показан сигнал, который не имеет перехода до этапа растягивания. Плавный характер границ 807 и 808 свидетельствует о том, что часть сигнала была не просто вырезана с помощью прямоугольной оконной функции, а оконное преобразование выполнено с учетом формирования плавных границ аудио сигнала.
Фиг.8 с соответствует аудио сигналу 102 на фиг.1, то есть следующему этапу после этапа удаления переходного сигнала. Плавные границы 807, 808 формируют область усиления и затухания сигнала, которые использует микшер 128 на фиг.4. Фиг.8 d демонстрирует сигнал на фиг.8 с, но на этапе растягивания, то есть после обработки процессором 110. Таким образом, сигнал на фиг.8d соответствует сигналу 111 на фиг.1. В результате процедуры растягивания часть сигнала 804 на фиг.8d стала значительно длиннее. Часть сигнала 804 на фиг.8d растягивается до второй части 809, начальной точкой которой становится момент 810, а конечной точкой - момент 811. В результате растягивания сигнала границы 807, 808 также растягиваются, поэтому их длительность по времени 807', 808' также растягивается. Это растягивание необходимо принимать во внимание при вычислении длительности второй части, которая рассчитывается вычислительным модулем 122 на фиг.4.
После определения длительности второй части из исходного аудио сигнала, как это показано на фиг.8а, вырезается часть, соответствующая второй части, указанная пунктирной линией на фиг.8b. Далее вторая часть 809 показана на фиг.8е. Как указывалось ранее, начальная точка 812, которая соответствует первой границе второй части 809 исходного аудио сигнала, и конечная точка 813 второй части, которая соответствует второй границе второй части исходного аудио сигнала, не обязательно оказываются симметричными по отношению к переходу 803, 803' так, чтобы переходный сигнал 801 точно вписывался в тот временной промежуток, который был в исходном сигнале. Наоборот, временные точки 812, 813 на фиг.8b могут незначительно отклоняться, чтобы параметры взаимной корреляции на границах исходного сигнала были близкими значениям на границах растянутого сигнала. Так, позиция переходного сигнала 803 может смещаться от центра второй части до определенного уровня 803' на фиг.8е, что обозначает отклонение от соответствующей временной точки 803, которая соответствует второй части на фиг.8b. Как указывалось ранее в отношении фиг.4, позиция 126, положительный сдвиг переходного сигнала к точке 803', соответствующей точке 803, является более предпочтительным в связи с эффектом последующей маскировки, которая звучит более четко, чем предваряющий маскирующий сигнал. Фиг.8е иллюстрирует область пересечения 813а, 813b, где регулятор усиления сигнала 128 формирует область пересечения между растянутым сигналом без перехода и копией исходного сигнала, содержащей переход.
Как показано на фиг.4, вычислительный блок 122, который вычисляет длину второй части, получает данные о длине первой (удаляемой) части и параметры растягивания. Кроме этого, вычислительный модуль 122 может также получать информацию о возможности соседних переходных сигналов быть включенными в одну и ту же первую часть. Затем, учитывая эту возможность, вычислительный блок может определять длину первой части 804 и, в зависимости от коэффициента растягивания/сокращения, определять длину второй части 809.
Как указывалось выше, функциональность применения модуля вставки состоит в том, что этот модуль удаляет необходимую область, как показано на фиг.8е, которая увеличивается в процессе растягивания сигнала по сравнению с исходным сигналом. В результате формируется вторая область, которая заполняется второй частью, при этом применяется вычисление параметров взаимной корреляции, что позволяет определить точки 812 и 813, а также процедура взаимного пересечения в областях 813а и 813b.
На фиг.9 показано устройство для формирования служебной информации аудио сигнала, который может быть использован в настоящем изобретении, если переходный сигнал определяется на стороне кодера и служебная информация относительно обнаружения переходного сигнала вычисляется и передается в манипулятор сигнала, который затем остается на стороне декодера. До этого используется детектор переходного сигнала, подобный детектору 103 на фиг.2, который применяется для анализа аудио сигнала, содержащего переход.
Детектор переходного сигнала определяет его длительность, то есть время 803 на фиг.1, и направляет данные в модуль вычисления мета данных 104', который устроен аналогично модулю вычислений затуханий/усилений 104' на фиг.2. Как правило, вычислительный модуль 104' вычисляет метаданные и затем направляет их на выходной интерфейс 900, где метаданные могут определять границы удаления переходного сигнала, то есть границы первой части, указанные как 805 и 806 на фиг.8b, либо границы вставки переходного сигнала (вторая часть), показанная в границахз 812, 813 на фиг.8b, либо точку перехода 803 или 803'. Даже в последнем случае сигнальный манипулятор определяет все необходимые данные, то есть данные о первой временной части, данные о второй временной части и т.д. на основе времени перехода 803.
Метаданные, которые сформированы модулем 104', направляются на выходной интерфейс, генерирующий выходной сигнал, который передается далее или сохраняется. Сигнал на выходе может представлять собой только метаданные или метаданные совместно с аудио сигналом, в этом случае метаданные будут представлять собой служебную информацию для аудио сигнала. Аудио сигнал может направляться к выходному интерфейсу 900 по каналу 901. Выходной сигнал, передаваемый выходным интерфейсом 900, может храниться при помощи любого средства хранения информации или передаваться при помощи любого вида каналов передачи информации в сигнальный манипулятор или другое устройство, где применяются переходные сигналы. Необходимо отметить, что, несмотря на то, что настоящее изобретение описано с использованием блочных диаграмм, где блоки представляют реальные или выведенные путем логических заключений компоненты аппаратного обеспечения, настоящее изобретение может быть реализовано как компьютерная программа. В этом случае блоки будут представлять соответствующие шаги, которые заменят действия, выполняемые при помощи логических операций или аппаратных средств.
Описанные формы реализации изобретения являются только иллюстрацией принципов настоящего изобретения. Модификации и вариации схем и деталей, которые были описаны выше, могут применяться специалистами в этой области. Исходя из этого, изобретение ограничивается патентной формулой, а не отдельными деталями, представленными в описании и объясненными как формы реализации изобретения.
В зависимости от требований к форме реализации изобретенных методов, они могут быть реализованы как аппаратное или как программное средство. Реализация может выполняться при использовании цифровых средств хранения информации таких, как диск, DVD или CD, на которые записывается информация в электронном виде, которая затем при необходимости применения изобретенного метода считывается соответствующей программой. В целом, настоящее изобретение может быть реализовано как компьютерный программный продукт с программным кодом, который хранится на читаемом носителе; программный код приводится в действие, когда программный продукт устанавливается на компьютере. Иными словами, реализация изобретенного метода - это компьютерная программа, имеющая программный код для выполнения, как минимум, одного из изобретенных методов, когда компьютерная программа устанавливается на компьютере. Сигнал, содержащий метаданные, может быть сохранен при помощи любых считываемых средств хранения информации, например, при помощи цифровых средств хранения информации.
Claims (11)
1. Устройство для обработки аудио сигнала, содержащего переходный сигнал (801), характеризующееся тем, что оно включает сигнальный процессор (110), предназначенный для обработки сигнала с удаленным переходным сигналом, в котором вырезана первая часть (804) с переходным сигналом (801), либо для обработки аудио сигнала, содержащего переходный сигнал (803); модуль вставки сигнала (120), предназначенный для вставки второй части (809) в обработанный аудио сигнал в том месте, где была удалена первая часть или где должен находиться переходный сигнал в обработанном аудио сигнале; при этом вторая часть (809) содержит переходный сигнал (801), который не был изменен в процессе обработки сигнальным процессором (110), в результате чего формируется итоговый обработанный сигнал, где процессор (110) выполнен с возможностью растяжения аудио сигнала без переходной части, посредством которого первая часть (804) растягивается до второй части (809), более продолжительной по времени, чем первая часть (804), и модуль вставки сигнала (120) выполнен с возможностью копирования части (809) аудио сигнала, включающего переходный сигнал, а также частей до и после переходного сигнала так, чтобы при суммировании первой части и частей, предшествующей и последующей переходному сигналу, получался сигнал, равный по длительности второй части (809), а также модуль (120) выполнен с возможностью вставки немодифицированной копии в обработанный аудио сигнал или вставки копии сигнала, включающего переходную часть, где были изменены только начальная часть (813а) или конечная часть (813b).
2. Устройство по п. 1, характеризующееся тем, что оно содержит модуль удаления переходного сигнала (100), выполненный с возможностью удаления первой части (804) из аудио сигнала, в результате чего формируется сигнал без переходного сигнала; при этом первая часть сигнала (804) содержит переходный сигнал (801).
3. Устройство по п. 1, характеризующееся тем, что сигнальный процессор (110) выполнен с возможностью обработки аудио сигнала без переходного сигнала с учетом выбора частоты (112, 113), таким образом, в аудио сигнале без перехода происходят фазовые изменения, которые варьируются в зависимости от спектрального компонента.
4. Устройство по п. 1, характеризующееся тем, что модуль вставки сигнала (120) выполнен с возможностью получения второй временной части путем копирования, по меньшей мере, первой части (804) таким образом, что вторая временная часть содержит, по меньшей мере, копию первой части аудио сигнала с переходной частью.
5. Устройство по п. 1, характеризующееся тем, что модуль вставки сигнала (120) выполнен с возможностью определения второй части (809) таким образом, что вторая часть имеет область пересечения с обработанным сигналом в начале или в конце второй части; модуль вставки сигнала (120) также выполнен с возможностью обеспечения плавного перехода (128) на границе между обработанным аудио сигналом и второй временной частью.
6. Устройство по п. 1, характеризующееся тем, что сигнальный процессор содержит речевой кодер, фазовый речевой кодер или процессор (P)SOLA.
7. Устройство по п. 1, характеризующееся тем, что включает формирователь сигнала (130) для формирования обработанного аудио сигнала при помощи процесса децимации или при помощи выполнения этапа дискретизации по времени.
8. Устройство по п. 1, характеризующееся тем, что модуль вставки сигнала (120) выполнен с возможностью:
определения (122) длительности второй части (809), которая копируется из аудио сигнала с переходом,
определения (123) начальной точки или конечной точки второй части путем нахождения максимального количества взаимно коррелирующих параметров; таким образом, граница второй части максимально совпадает с соответствующей границей обработанного сигнала,
временная точка (803′) переходного сигнала в обработанном аудио сигнале совпадает с точкой (803) переходного сигнала в исходном аудио сигнале или отклоняется от нее; отклонение является допустимым с точки зрения психоакустики после применения процедур предварительной и последующей маскировки.
определения (122) длительности второй части (809), которая копируется из аудио сигнала с переходом,
определения (123) начальной точки или конечной точки второй части путем нахождения максимального количества взаимно коррелирующих параметров; таким образом, граница второй части максимально совпадает с соответствующей границей обработанного сигнала,
временная точка (803′) переходного сигнала в обработанном аудио сигнале совпадает с точкой (803) переходного сигнала в исходном аудио сигнале или отклоняется от нее; отклонение является допустимым с точки зрения психоакустики после применения процедур предварительной и последующей маскировки.
9. Устройство по п. 1, характеризующееся тем, что включает детектор переходного сигнала (103) для выявления переходного сигнала в аудио сигнале, или
модуль извлечения служебной информации (106) для извлечения и обработки служебной информации, связанной с аудио сигналом; служебная информация указывает на время (803) переходного сигнала или начальную и конечную точки первой или второй частей.
модуль извлечения служебной информации (106) для извлечения и обработки служебной информации, связанной с аудио сигналом; служебная информация указывает на время (803) переходного сигнала или начальную и конечную точки первой или второй частей.
10. Способ обработки аудио сигнала с переходом (801), характеризующийся тем, что включает:
обработку (110) аудио сигнала, в котором удалена первая часть (804), содержащая переходный сигнал (801), либо аудио сигнала с переходом (803) для получения итогового обработанного сигнала;
вставку (120) второй временной части (809) в обработанный аудио сигнал, откуда первая часть была удалена, или туда, где находится переходный сигнал в обработанном аудио сигнале; при этом вторая часть (809) содержит переходный сигнал (801), который не подвергался обработке в отличие от исходного сигнала, где стадия обработки сигнала (110) выполнена с возможностью растяжения аудио сигнала без переходной части, посредством которого первая часть (804) растягивается до второй части (809), более продолжительной по времени, чем первая часть (804), а модуль вставки сигнала (120) выполнен с возможностью копирования части (809) аудио сигнала, включающего переходный сигнал, а также частей до и после переходного сигнала так, чтобы при суммировании первой части и частей, предшествующей и последующей переходному сигналу, получался сигнал, равный по длительности второй части (809), а также модуль (120) выполнен с возможностью вставки немодифицированной копии в обработанный аудио сигнал или вставки копии сигнала, включающего переходную часть, где были изменены только начальная часть (813а) или конечная часть (813b).
обработку (110) аудио сигнала, в котором удалена первая часть (804), содержащая переходный сигнал (801), либо аудио сигнала с переходом (803) для получения итогового обработанного сигнала;
вставку (120) второй временной части (809) в обработанный аудио сигнал, откуда первая часть была удалена, или туда, где находится переходный сигнал в обработанном аудио сигнале; при этом вторая часть (809) содержит переходный сигнал (801), который не подвергался обработке в отличие от исходного сигнала, где стадия обработки сигнала (110) выполнена с возможностью растяжения аудио сигнала без переходной части, посредством которого первая часть (804) растягивается до второй части (809), более продолжительной по времени, чем первая часть (804), а модуль вставки сигнала (120) выполнен с возможностью копирования части (809) аудио сигнала, включающего переходный сигнал, а также частей до и после переходного сигнала так, чтобы при суммировании первой части и частей, предшествующей и последующей переходному сигналу, получался сигнал, равный по длительности второй части (809), а также модуль (120) выполнен с возможностью вставки немодифицированной копии в обработанный аудио сигнал или вставки копии сигнала, включающего переходную часть, где были изменены только начальная часть (813а) или конечная часть (813b).
11. Машиночитаемый носитель информации с записанной на него компьютерной программой с программным кодом, который приводится в действие, когда программа устанавливается на компьютере, для реализации способа по п. 10.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US3531708P | 2008-03-10 | 2008-03-10 | |
US61/035,317 | 2008-03-10 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010137429/08A Division RU2487429C2 (ru) | 2008-03-10 | 2009-02-17 | Устройство и метод для обработки аудиосигнала, содержащего переходный сигнал |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2012113063A RU2012113063A (ru) | 2013-10-27 |
RU2598326C2 true RU2598326C2 (ru) | 2016-09-20 |
Family
ID=40613146
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010137429/08A RU2487429C2 (ru) | 2008-03-10 | 2009-02-17 | Устройство и метод для обработки аудиосигнала, содержащего переходный сигнал |
RU2012113092/08A RU2565009C2 (ru) | 2008-03-10 | 2009-02-17 | Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал |
RU2012113087/08A RU2565008C2 (ru) | 2008-03-10 | 2009-02-17 | Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал |
RU2012113063/08A RU2598326C2 (ru) | 2008-03-10 | 2012-04-03 | Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010137429/08A RU2487429C2 (ru) | 2008-03-10 | 2009-02-17 | Устройство и метод для обработки аудиосигнала, содержащего переходный сигнал |
RU2012113092/08A RU2565009C2 (ru) | 2008-03-10 | 2009-02-17 | Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал |
RU2012113087/08A RU2565008C2 (ru) | 2008-03-10 | 2009-02-17 | Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал |
Country Status (14)
Country | Link |
---|---|
US (4) | US9275652B2 (ru) |
EP (4) | EP2250643B1 (ru) |
JP (4) | JP5336522B2 (ru) |
KR (4) | KR101291293B1 (ru) |
CN (4) | CN102881294B (ru) |
AU (1) | AU2009225027B2 (ru) |
BR (4) | BR122012006265B1 (ru) |
CA (4) | CA2717694C (ru) |
ES (3) | ES2738534T3 (ru) |
MX (1) | MX2010009932A (ru) |
RU (4) | RU2487429C2 (ru) |
TR (1) | TR201910850T4 (ru) |
TW (4) | TWI505265B (ru) |
WO (1) | WO2009112141A1 (ru) |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102881294B (zh) * | 2008-03-10 | 2014-12-10 | 弗劳恩霍夫应用研究促进协会 | 操纵具有瞬变事件的音频信号的方法和设备 |
USRE47180E1 (en) * | 2008-07-11 | 2018-12-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a bandwidth extended signal |
KR101424944B1 (ko) * | 2008-12-15 | 2014-08-01 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 인코더 및 대역폭 확장 디코더 |
WO2010086461A1 (en) | 2009-01-28 | 2010-08-05 | Dolby International Ab | Improved harmonic transposition |
PL3751570T3 (pl) | 2009-01-28 | 2022-03-07 | Dolby International Ab | Ulepszona transpozycja harmonicznych |
EP2214165A3 (en) * | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
CN102318004B (zh) | 2009-09-18 | 2013-10-23 | 杜比国际公司 | 改进的谐波转置 |
CA2907353C (en) | 2009-10-20 | 2018-02-06 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values |
ES2532203T3 (es) | 2010-01-12 | 2015-03-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de audio, decodificador de audio, método para codificar y decodificar una información de audio y programa de computación que obtiene un valor de contexto de sub-región basado en una norma de valores espectrales previamente decodificados |
DE102010001147B4 (de) | 2010-01-22 | 2016-11-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Mehrfrequenzbandempfänger auf Basis von Pfadüberlagerung mit Regelungsmöglichkeiten |
EP2362376A3 (en) * | 2010-02-26 | 2011-11-02 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an audio signal using envelope shaping |
MX2012010350A (es) | 2010-03-09 | 2012-10-05 | Fraunhofer Ges Forschung | Aparato y metodo para manejar episodios de sonido de transitorios en señales de audio al cambiar el tono o velocidad de repeticion. |
WO2011110499A1 (en) | 2010-03-09 | 2011-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an audio signal using patch border alignment |
CA2792449C (en) | 2010-03-09 | 2017-12-05 | Dolby International Ab | Device and method for improved magnitude response and temporal alignment in a phase vocoder based bandwidth extension method for audio signals |
CN102436820B (zh) * | 2010-09-29 | 2013-08-28 | 华为技术有限公司 | 高频带信号编码方法及装置、高频带信号解码方法及装置 |
JP5807453B2 (ja) * | 2011-08-30 | 2015-11-10 | 富士通株式会社 | 符号化方法、符号化装置および符号化プログラム |
KR101833463B1 (ko) * | 2011-10-12 | 2018-04-16 | 에스케이텔레콤 주식회사 | 음향 신호 품질 개선 시스템 및 그 방법 |
US9286942B1 (en) * | 2011-11-28 | 2016-03-15 | Codentity, Llc | Automatic calculation of digital media content durations optimized for overlapping or adjoined transitions |
EP2631906A1 (en) * | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
WO2013189528A1 (en) * | 2012-06-20 | 2013-12-27 | Widex A/S | Method of sound processing in a hearing aid and a hearing aid |
US9064318B2 (en) | 2012-10-25 | 2015-06-23 | Adobe Systems Incorporated | Image matting and alpha value techniques |
US9201580B2 (en) | 2012-11-13 | 2015-12-01 | Adobe Systems Incorporated | Sound alignment user interface |
US10638221B2 (en) | 2012-11-13 | 2020-04-28 | Adobe Inc. | Time interval sound alignment |
US9355649B2 (en) * | 2012-11-13 | 2016-05-31 | Adobe Systems Incorporated | Sound alignment using timing information |
US9076205B2 (en) | 2012-11-19 | 2015-07-07 | Adobe Systems Incorporated | Edge direction and curve based image de-blurring |
US10249321B2 (en) | 2012-11-20 | 2019-04-02 | Adobe Inc. | Sound rate modification |
US9451304B2 (en) | 2012-11-29 | 2016-09-20 | Adobe Systems Incorporated | Sound feature priority alignment |
US9135710B2 (en) | 2012-11-30 | 2015-09-15 | Adobe Systems Incorporated | Depth map stereo correspondence techniques |
US10455219B2 (en) | 2012-11-30 | 2019-10-22 | Adobe Inc. | Stereo correspondence and depth sensors |
US10249052B2 (en) | 2012-12-19 | 2019-04-02 | Adobe Systems Incorporated | Stereo correspondence model fitting |
US9208547B2 (en) | 2012-12-19 | 2015-12-08 | Adobe Systems Incorporated | Stereo correspondence smoothness tool |
US9214026B2 (en) | 2012-12-20 | 2015-12-15 | Adobe Systems Incorporated | Belief propagation and affinity measures |
WO2014136629A1 (ja) * | 2013-03-05 | 2014-09-12 | 日本電気株式会社 | 信号処理装置、信号処理方法および信号処理プログラム |
WO2014136628A1 (ja) * | 2013-03-05 | 2014-09-12 | 日本電気株式会社 | 信号処理装置、信号処理方法および信号処理プログラム |
US9980074B2 (en) | 2013-05-29 | 2018-05-22 | Qualcomm Incorporated | Quantization step sizes for compression of spatial components of a sound field |
EP2838086A1 (en) | 2013-07-22 | 2015-02-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
CN110619882B (zh) * | 2013-07-29 | 2023-04-04 | 杜比实验室特许公司 | 用于降低去相关器电路中瞬态信号的时间伪差的系统和方法 |
US9812150B2 (en) | 2013-08-28 | 2017-11-07 | Accusonus, Inc. | Methods and systems for improved signal decomposition |
BR112016009563B1 (pt) * | 2013-10-31 | 2021-12-21 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Extensão de largura de banda de áudio através da inserção de ruído temporal pré- formado no domínio de frequência |
ES2941782T3 (es) | 2013-12-19 | 2023-05-25 | Ericsson Telefon Ab L M | Estimación de ruido de fondo en señales de audio |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US10468036B2 (en) * | 2014-04-30 | 2019-11-05 | Accusonus, Inc. | Methods and systems for processing and mixing signals using signal decomposition |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
EP2963646A1 (en) * | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US9640157B1 (en) * | 2015-12-28 | 2017-05-02 | Berggram Development Oy | Latency enhanced note recognition method |
US9711121B1 (en) * | 2015-12-28 | 2017-07-18 | Berggram Development Oy | Latency enhanced note recognition method in gaming |
US11562759B2 (en) | 2018-04-25 | 2023-01-24 | Dolby International Ab | Integration of high frequency reconstruction techniques with reduced post-processing delay |
MA52530A (fr) | 2018-04-25 | 2021-03-03 | Dolby Int Ab | Intégration de techniques de reconstruction audio haute fréquence |
US11158297B2 (en) * | 2020-01-13 | 2021-10-26 | International Business Machines Corporation | Timbre creation system |
CN112562703B (zh) * | 2020-11-17 | 2024-07-26 | 普联国际有限公司 | 一种音频的高频优化方法、装置和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6266644B1 (en) * | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
US20040078194A1 (en) * | 1997-06-10 | 2004-04-22 | Coding Technologies Sweden Ab | Source coding enhancement using spectral-band replication |
US6766300B1 (en) * | 1996-11-07 | 2004-07-20 | Creative Technology Ltd. | Method and apparatus for transient detection and non-distortion time scaling |
EP1111586B1 (en) * | 1999-12-24 | 2005-03-16 | Nokia Corporation | Method and apparatus for voiced/unvoiced determination |
RU2294565C2 (ru) * | 2001-03-08 | 2007-02-27 | Матсушита Электрик Индастриал Ко., Лтд. | Способ и система динамической адаптации синтезатора речи для повышения разборчивости синтезируемой им речи |
Family Cites Families (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE179827T1 (de) * | 1994-11-25 | 1999-05-15 | Fleming K Fink | Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation |
JPH08223049A (ja) * | 1995-02-14 | 1996-08-30 | Sony Corp | 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法 |
JP3580444B2 (ja) | 1995-06-14 | 2004-10-20 | ソニー株式会社 | 信号伝送方法および装置、並びに信号再生方法 |
US6049766A (en) | 1996-11-07 | 2000-04-11 | Creative Technology Ltd. | Time-domain time/pitch scaling of speech or audio signals with transient handling |
JP3017715B2 (ja) * | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | 音声再生装置 |
US6266003B1 (en) * | 1998-08-28 | 2001-07-24 | Sigma Audio Research Limited | Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals |
US6316712B1 (en) | 1999-01-25 | 2001-11-13 | Creative Technology Ltd. | Method and apparatus for tempo and downbeat detection and alteration of rhythm in a musical segment |
SE9903553D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
JP2001075571A (ja) * | 1999-09-07 | 2001-03-23 | Roland Corp | 波形生成装置 |
US6549884B1 (en) | 1999-09-21 | 2003-04-15 | Creative Technology Ltd. | Phase-vocoder pitch-shifting |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US7096481B1 (en) * | 2000-01-04 | 2006-08-22 | Emc Corporation | Preparation of metadata for splicing of encoded MPEG video and audio |
US7447639B2 (en) * | 2001-01-24 | 2008-11-04 | Nokia Corporation | System and method for error concealment in digital audio transmission |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
MXPA03009357A (es) * | 2001-04-13 | 2004-02-18 | Dolby Lab Licensing Corp | Escalamiento en el tiempo y escalamiento en el tono de alta calidad de senales de audio. |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
DK1386312T3 (da) * | 2001-05-10 | 2008-06-09 | Dolby Lab Licensing Corp | Forbedring af transient ydeevne af audio kodningssystemer med lav bithastighed ved reduktion af forudgående stöj |
BR0309598A (pt) * | 2002-04-25 | 2005-02-09 | Shazam Entertainment Ltd | Método para a caracterização de um relacionamento entre uma primeira e uma segunda amostras de áudio, produto de programa de computador e sistema de computador |
JP4817658B2 (ja) * | 2002-06-05 | 2011-11-16 | アーク・インターナショナル・ピーエルシー | 音響仮想現実エンジンおよび配信された音声改善のための新技術 |
TW594674B (en) * | 2003-03-14 | 2004-06-21 | Mediatek Inc | Encoder and a encoding method capable of detecting audio signal transient |
JP4076887B2 (ja) * | 2003-03-24 | 2008-04-16 | ローランド株式会社 | ボコーダ装置 |
US7233832B2 (en) | 2003-04-04 | 2007-06-19 | Apple Inc. | Method and apparatus for expanding audio data |
SE0301273D0 (sv) | 2003-04-30 | 2003-04-30 | Coding Technologies Sweden Ab | Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods |
US6982377B2 (en) | 2003-12-18 | 2006-01-03 | Texas Instruments Incorporated | Time-scale modification of music signals based on polyphase filterbanks and constrained time-domain processing |
CA3035175C (en) | 2004-03-01 | 2020-02-25 | Mark Franklin Davis | Reconstructing audio signals with multiple decorrelation techniques |
ATE523876T1 (de) * | 2004-03-05 | 2011-09-15 | Panasonic Corp | Fehlerverbergungseinrichtung und fehlerverbergungsverfahren |
JP4355745B2 (ja) * | 2004-03-17 | 2009-11-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化 |
TWI404419B (zh) * | 2004-04-07 | 2013-08-01 | Nielsen Media Res Inc | 與壓縮過音頻/視頻資料一起使用之資料插入方法、系統、機器可讀取媒體及設備 |
US8843378B2 (en) | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
US7617109B2 (en) * | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
KR100750115B1 (ko) * | 2004-10-26 | 2007-08-21 | 삼성전자주식회사 | 오디오 신호 부호화 및 복호화 방법 및 그 장치 |
US7752548B2 (en) * | 2004-10-29 | 2010-07-06 | Microsoft Corporation | Features such as titles, transitions, and/or effects which vary according to positions |
WO2006079349A1 (en) * | 2005-01-31 | 2006-08-03 | Sonorit Aps | Method for weighted overlap-add |
US7742914B2 (en) * | 2005-03-07 | 2010-06-22 | Daniel A. Kosek | Audio spectral noise reduction method and apparatus |
US7983922B2 (en) | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
JP5191886B2 (ja) * | 2005-06-03 | 2013-05-08 | ドルビー ラボラトリーズ ライセンシング コーポレイション | サイド情報を有するチャンネルの再構成 |
US8270439B2 (en) * | 2005-07-08 | 2012-09-18 | Activevideo Networks, Inc. | Video game system using pre-encoded digital audio mixing |
US8121836B2 (en) | 2005-07-11 | 2012-02-21 | Lg Electronics Inc. | Apparatus and method of processing an audio signal |
US7565289B2 (en) * | 2005-09-30 | 2009-07-21 | Apple Inc. | Echo avoidance in audio time stretching |
US7917358B2 (en) * | 2005-09-30 | 2011-03-29 | Apple Inc. | Transient detection by power weighted average |
US8473298B2 (en) * | 2005-11-01 | 2013-06-25 | Apple Inc. | Pre-resampling to achieve continuously variable analysis time/frequency resolution |
WO2007066818A1 (ja) * | 2005-12-09 | 2007-06-14 | Sony Corporation | 音楽編集装置及び音楽編集方法 |
EP1964438B1 (en) * | 2005-12-13 | 2010-02-17 | Nxp B.V. | Device for and method of processing an audio data stream |
JP4949687B2 (ja) * | 2006-01-25 | 2012-06-13 | ソニー株式会社 | ビート抽出装置及びビート抽出方法 |
BRPI0706887A2 (pt) * | 2006-01-30 | 2012-08-21 | Clearplay Inc | "método para suprimir algum conteúdo de multimìdia de uma apresentação de conteúdo de multimìdia fornecida por um servidor remoto a um aparelho reprodutor de conteúdo de multimìdia do cliente e método para aplicar e sincronizar dados de filtro de conteúdo de mutimìdia com uma apresentação de conteúdo de multimìdia." |
JP4487958B2 (ja) * | 2006-03-16 | 2010-06-23 | ソニー株式会社 | メタデータ付与方法及び装置 |
DE102006017280A1 (de) * | 2006-04-12 | 2007-10-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals |
WO2007127023A1 (en) * | 2006-04-27 | 2007-11-08 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US8046749B1 (en) * | 2006-06-27 | 2011-10-25 | The Mathworks, Inc. | Analysis of a sequence of data in object-oriented environments |
US8239190B2 (en) | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
US7514620B2 (en) * | 2006-08-25 | 2009-04-07 | Apple Inc. | Method for shifting pitches of audio signals to a desired pitch relationship |
WO2008066930A2 (en) * | 2006-11-30 | 2008-06-05 | Dolby Laboratories Licensing Corporation | Extracting features of video & audio signal content to provide reliable identification of the signals |
WO2008088482A1 (en) * | 2006-12-28 | 2008-07-24 | Thomson Licensing | Method and apparatus for automatic visual artifact analysis and artifact reduction |
US20080181298A1 (en) * | 2007-01-26 | 2008-07-31 | Apple Computer, Inc. | Hybrid scalable coding |
US20080221876A1 (en) * | 2007-03-08 | 2008-09-11 | Universitat Fur Musik Und Darstellende Kunst | Method for processing audio data into a condensed version |
US20090024234A1 (en) * | 2007-07-19 | 2009-01-22 | Archibald Fitzgerald J | Apparatus and method for coupling two independent audio streams |
CN102881294B (zh) * | 2008-03-10 | 2014-12-10 | 弗劳恩霍夫应用研究促进协会 | 操纵具有瞬变事件的音频信号的方法和设备 |
US8380331B1 (en) * | 2008-10-30 | 2013-02-19 | Adobe Systems Incorporated | Method and apparatus for relative pitch tracking of multiple arbitrary sounds |
WO2010086461A1 (en) * | 2009-01-28 | 2010-08-05 | Dolby International Ab | Improved harmonic transposition |
TWI484473B (zh) | 2009-10-30 | 2015-05-11 | Dolby Int Ab | 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統 |
-
2009
- 2009-02-17 CN CN201210261998.1A patent/CN102881294B/zh active Active
- 2009-02-17 JP JP2010550054A patent/JP5336522B2/ja active Active
- 2009-02-17 CN CN201210262760.0A patent/CN102789785B/zh active Active
- 2009-02-17 TR TR2019/10850T patent/TR201910850T4/tr unknown
- 2009-02-17 BR BR122012006265-0A patent/BR122012006265B1/pt active IP Right Grant
- 2009-02-17 EP EP09719651.3A patent/EP2250643B1/en active Active
- 2009-02-17 CN CN2009801081751A patent/CN101971252B/zh active Active
- 2009-02-17 MX MX2010009932A patent/MX2010009932A/es active IP Right Grant
- 2009-02-17 ES ES09719651T patent/ES2738534T3/es active Active
- 2009-02-17 KR KR1020107020270A patent/KR101291293B1/ko active IP Right Grant
- 2009-02-17 RU RU2010137429/08A patent/RU2487429C2/ru active
- 2009-02-17 EP EP10194088.0A patent/EP2293294B1/en active Active
- 2009-02-17 KR KR1020127005833A patent/KR101230480B1/ko active IP Right Grant
- 2009-02-17 WO PCT/EP2009/001108 patent/WO2009112141A1/en active Application Filing
- 2009-02-17 ES ES10194088T patent/ES2747903T3/es active Active
- 2009-02-17 BR BR122012006269-3A patent/BR122012006269A2/pt not_active Application Discontinuation
- 2009-02-17 CA CA2717694A patent/CA2717694C/en active Active
- 2009-02-17 US US12/921,550 patent/US9275652B2/en active Active
- 2009-02-17 RU RU2012113092/08A patent/RU2565009C2/ru active IP Right Revival
- 2009-02-17 KR KR1020127005832A patent/KR101230479B1/ko active IP Right Grant
- 2009-02-17 RU RU2012113087/08A patent/RU2565008C2/ru active
- 2009-02-17 CA CA2897276A patent/CA2897276C/en active Active
- 2009-02-17 KR KR1020127005834A patent/KR101230481B1/ko active IP Right Grant
- 2009-02-17 ES ES10194086T patent/ES2739667T3/es active Active
- 2009-02-17 CA CA2897271A patent/CA2897271C/en active Active
- 2009-02-17 AU AU2009225027A patent/AU2009225027B2/en active Active
- 2009-02-17 EP EP10194095A patent/EP2293295A3/en not_active Withdrawn
- 2009-02-17 BR BRPI0906142-8A patent/BRPI0906142B1/pt active IP Right Grant
- 2009-02-17 CA CA2897278A patent/CA2897278A1/en active Pending
- 2009-02-17 CN CN201210262522.XA patent/CN102789784B/zh active Active
- 2009-02-17 BR BR122012006270-7A patent/BR122012006270B1/pt active IP Right Grant
- 2009-02-17 EP EP10194086.4A patent/EP2296145B1/en active Active
- 2009-02-23 TW TW101114952A patent/TWI505265B/zh active
- 2009-02-23 TW TW098105710A patent/TWI380288B/zh active
- 2009-02-23 TW TW101114956A patent/TWI505266B/zh active
- 2009-02-23 TW TW101114948A patent/TWI505264B/zh active
-
2012
- 2012-03-12 JP JP2012055130A patent/JP5425952B2/ja active Active
- 2012-03-12 JP JP2012055128A patent/JP5425249B2/ja active Active
- 2012-03-12 JP JP2012055129A patent/JP5425250B2/ja active Active
- 2012-04-03 RU RU2012113063/08A patent/RU2598326C2/ru active IP Right Revival
- 2012-05-07 US US13/465,946 patent/US9236062B2/en active Active
- 2012-05-07 US US13/465,958 patent/US20130010983A1/en not_active Abandoned
- 2012-05-07 US US13/465,936 patent/US9230558B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6766300B1 (en) * | 1996-11-07 | 2004-07-20 | Creative Technology Ltd. | Method and apparatus for transient detection and non-distortion time scaling |
US20040078194A1 (en) * | 1997-06-10 | 2004-04-22 | Coding Technologies Sweden Ab | Source coding enhancement using spectral-band replication |
US6266644B1 (en) * | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
EP1111586B1 (en) * | 1999-12-24 | 2005-03-16 | Nokia Corporation | Method and apparatus for voiced/unvoiced determination |
RU2294565C2 (ru) * | 2001-03-08 | 2007-02-27 | Матсушита Электрик Индастриал Ко., Лтд. | Способ и система динамической адаптации синтезатора речи для повышения разборчивости синтезируемой им речи |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2598326C2 (ru) | Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал | |
AU2012216539B2 (en) | Device and method for manipulating an audio signal having a transient event |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA92 | Acknowledgement of application withdrawn (lack of supplementary materials submitted) |
Effective date: 20160111 |
|
FZ9A | Application not withdrawn (correction of the notice of withdrawal) |
Effective date: 20160216 |
|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20180404 |
|
NF4A | Reinstatement of patent |
Effective date: 20201103 |
|
TK4A | Correction to the publication in the bulletin (patent) |
Free format text: CORRECTION TO CHAPTER -FG4A- IN JOURNAL 26-2016 FOR INID CODE(S) (24) |