RU2443028C2 - Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра - Google Patents

Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра Download PDF

Info

Publication number
RU2443028C2
RU2443028C2 RU2010109206/08A RU2010109206A RU2443028C2 RU 2443028 C2 RU2443028 C2 RU 2443028C2 RU 2010109206/08 A RU2010109206/08 A RU 2010109206/08A RU 2010109206 A RU2010109206 A RU 2010109206A RU 2443028 C2 RU2443028 C2 RU 2443028C2
Authority
RU
Russia
Prior art keywords
spectrum
time
audio signal
parameters
tilt
Prior art date
Application number
RU2010109206/08A
Other languages
English (en)
Other versions
RU2010109206A (ru
Inventor
Макс НУЕНДОРФ (DE)
Макс НУЕНДОРФ
Ульрих КРАЕМЕР (DE)
Ульрих КРАЕМЕР
Фредерик НАГЕЛ (DE)
Фредерик НАГЕЛ
Саша ДИШ (DE)
Саша ДИШ
Стефан ВАБНИК (DE)
Стефан ВАБНИК
Original Assignee
Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен filed Critical Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен
Publication of RU2010109206A publication Critical patent/RU2010109206A/ru
Application granted granted Critical
Publication of RU2443028C2 publication Critical patent/RU2443028C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

Изобретение относится к области кодирования и декодирования звука, в частности, с расширением диапазона рабочих частот (BWE). Техническим результатом является улучшение качества звукового сигнала расширенного диапазона. Указанный результат достигается тем, что первая полоса спектра кодируется с помощью первого набора битов, а вторая полоса спектра, отличающаяся от первой полосы спектра, кодируется вторым наборов битов, который меньше, чем первый набор битов. Устройство для вычисления параметров расширения рабочего диапазона частот звукового сигнала в системе расширения рабочего диапазона частот оснащено вычислителем параметров управляемого расширения полосы пропускания (10) для вычисления параметров расширения рабочего диапазона частот для второй полосы частот в виде последовательности фреймов аудиосигнала. Каждый фрейм имеет управляемый начальный момент. Дополнительно устройство оснащено детектором наклона спектра (12) в интервале времени звукового сигнала, который передает сигналы момента начала каждого фрейма аудиосигнала в зависимости от наклона спектра. 3 н. и 16 з.п. ф-лы, 8 ил.

Description

Настоящее изобретение относится к области кодирования/декодирования звука вообще и - с расширением диапазона рабочих частот (BWE) - в частности. Известна реализация BWE путем репликации рабочего диапазона спектра (SBR), введенная в стандарт MPEG (Moving Picture Expert Group [Экспертная группа по движущимся изображениям]).
В WO 00/45378 описан эффективный способ кодирования огибающей спектра с использованием переменной разрешающей способности по времени/частоте и частотно-временного перехода. Входной аналоговый сигнал поступает на аналогово-цифровой преобразователь (АЦП), формирующий цифровой сигнал. Цифровой аудиосигнал пересылается на перцепционный аудиокодер, где источник кодируется. Дополнительно цифровой сигнал поступает на детектор перехода и в банк фильтров анализа, который разбивает сигнал на спектральные составляющие (подполосовые сигналы). Детектор перехода обрабатывает сигналы поддиапазонов на выходе банка анализа или - непосредственно цифровые отсчеты временной области. Детектор перехода делит сигнал на гранулы и определяет, должны ли подгранулы внутри гранул быть промаркированы как переходные. Эти данные передаются на блок группирования огибающей, который формирует частотно-временную координатную сетку для каждой текущей гранулы. В соответствии с этой координатной сеткой блок комбинирует равномерные дискреты подполосовых сигналов, образуя отсчеты огибающей с переменными значениями. Такие значения могут быть показателями средней или, наоборот, максимальной энергии отсчетов поддиапазонов. Значения огибающей вместе с информацией о группировании поступают на блок кодирования огибающей. Этот блок определяет, в какой области (временной или частотной) следует кодировать значения огибающей. Результирующие сигналы, выходной сигнал аудиокодера, параметры широкополосной огибающей и сигналы управления передаются на мультиплексор, образуя последовательный битстрим, который пересылается далее или сохраняется в памяти.
Со стороны декодера демультиплексор реконструирует сигналы и передает выходной сигнал перцепционного аудиокодера на аудиодекодер, который синтезирует низкочастотный цифровой аудиосигнал. Параметры огибающей поступают с демультиплексора на блок декодирования огибающей, который, используя управляющие данные, определяет, в каком направлении закодирована текущая огибающая, и декодирует данные. Аудиодекодер пересылает низкочастотный сигнал на модуль преобразования, который оценивает исходный высокочастотный сигнал содержащий одну или несколько гармоник низкочастотного сигнала. Высокочастотный сигнал поступает в анализирующий банк фильтров аналогичного со стороной кодера типа. Блок группирования по масштабному коэффициенту комбинирует субполосные сигналы. На основании управляющих данных демультиплексора комбинирование и частотно-временное распределение субполосных отсчетов выполняется идентично стороне кодирования. Блок регулирования уровня усиления анализирует параметры огибающей, полученные от демультиплексора, и данные блока группирования по масштабному коэффициенту. Этот блок вычисляет коэффициенты усиления, применимые к субполосным отсчетам перед восстановлением с использованием блока банка фильтров синтеза. Таким образом, выходной сигнал синтезирующего банка фильтров представляет собой откорректированный по огибающей высокочастотным звуковым сигналом. Этот сигнал суммируется с выходным сигналом блока задержки, который принимает низкочастотный аудиосигнал. Задержка обеспечивает компенсацию времени обработки высокочастотного сигнала. В завершение цифроаналоговый преобразователь (ЦАП) преобразует сформированный цифровой широкополосный сигнал в аналоговый звуковой сигнал.
Когда выдержанные аккорды сочетаются с острыми переходными потенциалами с преимущественным высокочастотным спектральным составом, аккорды обладают высокой энергией в низкочастотном диапазоне и низкой нестационарной энергией, тогда как для высокочастотного диапазона справедливо противоположное состояние. Над параметрами огибающей, генерируемой в интервалах нестабильности, преобладает высокая импульсная переходная энергия. Типичные кодеры работают по блочному принципу, где каждый блок представляет фиксированный временной интервал. Со стороны кодера применяют упреждение с помощью детектора перехода для обеспечения перекрывания границ блоков параметрами огибающей. Это дает возможность более гибкого селектирования разрешения по времени/частоте.
Международный стандарт ISO/IEC 14496-3 в разделе 4.6.18.3.3 описывает частотно-временную сетку, где определено количество огибающих копирования спектральных полос (SBR) и минимальные уровни шума, а также сегмент времени, связанный с каждой огибающей SBR и минимальным уровнем шума. Каждый сегмент времени определяется начальной границей времени и конечной границей времени. Временной интервал, обозначенный границей начала времени, включается в сегмент времени, временной интервал, обозначенный границей окончания времени, исключается из сегмента времени. В последовательности сегментов конечная граница времени сегмента совпадает с начальной границей времени следующего сегмента. Таким образом, границы времени огибающих SBR внутри фрейма SBR декодируются на стороне декодера. Соответствующая сетка времени/сетка частоты определяется кодером.
Патент США 6453282 B1 раскрывает способ и устройство для обнаружения переходного режима в звуковом сигнале в дискретном времени. В кодер введены устройство частотно-временного преобразования, устройство квантования/кодирования и устройство форматирования битстрима. Фазой квантования/кодирования управляет процесс психоакустического моделирования. Фазой частотно-временного преобразования управляет детектор перехода, причем управление частотно-временным преобразованием осуществляется для переключения с длинного окна на короткое окно в случае обнаружения переходного режима. В детекторе перехода или энергия отфильтрованного звукового сигнала в дискретном времени в текущем сегменте сравнивается с энергией отфильтрованного звукового сигнала в дискретном времени в предшествующем сегменте, или формируется текущее соотношение между энергией отфильтрованного звукового сигнала в дискретном времени в текущем сегменте и энергией неотфильтрованного звукового сигнала в дискретном времени в текущем сегменте и это текущее соотношение сравнивается с предшествующим соответствующим соотношением. Если переходный режим присутствует в звуковом сигнале в дискретном времени, он обнаруживается с использованием одного и/или другого из этих сопоставлений.
Особенно кодирование требуют голосовые сигналы, поскольку речь включает в себя не только гласные, которые преимущественно состоят из гармоник, чья энергия сконцентрирована в нижней части спектра, но и содержит значительное количество сибилянтов. Сибилянты представляют собой фрикативы или аффрикаты (щелевые согласные), образуемые прохождением струи воздуха через узкий канал речевого тракта к переднему краю зубов. В качестве синонима термина "сибилянт" [в английском языке] часто используется термин "strident" - "резкий, скрипучий". Термин "сибилянт" относится к артикуляции или аэродинамике, подразумевая создание периодического шума при преодолении препятствий. Определение "резкий, пронзительный, скрипучий" относится к звуковосприятию интенсивности, зависящей от амплитуды и частотных характеристик воспроизводимого звука (то есть - является определением с точки зрения слуха или акустики).
Сибилянты громче их несвистящих аналогов, и большая часть их акустической энергии производится в более высоких частотах по сравнению с остальными щелевыми согласными. Наибольшая акустическая сила звука [s] находится в пределах 8000 Гц, но может достигать 10000 Гц. Наибольшей акустической энергии звук [∫] имеет в пределах 4000 Гц, но может возрастать до 8000 Гц. Для сибилянтов существуют символы IPA, для которых известны альвеолярные и постальвеолярные варианты. Кроме того, существует свист и, в зависимости от языка, другие подобные звуки.
Общим для всех свистящих согласных в речи является то, что, если непосредственно перед ними стоит гласный, происходит сильный сдвиг энергии из низкочастотной части в высокочастотную. Детектор перехода, предназначенный для обнаружения возрастания энергии во времени, может быть не в состоянии обнаружить подобный энергетический сдвиг. Однако при кодировании звука в основной полосе частот, когда, например, не используется расширение полосы пропускания, это не слишком осложняет ситуацию, так как свистящие согласные, как правило, имеют гораздо большую длительность, чем нестационарные процессы. При применении кодирования в основной полосе частот, например, усовершенствованного метода кодирования звука (ААС), весь спектр кодируется с высокой разрешающей способностью по частоте. Следовательно, энергетический сдвиг от низкой частоты до высокой частотной составляющей распознавать не обязательно благодаря относительной стационарности сибилянтов в голосовых сигналах при сопоставлении длины, например, такого свистящего звука, как [s] в слове "sister" (сестра), с длиной фрейма длинной взвешивающей функции. Кроме того, высокочастотная составляющая в любом случае кодируется с высоким битрейтом.
Однако ситуация осложняется, когда сибилянты встречаются при расширении рабочего диапазона частот. При расширении рабочего диапазона частот низкочастотная компонента кодируется с высокой разрешающей способностью / высоким битрейтом с использованием основополосного кодера, такого как ААС-кодер, а полоса высоких частот кодируется с низкой разрешающей способностью / низким битрейтом, как правило, только с определенными параметрами, например, огибающей спектра, имеющей значения частотного разрешения, намного более низкие, чем частотное разрешение спектра основной полосы частот. Формулируя иначе, спектральный интервал между двумя параметрами огибающей спектра будет больше (по меньшей мере, в десять раз), чем спектральный интервал между значениями низкочастотного спектра.
Со стороны декодера выполняется расширение полосы пропускания, при котором низкочастотный спектр используется для восстановления высокочастотного спектра. Когда в такой ситуации происходит энергетический сдвиг от низких частот к высоким частотам, то есть, когда встречается свистящий согласный, становится ясно, что этот энергетический сдвиг значительно повлияет на точность/качество реконструированного аудиосигнала. Однако детектор перехода, распознающий увеличение (или уменьшение) энергии, не обнаружит этот энергетический сдвиг, и, таким образом, на параметры огибающей спектра фрейма огибающей спектра, относящиеся к дискрету времени до или после появления данного сибилянта, будет воздействовать энергетический сдвиг внутри спектра. На стороне декодера из-за отсутствия разрешения по времени результат будет заключаться в том, что весь фрейм будет реконструирован со средней энергией, в высокочастотной области, то есть - не с низкой энергией перед свистящим звуком и высокой энергией после него. Это приведет к снижению качества рассчитываемого сигнала.
Цель настоящего изобретения - представить концепцию расширения рабочего диапазона частот, обеспечивающего звуковой сигнал расширенного диапазона улучшенного качества.
Эта цель достигается путем применения устройства по пункту 1 формулы изобретения для вычисления параметров расширения полосы пропускания, способ вычисления параметров расширения полосы пропускания по пункту 19 или компьютерной программы по пункту 20.
Данное изобретение основывается на обеспечении обнаружения при расширении рабочего диапазона частот сдвига энергии от низкочастотной области к высокочастотной области. Для этой цели в изобретении применен детектор наклона спектра. Когда обнаруживается такое изменение энергии, несмотря на то, что, например, полная энергия сигнала не изменилась или даже снизилась, детектор наклона спектра посылает на вычислитель параметров управляемого расширения полосы пропускания сигнал момента начала, чтобы вычислитель параметров расширения полосы пропускания установил начальный момент для фрейма параметров расширения полосы пропускания. Момент окончания фрейма может быть задан автоматически, например, через определенный интервал времени после начального момента, или в соответствии с определенной сеткой фрейма или по сигналу момента окончания, посланному детектором наклона спектра, когда он распознает конец сдвига частоты, или, говоря иначе, обратное изменение частоты от высокой к низкой. В силу психоакустических постмаскирующих эффектов, которые намного важнее, чем предмаскирующие эффекты, точно управляемый момент начала фрейма важнее момента окончания фрейма.
Рекомендуется в целях экономии вычислительных ресурсов и обеспечения задержки обработки данных, что особенно важно для мобильных устройств (в частности, для мобильных телефонов), детектор наклона спектра реализуется как фаза анализа линейно-предиктивного кодирования (LPC-анализа) низкого уровня. Предпочтительно, наклон спектра дискрета времени аудиосигнала оценивается на основе одного или нескольких коэффициентов LPC низкого порядка. На основании порогового решения с заданным пороговым значением наклона спектра и преимущественно на основании изменения знака наклона спектра, что является пороговым решением с пороговым значением "ноль", осуществляется управление подачей сигнала момента начала. Если при оценке наклона спектра используется только первый LPC-коэффициент, достаточно лишь определить знак этого первого LPC-коэффициента, так как этот знак определяет знак наклона спектра, а следовательно, определяет, следует ли подавать вычислителю параметров расширения полосы пропускания сигнал момента начала.
Желательно, чтобы детектор наклона спектра взаимодействовал с детектором перехода, предназначенным для обнаружения изменения энергии, то есть повышения или снижения энергии аудиосигнала в целом. При реализации фрейм параметров расширения диапазона рабочих частот имеет большую длину, если в сигнале обнаружено нестационарное состояние, в то время как вычислитель параметров управляемого расширения полосы пропускания задает меньшую длину фрейма, когда детектор наклона спектра подает сигнал момента начала.
Далее на основании представленных иллюстраций описаны предпочтительные варианты осуществления настоящего изобретения, где:
на фиг.1а дана схема предпочтительного варианта осуществления устройства/способа вычисления параметров расширения диапазона рабочих частот аудиосигнала;
на фиг.1b показан результат формирования последовательности фреймов звукового сигнала, имеющего переходные режимы, и соответствующие временные составляющие детектора наклона спектра:
на фиг.1с дана таблица управления разрешающей способностью по времени/частоте с помощью вычислителя параметров, реагирующего на сигналы от детектора наклона спектра и дополнительного детектора перехода;
на фиг.2а проиллюстрирован отрицательный наклон спектра сигнала без свистящего звука:
на фиг.2b проиллюстрирован положительный наклон спектра сигнала, содержащего свистящий звук;
на фиг.2с поясняется порядок вычисления наклона спектра m на основе параметров LPC-кодирования низкого порядка;
на фиг.3 дана блок-схема предпочтительного варианта кодера, относящегося к данному изобретению; и
на фиг.4 дана блок-схема декодера с расширением полосы пропускания.
Перед подробным обсуждением фиг.1 и 2 будет рассмотрен алгоритм расширения рабочего диапазона частот на базе фиг.3 и 4.
На фиг.3 представлен вариант конструктивного решения кодера 300, куда введены модули SBR (копирования спектральных полос) 310, анализирующий банк QMF (квадратурных зеркальных фильтров) 320, фильтр низких частот (ФНЧ) 330, корневой кодер ААС(усовершенствованного звукового кодека) 340 и устройство форматирования (форматер) контента битового потока 350. Дополнительно кодер 300 включает в себя вычислитель параметров огибающей 210. Кодер 300 имеет вход для отсчетов ИКМ (аудиосигнал 105; И КМ импульсно-кодовая модуляция), который сопряжен с анализирующим банком QMF 320, с модулями SBR 310 и с ФНЧ 330. Анализирующий банк QMF 320 может иметь в своем составе фильтр верхних частот для отделения второго диапазона частот 105b и сопряжен с вычислителем параметров огибающей 210, который, в свою очередь, соединен с блоком форматирования (форматером) содержимого битстрима 350. ФНЧ 330 может включать в себя фильтр низких частот для отделения первого частотного диапазона 105а и сопряжен с корневым кодером ААС 340, который, в свою очередь, соединен с форматером полезного битстрима 350. Наконец, модуль SBR 310 связан с вычислителем параметров огибающей 210 и с корневым кодером ААС 340.
Таким образом, кодер 300 разбивает аудиосигнал 105 на дискреты с образованием составляющих основного частотного диапазона 105а (в фильтре низких частот 330), которые вводятся в корневой кодер ААС 340, где аудиосигнал кодируется в основном частотном диапазоне, а кодированный сигнал 355 передается на форматер битстрима 350, в котором кодированный аудиосигнал 355 в основном диапазоне частот суммируется с закодированным звуковым потоком 345 (образуя битстрим). Одновременно аудиосигнал 105 анализируется банком квадратурных зеркальных фильтров 320, при этом высокочастотный фильтр банка анализа QMF отсеивает составляющие высокочастотного диапазона 105b и вводит этот сигнал в вычислитель параметров огибающей 210 для формирования параметров копирования спектральных полос 375. Например, 64-субполосный QMF-банк 320 выполняет поддиапазонное фильтрование входного сигнала. Таким образом, выход банка фильтров (состоящий из подполосовых отсчетов) представляет собой комплекснозначный сигнал, передискретизованный по сравнению с обычным QMF-банком с коэффициентом два.
Модуль SBR 310 может, в частности, включать в себя устройство, формирующее выходные данные по расширению полосы пропускания BWE, и управлять вычислителем параметров огибающей 210. Используя звуковые составляющие 105b, генерируемые банком анализа QMF 320, вычислитель параметров огибающей 210 вычисляет параметры копирования спектральных полос SBR 375 и пересылает их на форматер полезной нагрузки битстрима 350, который совмещает параметры SBR 375 с компонентами 355, закодированными корневым кодером 340, образуя кодированный звуковой поток 345.
Как вариант устройство, генерирующее выходные данные BWE, может входить в состав вычислителя параметров огибающей 210, а процессор может быть частью устройства форматирования полезного содержимого битстрима 350. Таким образом, различные элементы оборудования могут быть частью разных компонентов кодера на фиг.3.
На фиг.4 представлена версия реализации декодера 400, где закодированный звуковой поток 345 вводится в блок деформатирования (деформатер) контента битстрима 357, который отделяет закодированный аудиосигнал 355 от параметров SBR 375. Закодированный аудиосигнал 355 вводится, например, в корневой декодер ААС 360, который декодирует аудиосигнал 105а в первом частотном диапазоне. Аудиосигнал 105а (дискретизованный в первом частотном диапазоне) вводится в 32-полосный QMF-банк анализа 370, генерирующий из аудиосигнала 105а в первом частотном диапазоне, например, 32 частотных поддиапазона 10532. Подполосовой аудиосигнал 10532 вводится в патч-генератор 410 для создания спектрального представления необработанного сигнала 425 („заплаты"), который пересылается на устройство копирования спектральных полос SBR 430а. Модуль SBR-инструментария 430а может, например, иметь в своем составе вычислитель, задающий минимальный уровень шума. Кроме того, модуль SBR 430а может воссоздавать недостающие гармоники или выполнять операцию обратного фильтрования. SBR-модуль 430а может реализовывать некоторые методики репликации спектральных полос, работая со спектральными данными на выходе патч-генератора 410 после QMF.
Алгоритм внесения исправлений с помощью патчей в частотной области может включать в себя, в частности, простое зеркалирование или копирование спектральных данных в пределах подполосовой частотной области.
Вместе с тем, параметры SBR 375 (например, содержащие выходные данные BWE 102) вводятся в синтаксический анализатор битстрима 380, который анализирует параметры SBR 375, получая различную вспомогательную информацию 385 и вводя ее, например, в декодер и деквантизатор Хаффмана 390, где, например, извлекается управляющая информация 412 и параметры копирования спектральных полос 102, включая определенные данные о разрешении по времени фреймов при копировании спектральных полос. Управляющая информация 412 используется для контроля патч-генератора 410. Параметры копирования спектральных полос 102 вводятся одновременно в SBR-модуль 430а и в корректор настройки огибающей 430b. Корректор настройки огибающей 430b выверяет огибающую по сгенерированному патчу. В результате корректор настройки огибающей 430b генерирует откорректированный необработанный сигнал 105b для второго частотного диапазона и пересылает его в QMF-банк синтеза 440, который совмещает составляющие второго частотного диапазона 105b с аудиосигналом частотной области 10532. Синтезирующий банк QMF 440 имея, например, 64 полосы частот и совмещая оба сигнала (составляющие второго частотного диапазона 105b и аудиосигнал подполосовой частотной области 10532), синтезирует аудиосигнал 105 (например, отсчеты ИКМ, ИКМ импульсно-кодовая модуляция).
Синтезирующий банк QMF 440 может включать в себя блок сведения (комбинатор), который сначала совмещает сигнал частотной области 10532 со вторым частотным диапазоном 105b, а затем преобразует во временную область, давая на выходе звуковой сигнал 105. Произвольно звуковой сигнал на выходе блока сведения 105 может быть в частотной области.
Среди инструментов модуля SBR 430а может находиться источник обычного уровня собственных шумов, вносящий дополнительные искажения в спектр после патча (в спектральное представление необработанного сигнала 425), вследствие чего спектральные составляющие 105а, которые поступили от корневого кодера 340 и используются для синтеза компонент второго частотного диапазона 105b, проявляют тональные характеристики, аналогичные исходному сигналу второго частотного диапазона 105b, как показано на фиг.3.
На фиг.1а представлено устройство для вычисления параметров расширения рабочего диапазона частот звукового сигнала в системе расширения рабочего диапазона частот, где первая полоса спектра кодируется с помощью первого набора битов, а вторая полоса спектра, отличающаяся от первой полосы спектра, кодируется вторым наборов битов. Второй набор битов меньше, чем первый набор битов. Предпочтительно, чтобы первый частотный диапазон являлся диапазоном низких частот, а второй частотный диапазон - диапазоном высоких частот при том, что в других известных сценариях расширения рабочего диапазона частот первый частотный диапазон и второй частотный диапазон отличаются друг от друга, но не являются низкочастотным и высокочастотным. Более того, в соответствии с основной концепцией алгоритмов расширения полосы пропускания высокие частоты кодируют грубее, чем низкие частоты. Рекомендуется, чтобы битрейт для высоких частот был, по меньшей мере, на 50%, или даже более предпочтительно, по меньшей мере, на 90% ниже, чем битрейт для низких частот. Таким образом, скорость передачи данных для второго частотного диапазона на 50 или более процентов ниже скорости передачи низких частот.
Оборудование на фиг.1а имеет в своем составе управляемый вычислитель 10 параметров расширения полосы пропускания 11 в виде последовательности фреймов звукового сигнала для второй полосы спектра. Управляемый вычислитель параметров расширения полосы пропускания 10 контролирует момент начала очередного фрейма в последовательности фреймов.
Кроме того, устройство, относящееся к изобретению, включает в себя детектор 12 наклона спектра в дискрете времени звучания аудиосигнала, который поступает по линии 13 к различным модулям оборудования на фиг.1а. Детектор наклона спектра 12 в зависимости от наклона спектра аудиосигнала подает команду управляемому вычислителю параметров расширения полосы пропускания 10 о моменте начала фрейма аудиосигнала для немедленной маркировке границы начала времени.
Сигнал о наклоне спектра / сигнал момента начала должен подаваться, когда знак наклона спектра в данном дискрете времени аудиосигнала отличается от знака наклона спектра аудиосигнала в предыдущем дискрете времени аудиосигнала. Даже более предпочтительно, если сигнал момента начала подается, когда наклон спектра меняется с отрицательного на положительный. Аналогично, сигнал момента окончания может быть подан детектором наклона спектра 12 вычислителю параметров расширения полосы пропускания 10 при изменении наклона спектра с положительного на отрицательный. Однако момент окончания может быть задан без учета изменений наклона спектра звукового сигнала. Для подтверждения можно отметить, что момент окончания фрейма может быть установлен вычислителем параметров расширения полосы пропускания автономно, по истечении определенного отрезка времени с момента начала соответствующего фрейма.
Предпочтительная версия исполнения, представленная на фиг.1а, предусматривает вспомогательный детектор перехода 14, который анализирует аудиосигнал 13 с целью распознавания энергетических изменений в сигнале в целом от одного дискрета времени до следующего дискрета времени. При распознавании определенного минимального роста энергии от одного дискрета времени до следующего дискрета времени детектор перехода 14 подает управляемому вычислителю параметров расширения полосы пропускания 10 сигнал момента начала, чтобы вычислитель параметров расширения полосы пропускания задал момент начала нового фрейма параметра расширения полосы пропускания в последовательности фреймов параметров расширения полосы пропускания.
Предпочтительно вычислитель параметров расширения полосы пропускания дополнительно содержит датчик музыки/речи 15 для определения типа аудиосигнала в текущем дискрете времени - музыкального или голосового. В случае музыкального сигнала датчик музыки/речи 15 предпочтительно отключает детектор наклона спектра 12 в целях экономии энергетических/вычислительных ресурсов и во избежание увеличения скорости передачи данных из-за маленьких фреймов в неголосовых сигналах. Эта функция особенно полезна для мобильных устройств с ограниченными ресурсами обработки информации и питания. При обнаружении датчиком музыки/речи 15 речевых составляющих в аудиосигнале 13 он включает детектор наклона спектра. Сочетание датчика музыки/речи 15 с детектором наклона спектра 12 дает свои преимущества в ситуациях с изменением наклона спектра, которые встречаются, главным образом, при звучании речи и имеют меньшую вероятность во время звучании музыки. Даже когда такие ситуации возникают при звучании музыки, их пропуск не вызывает большие осложнения, поскольку музыка обладает лучшими маскирующими характеристиками, чем речь. Было выяснено, что свистящие звуки важны для разборчивости декодированной речи и существенны для субъективно оцениваемого слушателем качества. Говоря иначе, достоверность речи достаточно сильно зависит от отчетливо воспроизведенных свистящих компонентов речи. Тем не менее, для музыкальных составляющих это не имеет решающего значения.
На фиг.1b вверху дана шкала некоторого отрезка времени звучания аудиосигнала, заданная вычислителем параметров расширения полосы пропускания 10 в виде последовательности фреймов. Последовательность фреймов имеет несколько равномерных границ, образованных без обнаружения сибилянтов, и обозначенных 16а-16d. Кроме того, последовательность фреймов содержит несколько границ фреймов, которые образовались в результате обнаружения сибилянтов или изменения наклона спектра, что и является предметом изобретения. Эти границы обозначены как 17а-17с. На рис.1b также видно, что время начала фрейма i совпадает со временем конца предшествующего фрейма i-1.
В конструктивном решении на рис.1b моменты окончания, образующие равномерные границы фреймов 16a-16d, устанавливаются автоматически по истечении заданного интервала времени после момента начала фрейма. Продолжительность такого интервала определяет разрешение по времени для кадрировании параметров расширения полосы пропускания при отсутствии сибилянтов.
Как видно из таблицы на фиг.1с, такая разрешающая способность по времени может быть установлена в зависимости от получения команд момента начала детектором перехода 14 или детектором наклона спектра 12 на фиг.1а. Общим правилом для варианта конструкции на фиг.1с является получение сигнала момента начала от детектора наклона спектра, при котором разрешение по времени должно быть увеличено (то есть сокращены интервалы времени между начальным моментом и моментом конца фреймов, как проиллюстрировано на фиг.1b). Однако, когда детектор наклона спектра ничего не обнаруживает, но детектор перехода 14 распознает нестационарное состояние, это означает только повышение энергии при отсутствии энергетического сдвига. В такой ситуации автоматически установленный момент конца фрейма 10b отдаляется во времени от момента начала в силу того, что сибилянт очевидно отсутствует в аудиосигнале, а присутствует „беспроблемный" музыкальный или другой звуковой сигнал.
В данном контексте следует отметить, что установка границ в зависимости от детектора перехода или детектора наклона спектра приводит к увеличению скорости передачи кодированного сигнала. Самый низкий битрейт был бы получен, если бы фреймы на фиг.1b достигали большой длины. Однако, с другой стороны, большая продолжительность фреймов уменьшает разрешение по времени параметров расширения полосы пропускания. Поэтому данное изобретение позволяет задавать новый момент начала (что означает момент окончания предыдущего фрейма), только когда это действительно необходимо. Кроме того, гибкое разрешение по времени в зависимости от реальной ситуации, то есть - при обнаружении нестационарного состояния или при распознании изменения наклона спектра (вызванного, например, сибилянтом), дает возможность адаптировать процесс построения последовательности фреймов к существующим потребностям в оптимальном соотношении качество/скорость передачи с достижением приемлемого компромисса между двумя противоречивыми задачами.
На примере нижней шкалы времени на фиг.1b показана возможность преобразования во временной области, выполняемые с помощью детектора наклона спектра 12. В версии на рис.1b детектор наклона спектра работает по блочному принципу и, что особенно важно, по принципу наложения, таким образом, что перекрывающие дискреты времени скрывают случаи наклона спектра. Тем не менее, детектор наклона спектра может также работать с непрерывным потоком отсчетов, не применяя обязательно при этом блочный принцип, проиллюстрированный на фиг.1b.
Преимущественно, момент начала фрейма задается незадолго до времени обнаружения изменения наклона спектра. Однако управляемый вычислитель параметров расширения полосы пропускания имеет некоторую свободу при установлении новой границы фрейма, так как у него есть гарантия, что в случае потери сигнала оповещения о наклоне спектра при равномерном чередовании фреймов начало нестационарного процесса, обнаруженного детектором перехода, или начало сибилянта, распознанного детектором наклона спектра, находится в пределах первых 25% фрейма по его длительности, или даже предпочтительнее - в пределах первых 10% по длительности фрейма, входящего в последовательность регулярно расположенных фреймов.
Предпочтительно наличие дополнительной гарантии, что, по меньшей мере, какая-то часть обнаруженного изменения наклона спектра находится в новом фрейме, и не локализуется в более раннем. Однако может случиться, что начальная часть изменения наклона спектра попала в предшествующий фрейм. В таком случае, длительность этой начальной части предпочтительно должна составлять менее 10% от всей продолжительности изменения наклона спектра.
На фиг.1b наклон спектра был обнаружен в дискретах времени 18а, 18b и 18с, а „момент" изменения наклона спектра должен произойти в интервале времени 18а. В силу этого управляемый вычислитель параметров расширения полосы пропускания 10 будет уверен, что фрейм может быть введен в любой момент времени в течение периода 18а, 18b, 18с. Эта особенность позволяет вычислителю параметров расширения полосы пропускания поддерживать при необходимости определенное базовое построение последовательности фреймов, но при условии, что существенная часть каждого изменения наклона спектра находится после момента начала, то есть не в предшествующем фрейме, а в новом.
На фиг.2а показан энергетический спектр сигнала с отрицательным наклоном. Отрицательный наклон характеризует нисходящий спектр. И наоборот, фиг.2b иллюстрирует энергетический спектр сигнала, имеющего положительный наклон спектра. Говоря другими словами, такой наклон спектра характеризует восходящий спектр. Естественно, каждый конкретный спектр, подобный спектрам, показанным на фиг.2а или на фиг.2b, будет варьироваться в частном масштабе, где кривая графика будет отличаться от наклона спектра.
Наклон спектра может быть получен, например, построением прямой, соответствующей энергетическому спектру путем сокращения квадратичных разностей между этой прямой и фактическим спектром. Построение прямой линии по спектру может быть одним из путей вычисления наклона кратковременного спектра. Тем не менее, предпочтительнее вычислять наклон спектра с помощью коэффициентов кодирования с линейными предикторами (LРС).
Публикация "Efficient calculation of spectral tilt from various LPC parameters" ("Эффективный расчет наклона спектра по различным параметрам LPC"). V. Goncharoff. Е. Von Colin and R. Morris. Naval Command. Control and Ocean Surveillance Center (NCCOSC). RDT and E Division, San Diego, CA 92152-52001, May 23, 1996 раскрывает несколько способов вычисления наклона спектра.
Одно из определений наклона спектра - это наклонная линия (градиент), представляющая собой минимально квадратичное линейное соответствие (приближение) логарифмическому спектру мощности. При этом линейные соответствия нелогарифмическому спектру мощности или амплитудному спектру или любому другому виду спектра также применены. Это в особенности справедливо в отношении данного изобретения, где в предпочтительном варианте осуществления основной интерес направлен на знак наклона спектра, то есть - на то, является градиент как результат линейной аппроксимации положительным или отрицательным. Действительное значение наклона спектра, однако, не имеет большое значение в предпочтительных реализациях этого изобретения, в которых во внимание принимается знак как порог принятия решения, и порогом служит ноль. В других воплощениях, тем не менее, может применяться пороговое значение, отличное от нуля.
Когда при моделировании кратковременного спектра речи используется кодирование с линейным предсказанием (LPC), в вычислительном отношении более эффективно рассчитывать наклон спектра непосредственно из параметров модели LPC
вместо логарифмического спектра мощности.
На фиг.2с дано уравнение для кепстральных коэффициентов ck, соответствующих всеполюсному логарифмическому спектру мощности n порядка. В этом уравнении k - целочисленный коэффициент, pn - полюс n во всеполюсном представлении функции моделирования H(z) z-домена LPC-фильтра. Следующее уравнение на фиг.2с - наклон спектра в пересчете на коэффициенты косинусного преобразования Фурье. А именно, m-наклон спектра, k и n - целые числа, и N - полюс высшего порядка всеполюсной модели для H(z). Следующее уравнение на фиг.2с определяет логарифмический спектр мощности S(ω) LPC-фильтра N порядка. G - коэффициент усиления, αk - коэффициенты линейного предиктора, и ω равен 2×p×f, где f - частота. Самое нижнее уравнение на фиг.2с непосредственно дает кепстральные коэффициенты как функцию LPC-коэффициентов αk. Затем кепстральные коэффициенты ck используются для вычисления наклона спектра. В большинстве случаев этот метод в вычислительном отношении будет более эффективным, чем разложение на множители многочлена LPC с получением значений полюсов и решением для наклона спектра с использованием уравнений полюсов. Таким образом, после вычисления коэффициентов LPC αk можно рассчитать кепстральные коэффициенты ck, применив уравнение в нижней части фиг.2с, а затем из кепстральных коэффициентов, используя первое уравнение на фиг.2с, можно вычислить полюса pn. После этого на основании полюсов рассчитывается наклон спектра m по второму уравнению на фиг.2с.
Было установлено, что коэффициента LPC первого порядка α1 достаточно для нормальной оценки знака наклона спектра. Следовательно, α1 является хорошим определением для с1. В силу этого c1 хорошо определяет p1. При введении p1 в уравнение для наклона спектра m, становится ясно, что благодаря знаку "минус" во втором уравнении на фиг.2с, знак наклона спектра m будет обратным знаку первого коэффициента LPC α1 согласно определению LPC-коэффициента на фиг.2с.
На фиг.3 представлен детектор наклона спектра 12 как компонент системы кодирования SBR. В частности, детектор наклона спектра 12 управляет вычислителем параметров огибающей и другими модулями, связанными с SBR, с конечной целью применить момент начала фрейма связанных с SBR параметров.
На фиг.3 показан анализирующий банк квадратурных зеркальных фильтров QMF 320 для декомпозиции второго, преимущественно высокочастотного, диапазона на определенное число, например, 32, подполос для вычисления с их помощью параметров SBR. Предпочтительно, детектор наклона спектра выполняет простой анализ линейно-предиктивного кодирования LPC только для нахождения коэффициента LPC первого порядка, что обсуждалось в контексте фиг.2с. И наоборот, детектор наклона спектра 12 выполняет спектральный анализ входного сигнала и вычисляет наклон спектра, например, используя линейную аппроксимацию или любой другой подход. В целом предпочтительнее, чтобы разрешающая способность детектора наклона спектра для выполнения частотной декомпозиции была ниже, чем частотное разрешение банка QMF 320. В некоторых реализациях детектор наклона спектра 12 не будет выполнять никакие виды частотного разложения, например, только вычисляя коэффициент LPC первого порядка α1, о чем говорилось в контексте фиг.2с.
При иных технических решениях детектор наклона спектра предназначается не только для расчета коэффициентов LPC первого порядка, но и вычисляет несколько коэффициентов LPC низкого порядка, например, LPC-коэффициенты до 3 или 4 порядка. При подобном подходе наклон спектра вычисляется с такой степенью точности, что появляется возможность не только посылать сигнал о новом фрейме при изменении наклона от отрицательного к положительному, но и инициировать новый фрейм при изменении наклона спектра от высокой величины с отрицательным знаком до низкой величины (абсолютной величины) с тем же самым знаком. Более того, применительно к моменту окончания, предпочтительно, чтобы вычислялся конец фрейма, когда наклон спектра изменился от высокого положительного до низкого положительного значения, так как это может служить показателем, что характеристика сигнала меняется от сибилянта до несибилянта. Независимо от способа вычисления наклона спектра, момент начала фрейма может распознаваться не только по изменению знака, но вместо этого, или вместе с этим, - по изменению величины наклона в определенный заданный период времени, превышающий порог принятия решения.
В варианте со знаком пороговое значение является абсолютной пороговой величиной наклона с нулевым значением, а в версии с изменением пороговая величина является показателем динамики наклона, и такое вычисление тоже может быть выполнено с использованием абсолютного порогового значения в функции с выведением первого производного функции наклона по времени. Здесь детектор наклона спектра должен подать сигнал о моменте начала фрейма, когда величина разности между значением наклона спектра в дискрете времени аудиосигнала и значением наклона спектра аудиосигнала в предыдущем дискрете времени аудиосигнала выше установленной пороговой величины. Величина разности может быть абсолютной величиной (например, при отрицательном значении разности) или величиной со знаком (например, при положительном значении разности), а заданное пороговое значение в данной реализации будет отличным от нуля.
Как было рассмотрено в контексте фиг.3 и 4, вычислитель параметров расширения полосы пропускания 10 рассчитывает параметры огибающей спектра. Однако в других вариантах осуществления вычислитель параметров расширения полосы пропускания может дополнительно рассчитывать параметры минимального уровня шума, параметры инверсного фильтрования и/или пропущенные гармонические параметры, как это известно из раздела по расширению полосы пропускания стандарта MPEG4.
В основном момент окончания фрейма задается по сигналу детектора наклона спектра или в ответ на какое-либо событие независимо от сигнала детектора наклона спектра. Событием, используемым вычислителем параметров расширения полосы пропускания для подачи команды о моменте конца фрейма, может быть, в частности, момент времени, заданный как более поздний относительно момента начала на фиксированный период. В контексте фиг.1с говорилось, что такой фиксированный период может быть короче или длиннее. Когда такой период времени длиннее, это значит, что разрешение по времени снижается, когда же этот период короче, разрешение по времени возрастает. Преимущественно, когда детектор перехода 14 сигнализирует нестационарный процесс, устанавливается первый тип периода времени, и применяется низкое разрешение по времени. Следовательно, в этом случае момент времени, заданный как более поздний относительно момента начала на фиксированный период, продолжительнее, чем в другом случае, когда сигнал момента начала выдается детектором наклона спектра. Когда момент начала сигнализирует детектор наклона спектра, это означает, что появилась свистящая составляющая сибилянта в речевом сигнале, и, следовательно, необходима высокая разрешающая способность по времени. Поэтому задаваемая периодичность времени должна быть меньше, чем в том случае, когда момент начала фрейма был сообщен детектором перехода 14 на фиг.1а.
При других конструктивных решениях детектор наклона спектра может базироваться на лингвистической информации, чтобы обнаруживать сибилянты (свистящие звуки) в речи. Если, например, речевой сигнал содержит ассоциированные метаданные, такие как международное фонетическое письмо, то анализ этих метаданных также обеспечит распознавание сибилянта в речевой составляющей. В данном случае анализируется часть аудиосигнала, содержащая метаданные.
Несмотря на то, что здесь в основном рассматривается оборудование с точки зрения его технического устройства, понятно, что аспекты материальной части тесно связаны с описанием соответствующих способов ее применения, и какое-либо изделие или блок соответствуют особенностям метода или технологической операции. Аналогично, рассматриваемые технологии и рабочие операции непосредственно связаны с соответствующим машинным оборудованием и его элементной базой.
В зависимости от конечного назначения и особенностей практического применения изобретение может быть реализовано в аппаратных или программных средствах. При техническом исполнении могут быть использованы цифровые носители и накопители данных, такие, в частности, как гибкий диск, DVD, CD, ROM, ППЗУ, программируемое ПЗУ, СППЗУ или ФЛЭШ-память, способные хранить электронно считываемые сигналы управления и взаимодействовать с программируемой компьютерной средой таким образом, чтобы мог быть осуществлен соответствующий способ.
Некоторые варианты конструкции согласно данному изобретению имеют в своем составе носитель информации, содержащий электронно считываемые сигналы управления, совместимый с программируемой компьютерной системой и способный участвовать в реализации одного из описанных здесь способов. В целом данное изобретение может быть реализовано как компьютерный программный продукт с кодом программы, обеспечивающим осуществление одного из предлагаемых способов при условии, что компьютерный программный продукт используется с применением компьютера. Код программы может, например, храниться на машиночитаемом носителе. Различные варианты реализации включают в себя компьютерную программу, хранящуюся на машиночитаемом носителе, для осуществления одного из описанных здесь способов. Таким образом, формулируя иначе, относящийся к изобретению способ осуществляется с помощью компьютерной программы, имеющей код программы, обеспечивающий реализацию одного из описанных здесь способов, если компьютерную программу выполняют с использованием компьютера. Далее, следовательно, техническое исполнение изобретенного способа включает в себя носитель данных (либо цифровой накопитель информации, либо читаемую компьютером среду), содержащий записанную на нем компьютерную программу, предназначенную для осуществления одного из способов, описанных здесь. Отсюда следует, что реализация изобретения подразумевает наличие потока данных или последовательности сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов могут быть рассчитаны на передачу через средства связи, например, Интернет. Кроме того, реализация включает в себя аппаратные средства, например, компьютер или программируемое логическое устройство, предназначенные или приспособленные для осуществления одного из описанных здесь способов. Далее, для технического исполнения требуется компьютер с установленной на нем компьютерной программой для осуществления одного из описанных здесь способов. Некоторые версии конструкции для реализации одной или всех функциональных возможностей описанных здесь способов могут потребовать применения программируемого логического устройства (например, полевой программируемой матрицы логических элементов). В зависимости от назначения версии базовый матричный кристалл может сочетаться с микропроцессором с целью осуществления одного из описанных здесь способов. Как правило, описываемые способы могут быть реализованы с использованием любого аппаратного средства. Описанные выше конструктивные решения являются только иллюстрациями основных концепций настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные здесь описания и пояснения вариантов реализации изобретения, ограничиваются только рамками патентных требований, а не конкретными деталями.

Claims (19)

1. Устройство для вычисления параметров расширения рабочего диапазона частот звукового сигнала в системе расширения рабочего диапазона частот, где первая полоса спектра кодируется (340) с помощью первого набора битов, а вторая полоса спектра, отличающаяся от первой полосы спектра, кодируется (210) вторым набором битов, который меньше, чем первый набор битов, характеризующееся тем, что включает управляемый вычислитель параметров расширения полосы пропускания (10) для вычисления параметров расширения рабочего диапазона частот для второй полосы частот в виде последовательности фреймов аудиосигнала, где фрейм имеет контролируемый момент начала; и детектор наклона спектра (12) для обнаружения наклона спектра в дискрете времени аудиосигнала и для передачи сигнала момента начала фрейма в зависимости от наклона спектра аудиосигнала.
2. Устройство по п.1, характеризующееся тем, что детектор наклона спектра (12) подает сигнал момента начала фрейма, когда знак наклона спектра в дискрете времени аудиосигнала отличается от знака наклона спектра аудиосигнала в предыдущем дискрете времени аудиосигнала.
3. Устройство по п.1, характеризующееся тем, что детектор наклона спектра (12) выполняет анализ линейно-предиктивного кодирования (LPC) дискрета времени для оценки одного или более коэффициентов LPC низкого порядка и анализирует один или более коэффициентов LPC низкого порядка для определения положительного или отрицательного наклона спектра составляющей аудиосигнала.
4. Устройство по п.3, характеризующееся тем, что детектор наклона спектра (12) выполнен с возможностью вычисления только первого коэффициента LPC, не вычисляя дополнительные коэффициенты LPC, анализа знака первого коэффициента LPC и сигнализирования в зависимости от него момента начала фрейма.
5. Устройство по п.4, характеризующееся тем, что детектор наклона спектра (12) выполнен с возможностью определения наклона спектра как отрицательного, если спектральная энергия понижается от более низких частот к верхним частотам, и первый коэффициент LPC имеет положительный знак, и распознавания наклона спектра как положительного, если спектральная энергия возрастает от более низких частот к верхним частотам, и первый коэффициент LPC имеет отрицательный знак.
6. Устройство по п.1, характеризующееся тем, что управляемый вычислитель параметров расширения полосы пропускания (10) выполнен с возможностью вычисления одного или более приведенных ниже параметров для фрейма: параметры огибающей спектра, параметры шума, параметры обратного фильтрования или параметры пропущенных гармоник.
7. Устройство по п.1, в котором управляемый вычислитель параметров расширения полосы пропускания (10) задает момент начала фрейма в зависимости от момента начала дискрета времени аудиосигнала, на котором базируется обнаружение наклона спектра.
8. Устройство по п.7, характеризующееся тем, что управляемый вычислитель параметров расширения полосы пропускания (10) выполнен с возможностью задания момента начала фрейма, соответствующего моменту начала дискрета времени, в котором было обнаружено изменение наклона спектра.
9. Устройство по п.1, характеризующееся тем, что управляемый вычислитель параметров расширения полосы пропускания (10) или детектор наклона спектра (12) выполнены с возможностью обработки перекрывающих фреймов или дискретов времени.
10. Устройство по п.1, характеризующееся тем, что управляемый вычислитель параметров расширения полосы пропускания (10) выполнен с возможностью установления момента окончания фрейма в ответ на сигнал детектора наклона спектра (12) или в ответ на событие, независимое от наклона спектра аудиосигнала.
11. Устройство по п.10, характеризующееся тем, что событие, которое используется управляемым вычислителем параметров расширения полосы пропускания (10), представляет собой момент времени, заданный как более поздний относительно момента начала на постоянный период.
12. Устройство по п.1, характеризующееся тем, что управляемый вычислитель параметров расширения полосы пропускания (10) выполнен с возможностью выполнять частотно-селективную обработку аудиосигнала (320) во второй полосе спектра с частотным разрешением, и в котором детектор наклона спектра (12) выполнен с возможностью обрабатывать дискрет времени во временной области или частотно-селективным методом с разрешением по частоте, меньшим, чем разрешение по частоте, используемое управляемым вычислителем параметров расширения полосы пропускания (10).
13. Устройство по п.1, характеризующееся тем, что дополнительно содержит детектор перехода (14) для управления управляемым вычислителем параметров расширения полосы пропускания (10) путем задания момента начала в случае обнаружения нестационарного процесса, причем управляемый вычислитель параметров расширения полосы пропускания задает момент начала, когда или детектор наклона спектра (12) или детектор перехода (14) посылают сигнал момента начала.
14. Устройство по п.1, характеризующееся тем, что в него введен датчик речи/музыки (15), отвечающий за включение детектора наклона спектра (12) при распознавании речевой составляющей аудиосигнала и отключение детектора наклона спектра (12) при музыкальной составляющей аудиосигнала.
15. Устройство по п.1, характеризующееся тем, что детектор наклона спектра (12) выполнен с возможностью определять наличие в конкретном дискрете времени в речевой составляющей сибилянта или несибилянта, в то время как детектор наклона спектра (12) сигнализирует момент начала фрейма при обнаружении изменения от несибилянта сибилянту.
16. Устройство по п.13, характеризующееся тем, что управляемый вычислитель параметров расширения полосы пропускания (10) может применить последовательность фреймов с более высоким разрешением по времени в ответ на сигналы детектора наклона спектра (12) по сравнению с разрешением по времени, применяемым управляемым вычислителем параметров расширения полосы пропускания (10) в ответ на сигналы детектора перехода (14) в дискрет времени аудиосигнала, для которого детектор наклона спектра (12) не сигнализировал момент начала.
17. Устройство по п.1, характеризующееся тем, что детектор наклона спектра (12) выполнен с возможностью сигнализировать момент начала фрейма, когда разность между значением наклона спектра в дискрете времени аудиосигнала и значения наклона спектра аудиосигнала в предшествующем дискрете времени аудиосигнала больше заданной пороговой величины.
18. Способ вычисления параметров расширения рабочего диапазона частот звукового сигнала в системе расширения рабочего диапазона частот, где первая полоса спектра кодируется (340) с помощью первого набора битов, а вторая полоса спектра, отличающаяся от первой полосы спектра, кодируется (210) вторым набором битов, который меньше, чем первый набор битов, характеризующийся тем, что включает вычисление (10) параметров расширения полосы пропускания для второй полосы частот в виде последовательности фреймов аудиосигнала, где фрейм имеет управляемый начальный момент; распознавание (12) наклона спектра в интервале времени аудиосигнала и передачу сигналов начального момента фрейма в зависимости от наклона спектра аудиосигнала.
19. Компьютерочитаемый носитель данных, содержащий записанную на нем компьютерную программу, имеющую код программы для осуществления с использованием компьютера способа вычисления параметров расширения рабочего диапазона частот по п.18.
RU2010109206/08A 2008-07-11 2009-06-23 Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра RU2443028C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US7987108P 2008-07-11 2008-07-11
US61/079,871 2008-07-11

Publications (2)

Publication Number Publication Date
RU2010109206A RU2010109206A (ru) 2011-09-20
RU2443028C2 true RU2443028C2 (ru) 2012-02-20

Family

ID=40929509

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010109206/08A RU2443028C2 (ru) 2008-07-11 2009-06-23 Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра

Country Status (19)

Country Link
US (1) US8788276B2 (ru)
EP (1) EP2176862B1 (ru)
JP (1) JP5010743B2 (ru)
KR (1) KR101182258B1 (ru)
CN (1) CN101836253B (ru)
AR (1) AR072703A1 (ru)
AT (1) ATE522901T1 (ru)
AU (1) AU2009267529B2 (ru)
BR (1) BRPI0904958B1 (ru)
CA (1) CA2699316C (ru)
ES (1) ES2372014T3 (ru)
HK (1) HK1142432A1 (ru)
IL (1) IL203928A (ru)
MY (1) MY150373A (ru)
PL (1) PL2176862T3 (ru)
RU (1) RU2443028C2 (ru)
TW (1) TWI457914B (ru)
WO (1) WO2010003543A1 (ru)
ZA (1) ZA201000941B (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2611974C2 (ru) * 2012-09-17 2017-03-01 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для формирования сигнала с расширенной полосой пропускания из аудиосигнала с ограниченной полосой пропускания
RU2665873C1 (ru) * 2013-01-21 2018-09-04 Долби Лэборетериз Лайсенсинг Корпорейшн Оптимизация громкости и динамического диапазона через различные устройства воспроизведения
RU2750644C2 (ru) * 2013-10-18 2021-06-30 Телефонактиеболагет Л М Эрикссон (Пабл) Кодирование и декодирование положений спектральных пиков

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US9247547B2 (en) * 2009-10-15 2016-01-26 Qualcomm Incorporated Downlink and uplink resource element mapping for carrier extension
EP2360688B1 (en) 2009-10-21 2018-12-05 Panasonic Intellectual Property Corporation of America Apparatus, method and program for audio signal processing
BR122019025143B1 (pt) 2010-01-19 2021-01-19 Dolby International Ab método para gerar um sinal transposto de frequência e/ou estendido no tempo a partir de um sinal de áudio de entrada e meio de armazenamento
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
AU2011226211B2 (en) 2010-03-09 2014-01-09 Dolby International Ab Apparatus and method for processing an audio signal using patch border alignment
KR101483157B1 (ko) * 2010-03-09 2015-01-15 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호들의 대역폭 연장에 기반한 위상 보코더의 개선된 크기 응답과 시간적 정렬을 위한 방법과 장치
CN102959871B (zh) * 2010-07-05 2016-09-21 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置、程序及记录介质
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
CN102436820B (zh) 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
CN102419977B (zh) * 2011-01-14 2013-10-02 展讯通信(上海)有限公司 瞬态音频信号的判别方法
CN102629470B (zh) * 2011-02-02 2015-05-20 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
WO2012158333A1 (en) 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Forensic detection of parametric audio coding schemes
JP5807453B2 (ja) * 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
CN103035248B (zh) * 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
ES2549953T3 (es) * 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
CN105190748B (zh) * 2013-01-29 2019-11-01 弗劳恩霍夫应用研究促进协会 音频编码器、音频解码器、系统、方法及存储介质
ES2732560T3 (es) 2013-01-29 2019-11-25 Fraunhofer Ges Forschung Llenado de ruido sin información secundaria para codificadores tipo celp
KR101737254B1 (ko) * 2013-01-29 2017-05-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호, 디코더, 인코더, 시스템 및 컴퓨터 프로그램을 합성하기 위한 장치 및 방법
CN105264601B (zh) * 2013-01-29 2019-05-31 弗劳恩霍夫应用研究促进协会 用于使用次频带时间平滑技术产生频率增强信号的装置及方法
EP4375996A2 (en) 2013-02-20 2024-05-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
BR112015025022B1 (pt) 2013-04-05 2022-03-29 Dolby International Ab Método de decodificação, decodificador em um sistema de processamento de áudio, método de codificação, e codificador em um sistema de processamento de áudio
SG11201510164RA (en) * 2013-06-10 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
AU2014280258B9 (en) 2013-06-10 2017-04-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding
EP2830063A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for decoding an encoded audio signal
TWI557726B (zh) * 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
CN108172239B (zh) 2013-09-26 2021-01-12 华为技术有限公司 频带扩展的方法及装置
US9640185B2 (en) * 2013-12-12 2017-05-02 Motorola Solutions, Inc. Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
US9542955B2 (en) 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
CN106486129B (zh) * 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
JP6705142B2 (ja) * 2015-09-17 2020-06-03 ヤマハ株式会社 音質判定装置及びプログラム
MX2018010753A (es) * 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Método de ocultamiento híbrido: combinación de ocultamiento de pérdida paquete de dominio de frecuencia y tiempo en códecs de audio.
EP3382702A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
TWI652597B (zh) * 2017-12-05 2019-03-01 緯創資通股份有限公司 電子裝置及其解鎖方法
JP6962386B2 (ja) * 2018-01-17 2021-11-05 日本電信電話株式会社 復号装置、符号化装置、これらの方法及びプログラム
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
WO2020146870A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
CN112151046B (zh) * 2020-09-25 2024-06-18 北京百瑞互联技术股份有限公司 Lc3编码器自适应调节多声道传输码率的方法、装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045378A2 (en) * 1999-01-27 2000-08-03 Lars Gustaf Liljeryd Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6453282B1 (en) * 1997-08-22 2002-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and device for detecting a transient in a discrete-time audiosignal
RU2224302C2 (ru) * 1997-04-02 2004-02-20 Самсунг Электроникс Ко., Лтд. Способ и устройство для масштабируемого кодирования/декодирования аудиосигналов
EP1677088A1 (en) * 2003-10-23 2006-07-05 Matsushita Electric Industrial Co., Ltd. Spectrum coding apparatus, spectrum decoding apparatus, acoustic signal transmission apparatus, acoustic signal reception apparatus and methods thereof
WO2006107837A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
DE60214027T2 (de) * 2001-11-14 2007-02-15 Matsushita Electric Industrial Co., Ltd., Kadoma Kodiervorrichtung und dekodiervorrichtung
JP3646938B1 (ja) 2002-08-01 2005-05-11 松下電器産業株式会社 オーディオ復号化装置およびオーディオ復号化方法
WO2004084467A2 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
JP2006023658A (ja) 2004-07-09 2006-01-26 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置及びオーディオ信号符号化方法
TWI271703B (en) 2005-07-22 2007-01-21 Pixart Imaging Inc Audio encoder and method thereof
JP2007333785A (ja) * 2006-06-12 2007-12-27 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置およびオーディオ信号符号化方法
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
TWI308740B (en) 2007-01-23 2009-04-11 Ind Tech Res Inst Method of a voice signal processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2224302C2 (ru) * 1997-04-02 2004-02-20 Самсунг Электроникс Ко., Лтд. Способ и устройство для масштабируемого кодирования/декодирования аудиосигналов
US6453282B1 (en) * 1997-08-22 2002-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and device for detecting a transient in a discrete-time audiosignal
WO2000045378A2 (en) * 1999-01-27 2000-08-03 Lars Gustaf Liljeryd Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
EP1677088A1 (en) * 2003-10-23 2006-07-05 Matsushita Electric Industrial Co., Ltd. Spectrum coding apparatus, spectrum decoding apparatus, acoustic signal transmission apparatus, acoustic signal reception apparatus and methods thereof
WO2006107837A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2611974C2 (ru) * 2012-09-17 2017-03-01 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для формирования сигнала с расширенной полосой пропускания из аудиосигнала с ограниченной полосой пропускания
US9997162B2 (en) 2012-09-17 2018-06-12 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
US10580415B2 (en) 2012-09-17 2020-03-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
RU2665873C1 (ru) * 2013-01-21 2018-09-04 Долби Лэборетериз Лайсенсинг Корпорейшн Оптимизация громкости и динамического диапазона через различные устройства воспроизведения
US10671339B2 (en) 2013-01-21 2020-06-02 Dolby Laboratories Licensing Corporation System and method for optimizing loudness and dynamic range across different playback devices
RU2750644C2 (ru) * 2013-10-18 2021-06-30 Телефонактиеболагет Л М Эрикссон (Пабл) Кодирование и декодирование положений спектральных пиков

Also Published As

Publication number Publication date
EP2176862B1 (en) 2011-08-31
RU2010109206A (ru) 2011-09-20
KR101182258B1 (ko) 2012-09-14
EP2176862A1 (en) 2010-04-21
ZA201000941B (en) 2011-04-28
TWI457914B (zh) 2014-10-21
US8788276B2 (en) 2014-07-22
WO2010003543A1 (en) 2010-01-14
KR20100083135A (ko) 2010-07-21
BRPI0904958A2 (pt) 2015-06-30
AU2009267529A1 (en) 2010-01-14
JP5010743B2 (ja) 2012-08-29
TW201007709A (en) 2010-02-16
BRPI0904958B1 (pt) 2020-03-03
HK1142432A1 (en) 2010-12-03
MY150373A (en) 2013-12-31
CN101836253A (zh) 2010-09-15
JP2011501225A (ja) 2011-01-06
CA2699316A1 (en) 2010-01-14
AU2009267529B2 (en) 2011-03-03
ES2372014T3 (es) 2012-01-13
CN101836253B (zh) 2012-06-13
ATE522901T1 (de) 2011-09-15
US20110099018A1 (en) 2011-04-28
AR072703A1 (es) 2010-09-15
CA2699316C (en) 2014-03-18
PL2176862T3 (pl) 2012-03-30
IL203928A (en) 2013-06-27

Similar Documents

Publication Publication Date Title
RU2443028C2 (ru) Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра
KR101345695B1 (ko) 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법
KR100915733B1 (ko) 음성 신호들의 대역폭의 인공 확장을 위한 방법 및 장치
KR101478506B1 (ko) 고주파 복원 동안 오디오 신호들의 프로세싱
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
KR101991421B1 (ko) 에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더
AU2013257391B2 (en) An apparatus and a method for generating bandwidth extension output data