RU2199157C2 - Способ последующей обработки с высокой разрешающей способностью для речевого декодера - Google Patents

Способ последующей обработки с высокой разрешающей способностью для речевого декодера Download PDF

Info

Publication number
RU2199157C2
RU2199157C2 RU99120786/09A RU99120786A RU2199157C2 RU 2199157 C2 RU2199157 C2 RU 2199157C2 RU 99120786/09 A RU99120786/09 A RU 99120786/09A RU 99120786 A RU99120786 A RU 99120786A RU 2199157 C2 RU2199157 C2 RU 2199157C2
Authority
RU
Russia
Prior art keywords
frequency
signal
spectrum
specified
decoded
Prior art date
Application number
RU99120786/09A
Other languages
English (en)
Other versions
RU99120786A (ru
Inventor
Эрик ЭКУДДЕН
Роар ХАГЕН
Бастиан КЛЕЙН
Original Assignee
Телефонактиеболагет Лм Эрикссон (Пабл)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Телефонактиеболагет Лм Эрикссон (Пабл) filed Critical Телефонактиеболагет Лм Эрикссон (Пабл)
Publication of RU99120786A publication Critical patent/RU99120786A/ru
Application granted granted Critical
Publication of RU2199157C2 publication Critical patent/RU2199157C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

Изобретение относится к речевым декодерам, применяемым в радиоприемниках систем радиосвязи с подвижными объектами. Техническим результатом является уменьшение нежелательного влияния негармонических составляющих и иного шума кодирования в спектре декодированных частот. Для этого способ включает следующие этапы: преобразуют декодированный сигнал во временной области в сигнал в частотной области посредством преобразования с высокой разрешающей способностью по частоте (быстрого преобразования Фурье, БПФ); анализируют распределение энергии указанного сигнала в частотной области по всей его частотной зоне для нахождения возмущающих частотных составляющих и назначения приоритета таким частотным составляющим, которые находятся в верхней части спектра частот; находят степень подавления для указанных возмущающих частотных составляющих на основании указанного назначения приоритета; управляют последующей фильтрацией (постфильтрацией) указанного преобразования в зависимости от указанного нахождения и осуществляют обратное преобразование преобразования, подвергнутого постфильтрации, для получения подвергнутого постфильтрации декодированного речевого сигнала во временной области. 2 с. и 8 з.п. ф-лы, 4 ил.

Description

Изобретение относится к способу последующей обработки для речевого декодера с целью получения высокой разрешающей способности по частоте. Такой речевой декодер предпочтительно используют в радиоприемнике для системы радиосвязи с подвижными объектами.
УРОВЕНЬ ТЕХНИКИ
При кодировании речи и звука обычно применяют способы последующей обработки в декодере для того, чтобы повысить воспринимаемое (органолептическое) качество декодированной речи.
Способы последующей обработки, например традиционная адаптивная последующая фильтрация (постфильтрация), предназначены для обеспечения улучшений восприятия путем выделения предыскажений формантных и гармонических структур и для некоторой коррекции предыскажений формантных впадин.
В данном изобретении предлагается новый способ последующей обработки, который включает этап анализа с высокой разрешающей способностью в декодере. Этот новый способ является более общим с точки зрения уменьшения шума и улучшений речи для широкого диапазона сигналов, включая речь и музыку.
До сих пор не найдено техническое решение применительно к схеме последующей обработки для речевых или аудиодекодеров, при которой используется анализ принимаемых параметров, и спектра принимаемого сигнала для оценки более точного уровня шума кодирования в сочетании с высокоизбирательной (негармонической) частотной фильтрацией, корректирующей предысажения.
Хорошо известны формантные постфильтры (последующие фильтры) в кодерах, основанных на принципе линейного кодирования с предсказанием (ЛКП-кодерах), в которых такой фильтр выполняет свои функции, исходя из принимаемых параметров ЛКП. Он не использует точную структуру спектра и обеспечивает очень ограниченную разрешающую способность по частоте.
Хорошо известны различные типы постфильтров с линейным предсказанием и преобразованием (ЛПП-постфильтров). Такие фильтры могут лишь влиять на общую гармоническую структуру декодированного сигнала, а также, хотя и могут обеспечить высокую разрешающую способность по частоте, не влияют на негармонический локализованный шум кодирования или на искажения. Кроме того, эти фильтры приспособлены конкретно к речевым сигналам.
Известно также, что анализ декодированной речи на стороне приемника можно использовать для оценки параметров, например, в постфильтре основного тона. Так поступают, например, при линейном декодировании с кодовозбуждаемым линейным предсказанием (ЛД-КВЛП). Однако это лишь постфильтр гармонического основного тона, в котором "анализ" имеет целью только поиск гармоник основного тона. Общий анализ мест возникновения проблем действительного шума кодирования и искажений не проводится.
Были также предложены относительно избирательные по частоте "постфильтры" в смысле удаления частотных областей, не кодируемых кодером, работающим на очень низкой скорости передачи данных в битах [1].
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Во многих речевых кодерах, например основанных на принципе ЛКП, для анализа с последующим синтезом (ЛКПАПС-кодерах), осуществляется использование критерия ошибки при поиске параметров, который имеет очень ограниченную чувствительность по частоте. Кроме того, критерий согласования сигналов во многих таких кодерах будет ограничивать работоспособность для областей низкой энергии, например спектральных впадин, т.е. управление распределением шума в таких частотных зонах гораздо менее точное.
Когда в кодере используют взвешивание спектрального шума, происходит формирование общего спектра ошибки, т.е. шума кодирования, хотя этот процесс и ограничен разрешающей способностью по частоте фильтра со взвешиванием. Тем не менее, по-прежнему могут оставаться спектральные области, как правило в спектральных впадинах или других областях низкой энергии, с относительно высоким шумом или звуковыми искажениями, которые ограничивают воспринимаемое качество. При данной скорости передачи данных в битах, структуре кодера и входном сигнале, кодер может достигать лишь определенного уровня шума. Относительно слабая избирательность по частоте в кодере и при последующей обработке, а также ограничивающая скорость передачи данных в битах могут не влиять на зоны, в которых возникают проблемы качества, при всех типах сигналов.
Традиционный, имеющий увеличенную ширину полосы формантный ЛКП-постфильтр низкого порядка (обычно - порядка десятых), обладает относительно низкой избирательностью по частоте и не может влиять на локализованный шум или искажения.
Постфильтры гармонического основного тона могут обеспечивать высокое разрешение по частоте, но могут осуществлять только гармоническую фильтрацию, т.е. нелокализованную негармоническую фильтрацию.
Речевые и музыкальные сигналы, к примеру, имеют коренным образом отличающиеся структуры, так что нужно применять разные стратегии последующей обработки. Этого нельзя достичь, если при последующей обработке не анализируют принимаемый сигнал и не используют селективные фильтры с высокой разрешающей способностью. В настоящее время это не делается.
Задача данного изобретения состоит в том, чтобы получить способ последующей обработки с высокой разрешающей способностью по частоте для декодированного сигнала из устройства декодирования речи или звука, по меньшей мере, уменьшающий нежелательное влияние негармонических составляющих и иного шума кодирования в спектре декодированных частот.
Декодированный сигнал анализируют для нахождения вероятных частотных зон с шумом кодирования. Анализ с высокой разрешающей способностью осуществляют в спектре декодированного речевого сигнала и на основе знаний о свойствах алгоритма кодирования речи, а также о параметрах из речевого декодера. Результатом анализа является стратегия фильтрации в зависимости от частотных зон, в которых сигнал подвергается коррекции предыскажений для уменьшения шума кодирования и повышения общего воспринимаемого качества кодированной речи.
При осуществлении способа, соответствующего изобретению, применяют преобразование, которое дает описание спектра с высоким разрешением по частоте. Это можно реализовать, используя преобразование Фурье или любое другое преобразование со строгой корреляцией с содержанием спектра. Продолжительность преобразования может быть синхронизирована с длиной кадра декодера (например, для минимизации задержки), но должна обеспечивать достаточно высокую разрешающую способность по частоте.
После преобразования осуществляют анализ содержимого спектра и атрибутов декодера для того, чтобы идентифицировать проблемные зоны, в которых способ кодирования обусловил внесение шума звуковой частоты или искажений. При анализе также используют модель восприятия слуха человека. Информация из декодера и знания об алгоритме кодирования помогают оценить величину шума кодирования и его распределение.
Информацию, полученную на этапе анализа, и модель восприятия используют для синтеза фильтра в два этапа:
определяют частотные зоны, подлежащие коррекции предыскажений;
определяют степень фильтрации в каждой зоне.
Это дает фильтр-кандидат, который потом можно усовершенствовать в зависимости от динамических свойств. Например, характеристика фильтра может быть неудовлетворительной, так как он создает искажения при использовании после предварительных фильтров. Кроме того, можно учитывать динамические свойства декодированного сигнала, ограничивая степень изменения фильтрации по сравнению с тем, насколько изменяется декодированный сигнал.
Описанная выше стратегия синтеза фильтра обеспечивает очень избирательную по частоте постфильтрацию (последующую фильтрацию), которая сосредоточена в адаптивно подавляемых проблемных зонах. Она отличается от применяемой в настоящее время постфильтрации общего назначения, которая всегда применяется без конкретного анализа. Более того, этот способ обеспечивает различную фильтрацию для различных типов сигналов, например - речи и музыки.
Фильтрацию декодированного сигнала нужно осуществлять с высокой разрешающей способностью по частоте. Фильтр можно реализовать, например, в частотной области, а на его выходе можно осуществить обратное преобразование. Однако можно использовать любую альтернативную реализацию процесса фильтрации.
При альтернативной реализации предложенного решения, предусматривающей малую задержку, фильтрацию можно осуществлять, используя лишь результат анализа и синтеза фильтра, полученный в предыдущих кадрах. Тогда можно сделать задержку, вносимую этой реализацией решения, очень малой.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Способ, соответствующий данному изобретению, будет подробно описан со ссылками на прилагаемые чертежи, где
фиг. 1 изображает блок-схему различных функциональных блоков для осуществления способа в соответствии с одним конкретным вариантом данного изобретения,
фиг. 2 изображает блок-схему другого конкретного варианта осуществления способа в соответствии с данным изобретением,
фиг. 3 изображает более подробную блок-схему анализа и синтеза фильтра, показанного на фиг.1 и 2,
фиг. 4 изображает график, который иллюстрирует спектр частот декодированного сигнала и принципы последующей обработки в соответствии с данным изобретением.
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ КОНКРЕТНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
Нижеследующее описание иллюстрирует рабочую реализацию вышеописанного изобретения. Оно предназначено для использования в кодере с кодовозбуждаемым линейным предсказанием (КВЛП-кодере). Такие кодеры обычно генерируют шум в зонах низкой энергии спектра и, в частности, во впадинах между пиками, которые имеют комплексную негармоническую связь, как, например, в музыке. Нижеследующие положения и фиг.3 иллюстрируют подробную реализацию.
На фиг.1 изображена блок-схема различных функций, выполняемых данным изобретением. Речевой декодер 1, например, в радиоприемнике системы телефонной связи с подвижными объектами декодирует входящий демодулированный радиосигнал, в котором параметры для декодера 1 переданы через радиосреду.
На выходе декодера получают декодированный речевой сигнал. Спектр частот декодированного сигнала имеет определенные характеристики, зависящие от передачи и характеристик декодирования речевого декодера 1.
Декодированный сигнал во временной области преобразуют путем быстрого преобразования Фурье, БПФ, осуществляемого блоком 2, в результате чего получают спектр частот декодированного сигнала. Этот спектр частот вместе с частотными характеристиками речевого декодера анализируют с помощью блока 5, а результат анализа подают в блок 6 синтеза фильтра. Этот блок 6 синтеза фильтра выдает информационный сигнал в постфильтр 3. Этот фильтр осуществляет постфильтрацию спектра частот речевого сигнала для того, чтобы исключить или, по меньшей мере, уменьшить влияние составляющих шума в спектре декодированного речевого сигнала. Сигнал спектра из фильтра 3, не содержащий возмущающие частотные составляющие, или, по меньшей мере, содержащий значительно уменьшенные возмущающие составляющие, подают в блок 4, где осуществляется преобразование, обратное тому, которое осуществляется в блоке 2.
Анализ и синтез фильтра можно дополнить моделью восприятия 7, которая влияет на фильтрацию (блок 3) спектра декодированного речевого сигнала так, как требуется. Эта модель не является существенной частью данного способа и поэтому в дальнейшем не описывается.
Вообще говоря, содержание спектра декодированного сигнала анализируют следующим образом, чтобы получить меры, которые используются для идентификации областей, подлежащих коррекции предыскажений.
Оценивают огибающую спектра амплитуд, чтобы выделить общую форму спектра из точной структуры с высокой разрешающей способностью. Эту огибающую можно оценивать с помощью процесса выбора пиков, используя скользящее окно достаточной ширины.
Во избежание пульсации, можно провести сглаживание спектра амплитуд.
Получаемые два вектора используют для идентификации достаточно узких спектральных впадин определенной глубины. Это дает зоны-кандидаты, в которых можно применять фильтрацию.
Можно также анализировать спектр с помощью модели восприятия для того, чтобы получить порог маскировки шума.
Для того чтобы получить вероятное распределение и уровень шума или искажений, внесенных конкретным кодером при эксплуатации, анализируют атрибуты из декодера. Эти атрибуты зависят от алгоритма кодирования, но могут включать в себя, например, форму спектра, формирование шума, фильтрацию со взвешиванием оцененной ошибки, коэффициенты усиления предсказания, например при ЛКП и ЛПП, распределение битов, и т.д. Эти атрибуты характеризуют поведение алгоритма кодирования и рабочую характеристику при кодировании конкретного сигнала, о котором идет речь.
Вся информация о полученном кодированном сигнале или ее части выдается (выдаются) в результате анализа 5 и используется (используются) для синтеза 6 фильтра.
На фиг.2 изображен другой конкретный вариант осуществления способа последующей обработки. Отличие от фиг. 1 заключается в том, что анализ 5 и синтез 6 фильтра осуществляют в частотной области, тогда как постфильтрацию 8 декодированного речевого сигнала осуществляют во временной области. Выход блока 6 синтеза фильтра выдает информационный/управляющий сигнал, но теперь в фильтр 8 во временной области, а не в указанный выше фильтр 3 в частотной области.
Фиг. 3 изображает более подробную блок-схему, чем фиг.1 и 2, для иллюстрации предлагаемого способа.
Выход речевого декодера, например в радиоприемнике, соединяют с функциональным блоком 21, осуществляющим быстрое 256-точечное преобразование Фурье (БПФ). Затем через каждые 128 выборок осуществляют 256-точечное БПФ с использованием окна Хеннинга (Hanning). Таким образом, через каждые 128 выборок обрабатывается новый блок. Наряду с спектром фаз (который не обрабатывается), вычисляют логарифмическую амплитуду БПФ.
Анализ (блок 5) заключается в следующем.
Оценивают огибающую спектра логарифмических амплитуд путем вычисления каждой частотной точки как максимума спектра логарифмических амплитуд в пределах скользящего окна длиной 200 Гц в каждом направлении. Осуществляют выбор пиков на результирующем векторе путем нахождения частотных точек, в которых спектр логарифмических амплитуд равен вектору максимальных значений. Осуществляют линейную интерполяцию между пиками для получения вектора огибающей.
Осуществляют сглаживание спектра логарифмических амплитуд, принимая максимум в пределах скользящего окна длиной 75 Гц в каждом направлении.
Оценивают крутизну спектра.
Синтез фильтра (блок 6) заключается в том, что определяют зоны, где сглаженная кривая логарифмического спектра ниже, чем кривая огибающей логарифмических амплитуд, на величину, превышающую некоторое конкретное значение. Эти зоны подавляют, если они соответствуют более чем одной последовательной частотной точке. Далее, если впадина глубже, чем определенное высокое значение, подавление расширяют с тем, чтобы распространить его на всю зону между пиками. Степень спектрального подавления в логарифмической области в каждой частотной точке, где оно осуществляется, определяют по крутизне таким образом, что зоны низкой энергии получают большее подавление. Используемая формула является линейной в логарифмической области, с отсутствием подавления на протяжении, по меньшей мере, 1 кГц у нижнего конца подавления (т. е. при малой крутизне первый 1 кГц не подавляют, а при большой крутизне поступают по-другому). Так делают из-за характера КВЛП-кодера, который склонен генерировать больший шум в случае частотных зон низкой энергии.
Квадрат расстояния спектра логарифмических амплитуд между текущим и предыдущим спектром вычисляют с одной и той же мерой для векторов подавления. Если отношение значений для вектора подавления и самого спектра превышает определенное значение (т. е. подавление претерпевает относительно значительное изменение по сравнению со спектром сигнала), то вектор подавления сглаживают путем простой замены его средним для текущего и предыдущего подавления.
Операцию фильтрации (блок 31) осуществляют путем простого вычитания степени подавления, определенной в предыдущей точке из спектра логарифмических амплитуд декодированного сигнала.
Осуществляют обратное преобразование (блок 4) путем восстановления сначала преобразования Фурье, исходя из спектра логарифмических амплитуд, полученного в результате фильтрации, и спектра фаз, полученного непосредственно из преобразования. Отметим, что, во избежание искажений из-за разрывов между кадрами анализа, выполняют процедуру наложения и добавления.
Блок анализа 5, показанный на фиг.1, состоит в этом конкретном варианте осуществления из детектора 51 огибающей, сглаживающего фильтра 52 и детектора 53 крутизны.
Из детектора огибающей получают сигнал огибающей
Figure 00000002
БПФ-спектра, как показано на графике фиг.4. Сглаживающий фильтр 52 выдает сигнал Sm, представляющий сглаженную частотную характеристику из блока 21 БПФ.
Блок 6 синтеза фильтра состоит в этом конкретном варианте осуществления из блока 61 компаратора, блока 62, формирующего значение подавления, и блока 63 динамической обработки.
Оба сигнала е и Sm из блока анализа 5 объединяют в блоке 61 компаратора. Разность между сигналами е и Sm сравнивают с фиксированным порогом Тh в блоке 61 компаратора, чтобы определить нежелательную формантную впадину и связанный с ней интервал частот. Получается сигнал S1, который содержит информацию о них.
Блоком 62, формирующим значение подавления, управляет сигнал S2, полученный из блока 53 крутизны в блоке анализа 5. Сигнал S2 указывает крутизну и в зависимости от того, больше или меньше значение крутизны, осуществляется подавление в спектре частот, определяемом сигналом S1.
Блок 63 динамической обработки осуществляет адаптацию подавления от одного кадра к другому, так что внезапное увеличение подавления, указываемое в выходном сигнале из блока 62, формирующего значение подавления, не происходит.
Фильтр 3, показанный на фиг. 1, в конкретном варианте осуществления, соответствующем фиг. 3, является фильтром 31 (соответствующим фильтру 3 на фиг. 1), который осуществляет спектральное вычитание. Значение сигнала, полученное из блока 63 динамической обработки, является значением подавления и затем вычитается из характеристики спектра частот, полученной из блока 21 БПФ в пределах интервалов частот, определяемых сигналом S1, как указано выше. Результатом будет то, что впадины в спектре частот из речевого декодера 1 уменьшаются до требуемого значения перед окончательным обратным преобразованием в блоке 4.
В зависимости от крутизны S1 характеристики спектра частот получают различные средние значения амплитуд спектра. Крутизна дает высокие значения амплитуд в начале спектра частот, где речевой декодер 1 является "сильным", т. е. способен декодировать правильно, независимо от возможных составляющих шума в спектре. При более высоких частотах, когда крутизна обуславливает меньшие значения амплитуд характеристики спектра, важнее осуществлять хорошее подавление впадин в такой характеристике.
Для иллюстрации этого предназначен график частот, показанный на фиг.4. Сглаженный спектр Sm частот и его огибающая е сравниваются, как упоминалось выше, а их разность сравнивается с фиксированным порогом Тh. В данном примере это дает, по меньшей мере, две различные частотные зоны f1 и f2 около частот f1 и f2 соответственно, для которых впадины V1 и V2 считаются возмущающими, например, вследствие негармонических составляющих/возмущающего шума, который речевой декодер не может обрабатывать. На фиг. 4 проиллюстрированы только эти две частотные зоны, хотя несколько других таких зон есть как в нижней, так и в верхней части спектра частот.
Сигнал S1 из компаратора несет информацию о том, какие частотные зоны f1, f2, ...подлежат подавлению, а сигнал S2 из детектора крутизны несет информацию о том, насколько большое подавление следует применить. Как упоминалось выше, если обнаруженная частотная зона находится в начале спектра, как например f1, подавление может быть малым, тогда как для зоны f2, которая находится в верхней полосе, подавление должно быть больше.
Блок 63 динамической обработки адаптирует подавление от одного речевого блока к другому. Предпочтительно, входящий речевой блок (128 точек) обрабатывают с наложением, так что когда половина речевого блока обработана в блоках 5 и 6, начинается обработка нового последующего речевого блока в блоке анализа 5.
Таким образом, блок 63 динамической обработки выдает сигнал, который представляет значения коррекции, вычитаемые из характеристики спектра, которая создается в блоке вычитания 31, соответствующем фильтру 3 на фиг.1. Улучшенный спектр частот речевого сигнала после этого подвергается обратному преобразованию Фурье в блоке 4, как описывалось выше в связи с накладываемыми речевыми блоками.
Этот способ можно также применять к сигналу внутри речевого или аудио-декодера. Такой сигнал затем будет обработан с помощью этого способа, а потом дополнительно использован декодером для получения декодированного речевого или аудиосигнала. Примером этого является сигнал возбуждения в ЛКП-декодере, который можно обрабатывать с помощью предлагаемого сигнала перед восстановлением декодированной речи с помощью синтезирующего фильтра с линейным предсказанием.
Тем фактом, что способ обеспечивает коррекцию предыскажений частотных зон в декодированном сигнале, можно воспользоваться при кодировании, так что попытки кодирования можно переадресовывать из зон, подвергнутых коррекции предыскажений. Например, для того, чтобы осуществить это, фильтр со взвешиванием ошибки ЛКПАПС-кодера можно модифицировать для уменьшения взвешивания ошибки в зонах, подвергнутых коррекции предысажений. Таким образом, способ можно использовать вместе с модифицированным кодером, в котором учитывается последующая обработка, вносимая этим способом.
Достоинства изобретения
Возможность подавлять шум кодирования и искажения в локализованных частотных зонах с высокой разрешающей способностью. Это, в частности, полезно для сложных сигналов, например музыки. Способ значительно повышает качество звука для сложных сигналов при одновременном повышении качества чистой речи, хотя и в более ограниченной степени.
Литература
1. Д. Сен и У.Х.Холмс, "ОУВПКССЧЛП - Ощутимо улучшенное, возбуждаемое посредством кодового словаря случайных чисел линейное предсказание", в сборнике "Труды ИИЭР (Института инженеров по электротехнике и радиоэлектронике). Кодирование речи в технических целях", община Адель, Квебек, Канада (D.Sen and W.H.Holmes, "PERCELP - Perceptually Enhanced Random Codebook Excited Linear Prediction", in Proc. IEEE Workshop Speech Coding. Ste. Adele, Que., Canada), c. 101-102, 1993.

Claims (10)

1. Способ последующей обработки для речевого декодера, который выдает декодированный речевой сигнал во временной области, для получения высокой разрешающей способности по частоте из спектра частот, имеющего недостатки типа негармонических составляющих и шума, заключающийся в том, что а) осуществляют преобразование (2) с высокой разрешающей способностью по частоте на декодированном сигнале для получения спектра частот декодированного речевого сигнала, б) анализируют (5) указанный спектр частот в зависимости от оценки вероятных характеристик шума кодирования в различных частотных зонах (f1, f2) и в) осуществляют фильтрацию с высокой разрешающей способностью по частоте указанного спектра частот на основании этапа анализа для того, чтобы, по меньшей мере, значительно уменьшить частотные составляющие в указанных частотных зонах.
2. Способ по п.1, отличающийся тем, что при указанном анализе используют спектр декодированного сигнала высокого разрешения.
3. Способ по п.2, отличающийся тем, что при указанном анализе используют атрибуты декодера.
4. Способ по п.2, отличающийся тем, что при указанном анализе используют свойства алгоритма кодирования.
5. Способ по п.2, отличающийся тем, что при указанном анализе используют модель восприятия.
6. Способ по любому из пп.1-5, отличающийся тем, что при указанной фильтрации используют динамические свойства фильтра.
7. Способ по п.6, отличающийся тем, что при указанной фильтрации используют динамические свойства декодированного сигнала.
8. Способ последующей обработки для речевого декодера, который выдает декодированный речевой сигнал во временной области, для получения высокой разрешающей способности по частоте из спектра частот, имеющего недостатки типа негармонических составляющих и шума, отличающийся тем, что а) осуществляют преобразование (21) декодированного сигнала во временной области в сигнал в частотной области посредством преобразования с высокой разрешающей способностью по частоте (быстрого преобразования Фурье, БПФ), б) анализируют (5) распределение энергии указанного сигнала в частотной области по всей его частотной зоне (4 кГц) для нахождения возмущающих частотных составляющих и назначения приоритета таким частотным составляющим, которые находятся в верхней части спектра частот, в) находят (6) степень подавления для указанных возмущающих частотных составляющих на основании указанного назначения приоритета, г) управляют последующей фильтрацией (постфильтрацией) (31) указанного преобразования в зависимости от указанного нахождения и д) осуществляют обратное преобразование (4) преобразования, подвергнутого постфильтрации, для получения подвергнутого постфильтрации декодированного речевого сигнала во временной области.
9. Способ по п.8, отличающийся тем, что указанный анализ (5) включает а) обнаружение (51) огибающей сигнала, представляющего указанный спектр частот, и формирование соответствующего сигнала (е) огибающей, б) оценку (53) крутизны указанного сигнала, представляющего спектр частот, и формирование соответствующего сигнала (s1) крутизны, при этом указанный синтез (6) фильтра включает в) сравнение указанного сигнала, представляющего спектр частот, с указанным сигналом (s1) крутизны для обнаружения указанных возмущающих частотных составляющих (f1, f2), г) формирование значения, представляющего степень подавления для конкретной частотной составляющей на основании результата указанного сравнения и указанного сигнала (s1), соответствующего крутизне, и повторение указанного формирования для некоторого числа таких конкретных составляющих, задание некоторого числа значений, которые используют для управления указанной постфильтрацией сигнала спектра частот.
10. Способ по п.9, отличающийся тем, что указанный сигнал, представляющий спектр частот, является сглаженным (53) сигналом из сигнала, полученного после указанного преобразования (21).
RU99120786/09A 1997-03-03 1998-02-17 Способ последующей обработки с высокой разрешающей способностью для речевого декодера RU2199157C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE9700772-8 1997-03-03
SE9700772A SE9700772D0 (sv) 1997-03-03 1997-03-03 A high resolution post processing method for a speech decoder

Publications (2)

Publication Number Publication Date
RU99120786A RU99120786A (ru) 2001-09-20
RU2199157C2 true RU2199157C2 (ru) 2003-02-20

Family

ID=20406015

Family Applications (1)

Application Number Title Priority Date Filing Date
RU99120786/09A RU2199157C2 (ru) 1997-03-03 1998-02-17 Способ последующей обработки с высокой разрешающей способностью для речевого декодера

Country Status (12)

Country Link
US (1) US6138093A (ru)
EP (1) EP0965123B1 (ru)
JP (1) JP4274586B2 (ru)
KR (1) KR20000075936A (ru)
CN (1) CN1254433A (ru)
AU (1) AU6640998A (ru)
BR (1) BR9808162B1 (ru)
CA (1) CA2282693A1 (ru)
DE (1) DE69810754T2 (ru)
RU (1) RU2199157C2 (ru)
SE (1) SE9700772D0 (ru)
WO (1) WO1998039768A1 (ru)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8321207B2 (en) 2006-11-02 2012-11-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for postprocessing spectral values and encoder and decoder for audio signals
RU2483365C2 (ru) * 2008-07-11 2013-05-27 Фраунховер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Низкоскоростная аудиокодирующая/декодирующая схема с общей предварительной обработкой
RU2501097C2 (ru) * 2009-04-09 2013-12-10 Фраунхофер-Гезелльшафт цур Фердерунг дер ангевандтен Устройство и способ формирования синтезированного аудиосигнала и кодирования аудиосигнала
US8682652B2 (en) 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
RU2568278C2 (ru) * 2009-11-19 2015-11-20 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы пропускания звукового сигнала нижней полосы
WO2016032365A1 (ru) * 2014-08-26 2016-03-03 Общество С Ограниченной Ответственностью "Истрасофт" Система и способ перевода речевого сигнала, в транскрипционное представление с метаданными
RU2665282C1 (ru) * 2014-07-28 2018-08-28 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и устройство для обработки аудиосигнала, устройство аудиодекодирования и устройство аудиокодирования
US10522156B2 (en) 2009-04-02 2019-12-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension
US12033648B2 (en) 2014-07-28 2024-07-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder for removing a discontinuity between frames by subtracting a portion of a zero-input-reponse

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494055A (zh) 1997-12-24 2004-05-05 ������������ʽ���� 声音编码方法和声音译码方法以及声音编码装置和声音译码装置
JPH11205166A (ja) * 1998-01-19 1999-07-30 Mitsubishi Electric Corp ノイズ検出装置
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
JP2001069597A (ja) * 1999-06-22 2001-03-16 Yamaha Corp 音声処理方法及び装置
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6480827B1 (en) * 2000-03-07 2002-11-12 Motorola, Inc. Method and apparatus for voice communication
US6842733B1 (en) * 2000-09-15 2005-01-11 Mindspeed Technologies, Inc. Signal processing system for filtering spectral content of a signal for speech coding
US7328151B2 (en) * 2002-03-22 2008-02-05 Sound Id Audio decoder with dynamic adjustment of signal modification
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US6754300B2 (en) * 2002-06-20 2004-06-22 Ge Medical Systems Global Technology Company, Llc Methods and apparatus for operating a radiation source
DE10230809B4 (de) * 2002-07-08 2008-09-11 T-Mobile Deutschland Gmbh Verfahren zur Übertragung von Audiosignalen nach dem Verfahren der priorisierenden Pixelübertragung
KR100462615B1 (ko) 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
SE527713C2 (sv) 2003-12-19 2006-05-23 Ericsson Telefon Ab L M Kodning av polyfoniska signaler med villkorsbegränsade filter
US7725324B2 (en) 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US7809579B2 (en) 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
JP4318119B2 (ja) * 2004-06-18 2009-08-19 国立大学法人京都大学 音響信号処理方法、音響信号処理装置、音響信号処理システム及びコンピュータプログラム
EP1775717B1 (en) * 2004-07-20 2013-09-11 Panasonic Corporation Speech decoding apparatus and compensation frame generation method
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
JP4809370B2 (ja) 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
EP2014132A4 (en) * 2006-05-04 2013-01-02 Sony Computer Entertainment Inc CANCELLATION OF ECHO AND NOISE
JP2008052117A (ja) * 2006-08-25 2008-03-06 Oki Electric Ind Co Ltd 雑音除去装置、方法及びプログラム
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
GB0703795D0 (en) * 2007-02-27 2007-04-04 Sepura Ltd Speech encoding and decoding in communications systems
EP2116997A4 (en) * 2007-03-02 2011-11-23 Panasonic Corp AUDIO DECODING DEVICE AND AUDIO DECODING METHOD
JP5291004B2 (ja) * 2007-03-02 2013-09-18 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 通信ネットワークにおける方法及び装置
WO2008108702A1 (en) * 2007-03-02 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Non-causal postfilter
WO2009109050A1 (en) * 2008-03-05 2009-09-11 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
EP2347412B1 (en) * 2008-07-18 2012-10-03 Dolby Laboratories Licensing Corporation Method and system for frequency domain postfiltering of encoded audio data in a decoder
US9729899B2 (en) 2009-04-20 2017-08-08 Dolby Laboratories Licensing Corporation Directed interpolation and data post-processing
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
IL295473B2 (en) * 2010-07-02 2023-10-01 Dolby Int Ab After–selective bass filter
JP6064600B2 (ja) 2010-11-25 2017-01-25 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
JP5609591B2 (ja) * 2010-11-30 2014-10-22 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
EP2702585B1 (en) 2011-04-28 2014-12-31 Telefonaktiebolaget LM Ericsson (PUBL) Frame based audio signal classification
WO2014118152A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-frequency emphasis for lpc-based coding in frequency domain
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
US9684087B2 (en) * 2013-09-12 2017-06-20 Saudi Arabian Oil Company Dynamic threshold methods for filtering noise and restoring attenuated high-frequency components of acoustic signals
RU2665281C2 (ru) * 2013-09-12 2018-08-28 Долби Интернэшнл Аб Временное согласование данных обработки на основе квадратурного зеркального фильтра
EP2881943A1 (en) * 2013-12-09 2015-06-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal with low computational resources
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10587238B2 (en) * 2017-10-26 2020-03-10 Oeksound Oy Sound processing method
US11328714B2 (en) 2020-01-02 2022-05-10 International Business Machines Corporation Processing audio data
CN116304581B (zh) * 2023-05-10 2023-07-21 佛山市钒音科技有限公司 一种空调用智能电控系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8801014D0 (en) * 1988-01-18 1988-02-17 British Telecomm Noise reduction
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
FR2687496B1 (fr) * 1992-02-18 1994-04-01 Alcatel Radiotelephone Procede de reduction de bruit acoustique dans un signal de parole.
US5479560A (en) * 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
US5710862A (en) * 1993-06-30 1998-01-20 Motorola, Inc. Method and apparatus for reducing an undesirable characteristic of a spectral estimate of a noise signal between occurrences of voice signals
WO1995002288A1 (en) * 1993-07-07 1995-01-19 Picturetel Corporation Reduction of background noise for speech enhancement
JP3024468B2 (ja) * 1993-12-10 2000-03-21 日本電気株式会社 音声復号装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8682652B2 (en) 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8321207B2 (en) 2006-11-02 2012-11-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for postprocessing spectral values and encoder and decoder for audio signals
RU2483365C2 (ru) * 2008-07-11 2013-05-27 Фраунховер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Низкоскоростная аудиокодирующая/декодирующая схема с общей предварительной обработкой
US10909994B2 (en) 2009-04-02 2021-02-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension
US10522156B2 (en) 2009-04-02 2019-12-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension
US9697838B2 (en) 2009-04-02 2017-07-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension
RU2501097C2 (ru) * 2009-04-09 2013-12-10 Фраунхофер-Гезелльшафт цур Фердерунг дер ангевандтен Устройство и способ формирования синтезированного аудиосигнала и кодирования аудиосигнала
US9076433B2 (en) 2009-04-09 2015-07-07 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
RU2568278C2 (ru) * 2009-11-19 2015-11-20 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы пропускания звукового сигнала нижней полосы
RU2665282C1 (ru) * 2014-07-28 2018-08-28 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и устройство для обработки аудиосигнала, устройство аудиодекодирования и устройство аудиокодирования
US11869525B2 (en) 2014-07-28 2024-01-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder to filter a discontinuity by a filter which depends on two fir filters and pitch lag
US12014746B2 (en) 2014-07-28 2024-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder to filter a discontinuity by a filter which depends on two fir filters and pitch lag
US12033648B2 (en) 2014-07-28 2024-07-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder for removing a discontinuity between frames by subtracting a portion of a zero-input-reponse
RU2589851C2 (ru) * 2014-08-26 2016-07-10 Общество С Ограниченной Ответственностью "Истрасофт" Система и способ перевода речевого сигнала в транскрипционное представление с метаданными
WO2016032365A1 (ru) * 2014-08-26 2016-03-03 Общество С Ограниченной Ответственностью "Истрасофт" Система и способ перевода речевого сигнала, в транскрипционное представление с метаданными

Also Published As

Publication number Publication date
BR9808162A (pt) 2000-03-28
DE69810754T2 (de) 2003-08-21
BR9808162B1 (pt) 2009-05-05
JP2001513916A (ja) 2001-09-04
CN1254433A (zh) 2000-05-24
DE69810754D1 (de) 2003-02-20
EP0965123B1 (en) 2003-01-15
EP0965123A1 (en) 1999-12-22
KR20000075936A (ko) 2000-12-26
JP4274586B2 (ja) 2009-06-10
SE9700772D0 (sv) 1997-03-03
US6138093A (en) 2000-10-24
AU6640998A (en) 1998-09-22
WO1998039768A1 (en) 1998-09-11
CA2282693A1 (en) 1998-09-11

Similar Documents

Publication Publication Date Title
RU2199157C2 (ru) Способ последующей обработки с высокой разрешающей способностью для речевого декодера
US7680653B2 (en) Background noise reduction in sinusoidal based speech coding systems
JP4308345B2 (ja) マルチモード音声符号化装置及び復号化装置
JP5809754B2 (ja) Fmステレオ電波信号における高品質検出
EP0770988B1 (en) Speech decoding method and portable terminal apparatus
JP3591068B2 (ja) 音声信号の雑音低減方法
KR101376762B1 (ko) 디코더 및 대응 디바이스에서 디지털 신호의 반향들의 안전한 구별과 감쇠를 위한 방법
US9489964B2 (en) Effective pre-echo attenuation in a digital audio signal
US6233549B1 (en) Low frequency spectral enhancement system and method
US20070232257A1 (en) Noise suppressor
JP3137805B2 (ja) 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
US6047253A (en) Method and apparatus for encoding/decoding voiced speech based on pitch intensity of input speech signal
RU2622863C2 (ru) Эффективное ослабление опережающего эха в цифровом звуковом сигнале
US7050968B1 (en) Speech signal decoding method and apparatus using decoded information smoothed to produce reconstructed speech signal of enhanced quality
JP2000122695A (ja) 後置フィルタ
KR102000227B1 (ko) 디지털 오디오 신호의 프리에코 판별 및 감쇠
JP4954310B2 (ja) モード判定装置及びモード判定方法
TWI776236B (zh) 支援一組不同丟失消隱工具之音訊解碼器
EP0984433A2 (en) Noise suppresser speech communications unit and method of operation
JPH11251918A (ja) 音声信号波形符号化伝送方式