RU2464652C2 - Способ и устройство для оценки энергии полосы высоких частот в системе расширения полосы частот - Google Patents

Способ и устройство для оценки энергии полосы высоких частот в системе расширения полосы частот Download PDF

Info

Publication number
RU2464652C2
RU2464652C2 RU2010136648/08A RU2010136648A RU2464652C2 RU 2464652 C2 RU2464652 C2 RU 2464652C2 RU 2010136648/08 A RU2010136648/08 A RU 2010136648/08A RU 2010136648 A RU2010136648 A RU 2010136648A RU 2464652 C2 RU2464652 C2 RU 2464652C2
Authority
RU
Russia
Prior art keywords
frequency band
audio signal
digital audio
energy
signal
Prior art date
Application number
RU2010136648/08A
Other languages
English (en)
Other versions
RU2010136648A (ru
Inventor
Тенкаси В. РАМАБАДРАН (US)
Тенкаси В. РАМАБАДРАН
Марк А. ДЖЕЙСУК (US)
Марк А. ДЖЕЙСУК
Original Assignee
Моторола Мобилити, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Моторола Мобилити, Инк. filed Critical Моторола Мобилити, Инк.
Publication of RU2010136648A publication Critical patent/RU2010136648A/ru
Application granted granted Critical
Publication of RU2464652C2 publication Critical patent/RU2464652C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)

Abstract

Изобретение относится к воспроизведению аудио контента, в частности к способам расширения полосы частот. Техническим результатом является возможность генерирования речи расширенной ширины полосы частот с минимальным числом искажений. Указанный результат достигается тем, что принимают (101) входной цифровой аудио сигнал, содержащий узкополосный сигнал. Входной цифровой аудио сигнал обрабатывают (102), чтобы сгенерировать обработанный цифровой аудио сигнал. Оценивают (103) уровень энергии полосы высоких частот, соответствующий входному цифровому аудио сигналу, на основании оцененной энергии полосы частот перехода обработанного цифрового аудио сигнала в предварительно определенном верхнем диапазоне частот узкополосной ширины полосы частот. Генерируют (104) цифровой аудио сигнал полосы высоких частот на основании уровня энергии полосы высоких частот и оцененного спектра полосы высоких частот, соответствующего уровню энергии полосы высоких частот. 2 н. и 8 з.п. ф-лы, 6 ил.

Description

Родственная заявка
Эта заявка родственна с совместно рассматривающейся заявкой на патент США № 11/946978, и зарегистрированной 29 ноября 2007 г., принадлежащей тому же заявителю, которая полностью включена в настоящее описание в качестве ссылки.
Область техники, к которой относится изобретение
Это изобретение, в целом, относится к воспроизведению аудио контента и, более конкретно, к способам расширения полосы частот.
Уровень техники
Аудио воспроизведение содержания аудио контента из цифрового представления требует известной степени усилий. В некоторых настройках приложений цифровое представление содержит полную соответствующую ширину полосы частот, которая относится к первоначальной аудио выборке. В таком случае аудио воспроизведение может содержать очень точный и естественно звучащий выходной сигнал. Однако такой подход требует значительных затрат ресурсов, чтобы приспособить соответствующее количество данных. Во многих настройках приложений, таких как, например, настройки беспроводной связи, такое количество информации не может быть всегда адекватно поддержано.
Чтобы уладить такое ограничение, так называемые, способы узкополосной речи могут служить для того, чтобы ограничивать количество информации, в свою очередь, с помощью ограничения представления меньшей, чем полная соответствующая ширина полосы частот, которая относится к выборке первоначального аудио сигнала. В этом отношении в качестве только одного примера, несмотря на то, что естественная речь включает в себя существенные компоненты до 8 кГц (или выше), узкополосное представление может предоставлять только информацию, относительно, например, диапазона 300-3400 Гц. Результирующий контент, когда воспроизведен аудиально, обычно является достаточно разборчивым, чтобы поддерживать функциональные потребности речевой связи. Однако, к сожалению, обработка узкополосной речи также имеет тенденцию выдавать речь, которая звучит приглушенной, и даже может иметь уменьшенную разборчивость по сравнению с речью полной полосы частот.
Чтоб удовлетворить этому требованию, иногда используют способы расширения ширины полосы частот. Можно искусственно генерировать недостающую информацию в более высоких и/или более низких полосах частот на основании имеющейся узкополосной информации, а также другой информации, чтобы выбирать информацию, которая может быть добавлена к узкополосному контенту, чтобы, таким образом, синтезировать сигнал псевдо широкой (или полной) полосы частот. С использованием таких способов, например, можно преобразовывать узкополосную речь в диапазоне 300-3400 Гц в широкополосную речь, например, в диапазоне 100-8000 Гц. С этой целью критическая часть информации, которая требуется, является спектральной огибающей в полосе высоких частот (3400-8000 Гц). Если широкополосная спектральная огибающая оценена, тогда спектральная огибающая полосы высоких частот может быть легко извлечена из нее. Можно представить себе спектральную огибающую полосы высоких частот как состоящую из формы и усиления (или эквивалентно, энергии).
Например, при одном подходе форму спектральной огибающей полосы высоких частот оценивают с помощью оценки широкополосной спектральной огибающей из узкополосной спектральной огибающей посредством отображения кодовой книги. Затем оценивают энергию полосы высоких частот с помощью регулирования энергии в узкополосной секции широкополосной спектральной огибающей с возможностью соответствия энергии узкополосной спектральной огибающей. В этом подходе форма спектральной огибающей полосы высоких частот определяет энергию полосы высоких частот, а любые ошибки в оценке формы будут также соответствующим образом влиять на оценки энергии полосы высоких частот.
В другом подходе форму спектральной огибающей полосы высоких частот и энергию полосы высоких частот оценивают отдельно, и спектральную огибающую полосы высоких частот, которую, в конце концов, используют, регулируют, чтобы соответствовать оцененной энергии полосы высоких частот. При одном связанном подходе оцененную энергию полосы высоких частот используют, помимо других параметров, чтобы определять форму спектральной огибающей полосы высоких частот. Однако результирующая спектральная огибающая полосы высоких частот не обязательно гарантирует наличие соответствующей энергии полосы высоких частот. Следовательно, требуется дополнительный этап, чтобы регулировать энергию спектральной огибающей полосы высоких частот в оцененное значение. Если не предприняты специальные меры, этот подход будет давать в результате разрывность в широкополосной спектральной огибающей на границе между узкой полосой частот и полосой высоких частот. Хотя существующие подходы к расширению ширины полосы частот и, в частности, к оценке огибающей полосы высоких частот являются приемлемо успешными, они не обязательно дают результирующую речь подходящего качества, по меньшей мере, в некоторых настройках приложений.
Для того чтобы генерировать речь расширенной ширины полосы частот приемлемого качества, число искажений в такой речи должно быть минимизировано. Известно, что переоценка энергии полосы высоких частот дает в результате раздражающие искажения. Неправильная оценка формы спектральной огибающей полосы высоких частот также может иметь результатом искажения, но эти искажения обычно являются более мягкими, и их легко маскируют с помощью узкополосной речи.
Краткое описание чертежей
Вышеупомянутые потребности, по меньшей мере, частично удовлетворяют посредством предоставления способа и устройства для оценки энергии полосы высоких частот в системе расширения ширины полосы частот, описанной в следующем подробном описании. Сопровождающие чертежи, на которых одинаковые ссылочные номера относятся к идентичным элементам или элементам с одинаковой функциональностью во всех отдельных видах, и, которые вместе с подробным описанием ниже включены в спецификацию и являются частью спецификации, служат, чтобы дополнительно проиллюстрировать различные варианты осуществления и, чтобы объяснить различные принципы и преимущества, все в соответствии с настоящим изобретением.
Фиг.1 содержит блок-схему последовательности операций, как сконфигурированную в соответствии с различными вариантами осуществления изобретения.
Фиг.2 содержит график, как сконфигурировано в соответствии с различными вариантами осуществления изобретения.
Фиг.3 содержит блок-схему, как сконфигурировано в соответствии с различными вариантами осуществления изобретения.
Фиг.4 содержит блок-схему, как сконфигурировано в соответствии с различными вариантами осуществления изобретения.
Фиг.5 содержит блок-схему, как сконфигурировано в соответствии с различными вариантами осуществления изобретения.
Фиг.6 содержит график, как сконфигурировано в соответствии с различными вариантами осуществления изобретения.
Специалисты в области техники поймут, что элементы на чертежах проиллюстрированы для простоты и пояснения и не обязательно начерчены в масштабе. Например, размеры и/или относительное расположение некоторых из элементов на фигурах могут быть преувеличены относительно других элементов, чтобы помочь улучшить понимание различных вариантов осуществления настоящего изобретения. Также общеизвестные, но вполне понятные элементы, которые являются полезными или необходимыми в коммерчески реализуемом варианте осуществления, часто не изображены, для того чтобы способствовать менее затруднительному виду этих различных вариантов осуществления настоящего изобретения. Дополнительно будет понятно, что определенные действия и/или этапы могут быть описаны или изображены в конкретной последовательности или вхождении, тогда как специалисты в данной области техники поймут, что такая определенность относительно последовательности в действительности не требуется. Также будет понятно, что термины и выражения, использованные в настоящей заявке, имеют обычное техническое значение, как согласованное с такими терминами и выражениями специалистами в данной области техники, как приведено выше, за исключением, когда разные конкретные значения не приведены иначе в настоящей заявке.
Подробное описание изобретения
Идеи, обсужденные в настоящей заявке, адресованы рентабельным способу и системе для искусственного расширения ширины полосы частот. В соответствии с такими идеями принимают узкополосный цифровой аудио сигнал. Узкополосный цифровой аудио сигнал может быть сигналом, например, принятым мобильной станцией в сотовой сети, и узкополосный цифровой аудио сигнал может включать в себя речь в диапазоне частот 300-3400 Гц. Способы искусственного расширения ширины полосы частот осуществляют, чтобы расширять спектр цифрового аудио сигнала с возможностью включения в него частот полосы низких частот, таких как 100-300 Гц и частот полосы высоких частот, таких как 3400-8000 Гц. При использовании искусственного расширения ширины полосы частот, чтобы расширить спектр с возможностью включения в него частот полосы низких частот и полосы высоких частот, создают более естественно звучащий цифровой аудио сигнал, который является более приятным пользователю мобильной станции, осуществляющей способ.
В способах искусственного расширения ширины полосы частот недостающую информацию в более высоких (3400-8000 Гц) и более низких (100-300 Гц) полосах частот искусственно генерируют на основании имеющейся узкополосной информации, а также априорной информации, полученной и запомненной из речевой базы данных, и добавленной в узкополосный сигнал, чтобы синтезировать псевдо широкополосный сигнал. Такое решение является достаточно привлекательным, поскольку оно требует минимальных изменений в существующую систему передачи. Например, не требуется дополнительная скорость передачи битов. Искусственное расширение ширины полосы частот может быть включено в элемент постобработки на принимающем конце и, следовательно, не зависит от технологии кодирования речи, использованной в системе связи, или характера самой системы, например, аналоговой, цифровой, наземной или сотовой. Например, способы искусственного расширения ширины полосы частот могут быть осуществлены мобильной станцией, принимающей узкополосный цифровой аудио сигнал, и результирующий широкополосный сигнал используют, чтобы генерировать аудио сигнал, воспроизводимый пользователю мобильной станции.
При определении информации полосы высоких частот сначала оценивают энергию в полосе высоких частот. Подмножество узкополосного сигнала используют, чтобы оценить энергию полосы высоких частот. Подмножество узкополосного сигнала, которое является ближайшим к частотам полосы высоких частот, обычно имеет наивысшую корреляцию с сигналом полосы высоких частот. Таким образом, только подмножество узкой полосы частот, в противоположность всей узкой полосе частот, используют, чтобы оценить энергию полосы высоких частот. Подмножество, которое используют, упомянуто как “полоса частот перехода”, и оно может включать в себя частоты, такие как 2500-3400 Гц. Более конкретно, полоса частот перехода определена в настоящей заявке, как полоса частот, которая содержится в узкой полосе частот, находится близко к полосе высоких частот, т.е. она служит в качестве перехода в полосу высоких частот. Этот подход находится в противоположности системам расширения ширины полосы частот предшествующего уровня техники, которые оценивают энергию полосы высоких частот на основе энергии во всей узкой полосе частот, обычно как отношение.
Для того чтобы оценить энергию полосы высоких частот, сначала оценивают энергию полосы частот перехода с помощью идей, обсужденных ниже относительно фиг.4 и фиг.5. Например, энергия полосы частот перехода у полосы частот перехода может быть вычислена сначала с помощью дискретизации с повышением частоты входного узкополосного сигнала, вычисления частотного спектра дискретизированного с повышением частоты узкополосного сигнала, а затем суммирования энергий спектральных компонентов в полосе частот перехода. Оцененную энергию полосы частот перехода затем вставляют в полиномиальное уравнение как независимую переменную, чтобы оценить энергию полосы высоких частот. Коэффициенты или веса разных степеней независимой переменной в полиномиальном уравнении, включая переменную нулевой степени, то есть постоянный член выбирают, чтоб минимизировать среднюю квадратичную ошибку между истинными и оцененными значениями энергии полосы высоких частот в течение большого числа кадров из тренировочной речевой базы данных. Точность оценки может быть дополнительно увеличена с помощью приведения к заданным условиям оценки относительно параметров, полученных из узкополосного сигнала, а также параметров, полученных из сигнала полосы частот перехода, как обсуждено более подробно ниже. После того как энергия полосы высоких частот оценена, оценивают спектр полосы высоких частот на основании оценки энергии полосы высоких частот.
При использовании таким способом полосы частот перехода предоставлен надежный способ расширения ширины полосы частот, который создает соответствующий аудио сигнал более высокого качества, чем было бы возможно, если бы использовали энергию во всей узкой полосе частот, чтобы оценивать энергию полосы высоких частот. Кроме того, этот способ мог бы быть использован без чрезмерного вредного влияния на существующие системы связи, поскольку способы расширения ширины полосы частот применяют к узкополосному сигналу, принятому системой связи, т.е. существующие системы связи могут быть использованы, чтобы посылать узкополосные сигналы.
Фиг.1 иллюстрирует процесс 100 для генерации цифрового аудио сигнала расширенной полосы частот в соответствии с различными вариантами осуществления изобретения. Сначала в операции 101 принимают узкополосный цифровой аудио сигнал. При обычной настройке приложения это будет содержать предоставление множества кадров такого контента. Эти идеи будут без труда приспосабливать обработку каждого такого кадра согласно описанным этапам. Например, при одном подходе каждый такой кадр может соответствовать 10-40 миллисекундам первоначального аудио контента.
Например, это может содержать предоставление цифрового аудио сигнала, который содержит синтезированный голосовой контент такой, который имеет место, например, при использовании этих идей совместно с принятым закодированным с помощью вокодера речевым контентом в портативном беспроводном устройстве связи. Однако также существуют другие возможности, как будет вполне понятно специалистам в данной области техники. Например, цифровой аудио сигнал мог бы вместо этого содержать первоначальный речевой сигнал или повторно дискретизированную версию либо первоначального речевого сигнала, либо синтезированного речевого контента.
Кратко ссылаясь на фиг.2, будет понятно, что этот цифровой аудио сигнал относится к некоторому первоначальному аудио сигналу 201, который имеет ширину 202 полосы частот первоначального соответствующего сигнала. Эта ширина 202 полосы частот первоначального соответствующего сигнала обычно будет больше, чем ширина полосы частот вышеупомянутого сигнала, которая соответствует цифровому аудио сигналу. Например, это может случаться, когда цифровой аудио сигнал представляет только часть 203 первоначального аудио сигнала 201, причем другие части оставлены вне полосы частот. В изображенном иллюстративном примере это включает в себя часть 204 полосы низких частот и часть 205 полосы высоких частот. Специалисты в данной области техники поймут, что этот пример служит только иллюстративной цели, и что не представленная часть может только содержать только часть полосы низких частот или часть полосы высоких частот. Эти идеи также были бы применимы для использования в прикладной установке, в которой не представленная часть разделяет полосу средних частот на две или более представленные части (не изображены).
Таким образом, без труда будет понятно, что не представленная часть (части) первоначального аудио сигнала 201 содержит контент, который эти настоящие идеи могут корректно искать, чтобы заменить или иначе представить некоторым корректным и допустимым способом. Также будет понятно, что ширина полосы частот этого сигнала занимает только часть ширины полосы частот по Найквисту, определенной с помощью соответственной частоты дискретизации. Это, в свою очередь, будет понятно, чтобы дополнительно предоставить область частот, в которой осуществлять желаемое расширение ширины полосы частот.
Опять, ссылаясь на фиг.1, входной цифровой аудио сигнал обрабатывают, чтобы сгенерировать обработанный цифровой аудио сигнал в операции 102. При одном подходе обработка в операции 102 является операцией дискретизации с повышением частоты. При другом подходе она может быть простой системой с единичным коэффициентом усиления, для которой выходной сигнал равняется входному сигналу. В операции 103 оценивают уровень энергии полосы высоких частот, соответствующий входному цифровому аудио сигналу, на основании полосы частот перехода обработанного цифрового аудио сигнала в предварительно определенном верхнем диапазоне частот узкополосной ширины полосы частот.
При использовании компонентов полосы частот перехода в качестве базиса для оценки получают более точную оценку, чем обычно было бы возможно, если все узкополосные компоненты были бы совместно использованы, чтобы оценить значение энергии компонентов полосы высоких частот. При одном подходе значение энергии полосы высоких частот используют, чтобы осуществлять доступ к справочной таблице, которая содержит множество соответствующих потенциальных форм спектральных огибающих полосы высоких частот, чтобы определять спектральную огибающую полосы высоких частот, т.е. соответствующую форму спектральной огибающей полосы высоких частот на правильном уровне энергии.
Затем этот процесс 100 будет по выбору подстраивать объединение 104 цифрового аудио сигнала с контентом полосы высоких частот, соответствующим оцененному значению энергии и спектру компонентов полосы высоких частот, чтобы предоставить расширенную версию узкополосного цифрового аудио сигнала, воспроизведение которого осуществляют. Несмотря на то, что процесс, изображенный на фиг.1, иллюстрирует только сложение оцененных компонентов полосы высоких частот, следует понимать, что компоненты полосы низких частот также могут быть оценены и объединены с узкополосным цифровым аудио сигналом, чтобы генерировать широкополосный сигнал с расширенной шириной полосы частот.
Результирующий аудио сигнал с расширенной шириной полосы частот (полученный с помощью объединения входного цифрового аудио сигнала с искусственно сгенерированным контентом полосы частот вне сигнала) имеет улучшенное качество аудио сигнала в отличие от первоначального узкополосного цифрового аудио сигнала, когда воспроизведен в аудио форме. При одном подходе это может содержать объединение двух элементов, которые являются взаимно исключающими относительно их спектрального контента. В таком случае такое объединение, например, может принимать вид простой конкатенации или иначе соединения двух (или более) сегментов вместе. При другом подходе, если требуется, контент ширины полосы у полосы высоких частот и/или полосы низких частот может иметь часть, которая находится в соответствующей ширине полосы частот сигнала цифрового аудио сигнала. Такое перекрытие может быть полезным, по меньшей мере, в некоторых настройках приложений, чтобы сглаживать и/или размывать переход от одной части к другой при объединении перекрывающейся части контента ширины полосы частот полосы высоких частот и/или полосы низких частот с соответствующей частью в полосе частот цифрового аудио сигнала.
Специалисты в данной области техники поймут, что описанные выше процессы являются без труда запускаемыми с использованием любой из большого разнообразия имеющихся и/или без труда конфигурируемых платформ, включая частично или полностью программируемые платформы, которые известны в данной области техники, или специализированные платформы, которые могут требоваться для некоторых приложений. Теперь, ссылаясь на фиг.3, будет предоставлен подход к такой платформе.
В этом иллюстративном примере в устройстве 300 процессор 301 выбора функционально соединяется со входом 320, который сконфигурирован и выполнен с возможностью приема цифрового аудио сигнала, имеющего соответствующую ширину полосы частот сигнала. Когда устройство 300 содержит беспроводное устройство двусторонней связи, такой цифровой аудио сигнал может быть предоставлен с помощью соответствующего приемника 303, как известно в данной области техники. В таком случае, например, цифровой аудио сигнал может содержать синтезированное голосовой контент, сформированный как функция принятого закодированного с помощью вокодера контента речи.
Процессор 301, в свою очередь, может быть сконфигурирован и выполнен (например, с помощью соответствующего программирования, когда процессор 301 содержит частично или полностью программируемую платформу, как известно в данной области техники) с возможностью выполнения одного или более из этапов или других выполняемых функций, приведенных в настоящей заявке. Это может содержать, например, оценку значения энергии полосы высоких частот из энергии полосы частот перехода, а затем использование значения энергии полосы высоких частот и множества форм индексирования энергии, чтобы определить спектральную огибающую полосы высоких частот.
Как описано выше, при одном подходе вышеупомянутое значение энергии полосы высоких частот может служить для того, чтобы способствовать доступу к справочной таблице, которая содержит множество соответствующих потенциальных форм спектральных огибающих. Чтобы поддерживать такой подход, это устройство также может содержать, если требуется, одну или более справочных таблиц 304, которые функционально соединены с процессором 301. Сконфигурированный таким образом, процессор 301 может без труда осуществлять доступ к справочной таблице 304, когда уместно.
Специалисты в данной области распознают и поймут, что такое устройство 300 может быть составлено из множества физически различных элементов, как предложено с помощью иллюстрации, изображенной на фиг.3. Однако также можно рассматривать эту иллюстрацию, как содержащую логический вид, в этом случае один или более из этих элементов может быть разрешен и реализован с помощью совместно использованной платформы. Также будет понятно, что такая совместно используемая платформа может содержать полностью или, по меньшей мере, частично программируемую платформу, которые известны в данной области техники.
Следует понимать, что обработка, обсужденная выше, может быть выполнена мобильной станцией на беспроводной связи с базовой станцией. Например, базовая станция может передавать узкополосный цифровой аудио сигнал с помощью традиционного средства в мобильную станцию. Если он принят, процессор (процессоры) в мобильной станции выполняют необходимые операции, чтобы генерировать версию с расширенной шириной полосы частот цифрового аудио сигнала, которые является более чистым и более приятен по звучанию пользователю мобильной станции.
Теперь, ссылаясь на фиг.4, входную узкополосную речь
Figure 00000001
, дискретизированную на 8 кГц, сначала дискретизируют с повышение частоты в 2 раза с использованием соответствующего устройства 401 дискретизации с повышением частоты, чтобы получить дискретизированную с повышением частоты узкополосную речь
Figure 00000002
, дискретизированную на 16 кГц. Это может содержать выполнение интерполяции 1:2 (например, с помощью вставки выборки нулевого значения между каждой парой выборок первоначальной речи), за которой следует фильтрация с помощью фильтра нижних частот, например фильтра нижних частот (LPF), имеющего полосу пропускания между 0 и 3400 Гц.
Из
Figure 00000001
также вычисляют узкополосные параметры линейного предсказания (LP),
Figure 00000003
, где P - порядок модели, с использованием устройства 402 анализа LP, которое использует широко известные способы LP. (Конечно, существуют другие возможности, например, параметры LP могут быть вычислены из прореженной версии 2:1
Figure 00000002
). Эти параметры LP моделируют спектральную огибающую узкополосной входной речи как
Figure 00000004
.
В уравнении, приведенном выше, угловую частоту
Figure 00000005
в радианах/выборка задают с помощью
Figure 00000006
где
Figure 00000007
- частота сигнала в Гц, а
Figure 00000008
- частота дискретизации в Гц. Для частоты дискретизации
Figure 00000009
, равной 8 кГц, подходящий порядок P модели, например, равен 10.
Затем параметры LP
Figure 00000010
интерполируют на 2 с использованием модуля 403 интерполирования, чтобы получить
Figure 00000011
С использованием
Figure 00000012
дискретизированную с повышением частот узкополосную речь
Figure 00000002
инверсно фильтруют с использованием фильтра 404 анализа, чтобы получить остаточный сигнал
Figure 00000013
(который также дискретизируют на 16 кГц). При одном подходе эта операция инверсной фильтрации (или анализа) может быть описана с помощью уравнения
Figure 00000014
,
где n - индекс дискретизации.
В типичной настройке приложения инверсная фильтрация
Figure 00000015
чтобы получить
Figure 00000016
может быть выполнена на покадровой основе, где кадр определяют как последовательность из N последовательных выборок в течение длительности, равной Т секундам. Для многих приложений речевого сигнала достаточный выбор для Т приблизительно равен 20 ms с соответствующими значениями для N приблизительно равными 160 при частоте дискретизации 8 кГц и приблизительно 320 при частоте дискретизации 16 кГц. Последовательные кадры могут перекрывать друг друга, например, до 50% или приблизительно 50%, в этом случае вторая половина выборок в текущем кадре и первая половина выборок в следующем кадре являются одинаковыми, и новый кадр обрабатывают каждые Т/2 секунд. Например, для выбора Т как 20 ms и перекрытия 50% параметр
Figure 00000010
LP вычисляют из 160 последовательных выборок
Figure 00000001
каждые 10 ms и используют в инверсном фильтре средние 160 выборок соответствующего кадра
Figure 00000002
из 320 выборок, чтобы выдать 160 выборок
Figure 00000017
.
Также можно вычислить параметры LP порядка 2Р для операции инверсной фильтрации непосредственно из дискретизированной с повышением частот узкополосной речи. Однако этот подход может увеличить сложность как вычисления параметров LP, так и операции инверсной фильтрации без обязательного увеличения эффективности, по меньшей мере, при рабочих условиях.
Остаточный сигнал
Figure 00000017
LP затем выпрямляют по полному периоду с использованием двухполупериодного выпрямителя 405 и фильтрации верхних частот результата (например, с использованием фильтра 406 верхних частот (HPF) с полосой пропускания между 3400 и 8000 Гц), чтобы получить выпрямленный остаточный сигнал
Figure 00000018
полосы высоких частот. Параллельно выходной сигнал источника 407 псевдослучайного шума также фильтруют 408 по верхним частотам, чтобы получить сигнал
Figure 00000019
шума полосы высоких частот. В качестве альтернативы отфильтрованная на верхних частотах шумовая последовательность может быть предварительно запомнена в буфере (таком как, например, кольцевой буфер) и к ней может быть осуществлен доступ, когда требуется сгенерировать
Figure 00000019
. Использование такого буфера исключает вычисления, связанные с фильтрацией верхних частот выборок псевдослучайного шума в реальном времени. Эти два сигнала, а именно:
Figure 00000020
и
Figure 00000021
затем микшируют в микшере 409 в соответствии с уровнем голоса
Figure 00000022
, предоставленным модулем 410 оценки и управления (ЕСМ) (этот модуль будет описан более подробно ниже). В этом иллюстративном примере уровень голоса
Figure 00000023
изменяется от 0 до 1, причем 0 указывает уровень отсутствия голоса, а 1 указывает уровень максимального голоса. Микшер 409, по существу, формирует взвешенную сумму двух входных сигналов на своем выходе после гарантирования того, что два входных сигнала отрегулированы, чтобы иметь одинаковый уровень энергии. Выходной сигнал
Figure 00000024
микшера задают с помощью
Figure 00000025
.
Специалисты в данной области техники поймут, что возможны другие правила микширования. Также можно сначала микшировать два сигнала, а именно: выпрямленный по полному периоду остаточный сигнал LP и сигнал псевдослучайного шума, а затем отфильтровать на верхних частотах микшированный сигнал. В этом случае два фильтра 406 и 408 верхних частот заменяют одним фильтром верхних частот на выходе микшера 409.
Остаточный сигнал
Figure 00000024
затем предварительно обрабатывают с использованием препроцессора 411 возбуждения полосы высоких частот (НВ), чтобы сформировать сигнал
Figure 00000026
возбуждения полосы высоких частот. Этап предварительной обработки может содержать: (i) масштабирование выходного сигнала
Figure 00000024
микшера с возможностью соответствия уровню энергии
Figure 00000027
полосы высоких частот и (ii) необязательное изменение формы выходного сигнала
Figure 00000024
микшера с возможностью соответствия спектральной огибающей
Figure 00000028
полосы высоких частот. Как
Figure 00000029
так и
Figure 00000030
предоставляют в препроцессор 411 возбуждения НВ с помощью ЕСМ 410. При использовании этого подхода может быть полезным во многих прикладных установках гарантировать, что такое изменение формы не влияет на спектр фазы выходного сигнала
Figure 00000024
микшера, то есть изменение формы предпочтительно может быть выполнено с помощью фильтра с нулевой фазовой характеристикой.
Дискретизированный с повышением частоты узкополосный речевой сигнал
Figure 00000031
и сигнал
Figure 00000026
возбуждения полосы высоких частот складывают вместе с использованием сумматора 412, чтобы сформировать сигнал
Figure 00000032
смешанной полосы частот. Этот результирующий сигнал
Figure 00000033
смешанной полосы частот вводят в фильтр 413 эквалайзера, который фильтрует этот входной сигнал с использованием информации о широкополосной спектральной огибающей
Figure 00000034
, предоставленной ЕСМ 410, чтобы сформировать оцененный широкополосный сигнал
Figure 00000035
. Фильтр 413 эквалайзера по существу накладывает широкополосную спектральную огибающую
Figure 00000034
на входной сигнал
Figure 00000036
чтобы сформировать
Figure 00000037
(дополнительное обсуждение в этом отношении следует ниже). Результирующий оцененный широкополосный сигнал
Figure 00000035
подвергают фильтрации верхних частот, например, с использованием фильтра 414 верхних частот, имеющего полосу пропускания от 3400 до 8000 Гц, и подвергают фильтрации нижних частот, например, с использованием фильтра 415 нижних частот, имеющего полосу пропускания от 0 до 300 Гц, чтобы получить, соответственно, сигнал
Figure 00000038
полосы высоких частот и сигнал
Figure 00000039
полосы низких частот. Эти сигналы
Figure 00000040
Figure 00000041
и дискретизированный с повышением частот узкополосный сигнал
Figure 00000031
складывают вместе в другом сумматоре 416, чтобы сформировать сигнал
Figure 00000042
расширенной ширины полосы частот.
Специалисты в данной области техники поймут, что имеются другие возможные конфигурации фильтра, чтобы получить сигнал
Figure 00000042
расширенной ширины полосы частот. Если фильтр 413 эквалайзера точно сохраняет спектральный контент дискретизированного с повышением частот узкополосного сигнала
Figure 00000031
, который является частью входного сигнала
Figure 00000043
тогда оцененный широкополосный сигнал
Figure 00000044
может быть непосредственно выведен как сигнал
Figure 00000042
расширенной полосы частот, таким образом, исключая фильтр 414 верхних частот, фильтр 415 нижних частот и сумматор 416. В качестве альтернативы могут быть использованы два фильтра эквалайзера, один, чтобы восстановить низкочастотную часть, а другой, чтобы восстановить высокочастотную часть, и выходной сигнал первого из них может быть прибавлен к отфильтрованному на верхних частотах выходному сигналу последнего из них, чтобы получить сигнал
Figure 00000042
расширенной полосы частот.
Специалисты в данной области техники узнают и поймут, что с помощью этого конкретного проиллюстрированного примера выпрямленное остаточное возбуждение полосы высоких частот и возбуждение шума полосы высоких частот микшируют вместе в соответствии с уровнем голоса. Когда уровень голоса равен 0, указывая речь без голоса, используют исключительно возбуждение шума. Подобным образом, когда уровень голоса равен 1, указывая полностью речь с голосом, используют исключительно выпрямленное остаточное возбуждение полосы высоких частот. Когда уровень голоса находится между 0 и 1, указывающим микшированную речь с голосом, два возбуждения микшируют в соответствующей части, как определено с помощью уровня голоса, и используют. Таким образом, микшированное возбуждение полосы высоких частот является подходящим для звуков с голосом, без голоса и со смешанным голосом.
Специалисты в данной области техники также поймут и осознают, что в этом иллюстративном примере фильтр эквалайзера используют для того, чтобы синтезировать
Figure 00000035
. Фильтр эквалайзера рассматривает широкополосную спектральную огибающую
Figure 00000034
, предоставленную ЕСМ, как идеальную огибающую и корректирует (или выравнивает) спектральную огибающую своего входного сигнала
Figure 00000045
, чтобы соответствовать идеальной. Поскольку только амплитуды включены в выравнивание спектральной огибающей, фазовую характеристику фильтра эквалайзера выбирают равной нулю. Амплитудный отклик фильтра эквалайзера задают с помощью
Figure 00000046
. Модель и осуществление такого фильтра эквалайзера для приложения кодирования речи содержит хорошо понятную степень усилий. Однако вкратце фильтр эквалайзера работает следующим образом с использованием анализа перекрытия-суммирования (OLA).
Входной сигнал
Figure 00000047
сначала разделяют на перекрывающиеся кадры, например кадры 20 ms (320 выборок при 16 кГц) с перекрытием 50%. Каждый кадр выборок затем умножают (по точкам) на подходящее окно, например, окно косинус на пьедестале с идеальной характеристикой восстановления. Обработанный окном речевой кадр затем анализируют, чтобы оценить параметры LP, моделирующие его спектральную огибающую. Идеальную широкополосную спектральную огибающую для кадра предоставляют с помощью ЕСМ. Из двух спектральных огибающих эквалайзер вычисляет отклик амплитуды фильтра как
Figure 00000048
и устанавливает фазовую характеристику в ноль. Затем входной кадр выравнивают, чтобы получить соответствующий выходной кадр. Выровненные выходные кадры, в конце концов, перекрывают-суммируют, чтобы синтезировать оцененную широкополосную речь
Figure 00000049
.
Специалисты в данной области техники поймут, что помимо анализа LP имеются другие способы, чтобы получать спектральную огибающую данного речевого кадра, например, кепстральный анализ, кусочно-линейное сглаживание или сглаживание кривой более высокого порядка пиков спектральной амплитуды и т.д.
Специалисты в данной области техники также поймут, что вместо применения окна непосредственно ко входному сигнала
Figure 00000033
, можно было бы начать с обработанной посредством окна версии
Figure 00000050
Figure 00000051
и
Figure 00000052
чтобы достичь того же результата. Также может быть удобным поддерживать размер кадра и процент перекрытия для фильтра эквалайзера теми же, какие они в блоке фильтра анализа, использованном, чтобы получить
Figure 00000017
из
Figure 00000053
.
Описанный подход фильтра эквалайзера для синтеза
Figure 00000035
дает некоторое число преимуществ: i) поскольку фазовая характеристика фильтра 413 эквалайзера равна нулю, разные частотные составляющие выходного сигнала выровнены во времени с соответствующими составляющими входного сигнала. Это может быть полезным для речи с голосом, поскольку сегменты высокой энергии (такие как сегменты импульса образованного в голосовой щели) выпрямленного остаточного возбуждения
Figure 00000054
полосы высоких частот выровнены во времени с соответствующими сегментами высокой энергии дискретизированной с повышением частоты узкополосной речи
Figure 00000053
на входе эквалайзера, и сохранение этого выравнивания во времени на выходе эквалайзера часто будет действовать таким образом, чтобы гарантировать хорошее качество речи; ii) входной сигнал в фильтр 413 эквалайзера не обязательно должен иметь плоский спектр, как в случае фильтра синтеза LP; iii) фильтр 413 эквалайзера задают в частотной области и, следовательно, лучшее и более точное управление относительно разных частей спектра является осуществимым; и iv) возможны итерации, чтобы улучшить эффективность фильтрации за счет дополнительной сложности и задержки (например, выходной сигнал эквалайзера может быть подан обратно на вход, чтобы быть выровненным снова и снова, чтобы улучшить характеристики).
Теперь будут представлены некоторые дополнительные подробности относительно описанной конфигурации.
Предварительная обработка возбуждения полосы высоких частот. Отклик амплитуды фильтра 413 эквалайзера задают с помощью
Figure 00000055
, а его фазовая характеристика может быть установлена в ноль. Чем ближе спектральная огибающая
Figure 00000056
к идеальной спектральной огибающей
Figure 00000057
тем легче для эквалайзера корректировать спектральную огибающую входного сигнала с возможностью соответствия идеальной. По меньшей мере, одной функцией препроцессора 411 возбуждения полосы высоких частот является - переместить
Figure 00000058
ближе к
Figure 00000059
и, таким образом, облегчить работу фильтра 413 эквалайзера. Во-первых, это выполняют с помощью масштабирования выходного сигнала
Figure 00000060
микшера на правильный уровень энергии
Figure 00000061
полосы высоких частот, предоставленный ЕСМ 410. Во-вторых, по выбору изменяют форму выходного сигнала
Figure 00000060
микшера таким образом, чтобы его спектральная огибающая соответствовала спектральной огибающей
Figure 00000062
полосы высоких частот, предоставленной ЕСМ 410, без влияния на его фазовый спектр. Второй этап может содержать, по существу, этап предварительного выравнивания.
Возбуждение полосы низких частот. В отличие от потери информации в полосе высоких частот, вызванной наложенным ограничением ширины полосы частот, по меньшей мере, частично с помощью частоты дискретизации, потеря информации в полосе низких частот (0-300 Hz) узкополосного сигнала происходит, по меньшей мере, в большой степени вследствие ограничивающего полосу частот действия передаточной функции канала, например, состоящего из микрофона, усилителя, кодера речи, канала передачи или тому подобного. Следовательно, в чистом узкополосном сигнале все же присутствует информация полосы низких частот, хотя на очень низком уровне. Эта информация низкого уровня может быть усилена простым способом, чтобы восстановить первоначальный сигнал. Но в этом процессе необходимо соблюдать осторожность, поскольку сигналы низкого уровня легко искажаются с помощью ошибок, шума и искажений. Альтернативой является - синтезировать сигнал возбуждения полосы низких частот, подобный сигналу возбуждения полосы высоких частот, описанному ранее. То есть сигнал возбуждения полосы низких частот может быть сформирован с помощью микширования выпрямленного остаточного сигнала
Figure 00000063
полосы низких частот и сигнала
Figure 00000064
шума полосы низких частот способом, подобным формированию выходного сигнала
Figure 00000065
миксера полосы высоких частот.
Теперь, ссылаясь на фиг.5, модуль 410 оценки и управления (ЕСМ) берет в качестве входного сигнала узкополосную речь
Figure 00000066
, дискретизированную с повышением частоты узкополосную речь
Figure 00000067
и узкополосные параметры LP
Figure 00000068
и предоставляет в качестве выходного сигнала уровень голоса
Figure 00000069
энергию полосы высоких частот
Figure 00000070
, спектральную огибающую
Figure 00000071
полосы высоких частот и широкополосную спектральную огибающую
Figure 00000072
.
Оценка уровня голоса. Чтобы оценить уровень голоса, устройство 501 пересечения нулевого уровня вычисляет число пересечений нулевого уровня ZC в каждом кадре узкополосной речи
Figure 00000066
следующим образом:
Figure 00000073
Figure 00000074
где
Figure 00000075
,
n - индекс дискретизации, а N - размер кадра в выборках. Удобно поддерживать размер кадра и процент перекрытия, использованные в ECM 410 теми же, что и размер кадра и процент перекрытия, использованные в фильтре 413 эквалайзера и блоках фильтра анализа, например, Т=20 ms, N=160 для дискретизации 8 кГц, N=320 для дискретизации 16 кГц и 50% перекрытие со ссылкой на иллюстративные значения, представленные ранее. Вычисленное значение параметра
Figure 00000076
, как выше, изменяется в пределах от 0 до 1. Из параметра
Figure 00000076
устройство 502 оценки уровня голоса может оценить уровень голоса
Figure 00000077
следующим образом:
Figure 00000078
где
Figure 00000079
и
Figure 00000080
представляют, соответственно, выбранные низкий и высокий пороги, соответственно, например,
Figure 00000081
и
Figure 00000082
Выходной сигнал
Figure 00000083
детектора 503 возникновения/взрыва также может быть подан в детектор 502 уровня голоса. Если кадр отмечен, как содержащий возникновение или взрыв с d=1, уровень голоса этого кадра, а также следующего кадра может быть установлен в 1. Заявитель напоминает, что при одном подходе, когда уровень голоса равен 1, используют исключительно выпрямленное остаточное возбуждение полосы высоких частот. Это является выгодным при возникновении/взрыве по сравнению с возбуждением только с шумом или микшированным возбуждением полосы высоких частот, поскольку выпрямленное остаточное возбуждение близко следует энергии в отличие от траектории времени дискретизированной с повышением частоты узкополосной речи, таким образом, уменьшая вероятность искажений типа предварительного эха из-за дисперсии времени в сигнале расширенной ширины полосы частот.
Для того чтобы оценить энергию полосы высоких частот, устройство 504 оценки энергии полосы частот перехода оценивает энергию полосы частот перехода из дискретизированного с повышением частоты узкополосного речевого сигнала
Figure 00000084
. Полоса частот перехода определена в настоящей заявке, как полоса частот, которая содержится в узкой полосе частот и является близкой с полосе высоких частот, т.е. служит в качестве перехода в полосу высоких частот (которая в этом иллюстративном примере приблизительно равна 2500-3400 Гц). Интуитивно можно было бы ожидать, что энергия полосы высоких частот хорошо коррелирует с энергией полосы частот перехода, что подтверждено в экспериментах. Простым способом вычислить энергию полосы частот перехода
Figure 00000085
является вычислить частотный спектр
Figure 00000086
(например, посредством быстрого преобразования Фурье (FFT)) и суммировать энергии спектральных составляющих в полосе частот перехода.
Из энергии полосы частот перехода
Figure 00000087
в дБ (децибел) энергию полосы высоких частот
Figure 00000088
в дБ оценивают как
Figure 00000089
где коэффициенты
Figure 00000090
и
Figure 00000091
выбирают таким образом, чтобы минимизировать среднюю квадратичную ошибку между истинным и оцененным значениями энергии полосы высоких частот в течение большого числа кадров из тренировочной речевой базы данных.
Точность оценки дополнительно может быть улучшена с помощью использования контекстуальной информации из дополнительных параметров речи, таких как параметр ZC пересечения нулевого уровня и параметра sl спектральной огибающей полосы частот перехода, которые могут быть предоставлены устройством 505 оценки крутизны характеристики полосы частот перехода. Параметр пересечения нулевого уровня, как обсуждено выше, указывает уровень голоса речи. Параметр крутизны характеристики указывает скорость изменения спектральной энергии в полосе частот перехода. Он может быть оценен из узкополосных параметров
Figure 00000092
LP с помощью аппроксимации спектральной огибающей (в дБ) в полосе частот перехода как прямой линии, например, посредством линейной регрессии, и вычисления ее крутизны характеристики. Плоскость параметра ZC-sl затем разделяют на некоторое число областей, и коэффициенты
Figure 00000093
и
Figure 00000094
отдельно выбирают для каждой области. Например, если каждый из диапазонов параметров ZC-sl разделяют на 8 одинаковых интервалов, тогда плоскость параметра ZC-sl разделяют на 64 области и выбирают 64 множества коэффициентов
Figure 00000095
и
Figure 00000094
, одно для каждой области.
При другом подходе (не изображенном на фиг.5) дополнительное улучшение точности оценки достигают следующим образом. Следует заметить, что вместо параметра
Figure 00000096
крутизны характеристики (который является только представлением первого порядка спектральной огибающей в полосе частот перехода), представление более высокого разрешения может быть использовано, чтобы увеличить эффективность устройства оценки энергии полосы высоких частот. Например, может быть использовано векторное квантованное представление форм спектральной огибающей полосы частот перехода (в дБ). В качестве одного иллюстративного примера кодовая книга векторного устройства квантования (VQ) состоит из 64 форм, упомянутых как параметры
Figure 00000097
формы спектральных огибающих полосы частот перехода, которые вычисляют из большой тренировочной базы данных. Возможно заменить параметр sl в ZC-sl плоскости параметров параметром tbs, чтобы достичь улученных характеристик. Однако при другом подходе вводят третий параметр, упомянутый как мера
Figure 00000098
спектральной линейности. Меру спектральной линейности определяют как отношение геометрического среднего к арифметическому среднему узкополосной спектральной огибающей (в дБ) в соответствующем диапазоне частот (таком как, например, 300-3400 Гц). Параметр
Figure 00000098
указывает, насколько линейной является спектральная огибающая, изменяющаяся в этом примере от 0 для огибающей с пиками до 1 для полностью линейной огибающей. Параметр
Figure 00000098
также связывают с уровнем голоса речи, но другим способом, чем ZC. При одном подходе трехмерное пространство параметра ZC-sfm-tbs разделяют на некоторое число областей следующим образом. Плоскость sfm-tbs разделяют на 12 областей, таким образом, давая увеличение до 12×64=768 возможных областей в трехмерном пространстве. Однако не все из этих областей имеют достаточные точки данных из тренировочной базы данных. Таким образом, для многих настроек приложений число полезных областей ограничивают приблизительно до 500, причем для каждой из этих областей выбирают отдельное множество коэффициентов
Figure 00000099
и
Figure 00000094
.
Устройство 506 оценки энергии полосы высоких частот может обеспечить дополнительное улучшение точности оценки с помощью использования более высоких степеней
Figure 00000087
в оценке
Figure 00000100
, например,
Figure 00000100
=
Figure 00000101
В этом случае пять разных коэффициентов, а именно,
Figure 00000102
и
Figure 00000103
выбирают для каждого разделения плоскости параметра
Figure 00000104
(или в качестве альтернативы для каждого разделения пространства параметра ZC-sfm-tbs). Поскольку приведенные выше уравнения (см. абзацы 69 и 74) для оценки
Figure 00000105
являются нелинейными, особая осторожность должна быть предпринята, чтобы регулировать оцененную энергию полосы высоких частот как уровень входного сигнала, т.е. энергия, изменения. Одним способом для достижения этого является оценить уровень входного сигнала в дБ, регулировать
Figure 00000087
вверх или вниз, чтобы соответствовать номинальному уровню сигнала, оценить
Figure 00000106
и регулировать
Figure 00000107
вниз или вверх с возможностью соответствия фактическому уровню сигнала.
Несмотря на то, что способ оценки энергии полосы высоких частот, описанный выше, работает достаточно хорошо для большего числа кадров, иногда имеются кадры, для которых энергия полосы высоких частот является чрезвычайно недооцененной или переоцененной. Такие ошибки оценки могут быть, по меньшей мере, частично скорректированы посредством устройства 507 сглаживания отслеживания энергии, которое содержит сглаживающий фильтр. Сглаживающий фильтр может быть сконструирован таким образом, что он позволяет проходить через фактические переходы в данных отслеживания энергии без воздействия, например, переходы между сегментами с голосом и без голоса, но корректирует случайные грубые ошибки в других гладких данных отслеживания энергии, например, в сегменте с голосом и без голоса. Подходящим фильтром для этой цели является медианный фильтр, например, 3-х точечный медианный фильтр, описанный с помощью уравнения
Figure 00000108
где k - индекс кадра, а оператор (·) медианы выбирает медиану из своих трех элементов. 3-точечный медианный фильтр вносит задержку, равную одному кадру. Для сглаживания данных отслеживания энергии также могут быть сконструированы другие типы фильтров с задержкой или без задержки.
Сглаженное значение энергии может быть дополнительно адаптировано с помощью адаптера 508 энергии, чтобы получить окончательную адаптированную оценку энергии
Figure 00000109
высокой полосы частот. Эта адаптация может включать в себя либо уменьшение, либо увеличение сглаженного значения энергии на основании параметра уровня голоса
Figure 00000110
и/или параметра d, выведенных с помощью детектора 503 возникновения/взрыва. При одном подходе адаптация значения энергии полосы высоких частот изменяет не только уровень энергии, но также форму спектральной огибающей, поскольку выбор спектра полосы высоких частот может быть связан с оцененной энергией.
На основании параметра уровня голоса
Figure 00000111
адаптация энергии может быть достигнута следующим образом. Для
Figure 00000112
соответствующему кадру без голоса, сглаженное значение
Figure 00000113
энергии немного увеличивают, например, на 3 дБ, чтобы получить адаптированное значение
Figure 00000114
энергии. Увеличенный уровень энергии подчеркивает не вокализированную речь в выходном сигнале расширенной ширины полосы частот по сравнению с входным узкополосным сигналом, а также помогает выбрать более подходящую форму спектральной огибающей для сегмента без голоса. Для
Figure 00000115
соответствующему кадру с голосом, сглаженное значение
Figure 00000116
энергии немного уменьшают, например, на 6 дБ, чтобы получить адаптированное значение
Figure 00000114
энергии. Немного уменьшенный уровень энергии позволяет маскировать любые ошибки при выборе формы спектральной огибающей для сегментов с голосом и являющихся следствием шумовых искажений.
Когда уровень голоса
Figure 00000117
находится между 0 и 1, соответствующий микшированной голосовой речи, не выполняют адаптации значения энергии. Такие микшированные голосовые кадры представляют только небольшую часть полного числа кадров и неадаптированные значения энергии работают хорошо для этих кадров. На основании выходного сигнала
Figure 00000118
детектора возникновения/взрыва адаптацию энергии выполняют следующим образом. Когда
Figure 00000119
=1, это указывает, что соответствующий кадр содержит возникновение, например, переход от тишины звуку с голосом или без голоса, или взрывной звук, например, /t/. В этом случае энергию полосы высоких частот конкретного кадра, а также следующего кадра адаптируют в очень малое значение такое, что его контент энергии полосы высоких частот является малым в речи расширенной ширины полосы частот. Это помогает избегать случайных искажений, связанных с такими кадрами. Для
Figure 00000119
=1 не выполняют дополнительной адаптации энергии, т.е. сохраняют адаптацию энергии на основании уровня голоса
Figure 00000120
как описано выше.
Далее описана оценка широкополосной спектральной огибающей
Figure 00000121
. Чтобы оценить
Figure 00000122
, можно отдельно оценить узкополосную спектральную огибающую
Figure 00000123
, спектральную огибающую
Figure 00000124
полосы высоких частот и спектральную огибающую
Figure 00000125
полосы низких частот и объединить вместе три огибающие.
Устройство 509 оценки узкополосного спектра может оценивать узкополосную спектральную огибающую
Figure 00000123
из дискретизированной с повышением частоты узкополосной речи
Figure 00000126
Из
Figure 00000127
сначала вычисляют параметры LP,
Figure 00000128
где Q - порядок модели, с использованием широко известных способов анализа LP. Для дискретизированной с повышением частоты, равной 16 кГц, подходящий порядок модели Q, например, равен 20. Параметры
Figure 00000129
моделируют спектральную огибающую дискретизированной с повышением частоты узкополосной речи как
Figure 00000130
В уравнении, приведенном выше, угловую частоту
Figure 00000131
в радиан/выборка задают с помощью
Figure 00000132
, где
Figure 00000133
- частота сигнала в Гц, а
Figure 00000134
- частота дискретизации в Гц. Следует заметить, что спектральные огибающие
Figure 00000135
и
Figure 00000136
являются разными, поскольку первую получают из узкополосной входной речи, а последнюю из дискретизированной с повышением частоты узкополосной речи. Однако внутри полосы пропускания от 300 до 3400 Гц они приблизительно связаны с помощью
Figure 00000137
с точностью до константы. Несмотря на то, что спектральная огибающая
Figure 00000138
определена относительно диапазона 0-8000
Figure 00000139
Гц, полезная часть находится в полосе пропускания (в иллюстративном примере 300-3400 Гц.
В этом отношении в качестве одного иллюстративного примера вычисление
Figure 00000140
выполняют с использованием FFT следующим образом. Сначала вычисляют импульсную характеристику инверсного фильтра
Figure 00000141
для подходящей длины, например, 1024, как
Figure 00000142
Затем берут FFT импульсной характеристики и получают спектральную огибающую
Figure 00000143
амплитуды с помощью вычисления обратной амплитуды при каждом индексе FFT. Для длины FFT, равной 1024, вычисленное частотное разрешение
Figure 00000143
, вычисленное, как выше, равно 16000/1024=15625 Гц. Из
Figure 00000143
оценивают узкополосную спектральную огибающую
Figure 00000144
просто с помощью простого извлечения спектральных амплитуд приблизительно из диапазона 300-3400 Гц.
Специалисты в данной области техники поймут, что кроме анализа LP имеются другие способы, чтобы получать спектральную огибающую данного речевого кадра, например, кепстральный анализ, кусочно-линейное сглаживание или сглаживание кривой более высокого порядка пиков спектральной амплитуды и т.д.
Устройство 510 оценки полосы высоких частот берет оценку энергии полосы высоких частот в качестве входного сигнала и выбирает форму спектральной огибающей полосы высоких частот, которая согласуется с оцененной энергией полосы высоких частот.
Далее описан способ, чтобы сравняться с разными формами спектральных огибающих полосы высоких частот, соответствующих разным энергиям полосы высоких частот.
Начиная с большой тренировочной базы данных широкополосной речи, дискретизированной на 16 кГц, вычисляют широкополосную спектральную огибающую амплитуды для каждого речевого кадра с использованием анализа LP или других способов. Из широкополосной спектральной огибающей каждого кадра извлекают часть полосы высоких частот, соответствующую 3400-8000 Гц, и нормализуют с помощью деления на спектральную амплитуду при 3400 Гц. Таким образом, результирующие спектральные огибающие полосы высоких частот имеют амплитуду, равную 0 дБ, на 3400 Гц. Далее вычисляют энергию полосы высоких частот, соответствующую каждой нормализованной огибающей полосы высоких частот. Затем разделяют набор спектральных огибающих полосы высоких частот на основании энергии полосы высоких частот, например, выбирают последовательность номинальных значений энергии, отличающихся на 1 дБ, чтобы покрыть весь диапазон, и все огибающие с энергии в пределах 0,5 дБ номинальной величины группируют вместе.
Для каждой, сформированной таким образом группы, вычисляют среднюю форму спектральной огибающей полосы высоких частот, а затем соответствующую энергию полосы высоких частот. На фиг.6 изображен набор из 60 форм 600 спектральных огибающих полосы высоких частот (с амплитудой в дБ относительно частоты в Гц) на разных уровнях энергии. Отсчитывая снизу фигуры, были получены 1-я, 10-я, 20-я, 30-я, 40-я, 50-я и 60-я формы (упомянутые в настоящей заявке как предварительно вычисленные формы) с использованием способа, подобного способу, описанному выше. Остальные 53 формы были получены просто с помощью линейной интерполяции (в области дБ) между ближайшими предварительно вычисленными формами.
Энергии этих форм находятся в пределах приблизительно 4,5 дБ для 1-й формы до приблизительно 43,5 дБ для 60-й формы. С учетом энергии полосы высоких частот для кадра простым делом является выбрать ближайшую соответствующую форму спектральной огибающей высокой полосы частот, как будет описано позже в документе. Выбранная форма представляет оцененную спектральную огибающую
Figure 00000145
высокой полосы частот с точностью до константы. На фиг.6 среднее разрешение энергии равно приблизительно 0,65 дБ. Понятно, что лучшее разрешение является возможным с помощью увеличения числа форм. С учетом форм на фиг.6 выбор формы для конкретной энергии является уникальным. Также можно представить ситуацию, когда имеется более одной формы для данной энергии, например, 4 формы на уровень энергии, и в этом случае требуется дополнительная информация, чтобы выбрать одну из 4 форм для каждого данного уровня энергии. Кроме того, можно иметь множество множеств форм, причем каждое множество индексировано с помощью энергии полосы высоких частот, например, два набора форм, выбираемых с помощью параметра
Figure 00000146
голоса, один для кадров с голосом, а другое для кадров без голоса. Для кадра микшированного голоса две формы, выбранные из двух набором, могут быть объединены соответствующим образом.
Способ оценки спектра полосы высоких частот, описанный выше, дает некоторые очевидные преимущества. Например, этот подход дает явное управление относительно временного изменения оценок спектра полосы высоких частот. Плавное развитие оценок спектра полосы высоких частот в отдельных речевых сегментах, например, речи с голосом, речи без голоса и т.д., часто важно для речи расширенной полосы частот без искажений. Для способа оценки спектра полосы высоких частот, описанного выше, из фиг.6 понятно, что небольшие изменения энергии полосы высоких частот дают в результате небольшие изменения форм спектральной огибающей полосы высоких частот. Таким образом, плавное изменение спектра полосы высоких частот, по существу, может быть гарантировано с помощью гарантирования, что временное изменение энергии полосы высоких частот в отдельных речевых сегментах также является плавным. Это явно выполняют с помощью сглаживания данных отслеживания энергии, как описано выше.
Следует заметить, что отдельные речевые сегменты, в которых выполняют сглаживание энергии, могут быть идентифицированы даже с более точным разрешением, например, с помощью отслеживания изменения в узкополосном речевом спектре и дискретизированном с повышением частоты узкополосном речевом спектре от кадра к кадру с использованием любой одной из широко известных мер спектрального расстояния, таких как логарифмическое спектральное искажение или искажение Итакуры (Itakura) на основе LP. Используя этот подход, отдельный речевой сегмент может быть определен как последовательность кадров, в которых спектр изменяется медленно, и которая заключена с каждой стороны в скобки с помощью кадра, в котором вычисленное спектральное изменение превышает фиксированный или адаптивный порог, таким образом, указывая наличие спектрального перехода на любой стороне отдельного речевого сегмента. Затем может быть выполнено сглаживание данных отслеживания энергии в отдельном речевом сегменте, но не через границы сегментов.
В настоящей заявке плавное изменение данных отслеживания энергии полосы высоких частот преобразуют в плавное изменение оцененной спектральной огибающей полосы высоких частот, которая является требуемой характеристикой в отдельном речевом сегменте. Также следует заметить, что этот подход к гарантированию плавного изменения спектральной огибающей полосы высоких частот в отдельном речевом сегменте также может быть применен в качестве этапа постобработки к последовательности оцененных спектральных огибающих полосы высоких частот с помощью способов предшествующего уровня техники. Однако в этом случае спектральные огибающие полосы высоких частот, возможно, должны быть явно сглажены в отдельном речевом сегменте, в отличие от простого сглаживания данных отслеживания энергии настоящих идей, которое автоматически дает в результате плавное изменение спектральной огибающей полосы высоких частот.
Потеря информации узкополосного речевого сигнала в полосе низких частот (которая в этом иллюстративном примере может быть от 0 - 300 Гц) происходит не вследствие ограничения ширины полосы частот, наложенного частотой дискретизации, как в случае полосы высоких частот, а вследствие действия ограничения полосы частот передаточной функции канала, состоящего, например, из микрофона, усилителя, кодера речи, канала передачи и т.д.
Простым подходом, чтобы восстанавливать сигнал полосы нижних частот, является противодействие действию этой передаточной функции канала в диапазоне от 0 до 300 Гц. Простым способом, чтобы сделать это, является использование устройства 511 оценки спектра полосы низких частот, чтобы оценивать передаточную функцию канала в диапазоне частот от 0 до 300 Гц из имеющихся данных, получение ее инверсии, и использование инверсии, чтобы поднять спектральную огибающую дискретизированной с повышением частоты узкополосной речи. То есть спектральную огибающую
Figure 00000147
полосы низких частот оценивают как сумму
Figure 00000148
и характеристики подъема спектральной огибающей
Figure 00000149
сконструированной из инверсии передаточной функции канала (при допущении, что амплитуды спектральных огибающих выражены в логарифмической области, например дБ). Для многих настроек приложений при конструировании
Figure 00000150
должна быть проявлена осторожность. Поскольку восстановление сигнала полосы нижних частот, по существу, основано на усилении сигнала низкого уровня, это включает в себя опасность ошибок усиления, шума и искажений, обычно связанных с сигналами низкого уровня. В зависимости от качества сигнала низкого уровня максимальное значение подъема должно быть ограничено соответствующим образом. Также в диапазоне частот от 0 приблизительно до 60 Гц желательно сконструировать
Figure 00000150
с возможностью иметь малые (или даже отрицательные значения, например, ослабление) значения, чтобы избежать усиления электрического фона и фонового сети.
Устройство 512 оценки широкополосного спектра затем может оценить широкополосную спектральную огибающую с помощью объединения оцененных спектральных огибающих в узкой полосе частот, полосе высоких частот и полосе низких частот. Один способ объединения трех огибающих, чтобы оценить широкополосную спектральную огибающую, действует следующим способом.
Узкополосную спектральную огибающую
Figure 00000151
оценивают из
Figure 00000152
как описано выше, и ее значения в диапазоне от 400 до 3200 Гц используют без какого-либо изменения в оценке широкополосной спектральной огибающей
Figure 00000153
. Чтобы выбрать подходящую форму полосы высоких частот, необходимы энергия полосы высоких частот и начальное значение амплитуды на 3400 Гц. Энергию
Figure 00000154
полосы высоких частот в дБ оценивают, как описано ранее. Начальное значение амплитуды на 3400 Гц оценивают с помощью моделирования спектра амплитуды FFT
Figure 00000155
в дБ в полосе частот перехода, а именно, 2500-3400 Гц, посредством прямой линии через линейную регрессию и нахождение значения прямой линии на 3400 Гц. Обозначим это значение амплитуды с помощью
Figure 00000156
в дБ. Затем выбирают форму спектральной огибающей полосы высоких частот в качестве одного из множества значений, например, как изображено на фиг.6, которая имеет значение энергии, ближайшее к
Figure 00000157
Обозначим эту форму с помощью
Figure 00000158
. Затем оценку спектральной огибающей
Figure 00000154
полосы высоких частот и, следовательно, широкополосную спектральную огибающую
Figure 00000159
в диапазоне от 3400 до 8000 Гц оценивают как
Figure 00000158
+
Figure 00000156
.
Между 3200 и 3400 Гц
Figure 00000153
оценивают как линейно интерполированное значение в дБ между
Figure 00000160
и прямой линией, соединяющей
Figure 00000160
на 3200 Гц и
Figure 00000161
на 3400 Гц. Сам коэффициент интерполяции изменяют линейно таким образом, что оцененная
Figure 00000162
постепенно перемещается от
Figure 00000163
на 3200 Гц в
Figure 00000164
на 3400 Гц. Между 0 до 400 Гц спектральную огибающую
Figure 00000165
полосы низких частот и широкополосную спектральную огибающую
Figure 00000153
оценивают как
Figure 00000160
+
Figure 00000166
, где
Figure 00000167
представляет, соответствующим образом сконструированную характеристику подъема от инверсии передаточной функции канала, как описано ранее.
Как упомянуто ранее, кадры, содержащие появление и/или взрыв, могут приносить пользу благодаря специальной обработке, чтобы избежать случайных искажений в речи расширенной ширины полосы частот. Такие кадры могут быть идентифицированы с помощью внезапного увеличения их энергии относительно предыдущих кадров. Выходной сигнал d детектора 503 возникновения/взрыва устанавливают в 1 всякий раз, когда энергия предыдущего кадра является низкой, т.е. ниже определенного порога, например - 50 дБ, а увеличение энергии текущего кадра относительно предыдущего кадра превышает другой порог, например, 15 дБ. Иначе, выходной сигнал d детектора устанавливают в 0. Саму энергию кадра вычисляют из энергии спектра амплитуды FFT дискретизированной с повышением частоты узкополосной речи
Figure 00000168
в узкой полосе частот, т.е. 300-3400 Гц. Как упомянуто выше, выходной сигнал d детектора 503 возникновения/взрыва подают в устройство 502 оценки уровня голоса и адаптер 508 энергии. Как описано ранее, всякий раз, когда кадр отмечен как содержащий появление или взрыв d=1, уровень голоса
Figure 00000169
этого кадра, а также следующего кадра устанавливают в 1. Также адаптированное значение энергии
Figure 00000170
полосы высоких частот этого кадра, а также следующего кадра устанавливают в малое значение. В качестве альтернативы расширение ширины полосы частот можно обойти для этих кадров.
Специалисты в данной области техники поймут, что описанные способы оценки энергии полосы высоких частот могут быть использованы совместно с другими системами расширения ширины полосы частот предшествующего уровня техники, чтобы масштабировать искусственно сгенерированный контент сигнала полосы высоких частот для таких систем до подходящего уровня энергии. Кроме того, следует заметить, что, несмотря на то, что способ оценки энергии описан со ссылкой на полосу высоких частот (например, 3400-8000 Гц), он также может быть применен, чтобы оценивать энергию в любой полосе частот с помощью соответствующего переопределения полосы частот перехода. Например, чтобы оценить энергию в контексте полосы низких частот, такой как 0-300 Гц, полоса частот перехода может быть переопределена как 300-600 Гц. Специалисты в данной области техники также поймут, что способы оценки энергии полосы высоких частот, описанные в настоящей заявке, могут быть использованы для целей кодирования речи/аудио. Также способы, описанные в настоящей заявке для оценки спектральной огибающей полосы высоких частот и возбуждения полосы высоких частот также могут быть использованы в контексте кодирования речи/аудио сигнала.
Следует заметить, что, несмотря на то, что оценка параметров, таких как спектральная огибающая, пересечение нулевого уровня, коэффициенты LP, энергии полосы частот и т.д., описана в ранее приведенных конкретных примерах, в некоторых случаях, как выполняемая из узкополосной речи, а в других случаях дискретизированной с повышением частоты узкополосной речи, специалисты в данной области техники поймут, что оценка соответственных параметров и их последующее использование и приложение могут быть модифицированы, как выполняемые из любых из этих двух сигналов (узкополосной речи или дискретизированной с повышением частоты узкополосной речи), не выходя за рамки сущности и объема описанных идей.
Специалисты в данной области техники поймут, что большое разнообразие модификаций, изменений и комбинаций могут быть сделаны относительно вышеописанных вариантов осуществления, на выходя за рамки сущности и объема изобретения, и такие модификации, изменения и комбинации должны быть рассмотрены как находящиеся в пределах изобретательской концепции.

Claims (10)

1. Способ для оценки энергии полосы высоких частот в системе расширения полосы частот, содержащий этапы, на которых
принимают входной цифровой аудиосигнал, содержащий узкополосный сигнал,
обрабатывают входной цифровой аудиосигнал, чтобы сгенерировать обработанный цифровой аудиосигнал, и
оценивают уровень энергии полосы высоких частот, соответствующий входному цифровому аудиосигналу, на основании оцененной энергии полосы частот перехода обработанного цифрового аудиосигнала в предварительно определенном диапазоне верхних частот узкополосной полосы частот.
2. Способ по п.1, дополнительно содержащий этап, на котором генерируют цифровой аудиосигнал полосы высоких частот на основании, по меньшей мере, уровня энергии полосы высоких частот и оцененной спектральной огибающей полосы высоких частот, соответствующей уровню энергии полосы высоких частот.
3. Способ по п.2, дополнительно содержащий этап, на котором объединяют входной цифровой аудиосигнал и цифровой аудиосигнал полосы высоких частот, чтобы сгенерировать результирующий цифровой аудиосигнал, имеющий расширенную полосу частот сигнала.
4. Способ по п.1, в котором обработка содержит этап, на котором дискретизируют с повышением частоты входной цифровой аудиосигнал, чтобы сгенерировать обработанный цифровой аудиосигнал.
5. Способ по п.1, в котором этап, на котором оценивают, содержит этап, на котором вычисляют уровень энергии обработанного цифрового аудиосигнала с помощью вычисления частотного спектра обработанного цифрового аудиосигнала и суммирования энергий спектральных составляющих в полосе частот перехода.
6. Способ по п.1, в котором оценка дополнительно содержит этап, на котором используют, по меньшей мере, один предварительно определенный параметр речи на основании входного цифрового аудиосигнала, чтобы сгенерировать пространство параметров.
7. Способ по п.6, в котором предварительно определенный параметр речи является, по меньшей мере, одним из: параметра пересечения нулевого уровня, параметра меры спектральной гладкости, параметра спектральной крутизны полосы частот перехода и параметра формы спектральной огибающей полосы частот перехода.
8. Способ по п.6, в котором оценка дополнительно содержит этап, на котором разделяют пространство параметров на области и назначают коэффициенты для каждой области, чтобы оценить уровень энергии полосы высоких частот.
9. Способ по п.1, в котором узкополосный сигнал имеет ширину полосы частот, примерно равную 300-3400 Гц.
10. Устройство для оценки энергии полосы высоких частот в системе расширения полосы частот, содержащее
вход, сконфигурированный и выполненный с возможностью приема входного цифрового аудиосигнала, содержащего узкополосный сигнал,
процессор, функционально соединенный со входом и сконфигурированный и выполненный с возможностью обработки входного цифрового аудиосигнала, чтобы сгенерировать обработанный цифровой аудиосигнал, и
оценки уровня энергии полосы высоких частот, соответствующего входному цифровому аудиосигналу, на основании оцененной энергии полосы частот перехода обработанного цифрового аудиосигнала в предварительно определенном верхнем диапазоне частот узкополосной полосы частот.
RU2010136648/08A 2008-02-01 2009-01-28 Способ и устройство для оценки энергии полосы высоких частот в системе расширения полосы частот RU2464652C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/024,620 US8433582B2 (en) 2008-02-01 2008-02-01 Method and apparatus for estimating high-band energy in a bandwidth extension system
US12/024,620 2008-02-01

Publications (2)

Publication Number Publication Date
RU2010136648A RU2010136648A (ru) 2012-03-10
RU2464652C2 true RU2464652C2 (ru) 2012-10-20

Family

ID=40578428

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010136648/08A RU2464652C2 (ru) 2008-02-01 2009-01-28 Способ и устройство для оценки энергии полосы высоких частот в системе расширения полосы частот

Country Status (8)

Country Link
US (1) US8433582B2 (ru)
EP (1) EP2238594B1 (ru)
KR (1) KR101214684B1 (ru)
CN (1) CN101952889B (ru)
ES (1) ES2384084T3 (ru)
MX (1) MX2010008279A (ru)
RU (1) RU2464652C2 (ru)
WO (1) WO2009099835A1 (ru)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
EP2255534B1 (en) * 2008-03-20 2017-12-20 Samsung Electronics Co., Ltd. Apparatus and method for encoding using bandwidth extension in portable terminal
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
WO2010036061A2 (en) * 2008-09-25 2010-04-01 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
CN102725791B (zh) * 2009-11-19 2014-09-17 瑞典爱立信有限公司 用于音频编解码中的响度和锐度补偿的方法和设备
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
RU2527735C2 (ru) * 2010-04-16 2014-09-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для выработки широкополосного сигнала с использованием управляемого расширения ширины полосы и слепого расширения ширины полосы
WO2011148230A1 (en) * 2010-05-25 2011-12-01 Nokia Corporation A bandwidth extender
JP5589631B2 (ja) 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置
US8560330B2 (en) * 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5552988B2 (ja) * 2010-09-27 2014-07-16 富士通株式会社 音声帯域拡張装置および音声帯域拡張方法
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP6140685B2 (ja) * 2012-03-23 2017-05-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 帯域パワー算出装置及び帯域パワー算出方法
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
MY169410A (en) * 2013-06-21 2019-04-01 Fraunhofer Ges Forschung Audio decoder having a bandwidth extension module with an energy adjusting module
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
CN105225671B (zh) 2014-06-26 2016-10-26 华为技术有限公司 编解码方法、装置及系统
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
EP3382702A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
CN109688531B (zh) * 2017-10-18 2021-01-26 宏达国际电子股份有限公司 获取高音质音频变换信息的方法、电子装置及记录介质
CN111386568B (zh) * 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
WO2019127559A1 (zh) * 2017-12-30 2019-07-04 深圳迈瑞生物医疗电子股份有限公司 一种高频射频干扰去除装置及方法
US11574051B2 (en) * 2018-08-02 2023-02-07 Fortinet, Inc. Malware identification using multiple artificial neural networks
WO2020041497A1 (en) * 2018-08-21 2020-02-27 2Hz, Inc. Speech enhancement and noise suppression systems and methods
CN109819376B (zh) * 2019-01-21 2020-11-06 北京小唱科技有限公司 对音频进行动态均衡调节的方法及装置
US20200366690A1 (en) * 2019-05-16 2020-11-19 Nec Laboratories America, Inc. Adaptive neural networks for node classification in dynamic networks
CN110265064B (zh) * 2019-06-12 2021-10-08 腾讯音乐娱乐科技(深圳)有限公司 音频爆音检测方法、装置和存储介质
US20230145544A1 (en) * 2020-04-01 2023-05-11 Telefonaktiebolaget Lm Ericsson (Publ) Neural network watermarking
CN112019282B (zh) * 2020-08-13 2022-10-28 西安烽火电子科技有限责任公司 一种短波时变信道衰落带宽估计方法
CN112233685B (zh) * 2020-09-08 2024-04-19 厦门亿联网络技术股份有限公司 基于深度学习注意力机制的频带扩展方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581652A (en) * 1992-10-05 1996-12-03 Nippon Telegraph And Telephone Corporation Reconstruction of wideband speech from narrowband speech using codebooks
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
RU2251795C2 (ru) * 2000-05-23 2005-05-10 Коудинг Текнолоджиз Аб Усовершенствованное преобразование спектра/свертка в области поддиапазонов
CN1975860A (zh) * 2005-11-28 2007-06-06 三星电子株式会社 重构高频分量的方法和设备

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
JPH02166198A (ja) 1988-12-20 1990-06-26 Asahi Glass Co Ltd ドライクリーニング用洗浄剤
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5245589A (en) * 1992-03-20 1993-09-14 Abel Jonathan S Method and apparatus for processing signals to extract narrow bandwidth features
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JPH07160299A (ja) * 1993-12-06 1995-06-23 Hitachi Denshi Ltd 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式
EP0732687B2 (en) * 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US5794185A (en) * 1996-06-14 1998-08-11 Motorola, Inc. Method and apparatus for speech coding using ensemble statistics
US5949878A (en) * 1996-06-28 1999-09-07 Transcrypt International, Inc. Method and apparatus for providing voice privacy in electronic communication systems
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
AU2001294974A1 (en) * 2000-10-02 2002-04-15 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6990446B1 (en) * 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
KR100830857B1 (ko) * 2001-01-19 2008-05-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 전송 시스템, 오디오 수신기, 전송 방법, 수신 방법 및 음성 디코더
JP3597808B2 (ja) 2001-09-28 2004-12-08 トヨタ自動車株式会社 無段変速機の滑り検出装置
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
BR0311601A (pt) * 2002-07-19 2005-02-22 Nec Corp Aparelho e método decodificador de áudio e programa para habilitar computador
JP3861770B2 (ja) * 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US20050065784A1 (en) * 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
JP2005136647A (ja) * 2003-10-30 2005-05-26 New Japan Radio Co Ltd 低音ブースト回路
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
KR100708121B1 (ko) 2005-01-22 2007-04-16 삼성전자주식회사 음성 신호의 대역 확장 방법 및 장치
CA2603246C (en) * 2005-04-01 2012-07-17 Qualcomm Incorporated Systems, methods, and apparatus for anti-sparseness filtering
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
SI1875463T1 (sl) * 2005-04-22 2019-02-28 Qualcomm Incorporated Sistemi, postopki in naprava za glajenje faktorja ojačenja
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
EP1772855B1 (en) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US20070109977A1 (en) * 2005-11-14 2007-05-17 Udar Mittal Method and apparatus for improving listener differentiation of talkers during a conference call
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US20080004866A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Artificial Bandwidth Expansion Method For A Multichannel Signal
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
EP1892703B1 (en) 2006-08-22 2009-10-21 Harman Becker Automotive Systems GmbH Method and system for providing an acoustic signal with extended bandwidth
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
US8229106B2 (en) * 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
FR2918636B1 (fr) 2007-07-10 2009-10-23 Eads Europ Aeronautic Defence Avion a confort acoustique ameliore
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581652A (en) * 1992-10-05 1996-12-03 Nippon Telegraph And Telephone Corporation Reconstruction of wideband speech from narrowband speech using codebooks
RU2251795C2 (ru) * 2000-05-23 2005-05-10 Коудинг Текнолоджиз Аб Усовершенствованное преобразование спектра/свертка в области поддиапазонов
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
CN1975860A (zh) * 2005-11-28 2007-06-06 三星电子株式会社 重构高频分量的方法和设备

Also Published As

Publication number Publication date
CN101952889A (zh) 2011-01-19
US8433582B2 (en) 2013-04-30
WO2009099835A1 (en) 2009-08-13
CN101952889B (zh) 2013-03-20
EP2238594B1 (en) 2012-05-16
MX2010008279A (es) 2010-08-30
ES2384084T3 (es) 2012-06-29
RU2010136648A (ru) 2012-03-10
KR101214684B1 (ko) 2012-12-21
KR20100106559A (ko) 2010-10-01
EP2238594A1 (en) 2010-10-13
US20090198498A1 (en) 2009-08-06

Similar Documents

Publication Publication Date Title
RU2464652C2 (ru) Способ и устройство для оценки энергии полосы высоких частот в системе расширения полосы частот
RU2471253C2 (ru) Способ и устройство для оценивания энергии полосы высоких частот в системе расширения полосы частот
RU2447415C2 (ru) Способ и устройство для расширения ширины полосы аудиосигнала
EP2737479B1 (en) Adaptive voice intelligibility enhancement
EP2144232A2 (en) Apparatus and methods for enhancement of speech
US10304474B2 (en) Sound quality improving method and device, sound decoding method and device, and multimedia device employing same
US9741353B2 (en) Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
TW201443888A (zh) 用於使用能量限制操作產生頻率增強信號之裝置及方法

Legal Events

Date Code Title Description
PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20141125

PC41 Official registration of the transfer of exclusive right

Effective date: 20180111