RU2447415C2 - Способ и устройство для расширения ширины полосы аудиосигнала - Google Patents

Способ и устройство для расширения ширины полосы аудиосигнала Download PDF

Info

Publication number
RU2447415C2
RU2447415C2 RU2010126497/08A RU2010126497A RU2447415C2 RU 2447415 C2 RU2447415 C2 RU 2447415C2 RU 2010126497/08 A RU2010126497/08 A RU 2010126497/08A RU 2010126497 A RU2010126497 A RU 2010126497A RU 2447415 C2 RU2447415 C2 RU 2447415C2
Authority
RU
Russia
Prior art keywords
signal
energy
bandwidth
audio signal
digital audio
Prior art date
Application number
RU2010126497/08A
Other languages
English (en)
Other versions
RU2010126497A (ru
Inventor
Тенкаси В. РАМАБАДРАН (US)
Тенкаси В. РАМАБАДРАН
Марк А. ДЖЕЙСУК (US)
Марк А. ДЖЕЙСУК
Original Assignee
Моторола Мобилити, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Моторола Мобилити, Инк. filed Critical Моторола Мобилити, Инк.
Publication of RU2010126497A publication Critical patent/RU2010126497A/ru
Application granted granted Critical
Publication of RU2447415C2 publication Critical patent/RU2447415C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Изобретение относится к воспроизведению прослушиваемого контента, в частности к способам расширения ширины полосы аудиосигнала. Техническим результатом является повышение качества прослушиваемого контента. Указанный результат достигается тем, что обеспечивают цифровой аудиосигнал, имеющий соответствующую ширину полосы сигнала; обеспечивают значение энергии, которое соответствует, по меньшей мере, оценке энергии вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу; используют значение энергии для одновременного определения формы огибающей спектра и соответствующей подходящей энергии для формы огибающей спектра для контента вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу. 2 н. и 8 з.п. ф-лы, 6 ил.

Description

Область техники, к которой относится изобретение
Это изобретение в общем относится к воспроизведению прослушиваемого контента и более конкретно к способам расширения ширины полосы.
Уровень техники
Воспроизведение для прослушивания аудиоконтента из цифрового представления представляет собой известную область науки. В некоторых прикладных установках цифровое представление содержит полную соответствующую ширину полосы по отношению к исходной аудиовыборке. В таком случае слышимое воспроизведение может представлять собой высокоточное и естественное выходное звучание. Однако такой подход требует значительных служебных ресурсов для размещения соответствующего количества данных. Во многих прикладных установках, таких как, например, установки беспроводной связи, такое количество информации не может всегда адекватно поддерживаться.
Чтобы компенсировать такое ограничение, так называемые узкополосные речевые методы могут применяться для ограничения количества информации посредством, в свою очередь, ограничения представления до меньшей, чем полная соответствующая ширина полосы, по отношению к исходной аудиовыборке. В качестве одного примера в этом отношении, в то время как естественная речь включает в себя существенные компоненты в диапазоне до 8 кГц (или выше), узкополосное представление может обеспечивать информацию только, допустим, в диапазоне 300-3400 Гц. Получаемый контент, при слышимом воспроизведении, как правило, является достаточно разборчивым, чтобы поддерживать функциональные потребности основанной на речи связи. К сожалению, однако, обработка узкополосного речевого сигнала также имеет тенденцию к потере речи, которая звучит приглушенной и, возможно, даже уменьшает разборчивость по сравнению с речевым сигналом в полной полосе.
Чтобы удовлетворить указанную потребность, иногда используются методы расширения ширины полосы. Метод расширения ширины полосы искусственно генерирует недостающую информацию в верхней и/или нижней полосах на основе доступной узкополосной информации, а также другой информации, чтобы выбрать информацию, которая может быть добавлена к узкополосному контенту, чтобы таким образом синтезировать псевдо широко- (или полно-) полосный сигнал. Используя такие методы, например, можно преобразовать узкополосный речевой сигнал в диапазоне 300-3400 Гц в широкополосный речевой сигнал, скажем, в диапазоне 100-8000 Гц. Для этой цели критическая часть информации, которая требуется, представляет собой огибающую спектра сигнала в верхней полосе (3400-8000 Гц). Если оценивается огибающая спектра широкополосного сигнала, то огибающая спектра сигнала в верхней полосе может обычно легко извлекаться из нее. Можно рассматривать огибающую спектра сигнала в верхней полосе как состоящую из формы и усиления (или, эквивалентно, энергии).
Согласно одному подходу, например, форма огибающей спектра сигнала в верхней полосе оценивается путем оценки огибающей спектра широкополосного сигнала исходя из огибающей спектра узкополосного сигнала посредством отображения кодовой книги. Энергия в верхней полосе затем оценивается посредством корректировки энергии в пределах узкополосной секции огибающей спектра широкополосного сигнала, чтобы она соответствовала энергии огибающей спектра узкополосного сигнала. В этом подходе форма огибающей в верхней полосе определяет энергию в верхней полосе и любые ошибки, при оценке формы, будут также соответственно оказывать влияние на оценки энергии в верхней полосе.
В другом подходе форма огибающей спектра сигнала в верхней полосе и энергия в верхней полосе оцениваются по отдельности, и огибающая спектра сигнала в верхней полосе, которая в конечном итоге используется, корректируется, чтобы соответствовать оцененной энергии в верхней полосе. Согласно одному сопутствующему подходу оцененная энергия в верхней полосе используется, помимо других параметров, чтобы определить форму огибающей спектра сигнала в верхней полосе. Однако вовсе не гарантируется, что получающаяся огибающая спектра сигнала в верхней полосе имеет соответствующую энергию в верхней полосе. Следовательно, требуется дополнительный этап для корректировки энергии огибающей спектра сигнала в верхней полосе по отношению к оцененному значению. Если только не будут приняты особые меры, этот подход будет приводить к неоднородности в огибающей спектра широкополосного сигнала на границе между узкополосной частью и верхней полосой. Хотя существующие подходы для расширения ширины полосы и, в частности, для оценки огибающей в верхней полосе являются приемлемо успешными, они не всегда приводят к получению в результате речевого сигнала подходящего качества, по меньшей мере, в некоторых прикладных установках.
Чтобы сгенерировать речевой сигнал расширенной ширины полосы с приемлемым качеством, число артефактов в таком речевом сигнале должно быть минимизировано. Известно, что завышенная оценка энергии в верхней полосе приводит к раздражающим артефактам. Неправильная оценка формы огибающей спектра сигнала в верхней полосе может также привести к артефактам, но эти артефакты обычно являются более умеренными и легко маскируются узкополосным речевым сигналом.
Краткое описание чертежей
Вышеупомянутые потребности, по меньшей мере, частично удовлетворяются посредством обеспечения способа и устройства для облегчения предоставления и использования значения энергии с целью определения формы спектральной огибающей для контента вне ширины полосы сигнала, описанных в нижеследующем подробном описании осуществления изобретения, в частности, при изучении совместно с чертежами, на которых:
Фиг.1 содержит блок-схему последовательности операций способа, сконфигурированную в соответствии с различными вариантами осуществления настоящего изобретения;
Фиг.2 содержит график, сконфигурированный в соответствии с различными вариантами осуществления настоящего изобретения;
Фиг.3 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления настоящего изобретения;
Фиг.4 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления настоящего изобретения;
Фиг.5 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления настоящего изобретения;
Фиг.6 иллюстрирует график, сконфигурированный в соответствии с различными вариантами осуществления настоящего изобретения.
Специалистам в данной области техники должно быть ясно, что элементы на чертежах проиллюстрированы для простоты и ясности и необязательно изображены в настоящем масштабе. Например, размерности и/или относительное расположение некоторых из элементов на чертежах могут быть преувеличены относительно других элементов, с целью улучшить понимание различных вариантов осуществления настоящего изобретения. Кроме того, общие, но хорошо понятые элементы, которые полезны или необходимы в промышленном осуществлении, часто не изображаются, чтобы облегчить сложное для понимания представление этих различных вариантов осуществления настоящего изобретения. Дополнительно, должно быть понятно, что определенные действия и/или этапы могут быть описаны или изображены в конкретном порядке осуществления, при этом специалистам в данной области техники должно быть ясно, что такая специфика, в отношении последовательности, фактически не требуется. Также понятно, что используемые здесь термины имеют обычное смысловое значение, соответствующее таким терминам и выражениям в соответствующих областях исследования и изучения, если конкретные значения иным образом не изложены здесь.
Осуществление изобретения
В целом в соответствии с упомянутыми различными вариантами осуществления изобретения обеспечивается цифровой аудиосигнал, имеющий соответствующую ширину полосы сигнала, и также обеспечивается значение энергии, которое соответствует, по меньшей мере, оценке энергии вне ширины полосы сигнала, которая соответствует этому цифровому аудиосигналу. Затем можно использовать это значение энергии, чтобы одновременно определять форму огибающей спектра сигнала и соответствующую подходящую энергию для формы огибающей спектра контента вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу. Согласно одному подходу, если необходимо, осуществляется объединение (на покадровой основе) цифрового аудиосигнала с контентом вне ширины полосы сигнала, чтобы обеспечить новый вариант цифрового аудиосигнала с расширенной шириной полосы, подлежащего аудиовоспроизведению, чтобы таким образом улучшить соответствующее аудиокачество цифрового аудиосигнала, воспроизводимого таким образом.
При такой конфигурации энергия вне ширины полосы подразумевает огибающую спектра вне полосы; то есть оцененное значение энергии используется для определения огибающей спектра вне полосы, то есть спектральной формы и соответствующей подходящей энергии. Такой подход оказывается относительно простым для реализации и обработки. Единственным параметром энергии вне полосы более легко управлять и манипулировать, чем многомерной спектральной огибающей сигнала вне полосы. В результате этот подход также может приводить к получаемому в результате слышимому содержимому с более высоким качеством, чем, по меньшей мере, некоторые из подходов предшествующего уровня техники, используемых в настоящее время.
Эти и другие преимущества станут более понятными после полного просмотра и изучения нижеследующего детального описания. Ссылаясь на чертежи, в частности на Фиг.1, соответствующий процесс 100 может начинаться с предоставления 101 цифрового аудиосигнала, который имеет соответствующую ширину полосы сигнала. В примерной прикладной установке это будет содержать обеспечение множества кадров такого контента. Упомянутые раскрытия аспектов изобретения с легкостью обеспечат обработку каждого такого кадра согласно описанным этапам. Согласно одному подходу, например, каждый такой кадр может соответствовать 10-40 миллисекундам исходного аудиоконтента.
Это может содержать, например, обеспечение цифрового аудиосигнала, который содержит синтезируемый голосовой контент. Это имеет место, например, когда эти решения используются в связи с принятым речевым контентом, созданным вокодером в портативном устройстве беспроводной связи. Однако также существуют и другие возможности, как будет хорошо понятно специалистам в данной области техники. Например, цифровой аудиосигнал мог бы вместо этого содержать исходный речевой сигнал или подвергнутую повторной дискретизации версию либо исходного речевого сигнала, либо синтезированного речевого контента.
Со ссылкой на Фиг.2, должно быть понятно, что этот цифровой аудиосигнал относится к некоторому исходному аудиосигналу 201, который имеет исходную соответствующую ширину полосы 202 сигнала. Эта исходная соответствующая ширина полосы 202 сигнала типично будет большей, чем вышеупомянутая ширина полосы сигнала, которая соответствует цифровому аудиосигналу. Это может иметь место, например, когда цифровой аудиосигнал представляет только часть 203 исходного аудиосигнала 201, при этом другие части остаются вне ширины полосы. В показанном иллюстративном примере это включает в себя часть 204 низкой полосы и часть 205 высокой полосы. Специалистам в данной области техники должно быть понятно, что этот пример служит лишь для иллюстративных целей и что не подлежащая представлению часть может содержать только часть низкой полосы или часть высокой полосы. Упомянутые решения также были бы применимы для использования в прикладной установке, где не подлежащая представлению часть приходится на среднюю полосу относительно двух или более подлежащих представлению частей (не показано).
Таким образом, без труда будет понятно, что непредставляемая(ые) часть(и) исходного аудиосигнала 201 включает в себя контент, который в соответствии с настоящими решениями вполне можно использовать для замещения или иного представления некоторым подходящим и приемлемым способом. Также будет понятно, что эта ширина полосы сигнала занимает только часть ширины полосы Найквиста, определенной посредством соответствующей частоты дискретизации. Это, в свою очередь, как будет понятно, дополнительно обеспечит частотный диапазон, чтобы выполнить желаемое расширение ширины полосы.
Вновь ссылаясь на Фиг.1, этот процесс 100 затем предоставляет значение энергии, которое соответствует, по меньшей мере, оценке энергии вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу. Для большинства прикладных установок это может основываться, по меньшей мере, частично на допущении, что исходный сигнал имеет более широкую ширину полосы, чем таковая у самого цифрового аудиосигнала.
Согласно одному подходу этот этап может содержать оценивание значения энергии в зависимости, по меньшей мере, частично от самого цифрового аудиосигнала. Согласно другому подходу, если необходимо, этап может содержать прием информации из источника, который исходно передал вышеупомянутый цифровой аудиосигнал, который представляет, непосредственно или косвенно, значение энергии. Последний подход может быть полезен, когда кодер исходной речи (или другой соответствующий источник) включает в себя подходящую функциональность, чтобы измерять и представлять такое значение энергии непосредственно или косвенно, посредством одной или более метрик, которые передаются, например, вместе с самим цифровым аудиосигналом.
Эта энергия вне ширины полосы сигнала может содержать энергию, которая соответствует сигнальному контенту, который выше по частоте, чем соответствующая ширина полосы сигнала цифрового аудиосигнала. Такой подход является подходящим, например, когда вышеупомянутый удаляемый контент сам включает в себя контент, занимающий ширину полосы, которая выше по частоте, чем аудиоконтент, непосредственно представляемый цифровым аудиосигналом. В качестве альтернативы или в комбинации с вышеизложенным, эта энергия вне ширины полосы сигнала может соответствовать сигнальному контенту, который ниже по частоте, чем соответствующая ширина полосы сигнала цифрового аудиосигнала. Разумеется, этот подход может служить дополнением для той ситуации, которая существует, когда вышеупомянутый удаляемый контент сам включает в себя контент, занимающий ширину полосы, которая ниже по частоте, чем аудиоконтент, непосредственно представляемый цифровым аудиосигналом.
Затем процесс 100 использует (103) это значение энергии (которое может содержать множество значений энергии, когда при этом представляется множество отдельных удаляемых частей, как предложено выше), чтобы определить форму огибающей спектра сигнала с тем, чтобы подходящим образом представить контент вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу. Это может содержать, например, использование значения энергии для одновременного определения формы огибающей спектра сигнала и соответствующей подходящей энергии для формы огибающей спектра, которая сопоставима со значением энергии для контента вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу.
Согласно одному подходу это может содержать использование значения энергии для осуществления доступа к таблице поиска, которая вмещает в себя множество соответствующих возможных форм огибающей спектра. Согласно другому подходу это может содержать использование значения энергии для осуществления доступа к таблице поиска, которая содержит множество форм огибающей спектра сигнала, и интерполирование между двумя или более из этих форм, чтобы получить желаемую форму огибающей спектра. Согласно еще одному другому подходу это может содержать выбор одной из двух или более таблиц поиска с использованием одного или более параметров, выведенных из цифрового аудиосигнала, и использование значения энергии для осуществления доступа к выбранной таблице поиска, которая содержит множество соответствующих возможных форм огибающей спектра сигнала. Это может содержать, если необходимо, осуществление доступа к подходящим формам, которые сохранены в параметрической форме. Эти решения также будут предусматривать выведение одной или более таких форм, которые необходимы, используя подходящую математическую функцию выбора вместо извлечения формы из такой таблицы, если это требуется.
Далее, процесс 100 опционально обеспечивает объединение 104 цифрового аудиосигнала с контентом вне ширины полосы сигнала, чтобы тем самым обеспечить версию цифрового аудиосигнала с расширенной шириной полосы, чтобы таким образом улучшить соответствующее аудиокачество цифрового аудиосигнала, при его представлении в слышимой форме. Согласно одному подходу это может содержать объединение двух элементов, которые являются взаимно однозначными по отношению к их спектральному содержимому. В таком случае такое объединение может принять форму, например, простой конкатенации или, иначе, соединения двух (или более) сегментов вместе. Согласно другому подходу, если необходимо, контент вне ширины полосы сигнала может иметь часть, которая находится в пределах соответствующей ширины полосы цифрового аудиосигнала. Такое перекрытие может быть полезным, по меньшей мере, в некоторых прикладных установках, чтобы сгладить и/или размыть переход от одной части к другой посредством объединения перекрывающей части контента вне ширины полосы сигнала с соответствующей частью в полосе цифрового аудиосигнала.
Специалисты в данной области техники поймут, что вышеописанные процессы полностью применимы с использованием любой из большого разнообразия доступных и/или полностью конфигурируемых вычислительных платформ, включая частично или полностью программируемые платформы, которые известны в уровне техники, или платформы специального назначения, которые могут быть необходимы для некоторых приложений. Со ссылкой на Фиг.3, ниже представлен иллюстративный подход для такой платформы.
В этом иллюстративном примере в устройстве 300 процессор 301 выбора функционально соединяется с вводом 302, который сконфигурирован и выполнен так, чтобы принимать цифровой аудиосигнал, имеющий соответствующую ширину полосы сигнала. Когда устройство 300 содержит устройство беспроводной двухсторонней связи, такой цифровой аудиосигнал может быть обеспечен соответствующим приемником 303, как это хорошо известно в уровне техники. В таком случае, например, цифровой аудиосигнал может содержать синтезируемый аудиоконтент, сформированный в зависимости от речевого контента, созданного вокодером.
Процессор 301, в свою очередь, может быть сконфигурирован и выполнен так (например, посредством соответствующего программирования, когда процессор 301 содержит частично или полностью программируемую вычислительную платформу, как известно в уровне техники), чтобы выполнять один или более этап или другие функциональные возможности, описанные здесь. Это может содержать, например, предоставление значения энергии, которая соответствует, по меньшей мере, оценке энергии вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу, и затем использование этого значения энергии и набора индексированных по энергии форм, чтобы определить форму огибающей спектра сигнала для контента вне ширины полосы, которая соответствует цифровому аудиосигналу.
Как описано выше, согласно одному подходу вышеупомянутое значение энергии может служить для того, чтобы облегчить осуществление доступа к таблице поиска, которая содержит множество соответствующих возможных форм огибающей спектра. Для обеспечения такого подхода это устройство может также содержать, если необходимо, одну или более таблицы 304 поиска, которые функционально соединяются с процессором 301. Имея такую конфигурацию, процессор 301 может без труда осуществлять доступ к таблице 304 поиска в зависимости от ситуации.
Специалистам в данной области техники должно быть понятно, что такое устройство 300 может состоять из множества физически отличных элементов, как предложено на иллюстрации, показанной в Фиг.3. Однако можно также рассматривать эту иллюстрацию как содержащую логическое представление, и в этом случае один или более из этих элементов могут обеспечиваться и реализовываться через совместно используемую платформу. Также понятно, что такая совместно используемая платформа может содержать полностью или, по меньшей мере, частично программируемую платформу, как это известно в уровне техники.
Со ссылкой на Фиг.4, входной речевой сигнал s nb в узкой полосе, дискретизированный при 8 кГц, сначала подвергается дискретизации с повышением частоты в 2 раза с помощью соответствующего повышающего дискретизатора 401, чтобы получить дискретизированный с повышением частоты речевой сигнал s'nb в узкой полосе, дискретизированный при 16 кГц. Этот этап может содержать выполнение интерполяции вида 1:2 (например, посредством вставки отсчета с нулевым значением между каждой парой исходных отсчетов речевого сигнала), с последующей низкочастотной фильтрацией при помощи, например, низкочастотного фильтра (LPF), имеющего полосу пропускания между 0 и 3400 Гц.
Исходя из s nb, параметры линейного предсказания (LP) узкой полосы, A nb ={1, α 1 , α 2 …, α p }, где P является порядком модели, также вычисляются при помощи LP анализатора 402, который применяет хорошо известные методы LP анализа. (Разумеется, существуют другие возможности; например, LP параметры могут быть вычислены исходя из 2:1 подвергнутой децимации версии s'nb.) Эти LP параметры моделируют огибающую спектра входного речевого сигнала в узкой полосе, как
Figure 00000001
В вышеприведенном уравнении угловая частота ω в радианах/отсчет задается как ω=2πf/F s, где f является частотой сигнала в Гц, а F s - это частота дискретизации в Гц. Для частоты F s дискретизации при 8 кГц подходящим порядком P модели является, например, 10.
LP параметры A nb затем интерполируются через 2 при помощи модуля 403 интерполяции, чтобы получить A nb={1, 0, α1, 0, α2, 0…, 0, α p}. Используя A nb, дискретизированный с повышением частоты узкополосный речевой сигнал s'nb подвергается обратной фильтрации с помощью фильтра 404 анализа, чтобы получить LP остаточный сигнал r' nb (который также дискретизируется при 16 кГц). Согласно одному подходу эта операция обратной фильтрации (или фильтрации анализа) может быть описана уравнением
Figure 00000002
где n - это индекс отсчета.
В обычной прикладной установке обратная фильтрация s' nb для получения r' nb может быть выполнена на покадровой основе, где кадр определяется как последовательность из N следующих друг за другом отсчетов с продолжительностью в T секунд. Для многих приложений речевых сигналов хороший выбор для T составляет около 20 мс с соответствующими значениями для N около 160 на частоте дискретизации 8 кГц и около 320 на частоте дискретизации 16 кГц. Последовательные кадры могут накладываться друг на друга, например, вплоть до или около 50%, при этом вторая половина отсчетов в текущем кадре и первая половина отсчетов в следующем кадре являются одними и теми же, и новый кадр подвергается обработке каждые T/2 секунд. Для выбора T как 20 мс и 50%-ного перекрытия, например, LP параметры A nb вычисляются исходя из 160 последовательных s nb отсчетов каждые 10 мс и используются для обратной фильтрации средних 160 отсчетов соответствующего s' nb кадра из 320 отсчетов, чтобы выдать 160 отсчетов r' nb.
Можно также вычислить 2P-порядковые LP параметры для операции обратной фильтрации непосредственно из дискретизированного с повышением частоты узкополосного речевого сигнала. Однако этот подход может усложнить как вычисление LP параметров, так и операцию обратной фильтрации, без необходимого увеличения производительности, по меньшей мере, в некоторых режимах работы.
LP остаточный сигнал r' nb затем подвергается двухполупериодному выпрямлению при помощи двухполупериодного выпрямителя 405 и высокочастотной фильтрации результата (используя, например, высокочастотный фильтр (HPF) 406 с полосой пропускания между 3400 и 8000 Гц), чтобы получить высокополосный выпрямленный остаточный сигнал rr nb . Параллельно, выход источника 407 псевдослучайного шума также подвергается высокочастотной фильтрации 408, чтобы получить шумовой сигнал n hb в верхней полосе. Эти два сигнала, то есть rr nb и n hb, микшируются в микшере 409 согласно уровню v голоса, предоставляемого Модулем Оценки и Управления (ECM) 410 (данный модуль будет описан более подробно ниже). В этом иллюстративном примере этот уровень v голоса ранжируется от 0 до 1, причем 0 указывает невокализованный уровень, а 1 указывает полностью вокализованный уровень. Микшер 409 по существу формирует взвешенную сумму из двух входных сигналов на своем выходе после обеспечения того, что два входных сигнала настроены на одинаковый уровень энергии. Выходной сигнал m hb микшера имеет вид
Figure 00000003
Специалисты в данной области техники поймут, что другие правила микширования также возможны. Также является возможным сначала смешать два сигнала, то есть выпрямленный на основе двухполупериодного выпрямления LP остаточный сигнал и псевдослучайный шумовой сигнал, и затем подвергнуть высокочастотной фильтрации смешанный сигнал. В этом случае два высокочастотных фильтра 406 и 408 заменяются единственным высокочастотным фильтром, размещенным на выходе микшера 409.
Полученный сигнал m hb затем предварительно обрабатывается при помощи препроцессора 411 возбуждения верхней полосы (HB), чтобы сформировать высокополосный сигнал ex hb возбуждения. Этапы предварительной обработки могут содержать: (i) масштабирование выходного сигнала m hb микшера для приведения в соответствие уровня E hb энергии в верхней полосе, и (ii) опционально, формообразование выходного сигнала m hb микшера с тем, чтобы привести в соответствие огибающую SE hb спектра сигнала в верхней полосе. Как E hb , так и SE hb предоставляются процессору 411 возбуждения HB, посредством ECM 410. При применении данного подхода может быть полезно во многих прикладных установках гарантировать, что такое формообразование не оказывает негативного влияния на фазовый спектр выходного сигнала m hb микшера; то есть формообразование может предпочтительно быть выполнено фильтром с нулевой фазовой характеристикой.
Дискретизированный с повышением частоты узкополосный речевой сигнал s' nb и высокополосный сигнал ex hb возбуждения суммируются с помощью сумматора 412, чтобы сформировать сигнал
Figure 00000004
смешанной полосы. Этот результирующий сигнал
Figure 00000004
смешанной полосы вводится в выравнивающий фильтр 413, который фильтрует этот входной сигнал, используя информацию SE wb огибающей спектра широкополосного сигнала, предоставленную ECM 410, чтобы сформировать оцененный широкополосный сигнал
Figure 00000005
. Выравнивающий фильтр 413 по существу накладывает огибающую SE wb спектра широкополосного сигнала на входной сигнал
Figure 00000004
, чтобы сформировать
Figure 00000005
(дополнительно описано ниже). Результирующий оцененный широкополосный сигнал
Figure 00000005
подвергается высокочастотной фильтрации, например, при помощи высокочастотного фильтра 414, имеющего ширину полосы от 3400 до 8000 Гц, и низкочастотной фильтрации, например, при помощи низкочастотного фильтра 415, имеющего ширину полосы от 0 до 300 Гц, чтобы получить соответственно высокополосный сигнал
Figure 00000006
и низкополосный сигнал
Figure 00000007
. Эти сигналы
Figure 00000006
,
Figure 00000008
и дискретизированный с повышением частоты узкополосный сигнал s' nb суммируются другим сумматором 416, чтобы сформировать сигнал S bwe с расширенной шириной полосы.
Специалисты в данной области техники поймут, что существуют различные другие конфигурации фильтра, которые можно применять для получения сигнала S bwe с расширенной шириной полосы. Если выравнивающий фильтр 413 в точности сохраняет спектральный состав дискретизированного с повышением частоты речевого узкополосного сигнала s' nb, который является частью его входного сигнала
Figure 00000004
, тогда оцененный широкополосный сигнал
Figure 00000009
может быть непосредственно выведен как сигнал S bwe с расширенной шириной полосы, тем самым исключая высокочастотный фильтр 414, низкочастотный фильтр 415 и сумматор 416. В качестве альтернативы, могут использоваться два выравнивающих фильтра, один для восстановления низкочастотной части и другой для восстановления высокочастотной части, и выход последнего может быть добавлен к высокочастотно отфильтрованному выходу первого, чтобы получить сигнал S bwe с расширенной шириной полосы.
Специалистам в данной области техники должно быть понятно, что, в случае этого конкретного иллюстративного примера, выровненное остаточное возбуждение (сигнал) в верхней полосе и шумовое возбуждение в верхней полосе смешиваются вместе согласно уровню голоса. Когда уровень голоса является 0, указывающим невокализованную речь, используется исключительно шумовое возбуждение. Аналогично, когда уровень голоса является 1, указывая вокализованную речь, используется исключительно выровненное остаточное возбуждение верхней полосы. Когда уровень голоса находится между 0 и 1, указывая смешанно-вокализованную речь, эти два возбуждения микшируются в соответствующей пропорции, согласно определению уровня голоса, и соответственно используются. Смешанное возбуждение верхней полосы, таким образом, является подходящим для вокализованных, невокализованных и смешанно-вокализованных звуков.
Также будет понято, что в этом иллюстративном примере выравнивающий фильтр используется для синтезирования
Figure 00000009
. Выравнивающий фильтр принимает огибающую SE wb спектра широкополосного сигнала, предоставленную ECM в качестве идеальной огибающей, и выполняет коррекцию (или выравнивает) огибающую спектра своего входного сигнала для приведения ее в соответствие с идеальной. Поскольку в уравнивании огибающей спектра используются только амплитуды, фазовая характеристика выравнивающего фильтра выбирается нулевой. Амплитудная характеристика выравнивающего фильтра задается как SE wb(ω)/SE mb(ω). Проектирование и реализация такого выравнивающего фильтра для приложения кодирования речевого сигнала представляют собой хорошо изученную область техники. Кратко, тем не менее, выравнивающий фильтр работает следующим образом, с использованием анализа на основе добавления с перекрытием (OLA).
Входной сигнал
Figure 00000004
сначала делится на перекрывающиеся кадры, например, 20 мс (320 отсчетов на 16 кГц) кадры с 50%-ным перекрытием. Каждый кадр отсчетов затем умножается (точечно) на подходящее окно, например окно типа приподнятой косинусоиды с идеальной характеристикой восстановления. Подвергнутый оконной обработке кадр речевого сигнала затем подвергается анализу, чтобы оценить LP параметры, моделирующие его огибающую спектра. Идеальная огибающая спектра широкополосного сигнала для кадра обеспечивается посредством ECM. Исходя из двух огибающих спектра, выравниватель вычисляет амплитудную характеристику фильтра как SE wb(ω)/SE mb(ω) и устанавливает фазовую характеристику в ноль. Входной кадр затем выравнивается, чтобы получить соответствующий выходной кадр. И наконец, выровненные выходные кадры подвергаются добавлению с перекрытием, чтобы синтезировать оцененный широкополосный речевой сигнал
Figure 00000009
.
Специалисты в данной области техники поймут, что помимо LP анализа существуют другие способы получения огибающей спектра данного кадра речевого сигнала, например кепстральный анализ, кусочно-линейная интерполяция или интерполяция по кривой высшего порядка максимумов амплитуды спектра и т.д.
Специалисты в данной области техники также поймут, что, вместо «оконной» обработки входного сигнала
Figure 00000004
непосредственно, можно было бы начать с подвергнутых оконной обработке версий s'nb, rr hb и n hb для достижения того же самого результата. Также может быть удобным сохранить размер кадра и процент перекрытия для выравнивающего фильтра такими же, как те, которые используются в блоке фильтра анализа, применяемого для получения r' nb из s'nb.
Описанный подход в отношении выравнивающего фильтра для синтезирования
Figure 00000009
предоставляет ряд преимуществ: i) поскольку фазовая характеристика выравнивающего фильтра 413 является нулевой, различные частотные составляющие на выходе выравнивателя выравниваются по времени с соответствующими составляющими на входе; это может быть полезно для содержащего голос речевого сигнала, потому что сегменты с высокой энергией (такие как относящиеся к голосовой щели сегменты импульса) выровненного остаточного возбуждения ex hb в верхней полосе выравниваются по времени с соответствующими сегментами высокой энергии дискретизированного с повышением частоты узкополосного речевого сигнала s' nb на входе выравнивателя, и сохранение этого выравнивания по времени на выходе выравнивателя будет часто действовать для обеспечения хорошего качества речевого сигнала; ii) вход для выравнивающего фильтра 413 необязательно должен иметь плоский спектр как в случае LP синтезирующего фильтра; iii) выравнивающий фильтр 413 определяется в частотной области, и поэтому лучшее и более тонкое управление по различным частям спектра является осуществимым; и iv) итерации являются возможными с тем, чтобы улучшить эффективность фильтрации за счет дополнительной сложности и задержки (например, выходной сигнал выравнивателя может быть возвращен к входу, который будет подвергнут выравниванию снова и снова, чтобы улучшить производительность).
Некоторые дополнительные подробности относительно описанной конфигурации будут представлены ниже.
Предварительная обработка возбуждения верхней полосы: амплитудная характеристика выравнивающего фильтра 413 задается как SE wb (ω)/SE mb (ω), и его фазовая характеристика может быть установлена в нуль. Более близкой к идеальной огибающей SE wb (ω) спектра является огибающая SE mb (ω) спектра на входе, для выравнивателя проще корректировать огибающую спектра на входе, чтобы привести ее в соответствие с идеальной. По меньшей мере, одна функция процессора 411 предварительной обработки возбуждения верхней полосы заключается в том, чтобы переместить SE mb (ω) ближе к SE wb (ω) и, таким образом, упростить работу выравнивающего фильтра 413. Во-первых, это выполняется посредством масштабирования выходного сигнала m hb микшера до правильного уровня E hb энергии в верхней полосе, обеспеченного ECM 410. Во-вторых, выходному сигналу m hb микшера опционально задается форма так, чтобы огибающая его спектра соответствовала огибающей SE hb спектра сигнала в верхней полосе, обеспеченной ECM 410, не воздействуя на его фазовый спектр. Второй этап, по сути, может содержать этап предварительного уравнивания.
Возбуждение низкой полосы: в отличие от потери информации в верхней полосе, вызванной ограничением широкой полосы, наложенным, по меньшей мере, частично, частотой дискретизации, потеря информации в низкой полосе (0-300 Гц) узкополосного сигнала является следствием, по меньшей мере в значительной степени, ограничивающего полосу эффекта передаточной функции канала, состоящего, например, из микрофона, усилителя, речевого кодера, канала передачи или подобного. Следовательно, в чистом узкополосном сигнале информация низкой полосы все еще присутствует, хотя и с очень низким уровнем. Эта информация нижнего уровня может быть усилена прямым способом для восстановления исходного сигнала. Однако следует проявлять осторожность в этом процессе, так как сигналы низкого уровня искажаются ошибками, шумом и искажениями. Альтернатива заключается в синтезировании сигнала возбуждения низкой полосы подобно сигналу возбуждения верхней полосы, описанному ранее. То есть сигнал возбуждения низкой полосы может быть сформирован посредством микширования выровненного остаточного сигнала rr lb низкой полосы и сигнала n lb шума низкой полосы способом, подобным формированию высокополосного выходного сигнала m hb микшера.
Согласно Фиг.5 Модуль Оценки и Управления (ECM) 410 принимает, в качестве входа, узкополосный речевой сигнал s nb, дискретизированный с повышением частоты узкополосный речевой сигнал s' nb и LP параметры A nb узкой полосы и обеспечивает, в качестве выхода, уровень v голоса, энергию E hb верхней полосы, огибающую SE hb спектра сигнала в верхней полосе и огибающую SE wb спектра широкополосного сигнала.
Оценка уровня голоса: для того чтобы осуществить оценку уровня голоса, вычислитель 501 пересечения нулевого уровня вычисляет количество пересечений zc нулевого уровня в каждом кадре узкополосного речевого сигнала s' nb следующим образом:
Figure 00000010
где
Figure 00000011
n является индексом отсчета и N является размером кадра в отсчетах. Подходящим является сохранение размера кадра и процентного перекрытия, используемых ECM 410, такими же, что и используемые в выравнивающем фильтре 413 и блоках фильтра анализа, например, T=20 мс, N=160 для 8 кГц дискретизации, N=320 для 16 кГц дискретизации и 50%-ного перекрытия в отношении иллюстративных значений, представленных ранее. Значение zc параметра, вычисленного согласно приведенному выше описанию, ранжируется от 0 до 1. Исходя из zc параметра, устройство 502 оценки уровня голоса может оценить уровень v голоса следующим образом.
Figure 00000012
где ZC low и ZC high представляют собой соответствующим образом выбранные низкие и высокие пороги, соответственно, например, ZC low=0,40 и ZC high=0,45. Выход d детектора 503 приступа/взрывного звука может также быть введен в детектор 502 уровня голоса. Если кадр помечен как содержащий приступ или взрывной звук с d=1, уровень голоса этого кадра, а также следующего кадра может быть установлен в 1. Согласно одному подходу, когда уровень голоса 1, исключительно используется выпрямленное остаточное возбуждение верхней полосы. Это является преимуществом при приступе/взрывном звуке, по сравнению с только шумовым или микшированным возбуждением верхней полосы, потому что выровненное остаточное возбуждение близко повторяет вид графика зависимости энергии от времени для дискретизированного с повышением частоты узкополосного речевого сигнала, таким образом, уменьшая возможность артефактов типа опережающего эхо ввиду временной дисперсии в сигнале с расширенной шириной полосы.
Чтобы оценить энергию в верхней полосе, устройство 504 оценки энергии переходной полосы оценивает энергию переходной полосы, исходя из дискретизированного с повышением частоты узкополосного речевого сигнала s' nb. Переходная полоса определена здесь как полоса частот, которая содержится в пределах узкой полосы и близка к верхней полосе, то есть она служит переходом к верхней полосе (которая, в этом иллюстративном примере, представляет собой полосу около 2500-3400 Гц). Интуитивно, можно было бы ожидать, что энергия в верхней полосе должна быть высоко коррелирована с энергией переходной полосы, что было подтверждено в экспериментах. Простой способ для вычисления энергии E tb переходной полосы состоит в том, чтобы вычислить частотный спектр s' nb (например, используя быстрое преобразование Фурье (FFT)) и суммировать энергии спектральных составляющих в пределах переходной полосы.
С учетом энергии E tb переходной полосы, представленной в дБ, энергия E hb0 верхней полосы в дБ оценивается как
Figure 00000013
где коэффициенты a и β выбираются для минимизации среднеквадратичной ошибки между истинным и оцененным значениями энергии в верхней полосе, относительно большого количества кадров из обучающей речевой базы данных.
Точность оценки может быть дополнительно повышена посредством применения контекстной информации от дополнительных речевых параметров, таких как параметр zc пересечения нулевого уровня и параметр sl крутизны спектра переходной полосы, которые могут обеспечиваться устройством 505 оценки крутизны переходной полосы. Параметр пересечения нулевого уровня, как обсуждалось ранее, указывает голосовой уровень речевого сигнала. Параметр крутизны указывает частоту изменения спектральной энергии в пределах переходной полосы. Она может быть оценена из LP параметров A nb узкой полосы посредством аппроксимирования огибающей спектра (в дБ) в пределах переходной полосы в виде прямой линии, например посредством линейной регрессии, и вычисления ее крутизны. zc-sl параметрическая плоскость затем разделяется на некоторое количество зон, и коэффициенты a и β по отдельности выбираются для каждой зоны. Например, если zc и sl параметры, каждый, разделены на 8 равных интервалов, zc-sl параметрическая плоскость затем разделяется на 64 зоны, и 64 набора a и β коэффициентов выбираются по одному для каждой зоны.
Устройство 506 оценки энергии в верхней полосе может обеспечивать дополнительное повышение точности оценки посредством использования более высоких степеней E tb при оценке E hbo, например,
Figure 00000014
В этом случае пять различных коэффициентов, то есть α 4, α 3, α 2, α 1 и β, выбираются для каждой части zc-sl параметрической плоскости. Так как вышеупомянутые уравнения для оценки E ht0 являются нелинейными, особое внимание должно быть уделено для регулировки оцененной энергии в верхней полосе как уровня сигнала на входе, то есть энергии, изменений. Один способ для достижения этого состоит в том, чтобы оценить уровень сигнала на входе в дБ, отрегулировать E tb вверх или вниз для соответствия номинальному уровню сигнала, оценить E ht0 и отрегулировать E ht0 вниз или вверх для соответствия фактическому уровню сигнала.
В то время как способ оценки энергии в верхней полосе, описанный выше, весьма хорошо работает для большинства кадров, могут существовать кадры, для которых энергия в верхней полосе грубо занижена или завышена. Такие ошибки оценки могут быть, по меньшей мере, частично исправлены посредством сглаживающего устройства 507 траектории энергии, которое содержит фильтр сглаживания. Фильтр сглаживания может быть спроектирован таким образом, чтобы он позволял фактическим переходам в траектории энергии проходить не подвергаясь воздействию, например, переходам между содержащими голос и не содержащими голос сегментами, но исправлять случайные грубые ошибки в другой сглаженной траектории энергии, например, в пределах содержащего голос или не содержащего голос сегмента. Подходящим фильтром для этой цели является медианный фильтр, например 3-точечный медианный фильтр, описанный уравнением
Figure 00000015
где k является индексом кадра и оператор median(∙) выбирает медиану его трех аргументов. 3-Точечный медианный фильтр включает в себя задержку одного кадра. Другие типы фильтров с задержкой или без нее могут также быть разработаны для сглаживания траектории энергии.
Сглаженное значение E hbl энергии может дополнительно адаптироваться посредством адаптера 508 энергии для получения конечной оценки E hb адаптированной энергии в верхней полосе. Эта адаптация может включать в себя либо уменьшение, либо увеличение сглаженного значения энергии, основанного на параметре v уровня голоса и/или параметре d, выведенного детектором 503 приступа/взрывного звука. Согласно одному подходу адаптация значения энергии в верхней полосе изменяет не только уровень энергии, но также и форму огибающей спектра, поскольку выбор спектра сигнала в верхней полосе может быть привязан к оцененной энергии.
На основании параметра v уровня голоса, адаптация энергии может быть достигнута следующим образом. Для v=0, соответствующего невокализованному кадру, сглаженное значение E hbl энергии увеличивается слегка, например на 3 дБ, чтобы получить адаптированное значение E hb энергии. Увеличенный уровень энергии предыскажает невокализованную речь в выходе с расширенной шириной полосы, по сравнению с узкополосным входом, и также помогает выбирать наиболее подходящую форму огибающей спектра сигнала для невокализованных сегментов. Для v=1, соответствующего вокализованному кадру, сглаженное значение E hbl энергии несколько уменьшается, например на 6 дБ, для получения адаптированного значения E hb энергии. Несколько уменьшенный уровень энергии помогает маскировать любые ошибки при выборе формы огибающей спектра сигнала для вокализованных сегментов и последующих шумовых артефактов.
В том случае, когда уровень v голоса находится между 0 и 1, соответствуя смешанно-вокализованному кадру, адаптация значения энергии не выполняется. Такие смешанно-вокализованные кадры представляют собой небольшую часть общего количества кадров, и неадаптированные значения энергии хорошо подходят для таких кадров. Основываясь на выходе d детектора приступа/взрывного звука, адаптация энергии выполняется следующим образом. Когда d=1, это указывает, что соответствующий кадр содержит приступ, например переход от молчания к невокализованному или вокализованному звуку или к взрывному звуку, например, /t/. В этом случае энергия в верхней полосе заданного кадра, а также следующего кадра адаптируется к очень низкому значению, так что его содержание энергии в верхней полосе мало в речевом сигнале с расширенной полосой. Это помогает избегать случайных артефактов, связанных с такими кадрами. Для d=0, дополнительная адаптация энергии не выполняется; то есть сохраняется адаптация энергии на основании уровня v голоса, как описано выше.
Ниже описывается оценка огибающей SE wb спектра широкополосного сигнала. Чтобы оценить SE wb, можно отдельно оценивать огибающую SE mb спектра узкополосного сигнала, огибающую SE hb спектра сигнала в верхней полосе и огибающую SE lb спектра низкополосного сигнала и объединить эти три огибающие вместе.
Устройство 509 оценки спектра узкополосного сигнала может оценить огибающую SE nb спектра узкополосного сигнала из дискретизированного с повышением частоты узкополосного речевого сигнала s' nb. С учетом s' nb, LP параметры, B nb={1, b 1, b 2, …, b Q}, где Q - порядок модели, сначала вычисляются, с использованием хорошо известных методик LP анализа. Для дискретизации с повышением частоты на 16 кГц подходящим порядком Q модели является, например, 20. LP параметры B nb моделируют огибающую спектра дискретизированного с повышением частоты узкополосного речевого сигнала как
Figure 00000016
В уравнении выше угловая частота ω в радианах/отсчет задается как ω=2πf/2F s, где f является частотой сигнала в Гц и F s является частотой дискретизации в Гц. Следует отметить, что огибающие SE nbin и SE usnb спектра сигнала являются различными, поскольку первая выводится из узкополосного входного речевого сигнала, а последняя - из дискретизированного с повышением частоты узкополосного речевого сигнала. Однако в полосе пропускания 300-3400 Гц они приблизительно равны, согласно SE usnb (ω) ≈ SE nbin (2ω) в пределах константы. Хотя огибающая SE usnb спектра определяется по диапазону 0-8000 (F s) Гц, полезная часть лежит в пределах ширины полосы (в этом иллюстративном примере 300-3400 Гц).
В качестве одного иллюстративного примера, вычисление SE usnb выполняется с использованием FFT следующим образом. Во-первых, импульсная характеристика обратного фильтра B nb (z) вычисляется с подходящей длиной, например 1024, как {1, b 1, b 2, …, b Q, 0, 0, …, 0}. Затем берется FFT импульсной характеристики, и амплитудная огибающая спектра SE usnb получается посредством вычисления амплитуды инверсии по каждому индексу FFT. Для длины FFT в 1024 разрешение по частоте SE usnb, вычисленное, как описано выше, равно 16000/1024=15,625 Гц. Исходя из SE mnb, огибающая SE nb спектра узкополосного сигнала оценивается посредством простого извлечения амплитуды спектра сигнала из приблизительного диапазона 300-3400 Гц.
Специалистам в данной области техники должно быть ясно, что помимо LP анализа существуют другие способы получения огибающей спектра данного кадра речевого сигнала, например кепстральный анализ, кусочно-линейная аппроксимация или аппроксимация по кривой высшего порядка пиков амплитуды спектра и т.д.
Устройство 510 оценки спектра сигнала в верхней полосе принимает оценку энергии в верхней полосе в качестве ввода и выбирает форму огибающей спектра сигнала в верхней полосе, которая сообразна с оцененной энергией верхней полосы. Ниже описывается метод появления различных форм огибающей спектра сигнала в верхней полосе, соответствующих различным энергиям верхней полосы.
Начиная с большой обучающей базы данных широкополосного речевого сигнала, дискретизированной на 16 кГц, амплитудная огибающая спектра широкополосного сигнала вычисляется для каждого кадра речевого сигнала с использованием стандартного LP анализа или других методов. Исходя из огибающей спектра широкополосного сигнала для каждого кадра, часть верхней полосы, соответствующая 3400-8000 Гц, извлекается и нормализуется посредством деления на амплитуду спектра при 3400 Гц. Таким образом, получающиеся огибающие спектра сигнала в верхней полосе имеют амплитуду в 0 дБ при 3400 Гц.
Затем вычисляется энергия в верхней полосе, соответствующая каждой нормализованной огибающей в верхней полосе. Объединенный набор огибающих спектра сигнала в верхней полосе затем разбивается на части на основании энергии в верхней полосе, например выбирается последовательность номинальных значений энергии, отличающихся 1 дБ, для охвата всего диапазона и все огибающие с энергией в пределах 0,5 дБ номинального значения группируются вместе.
Для каждой группы, сформированной таким образом, вычисляется средняя форма огибающей спектра сигнала в верхней полосе и впоследствии соответствующая энергия в верхней полосе. На Фиг.6 показан набор из 60 форм 600 огибающей спектра сигнала в верхней полосе (с амплитудой в дБ по отношению к частоте в Гц) на различных уровнях энергии. Отсчитывая снизу, 1-я, 10-я, 20-я, 30-я, 40-я, 50-я и 60-я формы (упомянутые здесь как заранее вычисленные формы) были получены с использованием метода, подобного описанному выше. Оставшиеся 53 формы были получены посредством простой линейной интерполяции (в области дБ) между самыми близкими предварительно вычисленными формами.
Энергии этих форм ранжируются от около 4,5 дБ для 1-й формы до около 43,5 дБ для 60-й формы. Учитывая энергию в верхней полосе для кадра, несложно осуществить выбор самой близкой согласующейся формы огибающей спектра сигнала в верхней полосе, как будет описано позже в данном документе. Выбранная форма представляет оцененную огибающую SE hb спектра сигнала в верхней полосе, с точностью до константы. На Фиг.6 средняя разрешающая способность по энергии составляет приблизительно 0,65 дБ. Очевидно, лучшая разрешающая способность достижима посредством увеличения числа форм. С учетом форм на Фиг.6, выбор формы для конкретной энергии является индивидуальным. Также можно представить ситуацию, когда имеется больше чем одна форма для данной энергии, например 4 формы для каждого уровня энергии, и в этом случае необходима дополнительная информация, чтобы выбрать одну из 4 форм для каждого данного уровня энергии. Кроме того, могут иметься множественные наборы форм, при этом каждый набор индексируется энергией верхней полосы, например два набора форм, выбираемых по параметру v голоса, один для вокализованных кадров и другой для невокализованных кадров. Для смешанно-вокализованного кадра могут быть соответствующим образом объединены две формы, выбранные из двух наборов.
Способ оценки спектра сигнала в верхней полосе, описанный выше, обеспечивает некоторые явные преимущества. Например, этот подход предлагает точное управление относительно временной эволюции оценок спектра сигнала в верхней полосе. Эволюция сглаживания оценок спектра сигнала в верхней полосе в пределах отличающихся речевых сегментов, например вокализованной речи, невокализованной речи и т.д., часто является важным моментом для речевого сигнала расширенной ширины полосы без артефактов. Для способа оценки спектра сигнала в верхней полосе, описанного выше, со ссылкой на Фиг.6, наглядно видно, что наибольшие изменения в энергии в верхней полосе приводят к небольшим изменениям формы огибающей спектра сигнала в верхней полосе. Таким образом, эволюция сглаживания спектра сигнала в верхней полосе по существу может быть гарантирована посредством обеспечения того, что временная эволюция энергии в верхней полосе в пределах отличающихся речевых сегментов также является сглаженной. Более точно, это достигается посредством сглаживания траектории энергии, как это описывалось ранее.
Следует отметить, что отличающиеся речевые сегменты, в пределах которых выполняется сглаживание энергии, могут быть идентифицированы с еще более высокой разрешающей способностью, например, посредством отслеживания изменения в спектре узкополосного речевого сигнала или спектре дискретизированного с повышением частоты узкополосного речевого сигнала, от кадра к кадру, используя любую из хорошо известных мер спектрального расстояния, таких как логарифмическое искажение спектра или основанное на LP искажение Итакуры (Itakura). Используя этот подход, отличающийся речевой сегмент может быть определен как последовательность кадров, в пределах которой спектр развивается медленно и которая разграничивается на каждой стороне кадром, в котором вычисленное изменение спектра превышает установленный или адаптивный порог, тем самым указывая на присутствие спектрального перехода с каждой стороны отличающегося речевого сегмента. Сглаживание траектории энергии может быть затем выполнено в пределах отличающегося речевого сегмента, но не через границы этого сегмента.
Здесь эволюция сглаживания траектории энергии в верхней полосе преобразуется в эволюцию сглаживания оцененной огибающей спектра сигнала в верхней полосе, которая является желаемой характеристикой в пределах отличающегося речевого сегмента. Также следует отметить, что этот подход к обеспечению эволюции сглаживания верхней полосы в пределах отличающегося речевого сегмента может также быть применен как этап постобработки для последовательности оцененных огибающих спектра сигнала в верхней полосе, полученных посредством известных из уровня техники способов. Однако в этом случае огибающие спектра сигнала в верхней полосе, возможно, должны быть явно сглажены в пределах отличающегося речевого сегмента, в отличие от прямого сглаживания траектории энергии согласно настоящему раскрытию, которое автоматически приводит к эволюции сглаживания огибающей спектра верхней полосы.
Потеря информации узкополосного речевого сигнала в нижней полосе (которая в этом иллюстративном примере может быть от 0-300 Гц) происходит не из-за ограничения ширины полосы, наложенного частотой дискретизации, как в случае верхней полосы, но обуславливается ограничивающим полосу эффектом передаточной функции канала, состоящего из, например, микрофона, усилителя, речевого кодера, канала передачи и т.д.
Прямой подход для восстановления сигнала низкой полосы должен, следовательно, противодействовать эффекту этой передаточной функции канала в пределах диапазона от 0 до 300 Гц. Простым способом для осуществления этого является применение устройства 511 оценки спектра низкополосного сигнала для оценки передаточной функции канала в частотном диапазоне от 0 до 300 Гц, исходя из доступных данных, получение ее инверсии и использование инверсии для повышения огибающей спектра дискретизированного с повышением частоты узкополосного речевого сигнала. То есть огибающая SE mb спектра низкополосного сигнала оценивается как сумма SE usnb и характеристики SE boost повышения огибающей спектра, рассчитанной исходя из инверсии передаточной функции канала (предполагается, что амплитуды огибающей спектра сигнала выражены в логарифмической области, например, в дБ). Для многих прикладных установок следует обращать внимание на расчет SE boost. Поскольку восстановление сигнала низкой полосы по сути основано на увеличении сигнала низкого уровня, это влечет за собой опасность увеличения ошибок, шума и искажения, типично связанных с сигналами низкого уровня. В зависимости от качества сигнала низкого уровня максимальное значение повышения должно быть ограничено соответственно. Кроме того, в пределах частотного диапазона от 0 до приблизительно 60 Гц, необходимо рассчитывать SE boost с низким (или даже отрицательным, то есть затухающим) значением, чтобы избежать усиления электрических сетевых помех и фонового шума.
Устройство 512 оценки спектра широкополосного сигнала может затем оценить огибающую спектра широкополосного сигнала посредством объединения оцененных огибающих спектра в узкой полосе, верхней полосе и низкой полосе. Одним способом объединения этих трех огибающих для оценки огибающей спектра широкополосного сигнала является следующее.
Огибающая SE nb спектра узкополосного сигнала оценивается исходя из s' nb, как описано выше, и ее значения в пределах диапазона от 400 до 3200 Гц используются без какого-либо изменения при оценке SE wb огибающей спектра широкополосного сигнала. Чтобы выбрать соответствующую форму верхней полосы, необходимы энергия в верхней полосе и начальное значение амплитуды при 3400 Гц. Энергия E hb верхней полосы в дБ оценивается, как описано ранее. Начальное значение амплитуды на 3400 Гц оценивается посредством моделирования FFT амплитудного спектра s' nb в дБ в пределах переходной полосы, то есть 2500-3400 Гц, посредством прямой линии через линейную регрессию и нахождения значения прямой линии при 3400 Гц. Допустим, это значение амплитуды обозначено посредством M 3400 в дБ. Тогда форма огибающей спектра сигнала в верхней полосе выбирается как одна из многих значений, например, как показано на Фиг.6, которая имеет значение энергии, самое близкое к E hb-M 3400. Предположим, что данная форма обозначена посредством SE closest. Тогда оценка SE hb огибающей спектра сигнала в верхней полосе и, следовательно, огибающая SE wb спектра широкополосного сигнала в пределах диапазона от 3400 до 8000 Гц оцениваются как SE closest + M 3400.
Между 3200 и 3400 Гц SE wb оценивается как линейно интерполированное значение в дБ между SE nb и прямой линией, соединяющей SE nb на 3200 Гц и M 3400 на 3400 Гц. Сам коэффициент интерполяции изменяется линейно таким образом, чтобы оцененная SE wb постепенно перемещалась от SE nb на 3200 Гц к M 3400 на 3400 Гц. Между 0 и 400 Гц огибающая SE lb спектра низкополосного сигнала и огибающая SE wb спектра широкополосного сигнала оцениваются как SE nb+SE boost, где SE boost представляет соответствующим образом рассчитанную характеристику повышения, исходя из инверсии передаточной функции канала, как описано выше.
Как упомянуто ранее, кадры, содержащие точки приступа и/или взрывного звука, могут извлечь выгоду из специальной обработки, чтобы избежать случайных артефактов в широкополосном расширенном речевом сигнале. Такие кадры могут быть идентифицированы внезапным увеличением их энергии относительно предыдущих кадров. Выход d детектора 503 приступа/взрывного звука для кадра устанавливается в 1 всякий раз, когда энергия предыдущего кадра является низкой, то есть ниже определенного порога, например - 50 дБ, и увеличение энергии текущего кадра относительно предыдущего кадра превышает другой порог, например 15 дБ. В ином случае выход d детектора устанавливается в 0. Энергия самого кадра вычисляется из энергии FFT амплитудного спектра дискретизированного с повышением частоты узкополосного речевого сигнала s' nb в пределах узкой полосы, то есть 300-3400 Гц. Как отмечено выше, выход d детектора 503 приступа/взрывного звука подается в устройство 502 оценки уровня голоса и адаптер 508 энергии. Как описано ранее, всякий раз, когда кадр помечен как содержащий приступ или взрывной звук с d=1, уровень v голоса того кадра, а также следующего кадра устанавливается в 1. Кроме того, адаптированное значение E hb энергии в верхней полосе этого кадра, а также следующего кадра устанавливается на нижнее значение.
Следует отметить, что в то время как параметры, такие как огибающая спектра, пересечения нулевого уровня, LP коэффициенты, энергии полосы и т.д., были описаны в приведенных конкретных примерах в некоторых случаях для узкополосного речевого сигнала и в других случаях для дискретизированного с повышением частоты узкополосного речевого сигнала, специалистам в данной области техники должно быть понятно, что оценка соответствующих параметров и их последующего использования и применения может быть модифицирована, чтобы выполняться для любого вида таких сигналов (узкополосного речевого сигнала или дискретизированного с повышением частоты узкополосного речевого сигнала), без отхода от сущности и объема описанного раскрытия изобретения.
Специалистам в данной области техники должно быть понятно, что большое разнообразие модификаций, изменений и комбинаций может быть выполнено относительно описанных выше вариантов осуществления изобретения, не отступая от сущности и объема изобретения, и что такие модификации, изменения и комбинации должны рассматриваться как находящиеся в пределах объема изобретения, выраженного в следующей формуле изобретения.

Claims (10)

1. Способ расширения ширины полосы аудиосигнала, содержащий этапы, на которых:
обеспечивают цифровой аудиосигнал, имеющий соответствующую ширину полосы сигнала;
обеспечивают значение энергии, которое соответствует, по меньшей мере, оценке энергии вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу;
используют значение энергии для одновременного определения:
формы огибающей спектра; и
соответствующей подходящей энергии для формы огибающей спектра;
для контента вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу.
2. Способ по п.1, в котором этап обеспечения цифрового аудиосигнала содержит обеспечение синтезированного голосового контента.
3. Способ по п.1, в котором этап обеспечения значения энергии содержит, по меньшей мере частично, оценку значения энергии в зависимости, по меньшей мере частично, от цифрового аудиосигнала.
4. Способ по п.1, в котором этап использования значения энергии содержит, по меньшей мере частично, использование значения энергии для доступа к таблице поиска, содержащей множество соответствующих возможных форм огибающей спектра.
5. Способ по п.1, в котором энергия вне ширины полосы сигнала содержит энергию, которая соответствует сигнальному контенту, который выше по частоте, чем соответствующая ширина полосы сигнала цифрового аудиосигнала.
6. Способ по п.1, в котором энергия вне ширины полосы сигнала содержит энергию, которая соответствует сигнальному контенту, который ниже по частоте, чем соответствующая ширина полосы сигнала цифрового аудиосигнала.
7. Способ по п.1, дополнительно содержащий этап, на котором
объединяют цифровой аудиосигнал с контентом вне ширины полосы сигнала, чтобы обеспечить расширенную по полосе пропускания версию цифрового аудиосигнала, подлежащего слышимому воспроизведению, чтобы, тем самым, повысить соответствующее аудиокачество цифрового аудиосигнала, воспроизводимого таким образом.
8. Способ по п.7, в котором контент вне ширины полосы сигнала дополнительно содержит часть контента, которая находится в пределах соответствующей ширины полосы сигнала.
9. Способ по п.8, в котором этап объединения цифрового аудиосигнала с контентом вне ширины полосы сигнала дополнительно содержит объединение части контента, которая находится в пределах соответствующей ширины полосы сигнала, с соответствующей внутриполосной частью цифрового аудиосигнала.
10. Устройство для расширения ширины полосы аудиосигнала, содержащее
вход, сконфигурированный и выполненный с возможностью приема цифрового аудиосигнала, имеющего соответствующую ширину полосы сигнала;
процессор, функционально соединенный с входом, сконфигурированный и выполненный с возможностью:
обеспечения значения энергии, которая соответствует, по меньшей мере, оценке энергии вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу;
использования значения энергии и набора индексированных по энергии форм, чтобы определить форму огибающей спектра для контента вне ширины полосы сигнала, которая соответствует цифровому аудиосигналу.
RU2010126497/08A 2007-11-29 2008-10-09 Способ и устройство для расширения ширины полосы аудиосигнала RU2447415C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/946,978 2007-11-29
US11/946,978 US8688441B2 (en) 2007-11-29 2007-11-29 Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content

Publications (2)

Publication Number Publication Date
RU2010126497A RU2010126497A (ru) 2012-01-10
RU2447415C2 true RU2447415C2 (ru) 2012-04-10

Family

ID=40149754

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010126497/08A RU2447415C2 (ru) 2007-11-29 2008-10-09 Способ и устройство для расширения ширины полосы аудиосигнала

Country Status (8)

Country Link
US (1) US8688441B2 (ru)
EP (1) EP2232223B1 (ru)
KR (2) KR101482830B1 (ru)
CN (2) CN102646419B (ru)
BR (1) BRPI0820463B1 (ru)
MX (1) MX2010005679A (ru)
RU (1) RU2447415C2 (ru)
WO (1) WO2009070387A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2641224C2 (ru) * 2013-09-10 2018-01-16 Хуавэй Текнолоджиз Ко., Лтд. Адаптивное расширение полосы пропускания и устройство для этого

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688441B2 (en) 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8326641B2 (en) * 2008-03-20 2012-12-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8463603B2 (en) * 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
EP2502231B1 (en) * 2009-11-19 2014-06-04 Telefonaktiebolaget L M Ericsson (PUBL) Bandwidth extension of a low band audio signal
WO2011121782A1 (ja) * 2010-03-31 2011-10-06 富士通株式会社 帯域拡張装置および帯域拡張方法
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
MX2012001696A (es) 2010-06-09 2012-02-22 Panasonic Corp Metodo de extension de ancho de banda, aparato de extension de ancho de banda, programa, circuito integrado, y aparato de descodificacion de audio.
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
KR20120016709A (ko) * 2010-08-17 2012-02-27 삼성전자주식회사 휴대용 단말기에서 통화 품질을 향상시키기 위한 장치 및 방법
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US8583425B2 (en) * 2011-06-21 2013-11-12 Genband Us Llc Methods, systems, and computer readable media for fricatives and high frequencies detection
HUE028238T2 (en) * 2012-03-29 2016-12-28 ERICSSON TELEFON AB L M (publ) Extend the bandwidth of a harmonic audio signal
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
JP6593173B2 (ja) 2013-12-27 2019-10-23 ソニー株式会社 復号化装置および方法、並びにプログラム
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
EP3382703A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal
CN107863095A (zh) 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN108156575B (zh) 2017-12-26 2019-09-27 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN108156561B (zh) 2017-12-26 2020-08-04 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN109036457B (zh) * 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
CN112259117B (zh) * 2020-09-28 2024-05-14 上海声瀚信息科技有限公司 一种目标声源锁定和提取的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950153A (en) * 1996-10-24 1999-09-07 Sony Corporation Audio band width extending system and method
US5978759A (en) * 1995-03-13 1999-11-02 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding narrowband speech to wideband speech by codebook correspondence of linear mapping functions
EP1008984A2 (en) * 1998-12-11 2000-06-14 Sony Corporation Windband speech synthesis from a narrowband speech signal
WO2003044777A1 (en) * 2001-11-23 2003-05-30 Koninklijke Philips Electronics N.V. Audio signal bandwidth extension
EP1439524A1 (en) * 2002-07-19 2004-07-21 NEC Corporation Audio decoding device, decoding method, and program
RU2251795C2 (ru) * 2000-05-23 2005-05-10 Коудинг Текнолоджиз Аб Усовершенствованное преобразование спектра/свертка в области поддиапазонов
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771465A (en) 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
JPH02166198A (ja) 1988-12-20 1990-06-26 Asahi Glass Co Ltd ドライクリーニング用洗浄剤
US5765127A (en) 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5245589A (en) 1992-03-20 1993-09-14 Abel Jonathan S Method and apparatus for processing signals to extract narrow bandwidth features
JP2779886B2 (ja) 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5455888A (en) 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JPH07160299A (ja) 1993-12-06 1995-06-23 Hitachi Denshi Ltd 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式
JP3522954B2 (ja) 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US5794185A (en) 1996-06-14 1998-08-11 Motorola, Inc. Method and apparatus for speech coding using ensemble statistics
US5949878A (en) 1996-06-28 1999-09-07 Transcrypt International, Inc. Method and apparatus for providing voice privacy in electronic communication systems
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6453287B1 (en) 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP2000305599A (ja) 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US7330814B2 (en) 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
DE10041512B4 (de) 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
AU2001294974A1 (en) 2000-10-02 2002-04-15 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6990446B1 (en) 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US6889182B2 (en) 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
KR100830857B1 (ko) * 2001-01-19 2008-05-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 전송 시스템, 오디오 수신기, 전송 방법, 수신 방법 및 음성 디코더
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
JP3597808B2 (ja) 2001-09-28 2004-12-08 トヨタ自動車株式会社 無段変速機の滑り検出装置
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP3861770B2 (ja) 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR100917464B1 (ko) 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US20050004793A1 (en) 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US20050065784A1 (en) 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
US7461003B1 (en) 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
JP2005136647A (ja) 2003-10-30 2005-05-26 New Japan Radio Co Ltd 低音ブースト回路
KR100587953B1 (ko) 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
KR100708121B1 (ko) 2005-01-22 2007-04-16 삼성전자주식회사 음성 신호의 대역 확장 방법 및 장치
JP5129117B2 (ja) 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 音声信号の高帯域部分を符号化及び復号する方法及び装置
US20060224381A1 (en) 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
US8249861B2 (en) 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
WO2006116025A1 (en) 2005-04-22 2006-11-02 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
US8311840B2 (en) 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
KR101171098B1 (ko) 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
EP1772855B1 (en) 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal
US7953605B2 (en) 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US7490036B2 (en) 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US20070109977A1 (en) 2005-11-14 2007-05-17 Udar Mittal Method and apparatus for improving listener differentiation of talkers during a conference call
US7546237B2 (en) 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7835904B2 (en) 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US20080004866A1 (en) 2006-06-30 2008-01-03 Nokia Corporation Artificial Bandwidth Expansion Method For A Multichannel Signal
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
EP1892703B1 (en) 2006-08-22 2009-10-21 Harman Becker Automotive Systems GmbH Method and system for providing an acoustic signal with extended bandwidth
US8639500B2 (en) 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
US8229106B2 (en) * 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
US8688441B2 (en) 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8463412B2 (en) 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8463599B2 (en) 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978759A (en) * 1995-03-13 1999-11-02 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding narrowband speech to wideband speech by codebook correspondence of linear mapping functions
US5950153A (en) * 1996-10-24 1999-09-07 Sony Corporation Audio band width extending system and method
EP1008984A2 (en) * 1998-12-11 2000-06-14 Sony Corporation Windband speech synthesis from a narrowband speech signal
RU2251795C2 (ru) * 2000-05-23 2005-05-10 Коудинг Текнолоджиз Аб Усовершенствованное преобразование спектра/свертка в области поддиапазонов
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
WO2003044777A1 (en) * 2001-11-23 2003-05-30 Koninklijke Philips Electronics N.V. Audio signal bandwidth extension
EP1439524A1 (en) * 2002-07-19 2004-07-21 NEC Corporation Audio decoding device, decoding method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2641224C2 (ru) * 2013-09-10 2018-01-16 Хуавэй Текнолоджиз Ко., Лтд. Адаптивное расширение полосы пропускания и устройство для этого
US10249313B2 (en) 2013-09-10 2019-04-02 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same

Also Published As

Publication number Publication date
CN102646419A (zh) 2012-08-22
CN102646419B (zh) 2015-04-22
WO2009070387A1 (en) 2009-06-04
KR101482830B1 (ko) 2015-01-15
BRPI0820463A8 (pt) 2015-11-03
CN101878416B (zh) 2012-06-06
US8688441B2 (en) 2014-04-01
BRPI0820463A2 (pt) 2015-06-16
US20090144062A1 (en) 2009-06-04
MX2010005679A (es) 2010-06-02
EP2232223B1 (en) 2016-06-15
CN101878416A (zh) 2010-11-03
RU2010126497A (ru) 2012-01-10
KR20100086018A (ko) 2010-07-29
KR20120055746A (ko) 2012-05-31
EP2232223A1 (en) 2010-09-29
BRPI0820463B1 (pt) 2019-03-06

Similar Documents

Publication Publication Date Title
RU2447415C2 (ru) Способ и устройство для расширения ширины полосы аудиосигнала
EP2238594B1 (en) Method and apparatus for estimating high-band energy in a bandwidth extension system
US8527283B2 (en) Method and apparatus for estimating high-band energy in a bandwidth extension system
EP2737479B1 (en) Adaptive voice intelligibility enhancement
EP2144232B1 (en) Apparatus and methods for enhancement of speech
EP1638083B1 (en) Bandwidth extension of bandlimited audio signals
KR101461774B1 (ko) 대역폭 확장기
US20030050786A1 (en) Method and apparatus for synthetic widening of the bandwidth of voice signals
CA3109028C (en) Optimized scale factor for frequency band extension in an audio frequency signal decoder
EP2394269A1 (en) Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder

Legal Events

Date Code Title Description
PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20141125

PC41 Official registration of the transfer of exclusive right

Effective date: 20180111