RU2633107C2 - Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных - Google Patents

Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных Download PDF

Info

Publication number
RU2633107C2
RU2633107C2 RU2015129782A RU2015129782A RU2633107C2 RU 2633107 C2 RU2633107 C2 RU 2633107C2 RU 2015129782 A RU2015129782 A RU 2015129782A RU 2015129782 A RU2015129782 A RU 2015129782A RU 2633107 C2 RU2633107 C2 RU 2633107C2
Authority
RU
Russia
Prior art keywords
signal
noise
decoder
bitstream
audio
Prior art date
Application number
RU2015129782A
Other languages
English (en)
Other versions
RU2015129782A (ru
Inventor
Гийом ФУКС
Антони ЛОМБАРД
Эммануэль РАВЕЛЛИ
Штефан ДЕЛА
Жереми ЛЕКОНТ
Мартин ДИТЦ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2015129782A publication Critical patent/RU2015129782A/ru
Application granted granted Critical
Publication of RU2633107C2 publication Critical patent/RU2633107C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Abstract

Изобретение относится к средствам для моделирования фонового шума при низких скоростях передачи данных. Технический результат заключается в повышении естественности звучания кодированного аудиосигнала. Декодер выполнен с возможностью обработки закодированного звукового битового потока. Декодер содержит: декодер битового потока, выполненный с возможностью извлечения декодированного звукового сигнала из битового потока, причем декодированный звуковой сигнал содержит по меньшей мере один декодированный кадр; устройство оценки шума, выполненное с возможностью формирования сигнала оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале; устройство генерирования комфортного шума, выполненное с возможностью извлечения сигнала комфортного шума из сигнала оценки шума; и объединитель, выполненный с возможностью объединения декодированного кадра декодированного звукового сигнала и сигнала комфортного шума, чтобы получить звуковой выходной сигнал. 7 н. и 19 з.п. ф-лы, 6 ил.

Description

Изобретение относится к обработке звуковых сигналов и, в частности, к кодированию шумной речи и добавлению комфортного шума к звуковым сигналам.
Генераторы комфортного шума обычно используются в прерывистой передаче (DTX) звуковых сигналов, в частности, звуковых сигналов, содержащих речь. В таком режиме звуковой сигнал сначала классифицируется на активные и неактивные кадры посредством детектора речевой активности (VAD). Пример VAD может быть найден в [1]. На основе результата VAD только активные речевые кадры кодируются и передаются на номинальной скорости передачи данных. Во время длительных пауз, когда присутствует только фоновый шум, скорость передачи данных снижается или обнуляется, и фоновый шум кодируется эпизодически и параметрически. Средняя скорость передачи данных, следовательно, значительно уменьшается. Шум генерируется во время неактивных кадров на стороне декодера посредством генератора комфортного шума (CNG). Например, речевые кодеры AMR-WB [2] и ITU G.718 [1] имеют возможность быть запущенными оба в режиме DTX.
Кодирование речи и особенно шумной речи на низких скоростях передачи данных подвержено артефактам. Речевые кодеры обычно основаны на модели производства речи, которая больше не держит в присутствии фонового шума. В этом случае кодирование эффективно падает, и качество декодированного звукового сигнала уменьшается. Кроме того, определенные характеристики речевого кодирования могут быть особенно возмущающими при обработке шумной речи. Действительно, при низких скоростях грубое квантование параметров кодирования производит некоторые колебания с течением времени, при этом колебания с точки зрения чувственного восприятия являются раздражающим при кодировании речи по стационарному фоновому шуму.
Шумоподавление представляет собой хорошо известный метод для повышения разборчивости речи и улучшения связи при наличии фонового шума. Оно также было принято в кодировании речи. Например, кодер G.718 использует шумоподавление для выведения некоторых параметров кодирования, таких как высота тона речи. Он также имеет возможность кодировать расширенный сигнал вместо исходного сигнала. Речь в таком случае является более преобладающей по сравнению с уровнем шума в декодированном сигнале. Однако она обычно звучит ухудшенной или менее естественной, поскольку шумоподавление может исказить компоненты речи и вызвать слышимые музыкальные шумовые артефакты в дополнение к артефактам кодирования.
Цель настоящего изобретения состоит в том, чтобы предоставить улучшенные принципы для обработки звуковых сигналов. Цель настоящего изобретения достигается посредством декодера по п. 1 формулы изобретения, посредством кодера по п. 18 формулы изобретения, посредством системы по п. 19 формулы изобретения, посредством способа по п. 20 или 21 формулы изобретения, посредством битового потока по п. 22 формулы изобретения и посредством компьютерной программы по п. 15 формулы изобретения.
В одном из аспектов изобретение предоставляет декодер, выполненный с возможностью обработки закодированного звукового битового потока, где декодер содержит:
декодер битового потока, выполненный с возможностью извлечения декодированного звукового сигнала из битового потока, где декодированный звуковой сигнал содержит по меньшей мере один декодированный кадр;
устройство оценки шума, выполненное с возможностью формирования сигнала оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале;
устройство генерирования комфортного шума, выполненное с возможностью извлечения сигнала комфортного шума из сигнала оценки шума; и
объединитель, выполненный с возможностью объединения декодированного кадра декодированного звукового сигнала и сигнала комфортного шума, чтобы получить выходной звуковой сигнал.
Декодер битового потока может быть устройством или компьютерной программой, способной декодировать звуковой битовый поток, который представляет собой поток цифровых данных, содержащих звуковую информацию. Процесс декодирования имеет результатом цифровой декодированный звуковой сигнал, который может быть подан в A/D (аналого-цифровой) преобразователь для формирования аналогового звукового сигнала, который затем может быть подан в громкоговоритель, чтобы сформировать слышимый сигнал.
Декодированный звуковой сигнал разделен на так называемые кадры, где каждый из этих кадров содержит звуковую информацию, относящуюся к определенному временному интервалу. Такие кадры могут быть классифицированы на активные и неактивные кадры, где активный кадр представляет собой кадр, который содержит требуемые компоненты звуковой информации, такие как речь или музыка, тогда как неактивный кадр представляет собой кадр, который не содержит каких-либо требуемых компонентов звуковой информации. Неактивные кадры обычно возникают во время пауз, когда не присутствуют требуемые компоненты, такие как музыка или речь. Следовательно, неактивные кадры обычно содержат исключительно фоновый шум.
В прерывистой передаче (DTX) звукового сигнала только активные кадры декодированного звукового сигнала получаются посредством декодирования битового потока, поскольку во время неактивных кадров кодер не передает звуковой сигнал в битовом потоке.
В не-прерывистой передаче (не-DTX) звукового сигнала активные кадры, так же как и неактивные кадры, получаются посредством декодирования битового потока.
Кадры, которые получены путем декодирования битового потока посредством декодера битового потока, называются декодированными кадрами.
Устройство оценки шума выполнено с возможностью формирования сигнала оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале. Кроме того, устройство генерирования комфортного шума выполнено с возможностью извлечения сигнала комфортного шума из сигнала оценки шума. Сигнал оценки шума может быть сигналом, который содержит информацию, касающуюся характеристик шума, содержащегося в декодированном звуковом сигнале в параметрической форме. Сигнал комфортного шума представляет собой искусственный звуковой сигнал, который соответствует шуму, содержащемуся в декодированном звуковом сигнале. Эти отличительные признаки позволяют комфортному шуму звучать подобно фактическому фоновому шуму, не требуя какой-либо дополнительной информации, касающейся фонового шума в битовом потоке.
Объединитель выполнен с возможностью объединения декодированного кадра декодированного звукового сигнала и сигнала комфортного шума, чтобы получить выходной звуковой сигнал. В результате звуковой выходной сигнал содержит декодированные кадры, которые содержат искусственный шум. Искусственный шум в декодированных кадрах позволяет маскировать артефакты в звуковом выходном сигнале, особенно когда битовый поток передается на малых скоростях передачи данных. Он сглаживает обычно наблюдаемые колебания и тем временем маскирует преобладающие артефакты кодирования.
В отличие от предшествующего уровня техники, настоящее изобретение применяет принцип добавления искусственного комфортного шума к декодированным кадрам. Изобретательский замысел может быть применен как к режимам DTX, так и не-DTX.
Изобретение предоставляет способ для повышения качества шумной речи, закодированной и переданной на низких скоростях передачи данных. На низких скоростях передачи данных кодирование шумной речи, т.е., речи, записанной с фоновым шумом, обычно не является таким эффективным, как кодирование чистой речи. Декодированный синтез обычно подвержен артефактам. Два различных вида источников, шум и речь, не могут быть эффективно закодированы посредством схемы кодирования, опирающейся на модель с одним источником. Настоящее изобретение предоставляет принцип для моделирования и синтеза фонового шума на стороне декодера и требует очень мало или вовсе не требует дополнительной информации. Это достигается путем оценки уровня и спектральной формы фонового шума на стороне декодера и путем искусственного генерирования комфортного шума. Сгенерированный шум объединяется с декодированным звуковым сигналом и позволяет маскировать артефакты кодирования.
Кроме того, принцип может быть объединен со схемой шумоподавления, примененной на стороне кодера. Шумоподавление повышает уровень отношения сигнал-шум (SNR) и повышает производительностью последующего звукового кодирования. Недостающее количество шума в декодированном звуковом сигнале затем компенсируется комфортным шумом на стороне декодера. Однако, он обычно звучит ухудшенным или менее естественным, поскольку шумоподавление может исказить звуковые компоненты и вызвать слышимые музыкальные шумовые артефакты в дополнение к артефактам кодирования. Один из аспектов настоящего изобретения состоит в том, чтобы замаскировать такие неприятные искажения путем добавления комфортного шума на стороне декодера. При использовании схемы шумоподавления добавление комфортного шума не ухудшает SNR. Кроме того, комфортный шум скрывает большую часть раздражающего музыкального шума, типичного для методов шумоподавления.
В предпочтительном варианте осуществления изобретения декодированный кадр представляет собой активный кадр. Этот отличительный признак распространяет принцип добавления комфортного шума на декодированные активные кадры.
В предпочтительном варианте осуществления изобретения декодированный кадр представляет собой активный кадр. Этот отличительный признак распространяет принцип добавления комфортного шума на декодированные неактивные кадры.
В предпочтительном варианте осуществления изобретения устройство оценки шума содержит устройство спектрального анализа, выполненное с возможностью создания сигнала анализа, содержащего уровень и спектральную форму шума в декодированном звуковом сигнале, и устройство формирования оценки шума, выполненное с возможностью формирования сигнала оценки шума на основе сигнала анализа.
В предпочтительном варианте осуществления изобретения устройство генерирования комфортного шума содержит генератор шума, выполненный с возможностью создания сигнала комфортного шума частотной области на основе сигнала оценки шума, и спектральный синтезатор, выполненный с возможностью создания сигнала комфортного шума на основе сигнала комфортного шума частотной области.
В предпочтительном варианте осуществления изобретения декодер содержит переключающее устройство, выполненное с возможностью переключения декодера альтернативно в первый режим работы или второй режим работы, где в первом режиме работы сигнал комфортного шума подается в объединитель, тогда как сигнал комфортного шума не подается в объединитель во втором режиме работы. Эти отличительные признаки позволяют прекратить использование искусственного комфортного шума в ситуациях, когда он не нужен.
В предпочтительном варианте осуществления изобретения декодер содержит управляющее устройство, выполненное с возможностью управления переключающим устройством автоматически, где управляющее устройство содержит детектор шума, выполненный с возможностью управления переключающим устройством в зависимости от соотношения сигнал-шум декодированного звукового сигнала, где в условиях низкого соотношения сигнал-шум декодер переключается в первый режим работы, а в условиях высокого соотношения сигнал-шум - во второй режим работы. Посредством этих отличительных признаков комфортный шум может быть вызван только в сценариях шумной речи, т.е. не в ситуациях чистой речи или чистой музыки. В целях различения между условиями низкого соотношения сигнал-шум и условиями высокого соотношения сигнал-шум порог для соотношения сигнал-шум может быть определен и использован.
В предпочтительном варианте осуществления управляющее устройство содержит приемник дополнительной информации, выполненный с возможностью приема дополнительной информации, содержащейся в битовом потоке, которая соответствует соотношению сигнал-шум декодированного звукового сигнала, и выполненный с возможностью создания сигнала обнаружения шума, где детектор шума управляет переключающим устройством в зависимости от сигнала обнаружения шума. Эти отличительные признаки позволяют управлять переключающим устройством на основе анализа сигнала, выполненного внешним устройством, формирующим и/или обрабатывающим принятый битовый поток. Внешнее устройство в особенности может быть кодером, формирующим битовый поток.
В предпочтительном варианте осуществления изобретения дополнительная информация, соответствующая соотношению сигнал-шум декодированного звукового сигнала, состоит из по меньшей мере одного выделенного бита в битовом потоке. Выделенный бит в целом представляет собой бит, который содержит, один или вместе с другими выделенными битами, определенную информацию. Здесь выделенный бит может указывать, находится ли соотношение сигнал-шум выше или ниже предопределенного порога.
В предпочтительном варианте осуществления изобретения управляющее устройство содержит устройство оценки энергии требуемого сигнала, выполненное с возможностью определения энергии требуемого сигнала декодированного звукового сигнала, устройство оценки энергии шума, выполненное с возможностью определения энергии шума декодированного звукового сигнала, и устройство оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум декодированного звукового сигнала на основе энергии требуемого сигнала и на основе энергии шума, где переключающее устройство переключается в зависимости от соотношения сигнал-шум, определенного управляющим устройством. В этом случае нет необходимости в дополнительной информации в битовом потоке. Поскольку энергия требуемого сигнала обычно превышает энергию шума декодированного сигнала, общая энергия декодированного звукового сигнала, включая энергию требуемого сигнала, а также энергию шума, дает грубую оценку энергии требуемого сигнала декодированного звукового сигнала. По этой причине соотношение сигнал-шум может быть вычислено в приближении путем деления общей энергии декодированного звукового сигнала на энергию шума декодированного сигнала.
В предпочтительном варианте осуществления изобретения битовый поток содержит активные кадры и неактивные кадры, где управляющее устройство выполнено с возможностью определения энергии требуемого сигнала декодированного звукового сигнала во время активных кадров и определения энергии шума декодированного звукового сигнала во время неактивных кадров. Посредством этого высокая точность в оценке соотношения сигнал-шум может быть достигнута простым способом.
В предпочтительном варианте осуществления изобретения битовый поток содержит активные кадры и неактивные кадры, где декодер содержит приемник дополнительной информации, выполненный с возможностью различения между активными кадрами и неактивными кадрами на основе дополнительной информации в битовом потоке, указывающей, является ли текущий кадр активным или неактивным. Посредством этого отличительного признака активные кадры или неактивные кадры соответственно могут быть идентифицированы без усилий расчета.
В предпочтительном варианте осуществления изобретения дополнительная информация, указывающая, является ли текущий кадр активным или неактивным, состоит из по меньшей мере одного выделенного бита в битовом потоке.
В предпочтительном варианте осуществления изобретения управляющее устройство выполнено с возможностью определения энергии требуемого сигнала декодированного звукового сигнала на основе сигнала анализа. В этом случае сигнал анализа, который обычно должен быть вычислен в целях оценки шума, может быть использован повторно, так что сложность может быть уменьшена.
В предпочтительном варианте осуществления изобретения управляющее устройство выполнено с возможностью определения энергии шума декодированного звукового сигнала на основе сигнала оценки шума. В таком варианте осуществления сигнал оценки шума, который обычно должен быть вычислен в целях генерирования комфортного шума, может быть использован повторно, так что сложность может быть дополнительно уменьшена.
В предпочтительном варианте осуществления изобретения устройство генерирования комфортного шума выполнено с возможностью создания сигнала комфортного шума на основе сигнала целевого уровня комфортного шума. Уровень добавленного комфортного шума должен быть ограничен, чтобы сохранить разборчивость и качество. Это может быть достигнуто путем масштабирования комфортного шума с использованием целевого сигнала шума, который указывает предопределенный целевой уровень шума.
В предпочтительном варианте осуществления изобретения сигнал целевого уровня комфортного шума регулируется в зависимости от скорости передачи данных битового потока. Обычно декодированный звуковой сигнал показывает более высокое соотношение сигнал-шум, чем исходный входной сигнал, особенно на низких скоростях передачи данных, где артефакты кодирования являются наиболее серьезными. Это ослабление уровня шума в кодировании речи исходит из парадигмы модели источника, которая ожидает речь в качестве входа. В противном случае кодирование исходной модели не является полностью подходящим и не будет способно воспроизвести всю энергию не-речевых компонентов. Следовательно, сигнал целевого уровня комфортного шума может быть отрегулирован в зависимости от скорости передачи данных, чтобы примерно компенсировать ослабление шума, по своей сути, введенное процессом кодирования.
В предпочтительном варианте осуществления изобретения сигнал целевого уровня комфортного шума регулируется в зависимости от уровня ослабления шума, вызванного способом шумоподавления, примененным к битовому потоку. Посредством этих отличительных признаков ослабление шума, вызванное модулем шумоподавления в кодере, может быть компенсировано.
В предпочтительном варианте осуществления энергия сигнала комфортного шума частотной области случайного шума w(k) регулируется в зависимости от сигнала целевого уровня комфортного шума, который указывает целевой уровень gtar комфортного шума для каждой частоты k как
Figure 00000001
, где
Figure 00000002
относится к оценке энергии шума декодированного звукового сигнала на частоте k, как доставлено устройством формирования оценки шума. Посредством этих отличительных признаков разборчивость и качество выходного сигнала могут быть повышены.
В предпочтительном варианте осуществления изобретения декодер содержит дополнительный декодер битового потока, где декодер битового потока и дополнительный декодер битового потока являются декодерами различных типов, при этом декодер содержит переключатель, выполненный с возможностью подачи либо декодированного сигнала из декодера битового потока, либо декодированного сигнала из дополнительного декодера битового потока в устройство оценки шума и в объединитель. Поскольку добавление комфортного шума выполняется при использовании декодера битового потока, а также при использовании дополнительного декодера битового потока, переходные артефакты при переключении между декодером битового потока и дополнительным декодером битового потока могут быть минимизированы. Например, декодер битового потока может быть декодером битового потока линейного предсказания с возбуждением алгебраическим кодом (ACELP), тогда как дополнительный декодер битового потока может быть декодером битового потока основанного на преобразовании ядра (TCX).
Изобретение дополнительно предоставляет обрабатывающий звуковой сигнал кодер, выполненный с возможностью формирования звукового битового потока, где кодер содержит:
кодер битового потока, выполненный с возможностью формирования закодированного звукового сигнала, соответствующего звуковому входному сигналу, и извлечения битового потока из закодированного звукового сигнала;
анализатор сигнала, имеющий устройство оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум звукового входного сигнала на основе энергии требуемого сигнала звукового сигнала, определенной устройством оценки энергии требуемого сигнала, и на основе энергии шума звукового входного сигнала, определенной устройством оценки энергии шума;
устройство шумоподавления, выполненное с возможностью формирования звукового сигнала с уменьшенным шумом; и
переключающее устройство, выполненное с возможностью подачи, в зависимости от определенного соотношения сигнал-шум звукового входного сигнала, либо звукового входного сигнала, либо звукового сигнала с уменьшенным шумом в кодер битового потока с целью кодирования соответствующего сигнала, где кодер битового потока выполнен с возможностью передачи дополнительной информации, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным шумом, в битовом потоке.
Кодер битового потока может быть устройством или компьютерной программой, способной кодировать звуковой сигнал, который представляет собой сигнал цифровых данных, содержащих звуковую информацию. Процесс кодирования имеет результатом цифровой битовый поток, который может быть передан по цифровой линии передачи данных в удаленное местоположение.
Звуковой входной сигнал непосредственно кодируется кодером битового потока. Кодер битового потока может быть речевым кодером или схемой с малой задержкой, переключающейся между речевым кодером ACELP и основанным на преобразовании звуковым кодером TCX. Кодер битового потока является ответственным за кодирование звукового входного сигнала и генерирование битового потока, необходимого для декодирования звукового сигнала. Параллельно входной сигнал анализируется любым модулем, называемым анализатором сигнала. В предпочтительном варианте осуществления анализ сигнала является тем же, что и используемый в G.718. Он состоит из устройства спектрального анализа, за которым следует устройство формирования оценки шума. Спектры как исходного сигнала, так и оцененного шума представляют собой входные сигналы в модуль шумоподавления. Шумоподавление ослабляет уровень фонового шума в частотной области. Степень снижения задается целевым уровнем ослабления. Сигнал расширенной временной области (звуковой сигнал с уменьшенным шумом) генерируется после спектрального синтеза. Сигнал используется для выведения некоторых отличительных признаков, таких как стабильность основного тона, который затем используется VAD для различения между активными и неактивными кадрами. Результат классификации может быть дополнительно использован модулем кодера. В предпочтительном варианте осуществления определенный режим кодирования используется для обработки неактивных кадров. Таким образом декодер может вывести флаг VAD из битового потока без требования выделенного бита.
Чтобы избежать ненужных искажений в бесшумных ситуациях (чистая речь или чистая музыка), шумоподавление применяется только в случае шумной речи и игнорируется в противном случае. Различение между шумными и бесшумными сигналами достигается путем оценки долгосрочной энергии как шумного, так и желаемого сигнала (речи или музыки). Долгосрочная энергия вычисляется путем авто-регрессионной фильтрации первого порядка либо энергии входного кадра (во время активных кадров), либо с использованием выходного сигнала модуля оценки шума (во время неактивных кадров), таким образом может быть вычислена оценка соотношения сигнал-шум, которая определена как соотношение долгосрочной энергии речи или музыки по долгосрочной энергии шума. Если соотношение сигнал-шум ниже предопределенного порога, кадр считается шумной речью, в противном случае он классифицируется как чистая речь. Поскольку кодер битового потока выполнен с возможностью передачи в битовом потоке дополнительной информации, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным шумом, декодер может регулировать сигнал целевого уровня комфортного шума автоматически к режиму работы кодера.
В предпочтительном варианте осуществления изобретения во время активных кадров обновляется только долгосрочная оценка энергии речь/музыка. Во время неактивных кадров обновляется только оценка энергии шума.
Изобретение дополнительно предоставляет систему, содержащую звуковой сигнал, обрабатывающий декодер и обрабатывающий звуковой сигнал кодер, где декодер спроектирован в соответствии с заявленным изобретением и/или кодер спроектирован в соответствии с заявленным изобретением.
В другом аспекте изобретение предоставляет способ декодирования звукового битового потока, где способ состоит в том, что:
извлекают декодированный звуковой сигнал из битового потока, где декодированный звуковой сигнал содержит по меньшей мере один декодированный кадр;
формируют сигнал оценки шума, содержащий оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале;
извлекают сигнал комфортного шума из сигнала оценки шума; и
объединяют декодированный кадр декодированного звукового сигнала и сигнал комфортного шума, чтобы получить выходной звуковой сигнал.
Изобретение дополнительно предоставляет способ кодирования звукового сигнала для формирования звукового битового потока, где способ состоит в том, что:
определяют соотношение сигнал-шум звукового входного сигнала на основе определенной энергии требуемого сигнала звукового входного сигнала и определенной энергии шума звукового входного сигнала;
формируют звуковой сигнал с уменьшенным шумом;
формируют закодированный звуковой сигнал, соответствующий звуковому входному сигналу, где в зависимости от определенного соотношения сигнал-шум звукового входного сигнала кодируется либо звуковой входной сигнал, либо звуковой сигнал с уменьшенным шумом;
извлекают битовый поток из закодированного звукового сигнала; и
передают дополнительную информацию, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным шумом, в битовом потоке.
Изобретение дополнительно предоставляет битовый поток, сформированный в соответствии со способом выше. Заявленный битовый поток содержит дополнительную информацию, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным уровнем шума.
Дополнительный аспект изобретения предоставляет компьютерную программу для выполнения, при исполнении на компьютере или процессоре, изобретательных способов.
Предпочтительные варианты осуществления изобретения впоследствии обсуждаются со ссылкой на прилагаемые чертежи, на которых:
Фиг. 1 иллюстрирует первый вариант осуществления декодера в соответствии с изобретением;
Фиг. 2 иллюстрирует второй вариант осуществления декодера в соответствии с изобретением;
Фиг. 3 иллюстрирует кодер в соответствии с предшествующим уровнем техники;
Фиг. 4 иллюстрирует первый вариант осуществления кодера в соответствии с изобретением;
Фиг. 5 иллюстрирует второй вариант осуществления кодера в соответствии с изобретением; и
Фиг. 6 иллюстрирует вариант осуществления формата кадра битового потока в соответствии с изобретением.
Фиг. 1 иллюстрирует первый вариант осуществления декодера 1 в соответствии с изобретением. Декодер 1 выполнен с возможностью обработки закодированного звукового битового потока BS, где декодер 1 содержит:
декодер 2 битового потока, выполненный с возможностью извлечения декодированного звукового сигнала DS из битового потока BS, где декодированный звуковой сигнал DS содержит по меньшей мере один декодированный кадр;
устройство 3 оценки шума, выполненное с возможностью формирования сигнала NE оценки шума, содержащего оценку уровня и/или спектральной формы шума N в декодированном звуковом сигнале DS;
устройство 4 генерирования комфортного шума, выполненное с возможностью извлечения звукового сигнала комфортного шума CN из сигнала NE оценки шума; и
объединитель 5, выполненный с возможностью объединения декодированного кадра декодированного звукового сигнала DS и сигнала CN комфортного шума, чтобы получить звуковой выходной сигнал OS.
Декодер 2 битового потока может быть устройством или компьютерной программой, способной декодировать звуковой битовый поток BS, который представляет собой поток цифровых данных, содержащих звуковую информацию. Процесс декодирования имеет результатом цифровой декодированный звуковой сигнал DS, который может быть подан в A/D (аналого-цифровой) преобразователь для формирования аналогового звукового сигнала, который затем может быть подан в громкоговоритель, чтобы сформировать слышимый сигнал.
Декодированный звуковой сигнал DS содержит так называемые кадры, где каждый из этих кадров содержит звуковую информацию, относящуюся к определенному времени. Такие кадры могут быть классифицированы на активные и неактивные кадры, где активный кадр представляет собой кадр, который содержит требуемые компоненты WS звуковой информации, также называемые требуемым сигналом WS, такие как речь или музыка, тогда как неактивный кадр представляет собой кадр, который не содержит каких-либо требуемых компонентов звуковой информации. Неактивные кадры обычно возникают во время пауз, когда не присутствуют требуемые компоненты, такие как музыка или речь. Следовательно, неактивные кадры обычно содержат исключительно фоновый шум N.
Устройство 3 оценки шума выполнено с возможностью формирования сигнала NE оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале DS. Кроме того, устройство 4 генерирования комфортного шума выполнено с возможностью извлечения звукового сигнала CN комфортного шума из сигнала NE оценки шума. Сигнал NE оценки шума может быть сигналом, который содержит информацию, касающуюся характеристик шума N, содержащегося в декодированном звуковом сигнале DS в параметрической форме. Сигнал CN комфортного шума представляет собой искусственный звуковой сигнал, который соответствует шуму N, содержащемуся в декодированном звуковом сигнале DS. Эти отличительные признаки позволяют комфортному шуму CN звучать как фактический фоновый шум N, не требуя какой-либо дополнительной информации в битовом потоке BS, касающейся фонового шума N.
Объединитель 5 выполнен с возможностью объединения декодированного кадра декодированного звукового сигнала DS и сигнала CN комфортного шума, чтобы получить звуковой выходной сигнал OS. В результате звуковой выходной сигнал OS содержит декодированные кадры, которые содержат искусственный шум CN. Искусственный шум CN в декодированных кадрах позволяет маскировать артефакты в звуковом выходном сигнале OS, особенно когда битовый поток BS передается на малых скоростях передачи данных.
В отличие от предшествующего уровня техники, настоящее изобретение применяет принцип добавления искусственного комфортного шума CN к декодированным активным или неактивным кадрам. Изобретательский замысел может быть применен как к режимам DTX, так и не-DTX.
Изобретение предоставляет способ для повышения качества шумной речи, закодированной и переданной на низких скоростях передачи данных. На низких скоростях передачи данных кодирование шумной речи, т.е., речи, записанной с фоновым шумом N, обычно не является таким эффективным, как кодирование чистой речи WS. Декодированный синтез обычно подвержен артефактам. Два различных вида источников, шум N и речь WS, не могут быть эффективно закодированы посредством схемы кодирования, опирающейся на модель с одним источником. Настоящее изобретение предоставляет принцип для моделирования и синтеза фонового шума N на стороне декодера и требует очень мало или вовсе не требует дополнительной информации. Это достигается путем оценки уровня и спектральной формы фонового шума N на стороне декодера и путем искусственного генерирования комфортного шума CN. Сгенерированный шум CN объединяется с декодированным звуковым сигналом DS и позволяет маскировать артефакты во время декодированных кадров.
Кроме того, принцип может быть объединен со схемой шумоподавления, примененной на стороне кодера. Шумоподавление повышает уровень отношения сигнал-шум (SNR) и повышает производительностью последующего звукового кодирования. Недостающее количество шума N в декодированном звуковом сигнале DS затем компенсируется комфортным шумом CN на стороне декодера. Однако, он обычно звучит ухудшенным или менее естественным, поскольку шумоподавление может исказить звуковые компоненты и вызвать слышимые музыкальные шумовые артефакты в дополнение к артефактам кодирования. Один из аспектов настоящего изобретения состоит в том, чтобы замаскировать такие неприятные искажения путем добавления комфортного шума CN на стороне декодера. При использовании схемы шумоподавления добавление комфортного шума не ухудшает SNR. Кроме того, комфортный шум скрывает большую часть раздражающего музыкального шума, типичного для методов шумоподавления.
В предпочтительном варианте осуществления изобретения декодированный кадр представляет собой активный кадр. Этот отличительный признак распространяет принцип добавления комфортного шума на декодированные активные кадры.
В предпочтительном варианте осуществления изобретения декодированный кадр представляет собой активный кадр. Этот отличительный признак распространяет принцип добавления комфортного шума на декодированные неактивные кадры.
В предпочтительном варианте осуществления изобретения устройство 3 оценки шума содержит устройство 6 спектрального анализа, выполненное с возможностью создания сигнала AS анализа, содержащего уровень и спектральную форму шума в декодированном звуковом сигнале DS, и устройство 7 формирования оценки шума, выполненное с возможностью формирования сигнала NE оценки шума на основе сигнала AS анализа.
В предпочтительном варианте осуществления изобретения устройство 4 генерирования комфортного шума содержит генератор 8 шума, выполненный с возможностью создания сигнала FD комфортного шума частотной области на основе сигнала NE оценки шума, и спектральный синтезатор 9, выполненный с возможностью создания сигнала CN комфортного шума на основе сигнала FD комфортного шума частотной области.
В предпочтительном варианте осуществления изобретения декодер 1 содержит переключающее устройство 10, выполненное с возможностью переключения декодера 1 альтернативно в первый режим работы или второй режим работы, где в первом режиме работы сигнал CN комфортного шума подается в объединитель, тогда как сигнал CN комфортного шума не подается в объединитель 5 во втором режиме работы. Эти отличительные признаки позволяют прекратить использование искусственного комфортного шума CN в ситуациях, когда он не нужен.
В предпочтительном варианте осуществления изобретения декодер 1 содержит управляющее устройство 11, выполненное с возможностью управления переключающим устройством 10 автоматически, где управляющее устройство 10 содержит детектор 12 шума, выполненный с возможностью управления переключающим устройством 10 в зависимости от соотношения сигнал-шум декодированного звукового сигнала DS, где в условиях низкого соотношения сигнал-шум декодер переключается в первый режим работы, а в условиях высокого соотношения сигнал-шум - во второй режим работы. Посредством этих отличительных признаков использование комфортного шума CN может быть вызвано только в сценариях шумной речи, т.е. не в ситуациях чистой речи или чистой музыки. В целях различения между условиями низкого соотношения сигнал-шум и условиями высокого соотношения сигнал-шум порог для соотношения сигнал-шум может быть определен и использован.
В предпочтительном варианте осуществления управляющее устройство 11 содержит приемник 13 дополнительной информации, выполненный с возможностью приема дополнительной информации, содержащейся в битовом потоке BS, которая соответствует соотношению сигнал-шум декодированного звукового сигнала DS, и выполненный с возможностью создания сигнала ND обнаружения шума, где детектор 12 шума переключает переключающее устройство 11 в зависимости от сигнала ND обнаружения шума. Эти отличительные признаки позволяют управлять переключающим устройством 10 на основе анализа сигнала, выполненного внешним устройством, формирующим и/или обрабатывающим принятый битовый поток BS. Внешнее устройство в особенности может быть кодером, формирующим битовый поток BS.
В предпочтительном варианте осуществления изобретения дополнительная информация, соответствующая соотношению сигнал-шум декодированного звукового сигнала DS, состоит из по меньшей мере одного выделенного бита в битовом потоке BS. Выделенный бит в целом представляет собой бит, который содержит, один или вместе с другими выделенными битами, определенную информацию. Здесь выделенный бит может указывать, находится ли соотношение сигнал-шум выше или ниже предопределенного порога.
В предпочтительном варианте осуществления изобретения устройство 4 генерирования комфортного шума выполнено с возможностью создания сигнала CN комфортного шума на основе сигнала TNL целевого уровня комфортного шума. Уровень добавленного комфортного шума CN должен быть ограничен, чтобы сохранить разборчивость и качество. Это может быть достигнуто путем масштабирования комфортного шума CN с использованием целевого сигнала TNL шума, который указывает предопределенный целевой уровень шума.
В предпочтительном варианте осуществления изобретения сигнал TNL целевого уровня комфортного шума регулируется в зависимости от скорости передачи данных битового потока BS. Обычно декодированный звуковой сигнал DS показывает более высокое соотношение сигнал-шум, чем исходный входной сигнал, особенно на низких скоростях передачи данных, где артефакты кодирования являются наиболее серьезными. Это ослабление уровня шума в кодировании речи исходит из парадигмы модели источника, которая ожидает речь в качестве входа. В противном случае кодирование исходной модели не является полностью подходящим и не будет способно воспроизвести всю энергию не-речевых компонентов. Следовательно, сигнал TNL целевого уровня комфортного шума может быть отрегулирован в зависимости от скорости передачи данных, чтобы примерно компенсировать ослабление шума, по своей сути, введенное процессом кодирования.
В предпочтительном варианте осуществления изобретения сигнал TNL целевого уровня комфортного шума регулируется в зависимости от уровня ослабления шума, вызванного способом шумоподавления, примененным к битовому потоку BS. Посредством этих отличительных признаков ослабление шума, вызванное модулем шумоподавления в кодере, может быть компенсировано.
В предпочтительном варианте осуществления энергия сигнала FD комфортного шума частотной области случайного шума w(k) регулируется в зависимости от сигнала TNL целевого уровня комфортного шума, который указывает целевой уровень gtar комфортного шума для каждой частоты k как
Figure 00000001
, где
Figure 00000003
относится к оценке энергии шума N декодированного звукового сигнала DS на частоте k, как доставлено устройством 7 формирования оценки шума. Посредством этих отличительных признаков разборчивость и качество выходного сигнала OS могут быть повышены.
Фиг. 2 иллюстрирует второй вариант осуществления декодера 1 в соответствии с изобретением. Второй вариант осуществления декодера 1 основан на декодере 1 первого варианта осуществления. Далее обсуждены и объяснены только различия с первым вариантом осуществления.
В предпочтительном варианте осуществления изобретения управляющее устройство содержит устройство 14 оценки энергии требуемого сигнала, выполненное с возможностью определения энергии требуемого сигнала WS декодированного звукового сигнала DS, устройство 15 оценки энергии шума, выполненное с возможностью определения энергии шума N декодированного звукового сигнала DS, и устройство 16 оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум декодированного звукового сигнала DS на основе энергии требуемого сигнала WS и на основе энергии шума N, где переключающее устройство 10 переключается в зависимости от соотношения сигнал-шум, определенного управляющим устройством 11. В этом случае нет необходимости в дополнительной информации в битовом потоке, касающейся соотношения сигнал-шум. Следовательно, приемник 13 дополнительной информации первого варианта осуществления также не является необходимым.
В предпочтительном варианте осуществления изобретения битовый поток BS содержит активные кадры и неактивные кадры, где управляющее устройство 11 выполнено с возможностью определения энергии требуемого сигнала WS декодированного звукового сигнала DS во время активных кадров и определения энергии шума N декодированного звукового сигнала DS во время неактивных кадров. Посредством этого высокая точность в оценке соотношения сигнал-шум может быть достигнута простым способом.
В предпочтительном варианте осуществления изобретения битовый поток BS содержит активные кадры и неактивные кадры, где декодер 1 содержит приемник 17 дополнительной информации, выполненный с возможностью различения между активными кадрами и неактивными кадрами на основе дополнительной информации в битовом потоке, указывающей, является ли текущий кадр активным или неактивным. Посредством этого отличительного признака активные кадры или неактивные кадры соответственно могут быть идентифицированы без усилий расчета.
В предпочтительном варианте осуществления изобретения приемник 17 дополнительной информации может быть выполнен с возможностью управления переключателем 17a, который альтернативно подает выходной сигнал OW устройства 14 оценки энергии требуемого сигнала или выходной сигнал ON устройства 15 оценки энергии шума в устройство 16 оценки соотношения сигнал-шум, где выходной сигнал OW устройства 14 оценки энергии требуемого сигнала подается в устройство 16 оценки соотношения сигнал-шум во время активных кадров и где выходной сигнал ON устройства 15 оценки энергии шума подается в устройство 16 оценки соотношения сигнал-шум во время неактивных кадров. Посредством этих отличительных признаком соотношение сигнал-шум может быть вычислено простым и точным способом.
В предпочтительном варианте осуществления изобретения управляющее устройство 11 выполнено с возможностью определения энергии требуемого сигнала декодированного звукового сигнала на основе сигнала AS анализа. В этом случае сигнал AS анализа, который обычно должен быть вычислен в целях оценки шума, может быть использован повторно, так что сложность может быть уменьшена.
В предпочтительном варианте осуществления изобретения управляющее устройство 11 выполнено с возможностью определения энергии шума N декодированного звукового сигнала DS на основе сигнала NE оценки шума. В таком варианте осуществления сигнал NE оценки шума, который обычно должен быть вычислен в целях генерирования комфортного шума, может быть использован повторно, так что сложность может быть дополнительно уменьшена.
В предпочтительном варианте осуществления изобретения декодер 1 содержит дополнительный декодер битового потока (не показан на фигурах), где декодер 2 битового потока и дополнительный декодер битового потока являются декодерами различных типов, при этом декодер 1 содержит переключатель (не показан на фигурах), выполненный с возможностью подачи либо декодированного сигнала DS из декодера 2 битового потока, либо декодированного сигнала из дополнительного декодера битового потока в устройство 3 оценки шума и в объединитель 5. Поскольку добавление комфортного шума выполняется при использовании декодера 2 битового потока, а также при использовании дополнительного декодера битового потока, переходные артефакты при переключении между декодером 2 битового потока и дополнительным декодером битового потока могут быть минимизированы. Например, декодер 2 битового потока может быть декодером битового потока линейного предсказания с возбуждением алгебраическим кодом (ACELP), тогда как дополнительный декодер битового потока может быть декодером битового потока основанного на преобразовании ядра (TCX).
Декодер 1 изобретения описан на фиг. 1 и 2, где добавление комфортного шума делается вслепую в частотной области. Чтобы иметь комфортный шум CN, который выглядит как фактический фоновый шум N, устройство 3 оценки шума используется в декодере 1, чтобы определить уровень и спектральную форму фонового шума N, не требуя какой-либо дополнительной информации.
Устройство 4 генерирования комфортного шума срабатывает только в сценариях шумной речи, т.е. не в ситуациях чистой речи или чистой музыки. Различение может быть основано на обнаружении, выполненном в кодере. В этом случае решение должно быть передано с использованием выделенного бита. В предпочтительном варианте осуществления, напротив, применяется устройство 7 формирования оценки шума, которое подобно устройству оценки шума, используемому в кодере. Оно состоит в оценке долгосрочного соотношения сигнал-шум путем отдельной адаптации долгосрочных оценок либо энергии шума N, либо энергии требуемого сигнала WS, например, речи и/или музыки, в зависимости от решения VAD. Последнее может быть выведено непосредственно из индекса режимов ACELP и TCX. Действительно, TCX и ACELP могут выполняться в определенном режиме, называемом TCX-NA и ACELP-NA, соответственно, когда сигнал представляет собой неактивные речевые/музыкальные кадры, т.е. кадры только с фоновым шумом. Все другие режимы ACELP и TCX относятся к активным кадрам. Следовательно, присутствие выделенного бита VAD в битовом потоке можно избежать.
Уровень добавленного комфортного шума должен быть ограничен, чтобы сохранить разборчивость и качество. Комфортный шум, следовательно, масштабируется, чтобы достичь предопределенного целевого уровня шума. Если gtar обозначает целевой уровень усиления шума после добавления комфортного шума, энергия Ew случайного шума w(k) регулируется для каждой частоты k как
Figure 00000004
,
где
Figure 00000005
относится к оценке энергии шума, присутствующего в декодированном звуковом выходном сигнале на частоте k, как доставляется модулем оценки шума.
Обычно декодированный звуковой сигнал DS показывает более высокое соотношение сигнал-шум, чем исходный входной сигнал, особенно на низких скоростях передачи данных, где артефакты кодирования являются наиболее серьезными. Это ослабление уровня шума в кодировании речи исходит из парадигмы модели источника, которая ожидает речь в качестве входа. В противном случае кодирование исходной модели не является полностью подходящим и не будет способно воспроизвести всю энергию не-речевых компонентов. Следовательно, для первого аспекта изобретения, использующего кодер, изображенный на фиг. 3, целевой уровень gtar комфортного шума регулируется в зависимости от скорости передачи данных, чтобы примерно компенсировать ослабление шума, по своей сути, введенное процессом кодирования.
Для второго аспекта изобретения, использующего кодер, изображенный на фигурах 4 и 5, целевой уровень gtar комфортного шума должен, в дополнение, учитывать ослабление шума, вызванное модулем шумоподавления в кодере.
Кроме того, добавление комфортного шума, как описано в материалах настоящей заявки, позволяет сгладить переходные артефакты между одним типом кодирования (например) к другому (например, TCX) путем равномерного добавления комфортного шума по всем кадрам.
Фиг. 3 иллюстрирует кодер в соответствии с предшествующим уровнем техники, который может быть использован в комбинации с декодерами, изображенными на фиг. 1 и 2.
Входной сигнал IS непосредственно кодируется кодером 20 битового потока. Кодер 20 битового потока может быть речевым кодером или схемой с малой задержкой, переключающейся между речевым кодером ACELP и основанным на преобразовании звуковым кодером TCX. Кодер 20 битового потока содержит кодер 21 сигнала для кодирования сигнала IS и формирователь 22 битового потока для генерирования битового потока BS для формирования декодированного сигнала DS в декодере 1. Параллельно входной сигнал IS анализируется модулем, называемым анализатором 23 сигнала, который содержит устройство 24 оценки шума. В предпочтительном варианте осуществления устройство 24 оценки шума является тем же, что и используемое в G.718. Оно состоит из устройства 25 спектрального анализа, за которым следует устройство 26 формирования оценки шума. Спектр SI исходного сигнала IS и спектр NI оцененного шума представляют собой входные сигналы в модуль 27 шумоподавления. Модуль 27 шумоподавления ослабляет уровень фонового шума в сигнале FS расширенной частотной области. Степень снижения задается сигналом TAS целевого уровня ослабления. Сигнал TS расширенной временной области (звуковой сигнал с уменьшенным шумом) генерируется после спектрального синтеза, выполненного устройством 28 спектрального синтеза. Сигнал TS используется для выведения некоторых отличительных признаков, таких как стабильность основного тона, который затем используется детектором 29 активности сигнала для различения между активными и неактивными кадрами. Результат классификации может быть дополнительно использован модулем 18 кодера. В предпочтительном варианте осуществления определенный режим кодирования используется для обработки неактивных кадров. Таким образом декодер 1 может вывести флаг активности сигнала (флаг VAD) из битового потока без требования выделенного бита.
Фиг. 4 иллюстрирует первый вариант осуществления кодера 18 в соответствии с изобретением. Кодер 18, изображенный на фиг. 4, основан на кодере 18, показанном на фиг. 3.
Кодер 18, показанный на фиг. 4, выполнен с возможностью формирования звукового битового потока BS, где кодер 18 содержит:
кодер 20 битового потока, выполненный с возможностью формирования закодированного звукового сигнала ES, соответствующего звуковому входному сигналу IS, и извлечения битового потока BS из закодированного звукового сигнала ES;
анализатор 19 сигнала, имеющий устройство 33 оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум звукового входного сигнала IS на основе энергии требуемого сигнала WS звукового входного сигнала IS, определенной устройством 31 оценки энергии требуемого сигнала, и на основе энергии шума N звукового входного сигнала IS, определенной устройством 32 оценки энергии шума;
устройство 27, 28 шумоподавления, выполненное с возможностью формирования звукового сигнала TS с уменьшенным шумом; и
переключающее устройство 35, выполненное с возможностью подачи, в зависимости от определенного соотношения сигнал-шум звукового входного сигнала IS, либо звукового входного сигнала IS, либо звукового сигнала TS с уменьшенным шумом в кодер 20 битового потока с целью кодирования соответствующего сигнала IS, TS, где кодер 20 битового потока выполнен с возможностью передачи дополнительной информации в битовом потоке, которая указывает, закодирован ли звуковой входной сигнал IS или звуковой сигнал TS с уменьшенным шумом.
Кодер 20 битового потока может быть устройством или компьютерной программой, способной кодировать звуковой сигнал, который представляет собой сигнал цифровых данных, содержащих звуковую информацию. Процесс кодирования имеет результатом цифровой битовый поток, который может быть передан по цифровой линии передачи данных в удаленное местоположение.
Часть кодера одного из вариантов осуществления изобретения приведена на фиг. 4. Основное различие по сравнению с фиг. 3 исходит из того факта, что в это время он кодирует выходной сигнал шумоподавления, т.е. расширенный сигнал TS. Чтобы избежать ненужных искажений в бесшумных ситуациях (чистая речь или чистая музыка), шумоподавление применяется только в случае шумной речи и игнорируется в противном случае. Различие между шумным и бесшумными сигналами достигается путем оценки долгосрочной оценки требуемого сигнала WS (речи или музыки) устройством 31 оценки энергии требуемого сигнала и путем оценки долгосрочной энергии шума N устройством 32 оценки энергии шума. С этой целью устройство 31 оценки энергии шума принимает сигнал SI спектра для входного сигнала IS, как предоставлено устройством 25 спектрального анализа. Кроме того, устройство оценки энергии шума принимает сигнал NI оценки шума для входного сигнала IS, как предоставлено устройством 26 формирования оценки шума. Во время активных кадров обновляется только оценка WE долгосрочной энергии речи/музыки. Во время неактивных кадров обновляется только оценка NE энергии шума. Долгосрочная энергия вычисляется посредством авто-регрессионной фильтрации первого порядка либо энергии входного кадра (во время активных кадров), либо с использованием выходного сигнала модуля оценки шума (во время неактивных кадров). Таким образом сигнал RS соотношения сигнал-шум может быть вычислен устройством 33 оценки соотношения сигнал-шум, которое содержит соотношение долгосрочной энергии речи или музыки WS по долгосрочной энергии шума N. Сигнал RS соотношения сигнал-шум подается в детектор 34 шума, который определяет, содержит ли текущий кадр шумный звуковой сигнал или чистый звуковой сигнал. Если сигнал RS соотношения сигнал-шум ниже предопределенного порога, кадр считается шумной речью, в противном случае он классифицируется как чистая речь.
Результат классификации выводится как сигнал NF флага шума, который используется для управления переключателем 35. Кроме того, сигнал NF флага шума подается в кодер 20 битового потока. Кодер 20 битового потока выполнен с возможностью формирования и передачи дополнительной информации, основанной на сигнале NF флага шума, в битовом потоке, которая указывает закодирован ли звуковой входной сигнал IS или звуковой сигнал TS с уменьшенным шумом. Путем декодирования этого флага декодер может отрегулировать целевой уровень шума автоматически без необходимости классификации декодированного сигнала DS как шумного или чистого.
Фиг. 5 иллюстрирует второй вариант осуществления кодера 18 в соответствии с изобретением. Кодер 18, изображенный на фиг. 5, основан на кодере, показанном на фиг. 4. Далее будут объяснены дополнительные отличительные признаки. На фиг. 4 анализатор 30 сигнала содержит детектор 36 активности сигнала, который принимает сигнал SI спектра для входного сигнала IS и сигнала NI оценки шума. Детектор 36 активности сигнала выполнен с возможностью различения между активными кадрами и неактивными кадрами на основе этих двух сигналов. Детектор активности сигнала формирует сигнал SA активности сигнала, который с одной стороны передается в кодер 20 битового потока в целях адаптации битового потока BS к активности сигнала, а с другой стороны используется для переключения переключателя 37, который выполнен с возможностью альтернативно подавать сигнал WE энергии требуемого сигнала или сигнал EN энергии шума в устройство 33 оценки соотношения сигнал-шум.
Фиг. 6 иллюстрирует вариант осуществления формата FF кадра битового потока BS в соответствии с изобретением. Кадр в соответствии с форматом FF кадра содержит вектор SV сигнала, имеющий множество битов, которые расположены в положениях от 0 до n. В положении n+1 расположен бит, представляющий собой флаг AF активности, указывающий, находится ли кадр в активном кадре и неактивном кадре. Кроме того, в положении n+2 ожидается бит, представляющий собой флаг NF шума, указывающий, содержит ли кадр шумные сигналы или командный сигнал. В положении n+3 расположен бит, представляющий собой бит PB заполнения.
В предпочтительном варианте осуществления изобретения дополнительная информация, указывающая, является ли текущий кадр активным или неактивным, состоит из по меньшей мере одного выделенного бита в битовом потоке.
Резюмируя, можно сказать, что в одном из аспектов изобретения исходный сигнал закодирован, и в декодере 1 он декодируется до того, как добавляется к искусственно сгенерированному комфортному шуму CN. Устройство 4 генерирования комфортного шума не требует или требует очень маленького количества дополнительной информации. В первом варианте осуществления устройство 4 генерирования комфортного шума не требует дополнительной информации, и вся обработка делается вслепую. В предпочтительном варианте осуществления устройству 4 генерирования комфортного шума необходимо восстановить информацию VAD (результат классификации активного и неактивного кадра) из битового потока BS, которая может уже присутствовать в битовом потоке и использоваться в других целях. В третьем варианте осуществления устройство 4 генерирования комфортного шума требует от кодера 18 флаг шумной речи, различающий между чистой и шумной речью. Можно также представить любые виды информации, параметрически закодированной, которая может помочь в управлении устройством 4 генерирования комфортного шума.
В другом аспекте изобретения шумоподавление сначала применяется к исходному сигналу IS, и расширенный сигнал TS переправляется в кодер 20 битового потока и передается. В конце декодирования искусственно сгенерированный комфортный шум CN затем добавляется к декодированному (расширенному) сигналу DS. Целевой уровень ослабления, используемый для шумоподавления в кодере, представляет собой статическое значение, используемое совместно с модулем CNG в декодере. Следовательно, целевой уровень ослабления не нуждается в том, чтобы быть явно переданным.
Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует шагу способа или отличительному признаку шага способа. Аналогично, аспекты, описанные в контексте шага способа, также представляют описание соответствующего блока или элемента или отличительного признака соответствующего устройства. Некоторые или все из шагов способа могут быть выполнены посредством (или с использованием) аппаратного устройства, как например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления некоторый один или более из наиболее важных шагов способа могут быть выполнены таким устройством.
В зависимости от определенных требований реализации, варианты осуществления изобретения могут быть реализованы аппаратно или программно. Реализация может быть выполнена с использованием не-временного носителя данных, такого как носитель цифровых данных, например, дискета, DVD, Blu-Ray, PROM (ППЗУ, программируемое постоянное запоминающее устройство), EPROM (СППЗУ, стираемое программируемое постоянное запоминающее устройство), EEPROM (ЭСППЗУ, электрически стираемое программируемое постоянное запоминающее устройство) или ФЛЭШ память, имеющего электронно считываемые управляющие сигналы, хранящиеся на нем, который взаимодействует (или способен взаимодействовать) с программируемой компьютерной системой, так что соответствующий способ выполняется. Следовательно, носитель цифровых данных может быть машинночитаемым.
Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий электронносчитываемые управляющие сигналы, которые способы взаимодействовать с программируемой компьютерной системой, так что один из способов, описанных в материалах настоящей заявки, выполняется.
Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код способен выполнять один из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машинночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки, хранимую на машинночитаемом носителе.
Другими словами, вариант осуществления изобретательного способа, следовательно, представляет собой компьютерную программу, имеющую программный код для выполнения одного из способов, описанных в материалах настоящей заявки, когда компьютерная программа выполняется на компьютере.
Дополнительный вариант осуществления изобретательного способа, следовательно, представляет собой носитель данных (или носитель цифровых данных, или машинночитаемый носитель), содержащий записанную на него компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки. Носитель данных, носитель цифровых данных или записанная среда, как правило, являются материальными и/или не-временными.
Дополнительный вариант осуществления способа изобретения, следовательно, представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки. Поток данных или последовательность сигналов может, например, быть выполнена с возможностью быть переданной через соединение передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит вычислительный средства, например, компьютер, или программируемое логическое устройство, выполненное с возможностью или адаптированное к выполнению одного из способов, описанных в материалах настоящей заявки.
Дополнительный вариант осуществления содержит компьютер с установленной на него компьютерной программой для выполнения одного из способов, описанных в материалах настоящей заявки.
Дополнительный вариант осуществления, в соответствии с изобретением, содержит устройство или систему, выполненную с возможностью передачи (например, электронно или оптически) компьютерной программы для выполнения одного из способов, описанных в материалах настоящей заявки, в приемник. Приемник может быть, например, компьютером, мобильным устройством, устройством памяти или тому подобным. Устройство или система могут, например, содержать файловый сервер для передачи компьютерной программы в приемник.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая вентильная матрица) может быть использовано для выполнения некоторых или всех из функциональных возможностей способов, описанных в материалах настоящей заявки. В некоторых вариантах осуществления программируемая вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в материалах настоящей заявки. Как правило, эти способы предпочтительно выполняются любым аппаратным устройством.
Описанные выше варианты осуществления являются лишь иллюстративными для принципов настоящего изобретения. Понятно, что модификации и изменения схем и подробностей, описанных в материалах настоящей заявки, будут очевидны специалистам в данной области техники. Следовательно, это является целью быть ограниченным только объемом предстоящей формулы изобретения, а не определенными подробностями, представленными посредством описания и объяснения вариантов осуществления в материалах настоящей заявки.
Условные обозначения:
1 декодер
2 декодер битового потока
3 устройство оценки шума
4 устройство генерирования комфортного шума
5 объединитель
6 устройство спектрального анализа
7 устройство формирования оценки шума
8 генератор шума
9 спектральный синтезатор
10 переключающее устройство
11 управляющее устройство
12 детектор шума
13 приемник дополнительной информации
14 устройство оценки энергии требуемого сигнала
15 устройство оценки энергии шума
16 устройство оценки соотношения сигнал-шум
17 приемник дополнительной информации
17a переключатель
18 кодер
19 анализатор сигнала
20 кодер битового потока
21 кодер сигнала
22 формирователь битового потока
23 анализатор сигнала
24 устройство оценки шума
25 устройство спектрального анализа
26 устройство формирования оценки шума
27 модуль шумоподавления
28 устройство спектрального синтеза
29 детектор активности сигнала
30 анализатор сигнала
31 устройство оценки энергии требуемого сигнала
32 устройство оценки энергии шума
33 устройство оценки соотношения сигнал-шум
34 детектор шума
35 переключатель
36 детектор активности сигнала
37 переключатель
BS закодированный звуковой битовый поток
DS декодированный звуковой сигнал
NE сигнал оценки шума
N шум
CN сигнал комфортного шума
OS звуковой выходной сигнал
AS сигнал анализа
FD сигнал комфортного шума частотной области
ND сигнал обнаружения шума
TNL целевой уровень комфортного шума
IS входной сигнал
ES закодированный сигнал
OW выходной сигнал устройства оценки энергии требуемого сигнала
ON выходной сигнал устройства оценки энергии шума
SI сигнал спектра для входного сигнала
NI сигнал оценки шума для входного сигнала
TAS сигнал целевого ослабления
FS сигнал расширенной частотной области
TS звуковой сигнал с уменьшенным шумом
AD сигнал обнаружения активности
WE сигнал энергии требуемого сигнала
EN сигнал энергии шума
RS сигнал соотношения сигнал-шум
NF флаг шума
SA сигнал активности сигнала
FF формат кадра
SV вектор сигнала
AF флаг активности
NF сигнал флага шума
PB бит заполнения
Литература
1. Рекомендации ITU-T G.718: "Устойчивое к ошибкам кадра узкополосное и широкополосное встроенное кодирование речи и звука с переменной скоростью передачи данных от 8-32 кбит/с".
2. 3GPP TS 26.190 "Адаптивное Многоскоростное широкополосное речевое транскодирование", 3GPP Техническая Спецификация.

Claims (43)

1. Декодер, выполненный с возможностью обработки закодированного звукового битового потока (BS), при этом декодер (1) содержит:
декодер (2) битового потока, выполненный с возможностью извлечения декодированного звукового сигнала (DS) из битового потока (BS), причем декодированный звуковой сигнал (DS) содержит по меньшей мере один декодированный кадр;
устройство (3) оценки шума, выполненное с возможностью формирования сигнала (NE) оценки шума, содержащего оценку уровня и/или спектральной формы шума (N) в декодированном звуковом сигнале (DS);
устройство (4) генерирования комфортного шума, выполненное с возможностью извлечения сигнала (CN) комфортного шума из сигнала (NE) оценки шума; и
объединитель (5), выполненный с возможностью объединения декодированного кадра декодированного звукового сигнала (DS) и сигнала (CN) комфортного шума, чтобы получить звуковой выходной сигнал (OS) таким образом, что декодированный кадр в звуковом выходном сигнале (OS) содержит искусственный шум.
2. Декодер по п. 1, в котором декодированный кадр представляет собой активный кадр.
3. Декодер по п. 1, в котором декодированный кадр представляет собой неактивный кадр.
4. Декодер по п. 1, в котором устройство (3) оценки шума содержит устройство (6) спектрального анализа, выполненное с возможностью создания сигнала (AS) анализа, содержащего уровень и спектральную форму шума (N) в декодированном звуковом сигнале (DS), и устройство (7) формирования оценки шума, выполненное с возможностью формирования сигнала (NE) оценки шума на основе сигнала (AS) анализа.
5. Декодер по п. 1, в котором устройство (4) генерирования комфортного шума содержит генератор (8) шума, выполненный с возможностью создания сигнала (FD) комфортного шума частотной области на основе сигнала (NE) оценки шума, и спектральный синтезатор (9), выполненный с возможностью создания сигнала (CN) комфортного шума на основе сигнала (FD) комфортного шума частотной области.
6. Декодер по п. 1, при этом декодер (1) содержит переключающее устройство (10), выполненное с возможностью переключения декодера альтернативно в первый режим работы или второй режим работы, причем в первом режиме работы сигнал (CN) комфортного шума подается в объединитель (5), тогда как сигнал (CN) комфортного шума не подается в объединитель (5) во втором режиме работы.
7. Декодер по п. 6, при этом декодер (1) содержит управляющее устройство (11), выполненное с возможностью управления переключающим устройством (10) автоматически, причем управляющее устройство (11) содержит детектор (12) шума и выполнено с возможностью управления переключающим устройством (11) в зависимости от соотношения сигнал-шум декодированного звукового сигнала (DS), при этом в условиях низкого соотношения сигнал-шум декодер (1) переключается в первый режим работы, а в условиях высокого соотношения сигнал-шум - во второй режим работы.
8. Декодер по п. 7, в котором управляющее устройство (11) содержит приемник (13) дополнительной информации, выполненный с возможностью приема дополнительной информации, содержащейся в битовом потоке (BS), которая соответствует соотношению сигнал-шум декодированного звукового сигнала (DS), и выполненный с возможностью создания сигнала (ND) обнаружения шума, причем детектор (12) шума переключает переключающее устройство (11) в зависимости от сигнала (ND) обнаружения шума.
9. Декодер по п. 8, в котором дополнительная информация, соответствующая соотношению сигнал-шум декодированного звукового сигнала (DS), состоит из по меньшей мере одного выделенного бита в битовом потоке (BS).
10. Декодер по п. 7, в котором управляющее устройство (11) содержит устройство (14) оценки энергии требуемого сигнала, выполненное с возможностью определения энергии требуемого сигнала (WS) декодированного звукового сигнала (DS), устройство (15) оценки энергии шума, выполненное с возможностью определения энергии шума (N) декодированного звукового сигнала (DS), и устройство (16) оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум декодированного звукового сигнала (DS) на основе энергии требуемого сигнала (WS) и на основе энергии шума (N), причем переключающее устройство (10) переключается в зависимости от соотношения сигнал-шум, определенного управляющим устройством (11).
11. Декодер по п. 7, в котором битовый поток содержит активные кадры и неактивные кадры, причем управляющее устройство (11) выполнено с возможностью определения энергии требуемого сигнала (WS) декодированного звукового сигнала (DS) во время активных кадров и определения энергии шума (N) декодированного звукового сигнала (DS) во время неактивных кадров.
12. Декодер по п. 1, в котором битовый поток содержит активные кадры и неактивные кадры, при этом декодер (1) содержит приемник (17) дополнительной информации, выполненный с возможностью различать активные кадры и неактивные кадры на основе дополнительной информации в битовом потоке (BS), указывающей, является ли текущий кадр активным или неактивным.
13. Декодер по п. 12, в котором дополнительная информация, указывающая, является ли текущий кадр активным или неактивным, состоит из по меньшей мере одного выделенного бита в битовом потоке (BS).
14. Декодер по п. 4, в котором управляющее устройство (11) выполнено с возможностью определения энергии требуемого сигнала (WS) декодированного звукового сигнала (DS) на основе сигнала (AS) анализа.
15. Декодер по п. 7, в котором управляющее устройство (11) выполнено с возможностью определения энергии шума (N) декодированного звукового сигнала (DS) на основе сигнала (NE) оценки шума.
16. Декодер по п. 1, в котором устройство (4) генерирования комфортного шума выполнено с возможностью создания сигнала (CN) комфортного шума на основе сигнала (TNL) целевого уровня комфортного шума.
17. Декодер по п. 16, в котором сигнал (TNL) целевого уровня комфортного шума регулируется в зависимости от скорости передачи данных битового потока (BS).
18. Декодер по п. 15, в котором сигнал (TNL) целевого уровня комфортного шума регулируется в зависимости от уровня ослабления шума, вызванного способом шумоподавления, примененным к битовому потоку (BS).
19. Декодер по п. 16, в котором энергия Ew(k) полосы k частот сигнала (FD) комфортного шума частотной области регулируется в зависимости от сигнала (TNL) целевого уровня комфортного шума, который указывает целевой уровень gtar комфортного шума для каждой полосы k частот как
Figure 00000006
, где
Figure 00000007
относится к оценке энергии шума (N) декодированного звукового сигнала (DS) в полосе k частот, как доставлено устройством (7) формирования оценки шума.
20. Декодер по п. 1, при этом декодер (1) содержит дополнительный декодер битового потока, причем декодер (2) битового потока и дополнительный декодер битового потока являются декодерами различных типов, при этом декодер (1) содержит переключатель, выполненный с возможностью подачи либо декодированного сигнала (DS) из декодера (2) битового потока, либо декодированного сигнала из дополнительного декодера битового потока в устройство (3) оценки шума и в объединитель (5).
21. Кодер, выполненный с возможностью формирования звукового битового потока (BS), при этом кодер (18) содержит:
кодер (20) битового потока, выполненный с возможностью формирования закодированного звукового сигнала (ES), соответствующего звуковому входному сигналу (IS), и извлечения битового потока (BS) из закодированного звукового сигнала (ES);
анализатор (30) сигнала, имеющий устройство (33) оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум звукового входного сигнала (IS) на основе энергии требуемого компонента (WS) звукового входного сигнала (IS), определенной устройством (31) оценки энергии требуемого сигнала, и на основе энергии шума (N) звукового входного сигнала (IS), определенной устройством (32) оценки энергии шума;
устройство (27, 28) шумоподавления, выполненное с возможностью формирования звукового сигнала (TS) с уменьшенным шумом; и
переключающее устройство (35), выполненное с возможностью подачи, в зависимости от определенного соотношения сигнал-шум звукового входного сигнала (IS), либо звукового входного сигнала (IS), либо звукового сигнала (TS) с уменьшенным шумом в кодер (20) битового потока для кодирования соответствующего сигнала (IS, TS), причем кодер (20) битового потока выполнен с возможностью передачи дополнительной информации (NF), которая указывает, закодирован ли звуковой входной сигнал (IS) или звуковой сигнал (TS) с уменьшенным шумом, в битовом потоке (BS).
22. Система, содержащая декодер (1) и кодер (18), причем декодер (1) сконфигурирован согласно одному из пп. 1-19 и/или кодер (18) сконфигурирован согласно п. 21.
23. Способ декодирования звукового битового потока (BS), при этом способ содержит этапы, на которых:
извлекают декодированный звуковой сигнал (DS) из битового потока (BS), причем декодированный звуковой сигнал (DS) содержит по меньшей мере один декодированный кадр;
формируют сигнал (NE) оценки шума, содержащий оценку уровня и/или спектральной формы шума (N) в декодированном звуковом сигнале (DS);
извлекают сигнал (CN) комфортного шума из сигнала (NE) оценки шума; и
объединяют декодированный кадр декодированного звукового сигнала (DS) и сигнал (CN) комфортного шума, чтобы получить звуковой выходной сигнал (OS) таким образом, что декодированный кадр в звуковом выходном сигнале (OS) содержит искусственный шум.
24. Способ кодирования звукового сигнала для формирования звукового битового потока (BS), при этом способ содержит этапы, на которых:
определяют соотношение сигнал-шум звукового входного сигнала (IS) на основе определенной энергии требуемого компонента (WS) звукового входного сигнала (IS) и определенной энергии шума (N) звукового входного сигнала (IS);
формируют звуковой сигнал (TS) с уменьшенным шумом;
формируют закодированный звуковой сигнал (ES), соответствующий звуковому входному сигналу (IS), причем в зависимости от определенного соотношения сигнал-шум звукового входного сигнала (IS) кодируется либо звуковой входной сигнал (IS), либо звуковой сигнал (TS) с уменьшенным шумом;
извлекают битовый поток (BS) из закодированного звукового сигнала (ES); и
передают дополнительную информацию (NF), которая указывает, закодирован ли звуковой входной сигнал (IS) или звуковой сигнал (TS) с уменьшенным шумом, в битовом потоке (BS).
25. Машиночитаемое запоминающее устройство, содержащее компьютерную программу для выполнения, при работе на компьютере или процессоре, способа по п. 23.
26. Машиночитаемое запоминающее устройство, содержащее компьютерную программу для выполнения, при работе на компьютере или процессоре, способа по п. 24.
RU2015129782A 2012-12-21 2013-12-19 Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных RU2633107C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261740883P 2012-12-21 2012-12-21
US61/740,883 2012-12-21
PCT/EP2013/077527 WO2014096280A1 (en) 2012-12-21 2013-12-19 Comfort noise addition for modeling background noise at low bit-rates

Publications (2)

Publication Number Publication Date
RU2015129782A RU2015129782A (ru) 2017-01-27
RU2633107C2 true RU2633107C2 (ru) 2017-10-11

Family

ID=49883094

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015129782A RU2633107C2 (ru) 2012-12-21 2013-12-19 Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных

Country Status (20)

Country Link
US (3) US10147432B2 (ru)
EP (1) EP2936486B1 (ru)
JP (3) JP6335190B2 (ru)
KR (2) KR102167541B1 (ru)
CN (2) CN105210148B (ru)
AR (1) AR094279A1 (ru)
AU (1) AU2013366552B2 (ru)
BR (1) BR112015014217B1 (ru)
CA (2) CA2948015C (ru)
ES (1) ES2688021T3 (ru)
HK (1) HK1217244A1 (ru)
MX (1) MX366279B (ru)
MY (1) MY178710A (ru)
PL (1) PL2936486T3 (ru)
PT (1) PT2936486T (ru)
RU (1) RU2633107C2 (ru)
SG (1) SG11201504899XA (ru)
TW (1) TWI553629B (ru)
WO (1) WO2014096280A1 (ru)
ZA (1) ZA201505191B (ru)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6335190B2 (ja) 2012-12-21 2018-05-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
EP2980790A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
US10958695B2 (en) * 2016-06-21 2021-03-23 Google Llc Methods, systems, and media for recommending content based on network conditions
CN108012148B (zh) * 2018-01-16 2023-12-22 吉林省广播电视研究所(吉林省新闻出版广电局科技信息中心) 广播电视音频质量实时监测并自动切换的装置及方法
WO2020212390A1 (en) * 2019-04-15 2020-10-22 Dolby International Ab Dialogue enhancement in audio codec
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation
EP3997697A4 (en) * 2019-07-08 2023-09-06 VoiceAge Corporation METHOD AND SYSTEM FOR ENCODING METADATA IN AUDIO DATA STREAMS AND FOR EFFICIENT BIT RATE ALLOCATION FOR ENCODING AUDIO DATA STREAMS
GB2596138A (en) * 2020-06-19 2021-12-22 Nokia Technologies Oy Decoder spatial comfort noise generation for discontinuous transmission operation
WO2022226627A1 (en) * 2021-04-29 2022-11-03 Voiceage Corporation Method and device for multi-channel comfort noise injection in a decoded sound signal
US11915698B1 (en) * 2021-09-29 2024-02-27 Amazon Technologies, Inc. Sound source localization

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0665530B1 (en) * 1994-01-28 2000-08-02 AT&T Corp. Voice activity detection driven noise remediator
EP1154408A2 (en) * 2000-05-10 2001-11-14 Kabushiki Kaisha Toshiba Multimode speech coding and noise reduction
WO2002101724A1 (en) * 2001-06-12 2002-12-19 Globespan Virata Incorporated Method and system for implementing a low complexity spectrum estimation technique for comfort noise generation
EP1224659B1 (en) * 1998-11-23 2005-05-04 Telefonaktiebolaget LM Ericsson (publ) Complex signal activity detection for improved speech/noise classification of an audio signal
RU2325707C2 (ru) * 2002-05-31 2008-05-27 Войсэйдж Корпорейшн Способ и устройство для эффективного маскирования стертых кадров в речевых кодеках на основе линейного предсказания
WO2010003618A2 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US20100198590A1 (en) * 1999-11-18 2010-08-05 Onur Tackin Voice and data exchange over a packet based network with voice detection
EP1998319B1 (en) * 1991-06-11 2010-08-11 Qualcomm Incorporated Variable rate vocoder

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537509A (en) 1990-12-06 1996-07-16 Hughes Electronics Comfort noise generation for digital communication systems
US5630016A (en) 1992-05-28 1997-05-13 Hughes Electronics Comfort noise generation for digital communication systems
FI101439B1 (fi) 1995-04-13 1998-06-15 Nokia Telecommunications Oy Transkooderi, jossa on tandem-koodauksen esto
EP0756267A1 (en) 1995-07-24 1997-01-29 International Business Machines Corporation Method and system for silence removal in voice communication
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
JP3252782B2 (ja) * 1998-01-13 2002-02-04 日本電気株式会社 モデム信号対応音声符号化復号化装置
US6122611A (en) 1998-05-11 2000-09-19 Conexant Systems, Inc. Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise
RU2237296C2 (ru) 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
US20070110042A1 (en) 1999-12-09 2007-05-17 Henry Li Voice and data exchange over a packet based network
US6873604B1 (en) 2000-07-31 2005-03-29 Cisco Technology, Inc. Method and apparatus for transitioning comfort noise in an IP-based telephony system
US6615169B1 (en) 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
US6807525B1 (en) 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DE60029147T2 (de) * 2000-12-29 2007-05-31 Nokia Corp. Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
JP4089347B2 (ja) * 2002-08-21 2008-05-28 沖電気工業株式会社 音声復号装置
WO2004034379A2 (en) * 2002-10-11 2004-04-22 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
JP4311541B2 (ja) * 2003-10-06 2009-08-12 アルパイン株式会社 オーディオ信号圧縮装置
GB0326263D0 (en) * 2003-11-11 2003-12-17 Nokia Corp Speech codecs
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7649988B2 (en) 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US7454010B1 (en) 2004-11-03 2008-11-18 Acoustic Technologies, Inc. Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
JP4551817B2 (ja) * 2005-05-20 2010-09-29 Okiセミコンダクタ株式会社 ノイズレベル推定方法及びその装置
ES2629727T3 (es) 2005-06-18 2017-08-14 Nokia Technologies Oy Sistema y método para la transmisión adaptativa de parámetros de ruido de confort durante la transmisión de habla discontinua
DE602006018618D1 (de) * 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
US7610197B2 (en) 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US20070064681A1 (en) * 2005-09-22 2007-03-22 Motorola, Inc. Method and system for monitoring a data channel for discontinuous transmission activity
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
WO2008022184A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Constrained and controlled decoding after packet loss
CN101149921B (zh) * 2006-09-21 2011-08-10 展讯通信(上海)有限公司 一种静音检测方法和装置
US9966085B2 (en) * 2006-12-30 2018-05-08 Google Technology Holdings LLC Method and noise suppression circuit incorporating a plurality of noise suppression techniques
PL2118889T3 (pl) * 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
US8090588B2 (en) * 2007-08-31 2012-01-03 Nokia Corporation System and method for providing AMR-WB DTX synchronization
US8139777B2 (en) 2007-10-31 2012-03-20 Qnx Software Systems Co. System for comfort noise injection
WO2009088848A1 (en) * 2008-01-04 2009-07-16 Interdigital Patent Holdings, Inc. Method for controlling the data rate of a circuit switched voice application in an evolved wireless system
US8560307B2 (en) * 2008-01-28 2013-10-15 Qualcomm Incorporated Systems, methods, and apparatus for context suppression using receivers
DE102008009719A1 (de) 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
US20090222268A1 (en) 2008-03-03 2009-09-03 Qnx Software Systems (Wavemakers), Inc. Speech synthesis system having artificial excitation signal
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
CN101335000B (zh) 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
ES2613693T3 (es) * 2008-05-09 2017-05-25 Nokia Technologies Oy Aparato de audio
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP3640941A1 (en) 2008-10-08 2020-04-22 Fraunhofer Gesellschaft zur Förderung der Angewand Multi-resolution switched audio encoding/decoding scheme
ES2673637T3 (es) 2009-06-23 2018-06-25 Voiceage Corporation Cancelación prospectiva de solapamiento en dominio de tiempo con aplicación en dominio de señal ponderada u original
KR101425290B1 (ko) * 2009-10-08 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티-모드 오디오 신호 디코더, 멀티-모드 오디오 신호 인코더 및 선형-예측-코딩 기반의 노이즈 성형을 사용하는 방법 및 컴퓨터 프로그램
CA2778343A1 (en) * 2009-10-19 2011-04-28 Martin Sehlstedt Method and voice activity detector for a speech encoder
EP2491559B1 (en) * 2009-10-19 2014-12-10 Telefonaktiebolaget LM Ericsson (publ) Method and background estimator for voice activity detection
AU2010309838B2 (en) * 2009-10-20 2014-05-08 Dolby International Ab Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
CN102063905A (zh) * 2009-11-13 2011-05-18 数维科技(北京)有限公司 一种用于音频解码的盲噪声填充方法及其装置
US20110235500A1 (en) * 2010-03-24 2011-09-29 Kishan Shenoi Integrated echo canceller and speech codec for voice-over IP(VoIP)
LT3239979T (lt) * 2010-10-25 2024-07-25 Voiceage Evs Llc Bendrųjų garso signalų kodavimas maža bitų sparta ir mažu vėlavimu
HUE053127T2 (hu) * 2010-12-24 2021-06-28 Huawei Tech Co Ltd Eljárás és berendezés hang aktivitás adaptív detektálására egy bemeneti audiójelben
CN102136271B (zh) * 2011-02-09 2012-07-04 华为技术有限公司 舒适噪声生成器、方法及回声抵消装置
MX2013009305A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio.
US20120237048A1 (en) * 2011-03-14 2012-09-20 Continental Automotive Systems, Inc. Apparatus and method for echo suppression
US9264094B2 (en) * 2011-06-09 2016-02-16 Panasonic Intellectual Property Corporation Of America Voice coding device, voice decoding device, voice coding method and voice decoding method
WO2014035328A1 (en) * 2012-08-31 2014-03-06 Telefonaktiebolaget L M Ericsson (Publ) Method and device for voice activity detection
JP6335190B2 (ja) 2012-12-21 2018-05-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
ES2588156T3 (es) * 2012-12-21 2016-10-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generación de ruido de confort con alta resolución espectro-temporal en transmisión discontinua de señales de audio
US9106196B2 (en) * 2013-06-20 2015-08-11 2236008 Ontario Inc. Sound field spatial stabilizer with echo spectral coherence compensation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1998319B1 (en) * 1991-06-11 2010-08-11 Qualcomm Incorporated Variable rate vocoder
EP0665530B1 (en) * 1994-01-28 2000-08-02 AT&T Corp. Voice activity detection driven noise remediator
EP1224659B1 (en) * 1998-11-23 2005-05-04 Telefonaktiebolaget LM Ericsson (publ) Complex signal activity detection for improved speech/noise classification of an audio signal
US20100198590A1 (en) * 1999-11-18 2010-08-05 Onur Tackin Voice and data exchange over a packet based network with voice detection
EP1154408A2 (en) * 2000-05-10 2001-11-14 Kabushiki Kaisha Toshiba Multimode speech coding and noise reduction
WO2002101724A1 (en) * 2001-06-12 2002-12-19 Globespan Virata Incorporated Method and system for implementing a low complexity spectrum estimation technique for comfort noise generation
RU2325707C2 (ru) * 2002-05-31 2008-05-27 Войсэйдж Корпорейшн Способ и устройство для эффективного маскирования стертых кадров в речевых кодеках на основе линейного предсказания
WO2010003618A2 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs

Also Published As

Publication number Publication date
US20200013417A1 (en) 2020-01-09
PL2936486T3 (pl) 2018-12-31
JP6849619B2 (ja) 2021-03-24
JP6335190B2 (ja) 2018-05-30
RU2015129782A (ru) 2017-01-27
TW201432671A (zh) 2014-08-16
MX366279B (es) 2019-07-03
AR094279A1 (es) 2015-07-22
BR112015014217B1 (pt) 2021-11-03
CA2948015A1 (en) 2014-06-26
ZA201505191B (en) 2016-07-27
EP2936486B1 (en) 2018-07-18
CN105210148A (zh) 2015-12-30
KR20150107751A (ko) 2015-09-23
CA2948015C (en) 2018-03-20
BR112015014217A2 (pt) 2018-06-26
JP2016500453A (ja) 2016-01-12
JP2021092816A (ja) 2021-06-17
CA2895391C (en) 2019-08-06
AU2013366552B2 (en) 2017-03-02
US20180342253A1 (en) 2018-11-29
SG11201504899XA (en) 2015-07-30
AU2013366552A1 (en) 2015-07-16
US10789963B2 (en) 2020-09-29
HK1217244A1 (zh) 2016-12-30
JP2018084834A (ja) 2018-05-31
ES2688021T3 (es) 2018-10-30
US20150364144A1 (en) 2015-12-17
KR20170001751A (ko) 2017-01-04
US10147432B2 (en) 2018-12-04
TWI553629B (zh) 2016-10-11
CN111145767A (zh) 2020-05-12
CN111145767B (zh) 2023-07-25
MY178710A (en) 2020-10-20
KR102167541B1 (ko) 2020-10-19
WO2014096280A1 (en) 2014-06-26
PT2936486T (pt) 2018-10-19
KR101692659B1 (ko) 2017-01-03
MX2015007854A (es) 2016-02-05
EP2936486A1 (en) 2015-10-28
CA2895391A1 (en) 2014-06-26
US10339941B2 (en) 2019-07-02
CN105210148B (zh) 2020-06-30
JP7297803B2 (ja) 2023-06-26

Similar Documents

Publication Publication Date Title
RU2633107C2 (ru) Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных
US8788276B2 (en) Apparatus and method for calculating bandwidth extension data using a spectral tilt controlled framing
JP2023022101A (ja) 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法
US20160240203A1 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
JP2023015055A (ja) ハーモニックフィルタツールのハーモニック依存制御
US10984810B2 (en) Noise filling without side information for CELP-like coders
KR101991421B1 (ko) 에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더
AU2015295624B2 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals