RU2507609C2 - Способ и дискриминатор для классификации различных сегментов сигнала - Google Patents

Способ и дискриминатор для классификации различных сегментов сигнала Download PDF

Info

Publication number
RU2507609C2
RU2507609C2 RU2011104001/08A RU2011104001A RU2507609C2 RU 2507609 C2 RU2507609 C2 RU 2507609C2 RU 2011104001/08 A RU2011104001/08 A RU 2011104001/08A RU 2011104001 A RU2011104001 A RU 2011104001A RU 2507609 C2 RU2507609 C2 RU 2507609C2
Authority
RU
Russia
Prior art keywords
term
segment
speech
short
audio signal
Prior art date
Application number
RU2011104001/08A
Other languages
English (en)
Other versions
RU2011104001A (ru
Inventor
Гильом ФУХС
Стефан БАЕР
Йенс ХИРШФЕЛЬД
Юрген ХЕРРЕ
Джереми ЛЕКОМТЕ
Николаус РЕТТЕЛБАХ
Фредерик НАГЕЛЬ
Стефан ВАБНИК
Йошиказу ЙОКОТАНИ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2011104001A publication Critical patent/RU2011104001A/ru
Application granted granted Critical
Publication of RU2507609C2 publication Critical patent/RU2507609C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

Способ и дискриминатор для классификации различных сегментов сигнала, предназначенный для того, чтобы классифицировать различные сегменты сигнала, включающий сегменты, по крайней мере, первого и второго типов, например музыкальные и речевые сегменты, сигнал краткосрочной классификации (150) на основе, по крайней мере, одной краткосрочной особенности, извлеченной из сигнала, и краткосрочный результат классификации (152); сигнал долгосрочной классификации (154) на основе, по крайней мере, одной краткосрочной особенности и, по крайней мере, одной долгосрочной особенности, извлеченной из сигнала, и долгосрочный результат классификации (156). Краткосрочный результат классификации (152) и долгосрочный результат классификации (156) объединены (158), чтобы обеспечить выходной сигнал выбора (160), указывающий, имеет ли сегмент сигнала первый тип или второй тип. Технический результат - обеспечение улучшенного подхода для того, чтобы различить в сигнале сегменты различного типа, сохраняя низкой любую задержку, внесенную дискриминатором. 6 н. и 11 з.п. ф-лы, 7 ил., 2 табл.

Description

Изобретение касается подхода для классификации различных сегментов сигнала, включающих, по крайней мере, сегменты первого и второго типов. Изобретение относится к области аудиокодирования и, в частности, к различению речи/музыки при кодировании аудиосигнала.
Известны схемы кодирования в частотной области, такие как МР3 или ААС. Эти кодирующие устройства основаны на преобразовании временного представления в частотное, последующей стадии квантизации, на которой управляют ошибкой квантизации, используя информацию от физико-акустического (psychoacoustic) модуля, и стадии кодирования, на которой квантованные спектральные коэффициенты и соответствующая информация кодируются без потери информации с использованием кодовых таблиц.
С другой стороны, есть кодирующие устройства, которые очень хорошо подходят для обработки речи, например, AMR-WB+, описанное в 3GPP TS 26.290. Такие речевые кодирующие схемы выполняют фильтрацию с линейным предсказанием (ЛП) сигнала на временном интервале. ЛП фильтрация получается из анализа линейного предсказания входного сигнала на временном интервале. Получающиеся в результате ЛП фильтрации коэффициенты кодируются и передаются как информация передающей стороны. Процесс известен как линейное предсказывающее кодирование (LPC). На выходе фильтра разностный сигнал предсказания или сигнал ошибки предсказания, который также известен как сигнал возбуждения, кодируется с использованием кодирующего устройства ACELP или с использованием кодирующего устройства, которое осуществляет Фурье-преобразование с наложением. Выбор между ACELP кодированием и кодированием преобразованного возбуждения, которое также называют кодированием ТСХ, делается с использованием алгоритмов замкнутого или разомкнутого контура.
Схемы аудиокодирования в частотной обасти, такие как схема высокоэффективного ААС кодирования, которая комбинирует схему кодирования ААС и технику повторения спектральных полос (восстановления спектра в области высоких частот), может также быть присоединена к объединенному стерео или многоканальному кодирующему устройству, которое известно как “MPEG окружение”. При этом кодирующие схемы в частотной области имеют преимущества, так как они показывают высокое качество при низких битрейтах для музыкальных сигналов. Проблематичным, однако, оказывается качество речевых сигналов при низких битрейтах.
С другой стороны, у речевых кодирующих устройств, таких как AMR-WB+, также есть уровень (блок) высокочастотного улучшения и функциональность в области стереосигнала. Речевые кодирующие схемы показывают высокое качество для речевых сигналов даже при низких битрейтах, но показывают низкое качество для музыкальных сигналов при низких битрейтах.
Ввиду упомянутых выше доступных кодирующих схем, некоторые из которых лучше для того, чтобы закодировать речь и другие, лучше подходящие для того, чтобы закодировать музыку, автоматическая сегментация и классификация кодируемого аудиосигнала является важным инструментом во многих мультимедийных приложениях и может использоваться, чтобы выбрать соответствующий процесс для каждого различного класса аудиосигналов. Эффективность работы приложения сильно зависит от надежности классификации аудиосигнала. Действительно, неправильная классификация приводит к ошибочному выбору и настройке последующей обработки.
На Фиг.6 изображен обычный дизайн кодера, используемый для того, чтобы отдельно закодировать речь и музыку в зависимости от типа аудиосигнала. Дизайн кодера включает канал кодирования речи 100, включая соответствующее кодирующее устройство для речи 102, например, AMR-WB+кодирующее устройство для речи, описанное в технической спецификации “Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec”, 3GPP TS 26.290 V6.3.0, 2005-06. Далее, дизайн кодера включает канал кодирования музыки 104, включающий кодирующее устройство для музыки 106, например, кодирующее устройство для музыки ААС, описанное в Generic Coding of Moving Pictures and Associated Audio: Advanced Audio Coding. International Standard 13818-7, ISO/IEC JTC1/SC29/WG11 Moving Pictures Expert Group, 1997.
Выходы кодирующих устройств 102 и 106 соединены с входом мультиплексора 108. Входы кодирующих устройств 102 и 106 являются выборочно соединяемыми с линией 110 входа аудиосигнала. Входной аудиосигнал подается выборочно на речевое кодирующее устройство 102 или музыкальное кодирующее устройство 106 с использованием переключателя 112, показанного схематично на фиг.6 и управляемого контроллером переключателя 114. Кроме того, кодер включает дискриминатор речи/музыки 116, также получающий входной аудиосигнал и формирующий сигнал управления контроллером переключателя 114. Контроллер переключателя 114 также формирует сигнал индикатора способа (моды) на линии 118, которая является входной линией второго входа мультиплексора 108 так, чтобы сигнал индикатора способа можно было послать вместе с кодируемым сигналом. Однобитный сигнал индикатора способа указывает, что блок данных, связанных с ним, или закодированная речь или музыка, так что в декодере не надо осуществлять дискриминацию. На основе бита индикатора способа, подаваемого вместе с закодированными данными к декодеру, может быть сгенерирован соответствующий сигнал переключения для направления полученных и закодированных данных к соответствующему декодеру речи или музыки.
На фиг.6 изображен традиционный дизайн кодера, который используется, чтобы в цифровой форме закодировать речь и музыкальные сигналы, подаваемые на линию 110. Вообще, речевые кодирующие устройства более эффективны для речи, и аудиокодирующие устройства более эффективны для музыки. Универсальная кодирующая схема может быть разработана при использовании системы мультикодера, который переключается от одного кодера к другому согласно природе входного сигнала. Нетривиальная проблема здесь состоит в том, чтобы разработать подходящий входной классификатор сигнала, который управляет переключателем. Классификатор это дискриминатор речи/музыки 116, показанный в фиг.6. Обычно надежная классификация аудиосигнала вносит большую задержку, тогда как с другой стороны задержка - это важный фактор в приложениях реального времени.
Вообще, желательно, чтобы полная алгоритмическая задержка, введенная дискриминатором речи/музыки, была достаточно мала, чтобы можно было использовать переключаемые кодеры в приложениях, работающих в реальном времени.
Фиг.7 иллюстрирует задержки кодера, представленного на фиг.6. Предполагается, что сигнал, подаваемый на входную линию 110, кодируется фреймами по 1024 отсчета (выборки) при частоте дискретизации 16 кГц, так что различение речи/музыки должно осуществляться для каждого блока, то есть каждые 64 миллисекунды. Переход между двумя кодирующими устройствами может быть произведен согласно описанию WO 2008/071353 А2, и дискриминатор речи/музыки не должен значительно увеличить алгоритмическую задержку переключаемых декодеров, которая в целом составляет 1600 отсчетов, не учитывая задержку, необходимую для различения речи/музыки. Далее, желательно обеспечить выбор речь/музыка для того же самого фрема, на котором решается переключение устройства ААС. Ситуация изображена в фиг.7, иллюстрирующей ААС длинный блок 120, имеющий длину 2048 отсчетов, то есть длинный блок 120 включает два фрейма по 1024 отсчета, АСС короткие блоки 122 включают один фрейм из 1024 отсчетов, и AMR-WB+суперфрейм 124 включают один фрейм из 1024 отсчетов.
На фиг.7 выбор переключения ААС блока и выбор речь/музыка осуществляются на фреймах 126 и 128 соответственно с размерами по 1024 отсчетов, которые покрывают тот же самый промежуток времени. Эти два выбора находятся в таком временном положении для того, чтобы сделать кодирование способным использовать момент времени переключения окон, чтобы правильно перейти от одного способа кодирования к другому. Впоследствии этими двумя выборами вносится минимальная задержка 512+64 отсчета. Эта задержка должна быть добавлена к задержке длиной 1024 отсчета, образованной 50%-ым наложением ААС MDCT, что создает минимальную задержку 1600 отсчетов. В обычном ААС присутствует только переключение блока, и задержка составляет точно 1600 отсчетов. Эта задержка необходима для того, чтобы переключиться единовременно от длинного блока до коротких блоков, когда обнаружен переход во фрейме 126. Это переключение длины преобразования желательно для того, чтобы избежать помехи пре-эхо. Фрейм для расшифровки 130, изображенный на фиг.7, представляет собой первый целый фрейм, который может быть распознан декодером в любом случае (длинные или короткие блоки).
В переключаемом кодере с использованием ААС в качестве музыкального кодирующего устройства выбор переключения, осуществляемый из стадии решения, не должен добавлять слишком много дополнительной задержки к оригинальной задержке ААС. Дополнительная задержка образуется из предварительного фрейма 132, который необходим для анализа сигнала на стадии решения.
Например, при осуществлении выборки с частотой 16 кГц задержка ААС составляет 100 миллисекунд, в то время как обычный дискриминатор речи/музыки использует приблизительно 500 миллисекунд подготовки, которая приводит к переключению кодирующей структуры с задержкой 600 миллисекунд. Полная задержка тогда будет в шесть раз больше, чем оригинальная задержки ААС.
Обычные подходы, описанные выше, невыгодны для надежной классификации аудиосигнала. Высокая нежелательная задержка вызывает необходимость в новом подходе для того, чтобы различить сегменты различных типов сигнала, при котором дополнительная алгоритмическая задержка, введенная дискриминатором, достаточно низка так, чтобы переключаемые кодеры могли использоваться в реальном времени.
J. Wang, et. al. ”Real-time speech/music classification with a hierarchical oblique decision tree”, ICASSP 2008, IEEE International Conference on Acoustics, Speech and Signal Processing, 2008, March 31, 2008 to April 4, 2008 описывают подход для классификации речи/музыки, использующий краткосрочные и долгосрочные особенности, полученные из того же самого числа фреймов. Эти краткосрочные и долгосрочные особенности используются для того, чтобы классифицировать сигнал, но используются только ограниченные свойства краткосрочных особенностей, например, не используется инерционность классификации, хотя она играет важную роль для большинства кодирующих аудиоприложений.
Решением изобретения является обеспечение улучшенного подхода для того, чтобы различить в сигнале сегменты различного типа, сохраняя низкой любую задержку, внесенную дискриминатором.
Это решение достигается заявленным методом 1 и заявленным дискриминатором 14. Одно решение изобретения обеспечивает способ, классифицирующий различные сегменты сигнала, включающего по крайней мере, сегменты первого типа и второго типа. Способ включает краткосрочную классификацию сигнала на основе по крайней мере одной краткосрочной особенности, извлеченной из сигнала, и формирование результата краткосрочной классификации; долгосрочную классификацию сигнала на основе по крайней мере одной краткосрочной особенности и по крайней мере одной долгосрочной особенности, извлеченной из сигнала, и формирование результата долгосрочной классификации; объединение результатов краткосрочной классификации и долгосрочной классификации, чтобы обеспечить выходной сигнал, указывающий, имеет ли сегмент сигнала первый или второй тип.
Другое решение изобретения - дискриминатор, включающий: краткосрочный классификатор, предназначенный для того, чтобы получить сигнал и сформировать результат краткосрочной классификации сигнала на основе по крайней мере одной краткосрочной особенности, извлеченной из сигнала, включающего сегменты, по крайней мере, первого типа и второго типов; долгосрочный классификатор, предназначенный для того, чтобы получить сигнал и сформировать результат долгосрочной классификации сигнала на основе по крайней мере одной краткосрочной особенности и по крайней мере одной долгосрочной особенности, извлеченной из сигнала; схему выбора, предназначенную для того, чтобы объединить результат краткосрочной классификации и результат долгосрочной классификации, и сформировать выходной сигнал, указывающий, имеет ли сегмент сигнала первый или второй тип.
Решения изобретения обеспечивают выходной сигнал на основе сравнения краткосрочного результата анализа и долгосрочного результата анализа.
Решения изобретения касаются подхода к классификации различных неперекрывающихся сегментов коротких промежутков аудиосигнала как речь или как не речь или как другие классы. Подход основан на извлечении особенностей и анализе их статистики с использованием двух различных длин анализируемых окон. Первое длинное окно направлено, главным образом, к прошлому. Первое окно используется, чтобы получить надежную, но отсроченную подсказку решения для классификации сигнала. Второе окно короткое и рассматривает, главным образом, обрабатываемый в настоящее время или текущий сегмент. Второе окно используется, чтобы получить мгновенную подсказку решения. Две подсказки решения оптимально объединены, с использованием решения с гистерезисом, которое получает информацию из памяти от отсроченной подсказки и мгновенную информацию от мгновенной подсказки.
Решения изобретения используют краткосрочные особенности и в краткосрочном классификаторе и в долгосрочном классификаторе так, чтобы эти два классификатора использовали различную статистику той же самой особенности. Краткосрочный классификатор извлекает только мгновенную информацию, потому что у него есть доступ только к одному набору особенностей. Например, он может использовать средние из особенностей. С другой стороны у долгосрочного классификатора есть доступ к нескольким наборам особенностей, потому что он рассматривает несколько фреймов. Как следствие, долгосрочный классификатор может использовать больше особенностей сигнала, обрабатывая статистику большего количества фреймов чем краткосрочный классификатор. Например, долгосрочный классификатор может использовать различие особенностей или развитие особенностей во времени. Таким образом, долгосрочный классификатор может использовать больше информации, чем краткосрочный классификатор, но это вносит задержку или время ожидания. Однако, долгосрочные особенности, несмотря на внесение задержки или времени ожидания, делают долгосрочные результаты классификации более правильными и надежными. В некоторых решениях краткосрочные и долгосрочные классификаторы могут рассмотреть те же самые краткосрочные особенности, которые могут быть вычислены один раз и использоваться обоими классификаторами. Таким образом, в таком решении долгосрочный классификатор может получить краткосрочные особенности непосредственно от краткосрочного классификатора.
Таким образом, новый подход обеспечивает правильную классификацию, вводя низкую задержку. В отличие от обычного подхода решения изобретения ограничивают задержку, введенную выбором речи/музыки, сохраняя надежность выбора. В одном решении изобретения подготовка ограничена 128 отсчетами, что приводит к задержке только 108 миллисекунд.
Краткое описание рисунков
Решения изобретения описаны ниже со ссылками на соответствующие рисунки, в числе которых:
Фиг.1 - блок-схема дискриминатора речи/музыки в соответствии с решением изобретения;
Фиг.2 - иллюстрирует аналитические окна, используемые долгосрочным и краткосрочными классификаторами дискриминатора на фиг.1;
Фиг.3 - иллюстрирует решение с гистерезисом, используемое в дискриминаторе фиг.1;
Фиг.4 - блок-схема образца схемы кодирования, включающей дискриминатор в соответствии с решениями изобретения;
Фиг.5 - блок-схема декодирования, соответствующая схеме кодирования на фиг.4;
Фиг.6 показывает обычный дизайн кодера, используемый для того, чтобы отдельно закодировать речь и музыку, зависящую от типа аудиосигнала;
Фиг.7 иллюстрирует задержки, полученные в кодере, показанном в фиг.6.
На фиг.1 изображена блок-схема дискриминатора речи/музыки 116 в соответствии с решением изобретения. Дискриминатор речи/музыки 116 включает краткосрочный классификатор 150, на который поступает входной сигнал, например аудиосигнал, включающий музыкальные сегменты и речь. Краткосрочный классификатор 150 формирует на выходной линии 152 результат краткосрочной классификации - мгновенную подсказку решения. Дискриминатор 116 далее включает долгосрочный классификатор 154, на который также поступает входной сигнал и формирует на выходной линии 156 результат долгосрочный классификации - отсроченную подсказку решения. Далее, реализуется контур с задержкой 158, который объединяет выходные сигналы краткосрочного классификатора 150 и долгосрочного классификатора 154 способом, описанным в деталях ниже, чтобы сформировать сигнал выбора речи/музыки, который подается на выходную линию 160 и может использоваться для того, чтобы управлять дальнейшей обработкой сегмента входного сигнала способом, описанным выше и представленным на фиг.6, то есть сигнал 160 выбора речи/музыки может использоваться для направления классифицированного входного сегмента сигнала к речевому кодирующему устройству или к аудиокодирующему устройству.
Таким образом, в соответствии с решениями изобретения два различных классификатора 150 и 154 используются параллельно для обработки входного сигнала, подаваемого к данным классификаторам через входную линию 110. Эти два классификатора называют долгосрочным классификатором 154 и краткосрочным классификатором 150, причем эти два классификатора отличаются, анализируя статистику особенностей с использованием аналитических окон. Эти два классификатора формируют выходные сигналы 152 и 156, а именно мгновенную подсказку выбора (IDC) и отсроченную подсказку выбора (DDC). Краткосрочный классификатор 150 формирует IDC на основе краткосрочных особенностей с целью обеспечить мгновенную информацию о природе входного сигнала. Она связана с краткосрочными признаками сигнала, которые могут быстро и в любое время измениться. Впоследствии краткосрочные особенности будут быстрыми и не внесут большую задержку в процесс дискриминации. Например, так как речь квазипостоянна на 5-20 миллисекундных интервалах, краткосрочные особенности могут быть вычислены для каждого 16 миллисекундного фрейма при частоте дискретизации 16 кГц. Долгосрочный классификатор 154 формирует DDC на основе особенностей, следующих из более длительных наблюдений за сигналом (долгосрочные особенности), и поэтому позволяет достигать более надежной классификации.
Фиг.2 иллюстрирует аналитические окна, используемые долгосрочным классификатором 154 и краткосрочным классификатором 150, показанными в фиг.1. Для фрейма длиной 1024 отсчета при частоте дискретизации 16 кГц длина долгосрочного окна классификатора 162 составляет 41024+128 отсчетов, то есть долгосрочное окно 162 классификатора охватывает четыре фрейма аудиосигнала, и дополнительные 128 отсчетов необходимы долгосрочному классификатору 154, чтобы выполнить анализ. Эта дополнительная задержка, которая упоминается как "предвидение", обозначена на фиг.2 ссылкой 164. Фиг.2 также показывает краткосрочное окно классификатора 166 длиной 1024+128 отсчетов, то есть охватывает один фрейм аудиосигнала и дополнительную задержку, необходимую для того, чтобы проанализировать текущий сегмент. Текущий сегмент, обозначенный ссылкой 128, это сегмент, для которого должен быть сделан выбор речь/музыка.
Долгосрочное окно классификатора, обозначенное на фиг.2, достаточно длинное, чтобы определить характеристики модуляции речи с частотой 4 Гц. Энергетическая модуляция частотой 4 Гц является существенной отличительной особенностью речи, которая традиционно используется в дискриминаторах речи/музыки, например, Scheirer Е. and Slaney M., “Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator”, ICASSP'97, Munich, 1997. Энергетическая модуляция частотой 4 Гц - это особенность, которая может быть определена при наблюдении сигнала на длинном временном сегменте. Дополнительная задержка, которая вносится дискриминатором речи/музыки за счет «предвидения», составляет 164 из 128 отсчетов, необходима каждому из классификаторов 150 и 154, чтобы сделать соответствующий анализ, то есть перцепционный анализ линейного предсказания, как это описано в работах Н. Hermansky, “Perceptive linear prediction (pip) analysis of speech,” Journal of the Acoustical Society of America, vol. 87, no. 4, pp.1738-1752, 1990 и Н. Hermansky, et al., “Perceptually based linear predictive analysis of speech,” ICASSP 5.509-512, 1985. Таким образом, используя дискриминатор кодирующего устройства, представленного на фиг.6, полная задержка переключения кодеров 102 и 106 будет определяться 1600+128 отсчетами, что равняется 108 миллисекундам, и достаточно мало для приложений реального времени.
На фиг.3 описано объединение выходных сигналов 152 и 156 классификаторов 150 и 154 дискриминатора 116 для того, чтобы получить сигнал 160 выбора речь/музыка. Отсроченная подсказка решения DDC и мгновенная подсказка решения IDC в соответствии с решением изобретения объединяются с использованием гистерезиса. Процессы с гистерезисом широко используются, чтобы зафиксировать решения и стабилизировать их. Фиг.3 иллюстрирует двухстадийный процесс решения с гистерезисом как функцию DDC и IDC, чтобы определить, должен ли сигнал выбора речь/музыка указать, что в настоящее время обрабатываемый сегмент входного сигнала является речевым сегментом или музыкальным сегментом. На фиг.3 можно видеть характерный цикл гистерезиса, где сигналы IDC и DDC нормализованы классификаторами 150 и 154 так, что принимают значения между -1 и 1, причем -1 означает, что фрагмент полностью подобен музыке, а 1 означает, что фрагмент полностью подобен речи.
Решение основано на значении функции F(IDC, DDC), примеры которой будут описаны ниже. На фиг.3 функция F1(DDC, IDC) указывает на порог, который должна пересечь функция F(IDC, DDC), чтобы перейти от состояния «музыка» до состояния «речь». Функция F2 (DDC, IDC) иллюстрирует порог, который функция F(IDC, DDC) должна пересечь, чтобы перейти от состояния «речь» до состояния «музыка». Окончательное решение D (n) для текущего сегмента или текущего фрейма, имеющего индекс n, может быть вычислено на основе следующего псевдокода:
Псевдо Код выбора с задержкой
%Hysteresis Decision Pseudo Code
If(D(n-1)=music)
If(F(IDC,DDC)<F1(DDC,IDC))
D(n)==music
Else
D(n)=speech
Else
If(F(IDC,DDC)>F2(DDC,IDC))
D(n)=speech
Else
D(n)==music
%End Hysteresis Decision Pseudo Code
В соответствии с решениями изобретения функция F (IDC, DDC) и вышеупомянутые пороги определены следующим образом:
F(IDC,DDC)=IDC
F1(IDC,DDC)=0.4-0.4DDC
F2(IDC,DDC)=-0.4-0.4DDC
Альтернативно, могут использоваться следующие определения:
F(IDC,DDC)=(2IDC+DDC)/3
F1(IDC,DDC)=-0.75DDC
F2(IDC,DDC)=-0.75DDC
При использовании последнего определения цикл гистерезиса исчезает, и решение принимается только на основе уникального адаптивного порога.
Изобретение не ограничено решением с гистерезисом, описанным выше. Далее будут описаны другие решения для того, чтобы объединить аналитические результаты и получить выходной сигнал.
Вместо решения с гистерезисом может использоваться простая пороговая обработка путем использования особенностей DDC и IDC. Считается, что DDC обеспечивает более надежную подсказку, потому что она получается из более длительного наблюдения за сигналом. Однако, вычисления DDC базируются частично на прошлом наблюдении за сигналом. Обычный классификатор, который сравнивает только значение DDC с порогом 0, классифицируя сегмент как подобный речи при DDC>0, или как подобный музыке, в противном случае формирует отсроченное (задержанное) решение. В этом решении изобретения мы можем использовать пороговую обработку на основе IDC и принять решение быстрее. При этом порог может быть вычислен на основе следующего псевдокода:
% Pseudo code of adaptive thresholding
If(DDO>-0.5IDC)
D(n)==speech
Else
D(n)==music
%End of adaptive thresholding
В другом решении DDC может использоваться для того, чтобы сделать более надежным IDC. IDC, как известно, является быстрым, но не столь надежным, как DDC. Кроме того, анализ развития DDC между прошлым и текущим сегментом может дать другой признак, показывающий, как фрейм 166 на фиг.2 влияет на DDC, вычисленный на сегменте 162. Запись DDC (п) используется для текущего значения DDC и DDC (n-1) - для прошлого значения. Используя оба значения: DDC (n) и DDC(n-1), IDC может быть сделан более надежным при использовании дерева решений, как это описано ниже:
% Псевдокод дерева решений
% Pseudo code of decision tree
If(IDC>0&&DDC(n)>0)
D(n)=speech
Else if(IDC<0&&DDC(n)<0)
D(n)=music
Else if(IDC>0&&DDC(n)-DDC(n-1)>0)
D(n)=speech
Else if(IDC<0&&DDC(n)-DDC(n-1)<0)
D(n)=music
Elseif(DDC>0)
D(n)=speech
Else
D(n)=music
%End of decision tree
В вышеупомянутом дереве решение принимается непосредственно, если обе подсказки показывают одинаковый результат. Если эти две подсказки дают противоречащие признаки, мы смотрим на развитие DDC. Если разность DDC (n)-DDC (n-1) положительна, мы можем предположить, что текущий сегмент подобен речи. Иначе, мы можем предположить, что текущий сегмент подобен музыке. Если этот новый признак идет в том же направлении, как IDC, принимается окончательное решение. Если обе попытки не в состоянии дать ясное решение, решение принимается на основании только отсроченной подсказки DDC, так как достоверность IDC недостаточна.
Далее в соответствии с решениями изобретения будут описаны классификаторы 150 и 154.
Прежде всего для долгосрочного классификатора 154 отметим, что требуется для того, чтобы извлечь ряд особенностей из каждого подфрейма длиной 256 отсчетов. Первая особенность - коэффициент перцепционного линейного предсказания (Perceptual Linear Prediction Cepstral Coefficient - PLPCC), который описан в работах Н. Hermansky, “Perceptive linear prediction (pip) analysis of speech,” Journal of the Acoustical Society of America, vol. 87, no. 4, pp.1738-1752, 1990 и Н. Hermansky, et al., “Perceptually based linear predictive analysis of speech,” ICASSP 5.509-512, 1985. Коэффициент PLPCC эффективен для классификации диктора при использовании человеческой слуховой оценки восприятия. Эти коэффициенты могут быть использованы, чтобы отличить речь и музыку, они действительно позволяют различать особенность формант (formants) речи, так же как и силлабической модуляции (модуляции по слогам) речи на частоте 4 Гц, при анализе изменений особенностей во времени.
Однако для усиления признаков различия коэффициенты PLPCC объединены с другой особенностью, которая в состоянии захватить информацию об основном тоне, которая является другой важной особенностью речи и может быть важна при кодировании. Действительно, речевое кодирование основывается на условии, что входной сигнал - псевдомонопериодический сигнал. Речевые кодирующие схемы эффективны для такого сигнала. С другой стороны характеристики высоты тона речи вредят эффективности кодирования музыкальных кодеров. Плавное колебание высоты тона, данное естественное вибрато речи, делает частотное представление сигнала в музыкальных кодерах неподходящим для сильного сжатия, которое требуется для того, чтобы получить высокую эффективность кодирования.
Можно выделить следующие особенности тона:
Отношение голосовых энергетических импульсов:
Эта особенность вычисляет отношение энергии между голосовым импульсом и разностным сигналом LPC. Голосовой пульс извлекается из разностного сигнала LPC с использованием алгоритма выбора максимума (pick-peaking). Обычно LPC голосовой сегмент проявляет ярко выраженную подобную пульсу структуру, возникающую из-за вибрации гортани. Эта особенность велика для голосовых сегментов.
Долгосрочное предсказание уровня передачи:
Уровень передачи обычно вычисляется в речевых кодерах (см. например, “Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec”, 3GPP TS 26.290 V6.3.0, 2005-06, Technical Specification) во время долгосрочного предсказания. Эта особенность измеряет периодичность сигнала и основана на оценке понижения тона.
Колебание понижения тона:
Эта особенность определяет различие существующей оценки понижения тона по сравнению с последним подфреймом. Для голосовой речи эта особенность низкая, но не ноль и изменяется плавно.
Как только долгосрочный классификатор извлек необходимый набор особенностей, используется статистический классификатор этих извлеченных особенностей. Классификатор сначала обучается, извлекая особенности по речевому и музыкальному учебным наборам. Извлеченные особенности нормализованы и изменяются на 1 относительно значения 0 для данных наборов. Для каждого учебного набора извлеченные и нормализованные особенности собраны в пределах долгосрочного окна классификатора и смоделированы с использованием смешанной модели Гаусса (Gaussians Gaussians Mixture Model - GMM) с использованием пяти Гауссианов. В результате проведения последовательности обучения получается и сохраняется ряд параметров нормализации и два набора параметров GMM.
Для классификации особенности сначала извлекаются для каждого фрейма и нормализуются с параметрами нормализации. Максимальная вероятность для речи (11d_speech) и максимальная вероятность для музыки (11d_music) вычисляются для извлеченных и нормализованных особенностей, используя GMM речевого класса и GMM музыкального класса, соответственно. Тогда отсроченная подсказка решения DDC вычисляется следующим образом:
DDC=(11d_speech-11d_music)/(abs(11d_music)+abs(11d_speech))
DDC лежит между -1 и 1 и положителен, когда вероятность речи выше, чем вероятность для 11d_speech>11d_music.
Краткосрочный классификатор использует в качестве краткосрочной особенности коэффициент PLPCC. В отличие от долгосрочного классификатора эта особенность анализируется в окне 128. Статистические данные по этой особенности используются на этом коротком промежутке времени в смешанной модели Гаусса (Gaussians Gaussians Mixture Model - GMM) с использованием пяти гауссианов. Обучаются две модели, одна для музыки, другая для речи. Заметим, что эти две модели отличаются от моделей, полученных для долгосрочного классификатора. Для классификации каждого фрейма сначала извлекаются коэффициенты PLPCC, максимальная вероятность для речи (11d_speech) и максимальная вероятность для музыки (11d_music), вычисленные для того, чтобы использовать GMM речевого класса и GMM музыкального класса, соответственно. Мгновенная подсказка решения IDC тогда вычисляется следующим образом
IDC=(11d_speech-11d_music)/(abs(11d_music)+abs(11d_speech))
IDC изменяется от -1 до 1.
Таким образом, краткосрочный классификатор 150 формирует краткосрочный результат классификации сигнала на основе особенности “коэффициент перцепционного линейного предсказания (PLPCC)”, и долгосрочный классификатор 154 формирует долгосрочный результат классификации сигнала на основе той же самой особенности “коэффициент перцепционного линейного предсказания (PLPCC)” и вышеупомянутой дополнительной функции (или функций), т.е. характеристики (или характеристик) основного тона речевого сигнала. Кроме того, долгосрочный классификатор может использовать различные особенности общей особенности, то есть коэффициента PLPCC, поскольку у долгосрочного классификатора есть доступ к более длинному окну наблюдения. Таким образом, после объединения краткосрочных и долгосрочных результатов краткосрочные особенности существенно принимаются во внимание для классификации, то есть их свойства существенно используются.
Ниже описано в деталях дальнейшее решение для соответствующих классификаторов 150 и 154.
Краткосрочные особенности, проанализированные краткосрочным классификатором в соответствии с решением, соответствуют, главным образом, коэффициентам перцепционного линейного предсказания, упомянутым выше как коэффициенты PLPCC. Коэффициенты PLPCC широко используются в речи и идентификации диктора так же, как и MFCC (см. выше). Коэффициенты PLPCC оставлены, потому что они разделяют большую часть функциональности линейного предсказания (LP), которое используются в большей части современных речевых кодеров и реализовано в переключаемом аудиокодере. Используя PLPCC, можно извлечь структуру формант речи, как это делает LP, но принимая во внимание перцепционные соображения, PLPCC более независимы от диктора (говорящего) и, таким образом, более значимы в отношении лингвистической информации. Для сигнала с частотой дискретизации 16 кГц используется набор из 16.
Кроме коэффициентов PLPCC, вычисляется сила голоса как краткосрочная особенность. Силу голоса обычно не используют отдельно, но она выгодна при совместном использовании с PLPCC. Сила голоса позволяет выделить при измерении особенностей по крайней мере две группы, относящиеся соответственно к голосовому и неголосовому произношению речи. Метод выделения этих групп основан на вычислении характерных свойств с использованием различных параметров, называемых число пересечений нуля (Zero crossing Counter - zc), спектральный наклон (spectral tilt - tilt), стабильность основного тона речи (pitch stability - ps), и нормализованная корреляция основного тона речи (normalized correlation of the pitch - nc). Все эти четыре параметра нормализованы между 0 и 1 способом, при котором 0 соответствует типичному неголосовому сигналу, а 1 соответствует типичному голосовому сигналу. В данном решении сила голоса берется из критерия классификации речи, используемого в речевом кодере VMR-WB, описанном в работе Milan Jelinek and Redwan Salami, "Wideband speech coding advances in vmr-wb standard," IEEE Trans. on Audio, Speech and Language Processing, vol. 15, no. 4, pp.1167-1179, May 2007. В основу критерия положена динамика следящего фильтра высоты тона, основанного на автокорреляции. Для фрейма с индексом k сила голоса u (k) имеет следующую форму:
v ( k ) = 1 5 ( 2 n c ( k ) + 2 p s ( k ) + t i l t ( k ) + z c ( k ) )
Figure 00000001
Способность к различению у краткосрочных особенностей вычисляется с использованием смешанных моделей Гаусса (Gaussian Mixture Models - GMMS) как классификатора. Используются две GMM, одна для речевого класса и другая для музыкального класса. Число смешиваемых компонент гауссовой плотности сделано переменным, чтобы оценить влияние на рабочие характеристики. Таблица 1 показывает степени точности для различного числа смешиваемых компонент. Значения вычислены для каждого сегмента четырех последовательных фреймов. Полная задержка равна 64 миллисекундам, что является подходящим для переключаемого аудиокодирования. Можно заметить, что точность увеличивается с ростом числа смешиваемых компонент. Разрыв между 1-GMMs и 5-GMMs особенно важен и может быть объяснен фактом, что представление речи в виде формант слишком сложно, чтобы быть достаточно определенным только одним Гауссианом.
1-GMMs 5-GMMs 10-GMMs 20-GMMs
Речь 95.33 96.52 97.02 97.60
Музыка 92.17 91.97 91.61 91.77
Среднее 93.75 94.25 94.31 94.68
Табл. 1: Точность классификации в % с использованием краткосрочных особенностей
Рассматривая долгосрочный классификатор 154, отметим что во многих работах, например, М. J. Carey, et. al. “A comparison of features for speech and music discrimination,” Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing, ICASSP, vol. 12, pp.149 to 152, March 1999, полагается, что статистические различия особенностей лучше подходят для различения, чем особенности непосредственно. Как грубое общее правило, музыку можно считать более постоянной, обычно демонстрирующей небольшие изменения. Напротив, речь можно легко отличить из-за ее значительной энергетической модуляции с частотой 4 Гц, поскольку сигнал периодически изменяется между голосовым и неголосовым сегментами. Более того, последовательность различных фонем делает речевые особенности менее постоянными. Согласно предлагаемому решению рассматриваются две долгосрочных особенности: одна, основанная на вычислении различия, и другая, основанная на априорном знании контура основного тона речи. Долгосрочные особенности приспособлены к низкой задержке SMD (дискриминации речи/музыки).
Динамическое изменение PLPCC состоит в вычислении различия для каждого набора коэффициентов PLPCC по накладывающемуся аналитическому оконному покрытию нескольких фреймов так, чтобы придать особое значение последнему фрейму. Чтобы ограничить вносимое время ожидания, аналитическое окно асимметрично и «рассматривает» только текущий фрейм и прошлое. На первом шаге вычисляется скользящее среднее значение mam(k) коэффициентов PLPCC по последним N фреймам следующим образом:
m a m ( k ) = i = 0 N 1 P L P C m ( k i ) w ( i )
Figure 00000002
где PLPm (k) - m-тый коэффициент косинусного преобразования Фурье, из М коэффициентов, полученных для k-того фрейма. Динамическое различие mvm (k) тогда определено как:
m v m ( k ) = i = 0 N 1 ( P L P C m ( k i ) m a m ( k ) 2 w ( i ) )
Figure 00000003
где w - окно длины N, которое согласно решению имеет наклон ската, определенный следующим образом:
w(i)=(N-i)/N·(N+1)/2
Динамическое различие в конце усредняется по m:
m v ( k ) = 1 М m = 0 М m v m ( k )
Figure 00000004
У основного тона речи есть замечательные свойства и часть их может наблюдаться только на длинных аналитических окнах. Действительно основной тон речи плавно колеблется во время голосовых сегментов, но редко является постоянным. Напротив, музыка показывает очень часто постоянный основной тон во время всей продолжительности ноты и резкие изменения во время переходов. Долгосрочные особенности охватывают эту особенность, при наблюдении контура основного тона на длинном временном сегменте. Параметр контура основного тона pc(k) определен как:
p c ( k ) = { 0 i f | p ( k ) p ( k 1 ) | < 1 0,5 i f 1 | p ( k ) p ( k 1 ) | < 2 1 i f 2 | p ( k ) p ( k 1 ) | < 20 0,5 i f 20 | p ( k ) p ( k 1 ) | < 25 0 o t h e r w i s e
Figure 00000005
где р (k) является задержкой основного тона, вычисленной на фрейме с индексом k на LP разностном сигнале с частой дискретизации 16 Гц. Качество речи sm(k) вычисляется из параметра контура основного тона способом, при котором речь, как ожидают, покажет плавно колеблющуюся задержку основного тона во время голосовых сегментов и сильный спектральный наклон к высоким частотам во время неголосовых сегментов:
s m ( k ) = { n c ( k ) p c ( k ) i f v ( k ) 0.5 ( 1 n c ( k ) ) ( 1 t i l t ( k ) ) o t h e r w i s e
Figure 00000006
где nc(k), tilt(k) и v(k) определены выше (см. краткосрочный классификатор). Характеристика «качество речи» нагружена весовыми коэффициентами окна w, определенного выше и объединяющего последние N фреймов:
a m s ( k ) = i = 0 N m ( k 1 ) w ( i )
Figure 00000007
Контур основного тона также важный признак того, что сигнал является подходящим для речевого или аудиокодирования. Действительно, речевые кодеры работают, главным образом, во временном интервале и делают предположение, что сигнал гармонический и квазипостоянен на сегментах короткого промежутка времени приблизительно 5 миллисекунд. С этими предположениями они могут смоделировать эффективно естественное колебание тона речи. Напротив, то же самое колебание вредит эффективности обычных аудиокодирующих устройств, которые используют линейные преобразования на длинных аналитических окнах. Основная энергия сигнала тогда распространяется по нескольким коэффициентам преобразования.
Как краткосрочные особенности, так и долгосрочные особенности оцениваются с использованием статистического классификатора, формирующего, таким образом, долгосрочный результат классификации (DDC). Вычислены две особенности с использованием N=25 фреймов при анализе 400 миллисекунд предыстории сигнала. Перед использованием 3-GMM в сокращенном одномерном пространстве применен линейный дискриминантный анализ (LDA). Таблица 2 показывает точность классификации, определенной на наборах обучения и тестирования, при классифицикации сегментов четырех последовательных фреймов.
Набор обучения Тестовый набор
Речь 97.99 97.84
Музыка 95.93 95.44
Среднее 96.96 96.64
Табл. 2: Точность классификации в % с использованием долгосрочных особенностей
Объединенная система классификаторов согласно решениям изобретения сочетает соответственно краткосрочные и долгосрочные функции способом, при которым они приносят собственный определенный вклад в окончательное решение. С этой целью может использоваться стадия окончательного решения с гистерезисом, как описано выше, где эффект памяти управляется DDC или долгосрочной отличительной подсказкой (LTDC), в то время как мгновенные данные получаются из IDC или краткосрочной отличительной подсказки (STDC). Эти две подсказки формируются на выходе долгосрочных и краткосрочных классификаторов, как иллюстрируется на фиг.1. Решение принимается на основе IDC, но утверждается DDC, который управляет динамически порогами, вызывающими изменение состояния.
Долгосрочный классификатор 154 использует долгосрочные и краткосрочные особенности, ранее определенные с использованием LDA, сопровождаемым 3-GMM. DDC равен логарифмическому отношению долгосрочной вероятности классификатора речевого класса и музыкального класса, вычисленного по последним 4 Х К фреймам. Число принятых во внимание фреймов может меняться в зависимости от параметра К, чтобы добавить в большей или меньшей степени эффект памяти в окончательном решении. Напротив, краткосрочный классификатор использует только краткосрочные функции с 5-GMM, которые показывают хороший компромисс между эффективностью и сложностью. IDC равен логарифмическому отношению краткосрочной вероятности классификатора речевого класса и музыкального класса, вычисленного только по последним 4 фреймам.
Чтобы оценить данный подход специально для переключаемого аудиокодирования, были оценены три различных вида действий. Первое измерение эффективности проводилось с использованием обычной речи против музыки (SvM). Оценка получена по большому набору речевых знаков и музыки. Второе измерение эффективности сделано на большом уникальном материале, включающем речь и музыкальные сегменты, чередующиеся каждые 3 секунды. Точностью различения тогда называется различение речи после/прежде музыки (SabM) и отражает, главным образом, быстродействие системы. Наконец, устойчивость различения оценена путем выполнения классификации на большом наборе речевых фрагментов поверх музыкальных. Смешивание речи и музыки сделано на разных уровнях. Характеристика речь поверх музыки (SoM) получена путем вычисления отношения числа переключений, которые произошли на общем количестве фреймов.
Долгосрочный и краткосрочный классификаторы используются в качестве ссылок для того, чтобы оценить обычные подходы с использованием одиночных классификаторов. Краткосрочный классификатор показывает хорошее быстродействие, имея более низкую устойчивость и способность различения (дискриминации) повсюду. С другой стороны долгосрочный классификатор, сильно увеличивая число фреймов 4 Х К, может достигнуть лучшей устойчивости и способности различения музыки и речи, ставя под угрозу быстродействие решения. При сравнении с упомянутым обычным подходом у предложенной объединенной системы классификаторов в соответствии с изобретением есть несколько преимуществ. Одно преимущество состоит в том, что предложенное решение поддерживает хорошую чистую речь в отличие от музыкальных дискриминаторов, сохраняя быстродействие системы. Другое преимущество - хороший баланс между быстродействием и устойчивостью.
На фиг.4 и 5 иллюстрируются примеры схем кодирования и расшифровки, которые включают дискриминатор или блок, работающий в соответствии с решениями изобретения.
В соответствии с представленной схемой кодирования, показанной на фиг.4, моносигнал, сигнал стерео или многоканальный сигнал подаются на общий блок предварительной обработки 200.
У общего блока 200 предварительной обработки может быть функциональность объединенного стерео (joint stereo), многоканального стерео (surround stereo), и/или функциональность расширения полосы частот. На выходе блока 200 есть моноканал, стереоканал или много каналов, в которые являются входными каналами в один или более переключателей 202. Переключатель 202 может быть реализован для каждого выхода блока 200, когда у блока 200 есть два или больше выходов, то есть, когда блок 200 формирует стерео или многоканальный сигналы. Например, первый канал сигнала стерео может быть речевым каналом, и второй канал сигнала стерео может быть музыкальным каналом. В этом случае выбор блока 204 решения может в один и тот же момент времени отличаться между этими двумя каналами.
Переключателем 202 управляет блок 204 решения. Блок выбора включает дискриминатор в соответствии с решениями изобретения и получает в качестве входных данных сигнал, поступающий на блок 200, или сигнал на выходе блока 200. Альтернативно, блок 204 решения может также получить внешнюю информацию, которая включена в моносигнал, сигнал стерео или многоканальный сигнал или по крайней мере связана с таким информационным сигналом, который был, например, сформирован из первоначального моно, стереосигнала или многоканального сигнала.
В одном решении блок выбора не управляет блоком 200 предварительной обработки, и стрелка, соединяющая блоки 204 и 200, отсутствует. В дальнейшей реализации, обработкой в блоке 200 управляет до известной степени блок выбора 204, чтобы установить основанный на выборе один или более параметров в блоке 200. Это, однако, не влияет на общий алгоритм блока 200 так как его основная функциональность 200 остается независимо от решения, вырабатываемого блоком 204.
Вырабатывающий решение блок 204 приводит в действие переключатель 202, чтобы подать выходные данные общего блока предварительной обработки на блок кодирования частоты 206, расположенный в верхней части фиг.4 или блок LPC-кодирования 208, расположенный в нижней части фиг.4.
В одном решении переключатель 202 переключается между двумя кодирующими каналами 206, 208. В дальнейших разработках могут быть дополнительные каналы кодирования, такие как третий канал кодирования, четвертый канал кодирования или даже больше каналов кодирования. В решении с тремя каналами кодирования третий канал кодирования может быть подобным второму каналу кодирования, но включает кодирующее устройство возбуждения, отличающееся от кодирующего устройства возбуждения 210 во втором канале 208. В таком воплощении второй канал включает блок 212 LPC и кодирующее устройство возбуждения 210, такое как в ACELP, основанное на таблице кодов, а третий канал включает блок LPC и кодирующее устройство возбуждения, воздействующее на спектральное представление выходного сигнала блока LPC.
Канал кодирования частотной области включает блок спектрального преобразования 214, который осуществляет преобразование выходного сигнала общего блока предварительной обработки в спектральную область. Блок спектрального преобразования может включать алгоритмы MDCT (модифицированное дискретное косинусное преобразование), QMF, алгоритм FFT (быстрое преобразование Фурье), вейвлет анализ или блок фильтров, такой как критически выбранный блок фильтров (блок фильтров, в котором сбалансировано частотное и временное разрешение), имеющий определенное количество каналов, сигналы в которых могут быть реальными, или комплексными сигналами. Выходные данные блока спектрального преобразования 214 кодируются, используя спектральное аудиокодирующее устройство 216, которое может включать блоки обработки, известные из ААС кодирующих схем.
Канал кодирования 208 включает исходную модель анализатора, такую как LPC 212, которая формирует два вида сигналов. Один сигнал - информационный LPC сигнал, который используется для того, чтобы управлять характеристиками фильтра LPC синтеза. Эта LPC информация передается к декодеру. Другой выходной сигнал блока LPC 212-сигнал возбуждения или сигнал LPC-области, который поступает в устройство 210, кодирующее сигнал возбуждения. В качестве кодирующего устройства возбуждения 210 может быть выбрано любое кодирующее устройство, такое как кодирующее устройство CELP, кодирующее устройство ACELP или любое другое кодирующее устройство, которое обрабатывает сигнал LPC.
Другое выполнение кодирующего устройства возбуждения может быть кодированием преобразованного сигнала возбуждения. В таком воплощении сигнал возбуждения не кодируется с использованием ACELP, а преобразуется в спектральное представление, и спектральные коэффициенты представления, такие как сигналы подгруппы в случае блока фильтров, или частотные коэффициенты в случае преобразования FFT, кодируются, чтобы получить сжатие данных. Реализация этого вида устройства, кодирующего сигнал возбуждения, является способом кодирования ТСХ, известным из AMR-WB+.
Сигнал выбора, формируемый блоком 204, должен быть сформирован так, чтобы блок выбора 204 выполнил дискриминацию музыки/речи и управлял выключателем 202 таким способом, при которым музыкальные сигналы поступают в верхний канал 206, а речевые сигналы поступают в нижний канал 208. В одном решении блок 204 формирует свою информацию о решении в виде выходного битового потока, так, чтобы декодер мог использовать эту информацию о выборе и выполнить правильные операции по расшифровке.
Такой декодер иллюстрирован на фиг.5. После передачи сигнал, сформированный спектральным аудиокодирующим устройством 216, поступает на спектральный аудиодекодер 218. Выходные данные спектрального аудиодекодера 218 поступают на преобразователь временной области 220. Выходные данные кодирующего устройства возбуждения, 210 из фиг.4 поступают в декодер возбуждения 222, который формирует сигнал LPC-области. Сигнал LPC-области поступает в блок 224 синтеза LPC, который получает на другой вход информацию LPC, сформированную соответствующим аналитическим LPC блоком 212. Выход преобразователя временной области 220 и/или выход блока 224 синтеза LPC соединен с переключателем 226. Переключателем 226 управляет сигнал управления переключателем, который был, например, сформирован блоком выбора 204 и является внешним, сформированным создателем оригинального моносигнала, стереосигнала или многоканального сигнала.
Выходной сигнал переключателя 226 является полным моносигналом, который впоследствии поступает в общий блок 228 последующей обработки, который может выполнить обработку объединенного стерео, или обработку расширения полосы частот и т.д. Альтернативно, выходной сигнал переключателя может также быть сигналом стерео или многоканальным сигналом. Это сигнал стерео, когда предварительная обработка включает сжатие в двух каналах. Это может быть даже многоканальный сигнал, когда осуществляется сжатие данных трех каналов или сжатие не осуществляется вообще, но осуществляется только технология восстановления спектра.
В зависимости от определенной функциональности общего блока последующей обработки формируется моно сигнал, сигнал стерео или многоканальный сигнал, который имеет большую спектральную полосу, чем входной сигнал блока 228 в случае, если общий блок 228 последующей обработки выполняет операцию по расширению полосы частот.
В одном решении переключатель 226 переключается между двумя каналами расшифровки 218, 220 и 222, 224. В другом решении могут быть дополнительные каналы расшифровки, такие как третий канал расшифровки, четвертый канал расшифровки или даже больше каналов расшифровки. В решении с тремя каналами расшифровки третий канал расшифровки может быть подобным второму каналу расшифровки, но включает декодер возбуждения, отличающийся от декодера возбуждения 222 во втором канале 222, 224. В таком воплощении второй канал включает блок 224 LPC и декодер возбуждения, такой как в ACELP, основанный на таблице кодов, а третий канал включает блок LPC и декодирующее устройство сигнала возбуждения, воздействующее на спектральное представление выходного сигнала блока 224 LPC.
В другом решении общий блок предварительной обработки включает блок многоканального/объединенного (surround/joint) стерео, который формирует на выходе объединенные параметры стерео и моно выходной сигнал, которые образуются сжатием со смешением входного сигнала имеющего два или больше каналов. Вообще, сигнал, формируемый блоком, может также быть сигналом, имеющим больше каналов, но из-за операции по сжатию со смешением (микшированием) число каналов, формируемых блоком, будет меньшим, чем число входных каналов в блок. В этом решении канал кодирования частоты включает спектральное преобразование и впоследствии связанную обработку квантования/кодирования. Блок квантования/кодирования может включать любую из функциональностей известных в современных частотных кодирующих устройствах, таких как кодирующее устройство ААС. Кроме того, операцией по квантизации на стадии квантования/кодирования можно управлять через физикоакустический модуль, который формирует физикоакустическую информацию, поступающую в блок, такую как психоакустический маскирующий частотный порог. Спектральное преобразование с использованием операции MDCT предпочтительно, еще более предпочтительной является операция MDCT с временными предискажениями (time-warped MDCT), где величиной предискажения можно управлять между нулем и большим значением. Известно, что при величине предискажения ноль операция MDCT является прямой операцией MDCT. Кодирующее устройство LPC-области может включать ядро ACELP, вычисляющее передачу звука, задержку звука и/или информацию о наборе кодов, такую как индекс набора кодов и передача кода.
Хотя некоторые из рисунков иллюстрируют блок-схемы устройства, отметим, что эти рисунки в то же самое время иллюстрируют метод, где функциональность блока соответствует шагам метода.
Выше были описаны решения изобретения, охватывающего входной звуковой сигнал, включающий различные сегменты или фреймы, связываемые с информацией о речи или информацией о музыке. Изобретение не ограничено такими решениями, скорее это подход для того, чтобы классифицировать различные сегменты сигнала, включающего сегменты, по крайней мере, первого типа и второго типа, метод может также быть применен к аудиосигналам, включающим три или больше различных типа сегментов, каждый из которых должен быть закодирован с использованием различных схемам кодирования. Примеры для таких типов сегментов:
- Стационарные/нестационарные сегменты могут быть обработаны с использованием различных блоков фильтров, окон или кодирующих устройств. Например, переходный процесс должен быть закодирован с использованием блока фильтров с хорошим временным разрешением, в то время как чистая синусоида должна быть закодирована блоком фильтров с хорошим частотным разрешением.
- Голосовой/неголосовой: голосовые сегменты хорошо обрабатываются речевым кодером, таким как CELP, но для неголосовых сегментов при этом тратится впустую слишком много битов. Параметрическое кодирование будет более эффективным.
- Тишина/Активность: тишина может быть закодирована с меньшим количеством битов, чем активные сегменты.
- Гармонический/негармонический: Для гармонического кодирования сегментов выгодно использовать линейное предсказание в области частоты.
Кроме того, изобретение не ограничено областью аудиометодов, вышеописанный подход к классификации может быть применен к другим видам сигналов, таким как видеосигналы или сигналы данных, причем эти сигналы включают сегменты различных типов, которые требуют различной обработки.
Данное изобретение может быть адаптировано ко всем приложениям, которые нуждаются во временной сегментации сигнала. Например, обнаружение лица от видеокамеры наблюдения может быть основано на классификаторе, который определяет для каждого пиксела фрейма (здесь фрейм соответствует снимку, сделанному в момент n), принадлежит ли он лицу человека или нет. Классификация (то есть сегментация лица) должна быть сделана для каждого фрейма видеопотока. Однако, используя данное изобретение, сегментация существующего фрейма может принять во внимание прошлые последовательные фреймы для того, чтобы получить лучшую точность сегментации, основанную на том, что последовательные снимки сильно коррелированы. Тогда могут быть применены два классификатора. Один для анализа только существующей структуры и другой для анализа ряда фреймов, включая настоящее и прошлое. Последний классификатор может объединить набор фреймов и определить область вероятного положения лица. Выбор классификатора, сделанный только на текущем фрейме, тогда будет сравнивать с этой вероятной областью. При этом выбор может быть утвержден или изменен.
Решения изобретения используют переключатель для того, чтобы переключиться между каналами так, чтобы только один канал получил обрабатываемый сигнал, а другой канал не получил. В альтернативном решении переключатель может также быть встроен после блоков обработки или каналов, например, аудиокодирующее устройство и речевое кодирующее устройство так, чтобы оба канала обработали тот же самый сигнал параллельно. Сигнал, сформированный одним из этих каналов, поступает на выход, чтобы попасть в выходной поток данных.
В то время как решения изобретения были описаны на основе цифровых сигналов, сегменты которых были определены предопределенным числом отсчетов, полученных при определенной частоте выборки, изобретение не ограничено такими сигналами, оно также применимо к аналоговым сигналам, в которых сегмент был бы тогда определен определенным частотным диапазоном или периодом времени аналогового сигнала. Кроме того, решения изобретения были описаны в комбинации с кодирующими устройствами включая дискриминатор. Отметим, что в целом в соответствии с решениями изобретения подход к классифицикации сигналов может быть применен к декодерам, получающим кодируемое сообщение, для которого могут быть выбраны различные схемы кодирования, таким образом, обеспечивается обработка кодируемого сообщения соответствующим декодером.
В зависимости от определенных требований предложенные методы могут быть осуществлены в аппаратных средствах или в программном обеспечении. Выполнение может быть осуществлено с использованием цифрового носителя данных, в частности, диска DVD или компакт-диска, хранящего в электронном виде управляющие коды, которые исполняются программируемыми компьютерными системами, таким образом, что выполняются предложенные алгоритмы. Вообще, данное изобретение является компьютерной программой, сохраненной на электронном носителе, выполняемый на компьютере код программы осуществляет предложенные методы. Другими словами, предложенные методы - это компьютерная программа, имеющая программный код того, чтобы выполнить по крайней мере один из предложенных методов при выполнении этой компьютерной программы на компьютере.
Описанные выше решения являются простой иллюстрацией принципов данного изобретения. Подразумевается, что модификации и изменения описанных здесь средств и деталей будут очевидны для специалистов. Поэтому есть намерение ограничиться набором утверждений формулы изобретения, а не определенными и описанными здесь деталями решений.
В вышеупомянутых решениях описан сигнал, включающий множество фреймов, где оценен текущий фрейм для выбора переключения. Отмечено, что текущий сегмент сигнала, который оценен для выбора переключения, может быть одним фреймом, однако, изобретение не ограничено такими решениями. Сегмент сигнала может также включить множество, то есть два или больше фреймов.
Далее, в описанных решениях краткосрочный классификатор и долгосрочный классификаторы использовали ту же самую краткосрочную функцию. Этот подход может использоваться по различным причинам, как необходимость вычисления краткосрочных особенностей только однажды и использование их двумя классификаторами, что уменьшает сложность системы, поскольку, например, краткосрочная особенность может быть вычислена одним из краткосрочных или долгосрочных классификаторов и передана другому классификатору. Кроме того, сравнение результататов краткосрочного и долгосрочного классификаторов может быть более значимым, поскольку вклад текущего фрейма в долгосрочный результат классификации выводится более легко по сравнению с краткосрочным результатом классификации, так как эти два классификатора используют общие свойства.
Изобретение, однако, не ограничено таким подходом, и долгосрочный классификатор может использовать те же самые краткосрочные особенности, как краткосрочный классификатор, то есть и краткосрочный классификатор, и долгосрочный классификатор могут вычислить соответствующую краткосрочную особенность (и), которые отличаются друг от друга.
В то время как описанные выше решения используют PLPCC как краткосрочную особенность, отметим, что можно рассмотреть другие особенности, например, разнообразие PLPCC.

Claims (17)

1. Способ классификации различных сегментов аудиосигнала, содержащего речевые и музыкальные сегменты, включающий краткосрочную классификацию (150) аудиосигнала на основе по крайней мере одной краткосрочной особенности извлеченной из аудиосигнала, чтобы определить, является ли текущий сегмент аудиосигнала речевым сегментом или музыкальным сегментом, и сформировать краткосрочный результат классификации (152) указывающий, что текущий сегмент аудиосигнала является речевым сегментом или музыкальным сегментом; долгосрочную классификацию (154) аудиосигнала на основе по крайней мере одной краткосрочной особенности и по крайней мере одной долгосрочной особенности извлеченных из аудиосигнала, чтобы определить, является ли текущий сегмент аудиосигнала речевым сегментом или музыкальным сегментом, и сформировать долгосрочный результат классификации (156) указывающий, что текущий сегмент аудиосигнала является речевым сегментом или музыкальным сегментом; и объединение (158) краткосрочного результата классификации (152) и долгосрочного результата классификации (156), чтобы сформировать выходной сигнал (160) указывающий, является ли текущий сегмент аудиосигнала речевым сегментом или музыкальным сегментом.
2. Способ по п.1, где этап объединения включает формирование выходного сигнала на основе сравнения краткосрочного результата классификации (152) и долгосрочного результата классификации (156).
3. Способ по п.1, где получена по крайней мере одна краткосрочная особенность при анализе текущего классифицируемого сегмента аудиосигнала; и получена по крайней мере одна долгосрочная особенность при анализе текущего сегмента аудиосигнала и одного или более предыдущих сегментов аудиосигнала;
4. Способ по п.1, где получена по крайней мере одна краткосрочная особенность путем анализа первым способом исследуемого окна (168) первой длины; и получена по крайней мере одна долгосрочная особенность, путем анализа вторым методом исследуемого окна (162) второй длины, причем первая длина, короче чем вторая длина, и первый и второй методы анализа, отличаются.
5. Способ по п.4, где первая длина охватывает текущий сегмент аудиосигнала, вторая длина охватывает текущий сегмент аудиосигнала и один или более предыдущих сегментов аудиосигнала, и первая и вторая длины включают дополнительный период (164) покрывающий период анализа.
6. Способ по п.1, где объединение (158) краткосрочного результата классификации (152) и долгосрочного результата классификации (156) включает решение с гистерезисом на основе объединенного результата, причем объединенный результат включает краткосрочный результат классификации (152) и долгосрочный результат классификации (156), каждый из которых нагружен предопределенным весовым коэффициентом.
7. Способ по п.1, где аудио сигнал является цифровым сигналом, и сегмент аудиосигнала включает предопределенное число отсчетов, полученных при определенной частоте осуществления выборки.
8. Способ по п.1, где по крайней мере одна краткосрочная особенность включает параметры PLPCC; и по крайней мере одна долгосрочная особенность включает информацию об особенности основного тона звука.
9. Способ по п.1, где краткосрочная особенность, использованная для краткосрочной классификации и краткосрочная особенность, использованная для долгосрочной классификации, являются одинаковыми или отличаются.
10. Способ обработки аудиосигнала, включающего речевые и музыкальные сегменты, включающий классификацию (116) текущего сегмента аудиосигнала в соответствии со способом по пп.1-9; зависимость от выходного сигнала (160) сформированного на этапе классификации (116) путем обработки (102, 206; 106, 208) текущего сегмента в соответствии с первым процессом или вторым процессом; и формирование выходного обработанного сегмента.
11. Способ по п.10, где сегмент обрабатывается речевым кодирующим устройством (102), когда выходной сигнал (160) указывает, что сегмент является речевым сегментом; и сегмент обрабатывается музыкальным кодирующим устройством (106), когда выходной сигнал (160) указывает, что сегмент является музыкальным сегментом.
12. Способ по п.11, дополнительно включающий объединение (108) закодированного сегмента и информации от выходного сигнала (160) указывающего на тип сегмента.
13. Машиночитаемый носитель информации, имеющий программный код для выполнения способа по п.1, когда программный код выполняется на компьютере или процессоре.
14. Дискриминатор, включающий краткосрочный классификатор (150) настраиваемый, чтобы получить аудио сигнал и определить, является ли текущий сегмент аудиосигнала речевым сегментом или музыкальным сегментом, и сформировать краткосрочный результат классификации (152) из аудиосигнала на основе по крайней мере одной краткосрочной особенности, извлеченной из аудиосигнала; краткосрочный результат классификации (152), указывающий, что текущий сегмент аудиосигнала является речевым сегментом или музыкальным сегментом аудиосигнала, включающего речевые и музыкальные сегменты; долгосрочный классификатор (154) предназначенный, чтобы получить аудио сигнал и определить, является ли текущий сегмент аудиосигнала речевым сегментом или музыкальным сегментом, и сформировать долгосрочный результат классификации (156) из аудиосигнала на основе по крайней мере одной краткосрочной особенности и по крайней мере одной долгосрочной особенности, извлеченной из аудиосигнала; долгосрочный результат классификации (156) указывающий, что текущий сегмент аудиосигнала является речевым сегментом или музыкальным сегментом; и схему выбора (158) предназначенную, чтобы объединить краткосрочный результат классификации (152) и долгосрочный результат классификации (156), чтобы обеспечить выходной сигнал (160) указывающий, является ли текущий сегмент аудиосигнала речевым сегментом или музыкальным сегментом.
15. Дискриминатор по п.14, где схема выбора (158) предназначенная, чтобы сформировать выходной сигнал на основе сравнения краткосрочного результата классификации (152) и долгосрочного результата классификации (156).
16. Устройство обработки аудиосигнала, включающее вход (110) для получения обрабатываемого аудиосигнала, где аудиосигнал, включает речевые и музыкальные сегменты; первый канал обработки (102; 206) для обработки речевых сегментов; второй канал обработки (104; 208) для обработки музыкальных сегментов; дискриминатор (116; 204), заявленный в 14 или 15, соединенный с входом; и переключающееся устройство (112; 202), соединяющее вход с первым или вторым каналом обработки предназначенное, чтобы подать аудиосигнал от входа (110) на один из каналов обработки в зависимости от выходного сигнала (160) дискриминатора (116).
17. Аудио кодирующее устройство, включающее устройство обработки аудиосигнала, по п.16, где первый канал обработки включает речевое кодирующее устройство (102), и второй канал обработки включает музыкальное кодирующее устройство(106).
RU2011104001/08A 2008-07-11 2009-06-16 Способ и дискриминатор для классификации различных сегментов сигнала RU2507609C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US7987508P 2008-07-11 2008-07-11
US61/079,875 2008-07-11
PCT/EP2009/004339 WO2010003521A1 (en) 2008-07-11 2009-06-16 Method and discriminator for classifying different segments of a signal

Publications (2)

Publication Number Publication Date
RU2011104001A RU2011104001A (ru) 2012-08-20
RU2507609C2 true RU2507609C2 (ru) 2014-02-20

Family

ID=40851974

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011104001/08A RU2507609C2 (ru) 2008-07-11 2009-06-16 Способ и дискриминатор для классификации различных сегментов сигнала

Country Status (20)

Country Link
US (1) US8571858B2 (ru)
EP (1) EP2301011B1 (ru)
JP (1) JP5325292B2 (ru)
KR (2) KR101380297B1 (ru)
CN (1) CN102089803B (ru)
AR (1) AR072863A1 (ru)
AU (1) AU2009267507B2 (ru)
BR (1) BRPI0910793B8 (ru)
CA (1) CA2730196C (ru)
CO (1) CO6341505A2 (ru)
ES (1) ES2684297T3 (ru)
HK (1) HK1158804A1 (ru)
MX (1) MX2011000364A (ru)
MY (1) MY153562A (ru)
PL (1) PL2301011T3 (ru)
PT (1) PT2301011T (ru)
RU (1) RU2507609C2 (ru)
TW (1) TWI441166B (ru)
WO (1) WO2010003521A1 (ru)
ZA (1) ZA201100088B (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2668111C2 (ru) * 2014-05-15 2018-09-26 Телефонактиеболагет Лм Эрикссон (Пабл) Классификация и кодирование аудиосигналов
US11145305B2 (en) 2018-12-18 2021-10-12 Yandex Europe Ag Methods of and electronic devices for identifying an end-of-utterance moment in a digital audio signal

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY181231A (en) * 2008-07-11 2020-12-21 Fraunhofer Ges Zur Forderung Der Angenwandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
KR101666521B1 (ko) * 2010-01-08 2016-10-14 삼성전자 주식회사 입력 신호의 피치 주기 검출 방법 및 그 장치
AU2011311659B2 (en) 2010-10-06 2015-07-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (USAC)
US8521541B2 (en) * 2010-11-02 2013-08-27 Google Inc. Adaptive audio transcoding
CN103000172A (zh) * 2011-09-09 2013-03-27 中兴通讯股份有限公司 信号分类方法和装置
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
EP2772914A4 (en) * 2011-10-28 2015-07-15 Panasonic Corp DECODER FOR HYBRID SOUND SIGNALS, COORDINATORS FOR HYBRID SOUND SIGNALS, DECODING PROCEDURE FOR SOUND SIGNALS AND CODING SIGNALING PROCESSES
CN103139930B (zh) 2011-11-22 2015-07-08 华为技术有限公司 连接建立方法和用户设备
US9111531B2 (en) 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
CN104246873B (zh) * 2012-02-17 2017-02-01 华为技术有限公司 用于编码多声道音频信号的参数编码器
US20130317821A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Sparse signal detection with mismatched models
CN107195313B (zh) * 2012-08-31 2021-02-09 瑞典爱立信有限公司 用于语音活动性检测的方法和设备
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
EP2922052B1 (en) * 2012-11-13 2021-10-13 Samsung Electronics Co., Ltd. Method for determining an encoding mode
US9100255B2 (en) * 2013-02-19 2015-08-04 Futurewei Technologies, Inc. Frame structure for filter bank multi-carrier (FBMC) waveforms
RU2625560C2 (ru) 2013-02-20 2017-07-14 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ кодирования или декодирования аудиосигнала с использованием перекрытия, зависящего от местоположения перехода
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
KR101498113B1 (ko) * 2013-10-23 2015-03-04 광주과학기술원 사운드 신호의 대역폭 확장 장치 및 방법
CN110992965B (zh) * 2014-02-24 2024-09-03 三星电子株式会社 信号分类方法和装置以及使用其的音频编码方法和装置
CN107452391B (zh) 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
CN105336338B (zh) 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
PL3522155T3 (pl) * 2015-05-20 2021-04-19 Telefonaktiebolaget Lm Ericsson (Publ) Kodowanie wielokanałowych sygnałów audio
US10706873B2 (en) * 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
WO2017196422A1 (en) * 2016-05-12 2017-11-16 Nuance Communications, Inc. Voice activity detection feature based on modulation-phase differences
US10699538B2 (en) * 2016-07-27 2020-06-30 Neosensory, Inc. Method and system for determining and providing sensory experiences
CN109688990A (zh) 2016-09-06 2019-04-26 新感知公司 用于向用户提供附属感觉信息的方法和系统
CN107895580B (zh) * 2016-09-30 2021-06-01 华为技术有限公司 一种音频信号的重建方法和装置
US10744058B2 (en) 2017-04-20 2020-08-18 Neosensory, Inc. Method and system for providing information to a user
US10325588B2 (en) * 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal
CN113168839B (zh) * 2018-12-13 2024-01-23 杜比实验室特许公司 双端媒体智能
US12118987B2 (en) 2019-04-18 2024-10-15 Dolby Laboratories Licensing Corporation Dialog detector
CN110288983B (zh) * 2019-06-26 2021-10-01 上海电机学院 一种基于机器学习的语音处理方法
WO2021062276A1 (en) 2019-09-25 2021-04-01 Neosensory, Inc. System and method for haptic stimulation
US11467668B2 (en) 2019-10-21 2022-10-11 Neosensory, Inc. System and method for representing virtual object information with haptic stimulation
WO2021142162A1 (en) 2020-01-07 2021-07-15 Neosensory, Inc. Method and system for haptic stimulation
CA3170065A1 (en) * 2020-04-16 2021-10-21 Vladimir Malenovsky Method and device for speech/music classification and core encoder selection in a sound codec
US11497675B2 (en) 2020-10-23 2022-11-15 Neosensory, Inc. Method and system for multimodal stimulation
US20240321285A1 (en) * 2021-01-08 2024-09-26 Voiceage Corporation Method and device for unified time-domain / frequency domain coding of a sound signal
US11862147B2 (en) 2021-08-13 2024-01-02 Neosensory, Inc. Method and system for enhancing the intelligibility of information for a user
US20230147185A1 (en) * 2021-11-08 2023-05-11 Lemon Inc. Controllable music generation
US11995240B2 (en) 2021-11-16 2024-05-28 Neosensory, Inc. Method and system for conveying digital texture information to a user
CN116070174A (zh) * 2023-03-23 2023-05-05 长沙融创智胜电子科技有限公司 一种多类别目标识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2049456C1 (ru) * 1993-06-22 1995-12-10 Вячеслав Алексеевич Сапрыкин Способ передачи речевых сигналов
RU2132593C1 (ru) * 1998-05-13 1999-06-27 Академия управления МВД России Многоканальное устройство для передачи речевых сигналов
US20030101050A1 (en) * 2001-11-29 2003-05-29 Microsoft Corporation Real-time speech and music classifier
RU2006134658A (ru) * 2004-06-01 2008-04-10 Нек Корпорейшн (Jp) Система, способ и программа для обеспечения источника звука

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1232084B (it) * 1989-05-03 1992-01-23 Cselt Centro Studi Lab Telecom Sistema di codifica per segnali audio a banda allargata
JPH0490600A (ja) * 1990-08-03 1992-03-24 Sony Corp 音声認識装置
JPH04342298A (ja) * 1991-05-20 1992-11-27 Nippon Telegr & Teleph Corp <Ntt> 瞬時ピッチ分析方法及び有声・無声判定方法
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
JP3700890B2 (ja) * 1997-07-09 2005-09-28 ソニー株式会社 信号識別装置及び信号識別方法
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
EP1423847B1 (en) 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
JP4348970B2 (ja) * 2003-03-06 2009-10-21 ソニー株式会社 情報検出装置及び方法、並びにプログラム
JP2004354589A (ja) * 2003-05-28 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
US7130795B2 (en) * 2004-07-16 2006-10-31 Mindspeed Technologies, Inc. Music detection with low-complexity pitch correlation algorithm
JP4587916B2 (ja) * 2005-09-08 2010-11-24 シャープ株式会社 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体
CN101512639B (zh) 2006-09-13 2012-03-14 艾利森电话股份有限公司 用于语音/音频发送器和接收器的方法和设备
CN1920947B (zh) * 2006-09-15 2011-05-11 清华大学 用于低比特率音频编码的语音/音乐检测器
EP2092517B1 (en) * 2006-10-10 2012-07-18 QUALCOMM Incorporated Method and apparatus for encoding and decoding audio signals
JP5171842B2 (ja) * 2006-12-12 2013-03-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 時間領域データストリームを表している符号化および復号化のための符号器、復号器およびその方法
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
WO2010001393A1 (en) * 2008-06-30 2010-01-07 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2049456C1 (ru) * 1993-06-22 1995-12-10 Вячеслав Алексеевич Сапрыкин Способ передачи речевых сигналов
RU2132593C1 (ru) * 1998-05-13 1999-06-27 Академия управления МВД России Многоканальное устройство для передачи речевых сигналов
US20030101050A1 (en) * 2001-11-29 2003-05-29 Microsoft Corporation Real-time speech and music classifier
RU2006134658A (ru) * 2004-06-01 2008-04-10 Нек Корпорейшн (Jp) Система, способ и программа для обеспечения источника звука

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2668111C2 (ru) * 2014-05-15 2018-09-26 Телефонактиеболагет Лм Эрикссон (Пабл) Классификация и кодирование аудиосигналов
US10121486B2 (en) 2014-05-15 2018-11-06 Telefonaktiebolaget Lm Ericsson Audio signal classification and coding
US10297264B2 (en) 2014-05-15 2019-05-21 Telefonaktiebolaget Lm Ericsson (Publ) Audio signal classification and coding
RU2765985C2 (ru) * 2014-05-15 2022-02-07 Телефонактиеболагет Лм Эрикссон (Пабл) Классификация и кодирование аудиосигналов
US11145305B2 (en) 2018-12-18 2021-10-12 Yandex Europe Ag Methods of and electronic devices for identifying an end-of-utterance moment in a digital audio signal
RU2761940C1 (ru) * 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу

Also Published As

Publication number Publication date
KR20110039254A (ko) 2011-04-15
CA2730196C (en) 2014-10-21
KR101380297B1 (ko) 2014-04-02
JP5325292B2 (ja) 2013-10-23
ZA201100088B (en) 2011-08-31
EP2301011B1 (en) 2018-07-25
US20110202337A1 (en) 2011-08-18
CN102089803B (zh) 2013-02-27
CA2730196A1 (en) 2010-01-14
TWI441166B (zh) 2014-06-11
BRPI0910793B8 (pt) 2021-08-24
KR20130036358A (ko) 2013-04-11
PL2301011T3 (pl) 2019-03-29
ES2684297T3 (es) 2018-10-02
MY153562A (en) 2015-02-27
AU2009267507A1 (en) 2010-01-14
HK1158804A1 (en) 2012-07-20
AU2009267507B2 (en) 2012-08-02
JP2011527445A (ja) 2011-10-27
BRPI0910793B1 (pt) 2020-11-24
RU2011104001A (ru) 2012-08-20
PT2301011T (pt) 2018-10-26
EP2301011A1 (en) 2011-03-30
CO6341505A2 (es) 2011-11-21
BRPI0910793A2 (pt) 2016-08-02
WO2010003521A1 (en) 2010-01-14
US8571858B2 (en) 2013-10-29
MX2011000364A (es) 2011-02-25
AR072863A1 (es) 2010-09-29
TW201009813A (en) 2010-03-01
KR101281661B1 (ko) 2013-07-03
CN102089803A (zh) 2011-06-08

Similar Documents

Publication Publication Date Title
RU2507609C2 (ru) Способ и дискриминатор для классификации различных сегментов сигнала
EP1982329B1 (en) Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus
JP6185457B2 (ja) 効率的なコンテンツ分類及びラウドネス推定
RU2483364C2 (ru) Схема аудиокодирования/декодирования с переключением байпас
US11004458B2 (en) Coding mode determination method and apparatus, audio encoding method and apparatus, and audio decoding method and apparatus
Ishizuka et al. Noise robust voice activity detection based on periodic to aperiodic component ratio
Fuchs A robust speech/music discriminator for switched audio coding
Bäckström et al. Voice activity detection
Cooper Speech detection using gammatone features and one-class support vector machine
Kulesza et al. High quality speech coding using combined parametric and perceptual modules
Rämö et al. Segmental speech coding model for storage applications.
Holmes Towards a unified model for low bit-rate speech coding using a recognition-synthesis approach.
KR100309873B1 (ko) 코드여기선형예측부호화기에서무성음검출에의한부호화방법
JP2639118B2 (ja) マルチパルス型音声符号復号化装置
CN115428068A (zh) 用于声音编解码器中的语音/音乐分类和核心编码器选择的方法和设备
Kulesza et al. High Quality Speech Coding using Combined Parametric and Perceptual Modules
Xia et al. ON INTEGRATING TONAL INFORMATION INTO CHINESE SPEECH RECOGNITION
Vargo et al. I’m Not Drunk, I’m Just Exhausted From Drinking All Night