RU2418321C2 - Классификатор на основе нейронных сетей для выделения аудио источников из монофонического аудио сигнала - Google Patents
Классификатор на основе нейронных сетей для выделения аудио источников из монофонического аудио сигнала Download PDFInfo
- Publication number
- RU2418321C2 RU2418321C2 RU2008118004/09A RU2008118004A RU2418321C2 RU 2418321 C2 RU2418321 C2 RU 2418321C2 RU 2008118004/09 A RU2008118004/09 A RU 2008118004/09A RU 2008118004 A RU2008118004 A RU 2008118004A RU 2418321 C2 RU2418321 C2 RU 2418321C2
- Authority
- RU
- Russia
- Prior art keywords
- audio
- parameters
- sources
- classifier
- signal
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000000926 separation method Methods 0.000 claims abstract description 17
- 238000002156 mixing Methods 0.000 claims abstract description 9
- 238000012805 post-processing Methods 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 238000001914 filtration Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000009527 percussion Methods 0.000 claims description 10
- 210000004205 output neuron Anatomy 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000002238 attenuated effect Effects 0.000 claims 1
- 239000013589 supplement Substances 0.000 claims 1
- 238000004891 communication Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 210000002569 neuron Anatomy 0.000 description 20
- 238000012880 independent component analysis Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000012190 activator Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Auxiliary Devices For Music (AREA)
- Stereophonic System (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Burglar Alarm Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Изобретение относится к выделению множества произвольных и заранее неизвестных аудио источников, микшированных в отдельный монофонический аудио сигнал на основе нейронной сети. Это достигается посредством разбивки монофонического аудио сигнала на базовые кадры (возможно перекрывающиеся), разбивки кадров на окна, извлечения ряда описательных параметров в каждом кадре и использования предварительно обученной нелинейной нейронной сети в качестве классификатора. Каждый выход нейронной сети демонстрирует присутствие заданного типа источника аудио в каждом базовом кадре монофонического аудио сигнала. Выходные сигналы классификатора могут использоваться в качестве входных данных для создания множества аудио каналов для алгоритма разделения источников (например, ICA) или в качестве параметров в алгоритме пост-обработки (например, для категоризации музыки, трекинга источников, для генерирования аудио индексов для целей навигации, инверсного микширования, безопасности и наблюдения, телефонной и беспроводной связи, и телеконференций). Технический результат - классификатор на основе нейронных сетей хорошо приспособлен, чтобы соответствовать изменяющимся в широких пределах параметрам сигнала и источников, временной и частотной области перекрывания источников, и реверберации и помех от сигналов обычной жизни. 3 н. и 25 з.п. ф-лы, 14 ил.
Description
Область техники, к которой относится изобретение
Настоящее изобретение относится к выделению множества неизвестных аудио источников, микшированных в отдельный монофонический аудио сигнал.
Описание предшествующего уровня техники
Существуют технологии для извлечения источника либо из стереофонических, либо из многоканальных аудио сигналов. Анализ независимых компонент (ICA) представляет собой наиболее известный и исследованный способ. Однако ICA может извлекать только количество источников, равное или меньшее количеству каналов во входном сигнале. По этой причине он не может использоваться при разделении монофонического сигнала.
Извлечение аудио источников из монофонического сигнала может быть полезным для извлечения характеристик сигналов речи, синтеза представления многоканального сигнала, категоризации музыки, отслеживания источников, генерирования дополнительного канала для ICA, генерирования аудио индексов для целей навигации (просмотра), инверсного смешивания (пользователь и профессионал), безопасности и наблюдения, телефонной и беспроводной связи, и проведения телеконференций. Извлечение характеристик сигнала речи (подобных автоматическому детектированию диктора, автоматическому распознаванию речи, детекторам речи/музыки) хорошо разработано. Извлечение информации о произвольном музыкальном инструменте из монофонического сигнала очень плохо исследовано из-за трудностей, связанных с проблемой, которые включают в себя сильно изменяющиеся параметры сигнала и источников, наложение источников во временной и частотной области, и реверберацию и наличия помех в сигналах обычной жизни. Известные технологии включают в себя выравнивание АЧХ и прямое извлечение параметров.
Эквалайзер может применяться к сигналу для извлечения источников, которые занимают известный частотный диапазон. Например, большая часть энергии сигнала речи присутствует в диапазоне 200 Гц - 4 кГц. Звуки бас гитары обычно ограничиваются частотами ниже 1 кГц. Посредством отфильтровывания всего сигнала вне полосы, выбранный источник может либо извлекаться, либо его энергия может усиливаться по отношению к другим источникам. Однако выравнивание АЧХ не является эффективным при извлечении накладывающихся источников.
Один из способов прямого извлечения параметров описывается в 'Audio Content Analysis for Online Audiovisual Data Segmentation and Classification' by Tong Zhang and Jay Kuo (IEEE Transactions on speech and audio processing, vol.9 No.4, маy 2001). Обычные аудио параметры, такие как функция энергетического спектра, средняя частота перехода через ноль, основная частота и результаты отслеживания спектральных пиков, извлекаются. Затем сигнал разделяется на категории (молчание; с музыкальными компонентами; без музыкальных компонент) и субкатегории. Включение фрагмента в определенную категорию основывается на прямом сравнении параметра с набором пределов. Является необходимым предварительное знание источников.
Способ категоризации музыкальных жанров описывается в 'Musical Genre Classification of Audio Signals' by George Tzanetakis and Perry Cook (IEEE Transactions on speech and audio processing, vol.10 No.5, July 2002). Параметры, подобные инструментовки, ритмической структуре и гармоническому содержанию, извлекаются из сигнала и подаются на вход предварительно обучаемого статистического классификатора распознавания структур. 'Acoustic Segmentation for Audio Browsers' by Don Kimbler and Lynn Wilcox использует Марковские модели со скрытыми параметрами для аудио сегментации и классификации.
Сущность изобретения
Настоящее изобретение обеспечивает возможность разделения и категоризации множества произвольных и заранее неизвестных аудио источников, микшированных с уменьшением количества каналов в отдельный монофонический аудио сигнал.
Это достигается посредством разбивки монофонического аудио сигнала на базовые кадры (возможно, перекрывающиеся), разбивки кадров на окна, извлечения ряда описывающих параметров в каждом кадре и использования предварительно обученной нелинейной нейронной сети в качестве классификатора. Каждый выход нейронной сети демонстрирует присутствие заданного типа аудио источника в каждом базовом кадре монофонического аудио сигнала. Нейронная сеть, как правило, имеет столько же выходов, сколько имеется типов аудио источников, которые система обучается различать. Классификатор на основе нейронной сети хорошо приспособлен, чтобы соответствовать изменяющимся в широких пределах параметрам сигнала и источников, наложению источников во временной и частотной области, и реверберации и помехам от сигналов обычной жизни. Выходы классификатора могут использоваться в качестве наборов предварительной обработки данных для создания множества аудио каналов для алгоритма разделения источников (например, ICA) или в качестве параметров в алгоритме пост-обработки (например, категоризации музыки, отслеживания источников, генерирования аудио индексов для целей навигации, инверсного смешивания, безопасности и наблюдения, телефонной и беспроводной связи, и проведения телеконференций).
В первом варианте осуществления монофонический аудио сигнал фильтруется на субполосы. Количество субполос и разброс или однородность субполос зависит от применения. Затем каждая субполоса разбивается на кадры, и извлекаются признаки. Одинаковые или различные сочетания признаков (параметров) могут извлекаться из различных субполос. Некоторые субполосы могут не иметь извлеченных параметров. Каждый параметр субполосы может формировать отдельный входной сигнал для классификатора или сходные параметры могут "сливаться" по субполосам. Классификатор может содержать отдельный выходной узел для каждого заранее заданного аудио источника для улучшения устойчивости классификации каждого конкретного аудио источника. Альтернативно, классификатор может содержать выходной узел для каждой субполосы для каждого заранее заданного аудио источника, чтобы улучшить разделение множества перекрывающихся по частоте источников.
Во втором варианте осуществления один или несколько параметров, например, тональные компоненты или TNR(отношение звук/шум), извлекаются при множестве время-частотных разрешений, а затем масштабируются к размеру базового кадра. Это предпочтительно делается параллельно, но может осуществляться последовательно. Параметры при каждом разрешении могут вводиться в классификатор, или они могут «сливаться» с образованием одного входного сигнала. Подход с множеством разрешений решает проблему нестационарности естественных сигналов. Большинство сигналов могут рассматриваться как квазистационарные только на коротких временных интервалах. Некоторые сигналы изменяются быстрее, некоторые медленнее, например, для речи, с быстро изменяющимися параметрами сигнала, более короткие временные кадры будут приводить к лучшему разделению энергии сигнала. Для струнных инструментов, которые являются более стационарными, более длинные кадры обеспечат более высокое разрешение по частотам без ухудшения разделения сигнала по энергии.
В третьем варианте осуществления монофонический аудио сигнал фильтруется на субполосы, и один или несколько параметров в одной или нескольких субполосах извлекаются при множестве время-частотных разрешений, а затем масштабируются к размеру базового кадра. Сочетание фильтра для субполос и множества разрешений может дополнительно улучшить возможности классификатора.
В четвертом варианте осуществления значения на выходных узлах нейронной сети подвергаются отфильтровыванию низких частот для уменьшения шума, а следовательно, и разброса между кадрами при классификации. Без фильтрования низких частот система работает на коротких отрезках сигнала (базовых кадрах) без информации о прошедших или будущих входных сигналах. Фильтрование низких частот уменьшает количество ложных результатов в предположении, что сигнал, как правило, длится в течение более чем одного базового кадра.
Эти и другие признаки и преимущества настоящего изобретения станут очевидны специалистам в данной области из следующего далее подробного описания предпочтительных вариантов осуществления, взятых вместе с прилагаемыми чертежами, в которых:
Краткое описание чертежей
Фиг.1 представляет собой блок-схему разделения множества неизвестных аудио источников, микшированных в отдельный монофонический аудио сигнал, с использованием классификатора на основе нейронных сетей в соответствии с настоящим изобретением.
Фиг.2 представляет собой схему, иллюстрирующую фильтрование входного сигнала на субполосы.
Фиг.3 представляет собой схему, иллюстрирующую разбиение входного сигнала на кадры и окна.
Фиг.4 представляет собой блок-схему операций извлечения тональных компонент при множестве разрешений и параметров TNR.
Фиг.5 представляет собой блок-схему операций для оценки минимального уровня шума.
Фиг.6 представляет собой блок-схему операций для извлечения параметра пика кепстра.
Фиг.7 представляет собой блок-схему типичного классификатора на основе нейронных сетей.
Фиг.8a-8c представляют собой графики аудио источников, которые составляют монофонический сигнал, и выходные сигналы мер классификатора на основе нейронных сетей.
Фиг.9 представляет собой блок-схему системы для использования мер выходных сигналов для инверсного смешивания монофонического сигнала во множество аудио каналов.
Фиг.10 представляет собой блок-схему системы для использования мер выходных сигналов для выполнения стандартной задачи пост-обработки, осуществляемой в отношении монофонического сигнала.
Подробное описание изобретения
Настоящее изобретение обеспечивает способность к выделению и категоризации множества произвольных и заранее неизвестных аудио источников, микшированных с уменьшением количества каналов в один монофонический аудио сигнал.
Как показано на Фиг.1, множество аудио источников 10, например голос, струнные и ударные, микшируются (этап 12) в один монофонический аудио канал 14.
Монофонический сигнал может представлять собой обычный смешанный одинарный сигнал или он может представлять собой один из каналов стерео или многоканального сигнала. В наиболее общем случае, нет априорной информации относительно конкретных типов аудио источников в конкретном смешанном сигнале, самих сигналов, относительно того, сколько различных сигналов содержится, или относительно коэффициентов микширования. Типы аудио источников, которые могли бы включаться в конкретный смешанный сигнал, известны. Например, приложение может представлять собой классификацию источников или преобладающих источников в музыкальном смешанном сигнале. Классификатор будет знать, что возможные источники включают в себя мужской вокал, женский вокал, струнные, ударные и тому подобное. Классификатор не будет знать, какие из этих источников или сколько их включается в конкретный смешанный сигнал, что-либо о конкретных источниках или о том как они микшируются.
Процесс разделения и категоризации множества произвольных и заранее неизвестных аудио источников начинается посредством разбиения монофонического аудио сигнала на последовательность базовых кадров (возможно, перекрывающихся) (этап 16), разбиения кадров на окна (этап 18), извлечения ряда описательных параметров в каждом кадре (этап 20) и использования предварительно обученной нелинейной нейронной сети в качестве классификатора (этап 22). Каждый выход нейронной сети демонстрирует присутствие заданного типа аудио источника в каждом базовом кадре монофонического аудио сигнала. Нейронные сети, как правило, имеют столько же выходов, сколько имеется типов аудио источников, которые система обучена различать.
Рабочие характеристики классификатора на основе нейронной сети, в частности, при разделении и классификации "перекрывающихся источников" могут быть улучшены с помощью ряда способов, включая фильтрование монофонического сигнала в субполосы, извлечение параметров при множестве разрешений и низкочастотное фильтрование величин классификации.
В первом улучшенном варианте осуществления монофонический аудио сигнал может фильтроваться в субполосы (поддиапазоны) (этап 24). Это, как правило, но необязательно, осуществляется перед разбиением на кадры. Количество субполос и разброс или однородность субполос зависит от применения. Затем каждая субполоса разбивается на кадры, и извлекаются параметры. Одинаковые или различные сочетания параметров могут извлекаться из различных субполос. Некоторые субполосы могут не иметь извлеченных параметров. Каждый параметр субполосы может образовывать отдельный вход для классификатора или сходные параметры могут "сливаться" по субполосам (этап 26). Классификатор может содержать отдельный выходной узел для каждого заранее заданного аудио источника, в этом случае извлечение параметров из множества субполос улучшает робастность классификации каждого конкретного аудио источника. Альтернативно, классификатор может содержать выходной узел для каждой субполосы, для каждого заданного аудио источника, в этом случае извлечение параметров из множества субполос улучшает разделение множества источников, перекрывающихся по частоте.
Во втором улучшенном варианте осуществления один или несколько параметров извлекаются при множестве время-частотных разрешений, а затем масштабируются до размера базового кадра. Как показано, монофонический сигнал сначала сегментируется на базовые кадры, разбивается на окна, и извлекаются параметры. Если один или несколько параметров извлекаются при множестве разрешений (этап 28), размер кадра уменьшается на заданную величину (увеличивается на заданную величину) (этап 30) и процесс повторяется. Размер кадра соответствующим образом уменьшается на заданную величину (увеличивается на заданную величину) как целое число от размера базового кадра, установленного для перекрывания и разбиения на окна. В результате будут получены множество экземпляров каждого параметра по эквиваленту базового кадра. Затем эти параметры должны масштабироваться до размера базового кадра, либо независимо, либо вместе (этап 32). Параметры, извлекаемые при меньших размерах кадра, усредняются, а параметры, извлекаемые при больших размерах кадра, интерполируются до размера базового кадра. В некоторых случаях алгоритм может извлекать параметры при множестве разрешений, посредством как увеличения на заданную величину, так и уменьшения на заданную величину, от базового кадра. Кроме того, может быть желательным слияние параметров, извлекаемых при каждом разрешении, с формированием одного входа для классификатора (этап 26). Если параметры для множества разрешений не сливаются, базовое масштабирование (этап 32) может осуществляться внутри цикла и параметры поступают в классификатор при каждом проходе. Более предпочтительно, извлечение при множестве разрешений осуществляется параллельно.
В третьем улучшенном варианте осуществления значения выходных узлов нейронной сети подвергаются пост-обработке с использованием, например, низкочастотного фильтра со скользящим средним значением (этап 34) для уменьшения шума, а следовательно, и разброса между кадрами, при классификации.
Фильтрование субполос
Как показано на Фиг. 2, фильтр 40 субполос (поддиапазонов) разделяет частотные спектры монофонического аудио сигнала на N субполос с однородной или изменяющейся шириной 42. Для цели иллюстрации возможные частотные спектры H(f) показаны для голоса 44, струнных 46 и ударных 48. Посредством извлечения параметров в субполосах, где наложение источников является низким, классификатор может лучше выполнить работу при классификации преобладающего источника в кадре. В дополнение к этому, посредством извлечения параметров в различных субполосах, классификатор может быть способен классифицировать преобладающий источник в каждой из субполос. В этих субполосах, где разделение сигнала является хорошим, достоверность классификации может быть очень сильной, например, вблизи 1. При этом в тех субполосах, где сигналы перекрываются, классификатор может быть менее достоверным, относительно того, что один источник преобладает, например, два или более источников могут иметь сходные выходные величины.
Эквивалентная функция может также обеспечиваться с использованием частотного преобразования вместо фильтра для субполос.
Разбивка на кадры и окна
Как показано на Фиг. 3a-3c, монофонический сигнал 50 (или каждая субполоса сигнала) разбивается на последовательность базовых кадров 52. Сигнал соответствующим образом разбивается на перекрывающиеся кадры, и предпочтительно, с перекрыванием 50% или больше. Каждый кадр разбивается на окна для уменьшения эффектов разрывов на границах кадров и улучшения разделения по частотам. Хорошо известные окна 54 для анализа включают в себя окна приподнятого косинуса, Хэмминга, Ханнинга и Чебышева и тому подобное. Разбитый на окна сигнал 56 для каждого базового кадра затем передается на извлечение параметров.
Извлечение параметров
Извлечение параметров представляет собой способ вычисления компактного численного представления, которое может использоваться для характеризации базового кадра аудио сигнала. Идея заключается в идентификации ряда параметров, которые сами по себе или в сочетании с другими параметрами, при одном или множестве разрешений, и в одной или во множестве спектральных полос, эффективно выражают различия между различными аудио источниками. Примеры параметров, которые являются пригодными для выделения источников из монофонического аудио сигнала, включают в себя: общее количество тональных компонент в кадре; отношение звук/шум (TNR) и амплитуду пика кепстра. В дополнение к этим параметрам, любой из 17 дескрипторов низкого уровня для аудио сигнала, описанных в описании MPEG-7, или их сочетание могут представлять собой пригодные для использования параметры при различных применениях.
Ниже подробно описаны тональные компоненты, параметры TNR и пики кепстра. В дополнение к этому, параметры тональных компонент и TNR извлекаются при множестве время-частотных разрешений и масштабируются к базовому кадру. Стадии вычисления "дескрипторов низкого уровня" являются доступными в сопроводительной документации для MPEG-7 аудио. (См., например, International Standard ISO/IEC 15938 "Multimedia Content Description Interface", или http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm).
Тональные компоненты
Тональная компонента по существу представляет собой тон, который является относительно сильным по сравнению со средним сигналом. Параметр, который извлекается, представляет собой количество тональных компонент при данном время-частотном разрешении. Процедура оценки количества тональных компонент при одном уровне время-частотного разрешения в каждом кадре иллюстрируется на Фиг. 4 и включает в себя следующие этапы:
1. Выделение кадра монофонического входного сигнала (этап 16).
2. Выделение в виде окна данных, попадающих в кадр (этап 18).
3. Применение частотного преобразования к разбитому на окна сигналу (этап 60), такого как FFT MDCT, и тому подобное. Длина преобразования должна быть равной количеству аудио выборок в кадре, то есть размеру кадра. Увеличение длины преобразования будет понижать временное разрешение без увеличения частотного разрешения. При меньшей длине преобразования длина кадра будет уменьшать разрешение по частоте.
4. Вычисление высоты спектральных линий (этап 62). Для FFT, амплитуда A=Sqrt(Re*Re+Im*Im), где Re и Im представляют собой действительную и мнимую части спектральной линии, получаемой посредством преобразования.
5. Оценка минимального уровня шума для всех частот (этап 64). (См. фиг.5)
6. Подсчет количества компонент, значительно превышающих минимальный уровень шума, например больших, чем заданный фиксированный порог, который выше минимального уровня шума (этап 66). Эти компоненты считаются 'тональными компонентами' и их подсчет представляет собой выходной сигнал классификатора NN (на основе нейронной сети) (этап 68).
Аудио сигналы из обычной жизни могут содержать как стационарные фрагменты с тональными компонентами в них (подобными струнным инструментам), так и нестационарные фрагменты, которые также имеют тональные компоненты в них (подобные фрагментам устной речи). Для эффективного захвата тональных компонентов во всех ситуациях сигнал должен анализироваться при различных уровнях время-частотного разрешения. Практически пригодные для использования результаты могут извлекаться в кадрах, находящихся в пределах приблизительно от 5 мсек до 200 мсек. Следует заметить, что эти кадры предпочтительно являются чередующимися, и множество кадров данной длины могут попадать в один базовый кадр.
Для оценки количества тональных компонент при множестве время-частотных разрешений, приведенная процедура модифицируется следующим образом:
1. Дискретное уменьшение размера кадра, например, в 2 раза (игнорируя перекрывание) (этап 70).
2. Повторение этапов 16, 18, 60, 62, 64 и 66 для нового размера кадра. Частотное преобразование с длиной, равной длине кадра, должно осуществляться для получения оптимального результата время-частотного преобразования.
3. Масштабирование вычисленного количества тональных компонент к размеру базового кадра и выход к NN классификатору (этап 72). Как показано, общее количество тональных компонент при каждом время-частотном разрешении индивидуально подается в классификатор. В более простом осуществлении количество тональных компонент при всех разрешениях извлекалось бы и суммировалось с получением одного отдельного значения.
4. Повторение до тех пор, пока не будет проанализирован наименьший желаемый размер кадра (этап 74).
Для иллюстрации извлечения тональных компонент при множестве разрешений, рассмотрим следующий пример. Базовый размер кадра составляет 4096 выборок. Тональные компоненты извлекаются при длительностях преобразования 1024, 2048 и 4096 (неперекрывающихся для простоты). Типичные результаты могут представлять собой:
При 4096-точечном преобразовании: 5 компонентов.
При 2048-точечных преобразованиях (в целом 2 преобразования в одном базовом кадре): 15 компонентов, 7 компонентов.
При 1024-точечных преобразованиях (в целом 4 преобразования в одном базовом кадре): 3, 10, 17, 4.
Числа, которые будут поступать на входы NN, будут представлять собой 5,22(=15+7), 34(=3+10+17+4) при каждом проходе. Или, альтернативно, значения могут суммироваться 61=5+22+34 и вводиться как одно значение.
Алгоритм для вычисления множества время-частотных разрешений посредством дискретного увеличения является аналогичным.
Отношение тон/шум (TNR)
Отношение тон/шум представляет собой меру отношения общей энергии в тональных компонентах к минимальному уровню шума и также может представлять очень важный параметр для различения различных типов источников. Например, различные виды струнных инструментов имеют различные уровни TNR. Процесс вычисления отношения тон/шум похож на оценку количества тональных компонентов, описанных выше. Вместо подсчета количества тональных компонентов (этап 66), процедура вычисляет отношение общей энергии в тональных компонентах к минимальному уровню шума (этап 76) и выдает на выходе отношение для NN классификатора (этап 78).
Измерение TNR при различных время-частотных разрешениях также является преимуществом при обеспечении большей устойчивости рабочих характеристик для сигналов из обычной жизни. Размер кадра дискретно уменьшается на заданную величину (этап 70) и процедура повторяется для ряда малых размеров кадра. Результаты от меньших кадров масштабируют посредством усреднения их по периоду времени, равному базовому кадру (этап 78). Как и для тональных компонентов, усредненное отношение может выводиться на классификатор при каждом проходе, или они могут суммироваться в одно значение. Также, различные разрешения как для тональных компонентов, так и для TNR, удобно вычислять параллельно.
Для иллюстрации извлечения TNR при множестве разрешений рассмотрим следующий пример. Размер базового кадра составляет 4096 выборок. TNR извлекают при длительностях преобразования 1024, 2048 и 4096 (неперекрывающихся для простоты). Типичные результаты могут представлять собой:
При 4096-точечном преобразовании: отношение 40 дБ.
При 2048-точечных преобразованиях (в целом 2 преобразования в одном базовом кадре): отношения 28 дБ, 20 дБ.
При 1024-точечных преобразованиях (в целом 4 преобразования в одном базовом кадре): отношения 20 дБ, 20 дБ, 16 дБ и 12 дБ.
Отношения, которые должны быть переданы на входы NN, будут представлять собой 40 дБ, 24 дБ и 17 дБ при каждом проходе. Или, альтернативно, значения могут суммироваться (среднее = 27 дБ) и вводиться как одно значение.
Алгоритм для вычисления множества время-частотных разрешений посредством дискретного увеличения на заданную величину является аналогичным.
Оценка минимального уровня шума
Минимальный уровень шума, используемый для оценки тональных компонентов и TNR, представляет собой меру происходящей от окружающей среды или нежелательной части сигнала. Например, если пытаться классифицировать или выделить музыкальные инструменты в реальном акустическом музыкальном представлении, минимальный уровень шума должен представлять собой средний акустический уровень помещения, где музыканты не играют.
Ряд алгоритмов может использоваться для оценки минимального уровня шума в кадре. В одном из осуществлений низкочастотный фильтр КИХ может применяться по отношению к амплитудам спектральных линий. Результат такого фильтрования будет чуть выше, чем реальный минимальный уровень шума, поскольку он содержит энергию как шумящих, так и тональных компонент. Однако это может компенсироваться посредством понижения порогового значения. Как показано на Фиг. 5, более точный алгоритм улучшает простой подход с фильтром КИХ с получением уровня, более близкого к реальному минимальному уровню шума.
Простая оценка минимального уровня шума находится посредством применения фильтра КИХ:
где N i - оцененный минимальный уровень шума для i-той спектральной линии;
A i - высота (амплитуда) спектральных линий после частотного преобразования;
C k - коэффициенты фильтра КИХ; и
L - длина фильтра.
Как показано на Фиг. 5, более точная оценка улучшает начальную оценку низкочастотного КИХ (этап 80), приведенную выше, посредством маркировки компонентов, которые лежат существенно выше минимального уровня шума, например, на 3 дБ выше выходного сигнала КИХ, на каждой частоте (этап 82). После маркировки устанавливается счетчик, например, J=0 (этап 84) и маркированные компоненты (высоты 86) заменяются последними результатами КИХ (этап 88). Этот этап эффективно удаляет энергию тонального компонента из вычисления минимального уровня шума. Низкочастотный КИХ применяется повторно (этап 90), компоненты, которые лежат существенно выше минимального уровня шума, маркируются (этап 92), счетчик увеличивается (этап 94) и маркированные компоненты опять заменяются последними результатами КИХ (этап 88). Этот процесс повторяется в течение желаемого количества итераций, например, 3 (этап 96). Более высокое количество итераций будет приводить к чуть большей точности.
Необходимо отметить, что оценка минимального уровня шума, сама по себе, может использоваться в качестве параметра для описания и разделения аудио источников.
Пики Кепстра
Кепстр-анализ обычно используется в применениях, связанных с обработкой речи. Различные характеристики кепстра могут использоваться в качестве параметров для обработки. Кепстр является также описательным для других типов сигналов с большим количеством высших гармоник. Кепстр представляет собой результат обратного Фурье-преобразования спектра в децибелах, как если бы это был сигнал. Процедура извлечения пика Кепстра представляет собой следующее:
1. Разделение аудио сигнала на последовательность кадров (этап 16).
2. Разбиение на окна сигнала в каждом кадре (этап 18).
4. Вычисление кепстра:
a. Вычисление частотного преобразования разбитого на окна сигнала, например FFT (этап 100);
b. Вычисление логарифма амплитуды высоты спектральных линий (этап 102); и
c. Вычисление обратного преобразования относительно логарифмов амплитуд (этап 104).
5. Пик кепстра представляет собой значение и положение значения максимума в кепстре (этап 106).
Классификатор на основе нейронной сети
Множество известных типов нейронных сетей являются пригодными для работы в качестве классификаторов. Современное состояние области архитектур нейронных сетей и обучающих алгоритмов делает сеть с непосредственной связью (уровневую сеть, в которой каждый слой (уровень) только принимает входные сигналы от предыдущих слоев (уровней)), очень хорошим кандидатом. Существующие обучающие алгоритмы обеспечивают стабильные результаты и хорошую генерализацию.
Как показано на Фиг. 7, сеть с непосредственной связью 110 содержит входной слой 112, один или несколько скрытых слоев 114 и выходной слой 116. Нейроны во входном слое принимают полный набор извлеченных параметров 118 и соответствующих весовых коэффициентов. Управляемый автономно обучающий алгоритм настраивает весовые коэффициенты, с которыми параметры поступают в каждый из нейронов. Скрытый слой (слои) содержит нейроны с нелинейными функциями активирования. Множество слоев нейронов с нелинейными передаточными функциями дают возможность сети изучать нелинейные и линейные соотношения между входным и выходным сигналами. Количество нейронов в выходном слое равно количеству типов источников, которые классификатор может распознать. Каждый из выходных сигналов сети сигнализирует о присутствии определенного типа источника 120, и величина [0,1] указывает достоверность того, что входной сигнал содержит данный аудио источник. Если используется фильтрование субполос, количество выходных нейронов может быть равно количеству источников, умноженному на количество субполос. В этом случае выходной сигнал нейрона указывает на присутствие конкретного источника в конкретной субполосе. Выходные нейроны могут быть пройдены "как есть", ограниченными порогами для того, чтобы оставить только значения нейронов, превышающие определенный уровень, или снабжаться порогом для того, чтобы оставить только один самый преобладающий источник.
Сеть должна быть предварительно обучена на множестве достаточно представляющих сигналов. Например, для системы, способной к распознаванию четырех различных видов данных, включающих в себя: мужской голос, женский голос, ударные инструменты и струнные инструменты, все эти типы источников должны присутствовать в обучающем множестве в достаточном разнообразии. Благодаря способности к генерализации у нейронной сети, нет необходимости избыточно представлять все возможные виды источников. Каждый набор данных должен проходить через часть для извлечения параметров у алгоритма. Извлеченные параметры затем произвольным образом смешиваются в виде двух наборов данных: обучающего и тестового. Затем один из хорошо известных управляемых алгоритмов обучения используется для обучения сети (например, такой как алгоритм Левенберга-Маркварта).
Робастность классификатора сильно зависит от набора извлеченных параметров. Если вместе параметры вместе различают различные источники, классификатор будет работать хорошо. Реализация фильтрования с множеством разрешений и субполос для получения стандартных аудио параметров представляет собой гораздо более богатый набор параметров для дифференциации и правильной классификации аудио источников в монофоническом сигнале.
В примерном варианте осуществления архитектура сети с непосредственной связью 5-3-3 (5 нейронов во входном слое, 3 нейрона в скрытом слое, и 3 нейрона в выходном слое) с функциями активатора TANSIG (гиперболического тангенса) во всех слоях хорошо работает для классификации трех типов источников; голоса, ударных и струнных. В используемой архитектуре с непосредственной связью каждый нейрон данного слоя соединяется с каждым нейроном предыдущего слоя (за исключением входного слоя). Каждый нейрон во входном слое принимает полный набор извлеченных параметров. Параметры, представленные для сети, включали в себя тональные компоненты для множества разрешений, TNR для множества разрешений и пики кепстра, которые были предварительно нормализованы так, чтобы поместить их в диапазон [-1:1]. Первый выход сети сигнализирует о присутствии голосового источника в сигнале. Второй выход сигнализирует о присутствии струнных инструментов. И наконец, третий выход обучается, чтобы он сигнализировал о присутствии ударных инструментов.
В каждом слое используется активаторная функция 'TANSIG'. Эффективная по вычислениям формула для вычисления выходного сигнала k-ого нейрона в j-ом слое задается как:
где A j,k - выходной сигнал k нейрона в j-ом слое;
Для входного слоя формула представляет собой
где F i - i-ый параметр;
Для тестирования простого классификатора, длинный аудио файл состыковывают из трех различных видов аудио сигналов. Голубые линии обозначают реальное присутствие голоса (немецкая речь) 130, ударный инструмент (хай-хэтс) 132 и струнный инструмент (акустическая гитара) 134. Файл составляет приблизительно 800 кадров в длину, из которых первые 370 кадров представляют собой голос, следующие 100 кадров представляют собой ударные и последние 350 кадров представляют собой струнные. Внезапные разрывы в голубых линиях соответствуют периодам молчания во входном сигнале. Зеленые линии представляют собой предсказания для голоса 140, ударных 142 и струнных 144, получаемые посредством классификатора. Выходные значения фильтруются для уменьшения шума. Расстояние, насколько далеко выходной сигнал сети находится либо от 0 либо от 1, представляет собой меру того как определяет классификатор то, что входной сигнал содержит конкретный аудио источник.
Хотя аудио файл представляет собой монофонический сигнал, в котором ни один из аудио источников не присутствует реально в одно и то же время, он является адекватным и более простым для демонстрации возможностей классификатора. Как показано на Фиг. 8c, классификатор идентифицирует струнный инструмент с большой достоверностью и без ошибок. Как показано на Фиг. 8a и 8b, рабочие характеристики сигналов голоса и ударных являются удовлетворительными, хотя имеется некоторое перекрывание. Использование тональных компонент для множества разрешений должно более эффективно различать ударные инструменты и голосовые фрагменты (на самом деле, глухие фрагменты речи).
Выходные сигналы классификатора могут использоваться в качестве входных данных для создания множества аудио каналов для алгоритма разделения источников (например, ICA) или в качестве параметров в алгоритме пост-обработки (например, категоризации музыки, отслеживания источников, генерирования аудио индексов для целей навигации, инверсного смешивания, безопасности и наблюдения, телефонной и беспроводной связи, и проведения телеконференций).
Как показано на Фиг. 9, классификатор используется как устройство предварительной обработки данных для алгоритма слепого разделения источников (BSS) 150, такого как ICA, который требует такого же количества входных каналов, как количество источников, которое он пытается выделить. Предположим, что алгоритм BSS желает выделить источники голоса, ударных и струнных из монофонического сигнала, чего он не может сделать. NN классификатор может конфигурироваться выходными нейронами 152 для голоса, ударных и струнных. Значения нейронов используются в качестве весовых коэффициентов для смешивания 154 каждого кадра монофонического аудио сигнала в аудио канале 156, в трех отдельных аудио канала, по одному для голоса 158, ударных 160 и струнных 162. Весовые коэффициенты могут представлять собой реальные значения для нейронов или пороговые значения для идентификации одного доминирующего сигнала на кадр. Это процедура может дополнительно усовершенствоваться с использованием фильтрования субполос и таким образом создавать гораздо больше входных каналов для BSS. BSS использует мощные алгоритмы для дополнительного определения начального разделения источников, обеспечиваемого NN классификатором.
Как показано на Фиг. 10, нейроны выходного слоя NN 170 могут использоваться в постпроцессоре 172, который работает над монофоническим аудио сигналом в аудио канале 174.
Трекинг - алгоритм может применяться к индивидуальным каналам, которые получают с помощью других алгоритмов (например, BSS), которые работают на основе «от кадра к кадру». С помощью выходного сигнала алгоритма связь соседних кадров может стать возможной или более стабильной, или более простой.
Идентификация аудио и поисковая машина аудио - извлеченные шаблоны типов сигналов и, возможно, их длительности, могут использоваться в качестве индексов в базе данных (или в качестве ключа для хэш-таблицы).
Кодер-декодер - информация о типе сигнала позволяет кодеру-декодеру осуществлять точную настройку психоакустической модели, распределения битов или других параметров кодирования.
Входные данные для разделения источников - алгоритмы, такие как ICA, требуют, по меньшей мере, такого же количества входных каналов, сколько есть источников. Алгоритм автора изобретения использоваться для создания множества аудио каналов из одного канала или для увеличения количества доступных каналов с индивидуальными входами.
Инверсное (повторное) смешивание - индивидуальные выделенные каналы могут подвергаться инверсному смешиванию в монофоническое представление (или представление с уменьшенным количеством каналов) с помощью алгоритма пост-обработки (подобного эквалайзеру) на промежуточной стадии.
Безопасность и наблюдение - выходные сигналы алгоритма могут использоваться в качестве параметров в алгоритме постобработки для улучшения восприятия записанного аудио сигнала.
Телефонная и беспроводная связь и телеконференции алгоритм может использоваться для разделения индивидуальных говорящих/источников, и алгоритм пост-обработки может присваивать индивидуальные виртуальные положения в стерео- или многоканальной окружающей среде. Потребуется передача уменьшенного количества каналов (или, возможно, только одного канала).
Хотя показаны и описаны несколько иллюстративных вариантов осуществления настоящего изобретения, многочисленные вариации и альтернативные варианты осуществления появятся для специалистов в данной области. Такие вариации и альтернативные варианты осуществления предусматриваются и могут быть проделаны без отклонения от духа и рамок настоящего изобретения, как определяется в прилагаемой формуле изобретения.
Claims (28)
1. Способ выделения источника аудио из монофонического аудио сигнала, содержащий этапы:
(a) создание монофонического аудио сигнала, содержащего результат микширования с уменьшением количества каналов множества неизвестных аудио источников;
(b) разделение аудио сигнала на последовательность базовых кадров;
(c) разбиение каждого кадра на окна;
(d) извлечение из каждого базового кадра множества параметров аудио, которые имеют тенденцию к дифференциации источников аудио; и
(e) применение параметров аудио из каждого упомянутого базового кадра к классификатору на основе нейронной сети (NN), обученному на представительном наборе источников аудио с указанными параметрами аудио, указанный классификатор на основе нейронной сети выдает на выходе, по меньшей мере, одну меру источника аудио, включенного в каждый указанный базовый кадр монофонического аудио сигнала.
(a) создание монофонического аудио сигнала, содержащего результат микширования с уменьшением количества каналов множества неизвестных аудио источников;
(b) разделение аудио сигнала на последовательность базовых кадров;
(c) разбиение каждого кадра на окна;
(d) извлечение из каждого базового кадра множества параметров аудио, которые имеют тенденцию к дифференциации источников аудио; и
(e) применение параметров аудио из каждого упомянутого базового кадра к классификатору на основе нейронной сети (NN), обученному на представительном наборе источников аудио с указанными параметрами аудио, указанный классификатор на основе нейронной сети выдает на выходе, по меньшей мере, одну меру источника аудио, включенного в каждый указанный базовый кадр монофонического аудио сигнала.
2. Способ по п.1, в котором множество неизвестных источников аудио выбираются из множества музыкальных источников, содержащего, по меньшей мере, голос, струнные и ударные.
3. Способ по п.1, дополнительно включающий в себя:
повторение этапов (b)-(d) для другого размера кадра, для извлечения параметров при множестве разрешений; и
масштабирование извлеченных при различных разрешениях параметров аудио к базовому кадру.
повторение этапов (b)-(d) для другого размера кадра, для извлечения параметров при множестве разрешений; и
масштабирование извлеченных при различных разрешениях параметров аудио к базовому кадру.
4. Способ по п.3, дополнительно содержащий подачу масштабированных параметров при каждом разрешении на NN классификатор.
5. Способ по п.3, дополнительно включающий в себя слияние масштабированных параметров при каждом разрешении в один отдельный параметр, который подается на NN классификатор.
6. Способ по п.1, дополнительно включающий в себя фильтрование кадров во множество частотных субполос и извлечение указанных параметров аудио из указанных субполос.
7. Способ по п.1, дополнительно включающий в себя низкочастотное фильтрование выходных сигналов классификатора.
8. Способ по п.1, в котором один или несколько параметров аудио выбираются из множества, содержащего тональные компоненты, отношение тон/шум (TNR) и пики кепстра.
9. Способ по п.8, в котором тональные компоненты извлекаются посредством:
(f) применения частотного преобразования для разбитого на окна сигнала для каждого кадра;
(g) вычисления амплитуды спектральных линий при частотном преобразовании;
(h) оценки минимального уровня шума;
(i) идентификации в качестве тональных компонентов спектральных компонентов, которые превышают минимальный уровень шума, посредством порогового значения; и
(j) выдачи количества тональных компонентов в качестве параметра тональных компонентов.
(f) применения частотного преобразования для разбитого на окна сигнала для каждого кадра;
(g) вычисления амплитуды спектральных линий при частотном преобразовании;
(h) оценки минимального уровня шума;
(i) идентификации в качестве тональных компонентов спектральных компонентов, которые превышают минимальный уровень шума, посредством порогового значения; и
(j) выдачи количества тональных компонентов в качестве параметра тональных компонентов.
10. Способ по п.9, в котором длина частотного преобразования уравнивает количество аудио выборок в кадре для определенного время-частотного разрешения.
11. Способ по п.10, дополнительно включающий в себя:
повторение этапов (f)-(i) для различных длин кадра и преобразования
и
выдачу общего количества тональных компонентов при каждом время-частотном разрешении.
повторение этапов (f)-(i) для различных длин кадра и преобразования
и
выдачу общего количества тональных компонентов при каждом время-частотном разрешении.
12. Способ по п.8, в котором TNR параметр извлекается посредством:
(k) применения частотного преобразования к разбитому на окна сигналу для каждого кадра;
(l) вычисление амплитуды спектральных линий при частотном преобразовании;
(m) оценки минимального уровня шума;
(n) определения отношения энергии идентифицированных тональных компонентов к минимальному уровню шума; и
(о) выдачи на выходе отношения как параметра TNR.
(k) применения частотного преобразования к разбитому на окна сигналу для каждого кадра;
(l) вычисление амплитуды спектральных линий при частотном преобразовании;
(m) оценки минимального уровня шума;
(n) определения отношения энергии идентифицированных тональных компонентов к минимальному уровню шума; и
(о) выдачи на выходе отношения как параметра TNR.
13. Способ по п.12, в котором длина частотного преобразования уравнивает количество аудио выборок в кадре для определенного время-частотного разрешения.
14. Способ по п.13, дополнительно включающий в себя:
повторение этапов (k)-(n) для различных длин кадра и преобразования; и
усреднение отношений от различных разрешений по периоду времени, равному базовому кадру.
повторение этапов (k)-(n) для различных длин кадра и преобразования; и
усреднение отношений от различных разрешений по периоду времени, равному базовому кадру.
15. Способ по п.12, в котором минимальный уровень шума оценивается посредством:
(р) применения низкочастотного фильтра для амплитуд спектральных линий,
(q) маркировки компонентов, существенно превышающих выходной сигнал фильтра,
(r) замены маркированных компонентов выходным сигналом низкочастотного фильтра,
(s) повторение этапов (р)-(r) некоторое количество раз и
(t) выдачи на выходе полученных компонентов как оценки минимального уровня шума.
(р) применения низкочастотного фильтра для амплитуд спектральных линий,
(q) маркировки компонентов, существенно превышающих выходной сигнал фильтра,
(r) замены маркированных компонентов выходным сигналом низкочастотного фильтра,
(s) повторение этапов (р)-(r) некоторое количество раз и
(t) выдачи на выходе полученных компонентов как оценки минимального уровня шума.
16. Способ по п.1, в котором классификатор на основе нейронной сети включает в себя множество выходных нейронов, каждый из которых показывает присутствие определенного источника аудио в монофоническом аудио сигнале.
17. Способ по п.16, в котором значение для каждого выходного нейрона показывает достоверность того, что базовый кадр содержит определенный аудио источник.
18. Способ по п.16, дополнительно включающий в себя использование значений выходных нейронов для повторного смешивания монофонического аудио сигнала во множество аудио каналов для соответствующих источников аудио в представляющем наборе для каждого базового кадра.
19. Способ по п.18, в котором монофонический аудио сигнал подвергается повторному смешиванию посредством переключения его на аудио канал, идентифицируемый как наиболее выделяющийся.
20. Способ по п.18, в котором классификатор на основе нейронной сети выдает на выходе меру для каждого из аудио источников в представляющем наборе, которая показывает достоверность того, что кадр содержит соответствующий источник аудио, указанный монофонический аудио сигнал ослабляется посредством каждой из указанных мер и направляется в соответствующие аудио каналы.
21. Способ по п.18, дополнительно содержащий обработку указанного множества аудио каналов с использованием алгоритма выделения источников, который требует по меньшей мере такого же количества входных аудио каналов, как и количество аудио источников для разделения указанного множества аудио каналов на равное ему или меньшее множество указанных аудио источников.
22. Способ по п.21, в котором упомянутый алгоритм разделения источников основывается на слепом разделении источников (BSS).
23. Способ по п.1, дополнительно включающий в себя передачу монофонического аудио сигнала и последовательности указанных мер в постпроцессор, который использует указанные меры для дополнения постобработки монофонического аудио сигнала.
24. Способ выделения аудио источников из монофонического аудио сигнала, включающий в себя:
(а) создание монофонического аудио сигнала, содержащего микшированное с уменьшением количества каналов множество неизвестных источников аудио;
(b) разделение аудио сигнала на последовательность базовых кадров;
(c) разбиение каждого кадра на окна;
(d) извлечение множества параметров аудио из каждого базового кадра, которые имеют тенденцию к дифференциации источников аудио;
(e) повторение этапов (b)-(d) для другого размера кадра для извлечения параметров при множестве разрешений;
(f) масштабирование извлеченных при различных разрешениях аудио параметров к базовому кадру; и
(g) применение параметров аудио из каждого упомянутого базового кадра к классификатору на основе нейронной сети (NN), обученному на представляющем наборе источников аудио с указанными аудио параметрами, указанный классификатор на основе нейронной сети имеет множество выходных нейронов, каждый из которых, сигнализирует о присутствии определенного источника аудио в монофоническом аудио сигнале для каждого базового кадра.
(а) создание монофонического аудио сигнала, содержащего микшированное с уменьшением количества каналов множество неизвестных источников аудио;
(b) разделение аудио сигнала на последовательность базовых кадров;
(c) разбиение каждого кадра на окна;
(d) извлечение множества параметров аудио из каждого базового кадра, которые имеют тенденцию к дифференциации источников аудио;
(e) повторение этапов (b)-(d) для другого размера кадра для извлечения параметров при множестве разрешений;
(f) масштабирование извлеченных при различных разрешениях аудио параметров к базовому кадру; и
(g) применение параметров аудио из каждого упомянутого базового кадра к классификатору на основе нейронной сети (NN), обученному на представляющем наборе источников аудио с указанными аудио параметрами, указанный классификатор на основе нейронной сети имеет множество выходных нейронов, каждый из которых, сигнализирует о присутствии определенного источника аудио в монофоническом аудио сигнале для каждого базового кадра.
25. Классификатор источников аудио, содержащий:
устройство для разделения на кадры для разделения монофонического аудио сигнала, содержащего смешанное с уменьшением количества каналов множество неизвестных источников аудио, на последовательность разбитых на окна базовых кадров;
устройство для извлечения параметров для извлечения множества параметров аудио из каждого базового кадра, которые имеет тенденцию к дифференциации источников аудио; и
классификатор на основе нейронной сети (NN), обученный на представляющем множестве источников аудио с указанными параметрами аудио, указанный классификатор на основе нейронной сети принимает извлеченные параметры аудио и выдает, по меньшей мере, одну меру источника аудио, содержащегося в каждом указанном базовом кадре монофонического аудио сигнала.
устройство для разделения на кадры для разделения монофонического аудио сигнала, содержащего смешанное с уменьшением количества каналов множество неизвестных источников аудио, на последовательность разбитых на окна базовых кадров;
устройство для извлечения параметров для извлечения множества параметров аудио из каждого базового кадра, которые имеет тенденцию к дифференциации источников аудио; и
классификатор на основе нейронной сети (NN), обученный на представляющем множестве источников аудио с указанными параметрами аудио, указанный классификатор на основе нейронной сети принимает извлеченные параметры аудио и выдает, по меньшей мере, одну меру источника аудио, содержащегося в каждом указанном базовом кадре монофонического аудио сигнала.
26. Классификатор аудио источников аудио по п.25, в котором устройство для извлечения параметров извлекает один или несколько параметров аудио при множестве время-частотных разрешений и масштабирует извлеченные параметры аудио при различных разрешениях к базовому кадру.
27. Классификатор источников аудио по п.25, в котором NN классификатор на основе нейронной сети имеет множество выходных нейронов, каждый из которых сигнализирует о присутствии определенного источника аудио в монофоническом аудио сигнале для каждого базового кадра.
28. Классификатор по п.27, дополнительно содержащий
смеситель, который использует значения выходных нейронов для повторного смешивания монофонического аудио сигнала во множество аудио каналов для соответствующих источников аудио в представляющем наборе для каждого базового кадра.
смеситель, который использует значения выходных нейронов для повторного смешивания монофонического аудио сигнала во множество аудио каналов для соответствующих источников аудио в представляющем наборе для каждого базового кадра.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/244,554 US20070083365A1 (en) | 2005-10-06 | 2005-10-06 | Neural network classifier for separating audio sources from a monophonic audio signal |
US11/244,554 | 2005-10-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2008118004A RU2008118004A (ru) | 2009-11-20 |
RU2418321C2 true RU2418321C2 (ru) | 2011-05-10 |
Family
ID=37911912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2008118004/09A RU2418321C2 (ru) | 2005-10-06 | 2006-10-03 | Классификатор на основе нейронных сетей для выделения аудио источников из монофонического аудио сигнала |
Country Status (13)
Country | Link |
---|---|
US (1) | US20070083365A1 (ru) |
EP (1) | EP1941494A4 (ru) |
JP (1) | JP2009511954A (ru) |
KR (1) | KR101269296B1 (ru) |
CN (1) | CN101366078A (ru) |
AU (1) | AU2006302549A1 (ru) |
BR (1) | BRPI0616903A2 (ru) |
CA (1) | CA2625378A1 (ru) |
IL (1) | IL190445A0 (ru) |
NZ (1) | NZ566782A (ru) |
RU (1) | RU2418321C2 (ru) |
TW (1) | TWI317932B (ru) |
WO (1) | WO2007044377A2 (ru) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2666631C2 (ru) * | 2014-09-12 | 2018-09-11 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Обучение dnn-студента посредством распределения вывода |
RU2698153C1 (ru) * | 2016-03-23 | 2019-08-22 | ГУГЛ ЭлЭлСи | Адаптивное улучшение аудио для распознавания многоканальной речи |
RU2718999C2 (ru) * | 2014-07-23 | 2020-04-15 | Шлюмбергер Текнолоджи Б.В. | Кепстральный анализ исправности нефтепромыслового насосного оборудования |
RU2720359C1 (ru) * | 2019-04-16 | 2020-04-29 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и оборудование распознавания эмоций в речи |
US10885900B2 (en) | 2017-08-11 | 2021-01-05 | Microsoft Technology Licensing, Llc | Domain adaptation in speech recognition via teacher-student learning |
US11062228B2 (en) | 2015-07-06 | 2021-07-13 | Microsoft Technoiogy Licensing, LLC | Transfer learning techniques for disparate label sets |
RU2782981C2 (ru) * | 2018-05-30 | 2022-11-08 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Модуль оценки подобия аудиосигналов, аудиокодер, способы и компьютерная программа |
US12051431B2 (en) | 2018-05-30 | 2024-07-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio similarity evaluator, audio encoder, methods and computer program |
Families Citing this family (85)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1605439B1 (en) * | 2004-06-04 | 2007-06-27 | Honda Research Institute Europe GmbH | Unified treatment of resolved and unresolved harmonics |
EP1605437B1 (en) * | 2004-06-04 | 2007-08-29 | Honda Research Institute Europe GmbH | Determination of the common origin of two harmonic components |
EP1686561B1 (en) | 2005-01-28 | 2012-01-04 | Honda Research Institute Europe GmbH | Determination of a common fundamental frequency of harmonic signals |
EP1853092B1 (en) * | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
CN101652810B (zh) * | 2006-09-29 | 2012-04-11 | Lg电子株式会社 | 用于处理混合信号的装置及其方法 |
EP2084901B1 (en) | 2006-10-12 | 2015-12-09 | LG Electronics Inc. | Apparatus for processing a mix signal and method thereof |
KR100891665B1 (ko) | 2006-10-13 | 2009-04-02 | 엘지전자 주식회사 | 믹스 신호의 처리 방법 및 장치 |
WO2008060111A1 (en) * | 2006-11-15 | 2008-05-22 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
KR101062353B1 (ko) | 2006-12-07 | 2011-09-05 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 그 장치 |
JP5450085B2 (ja) * | 2006-12-07 | 2014-03-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
CN101627425A (zh) * | 2007-02-13 | 2010-01-13 | Lg电子株式会社 | 用于处理音频信号的装置和方法 |
US20100121470A1 (en) * | 2007-02-13 | 2010-05-13 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
TWI356399B (en) * | 2007-12-14 | 2012-01-11 | Ind Tech Res Inst | Speech recognition system and method with cepstral |
JP5277887B2 (ja) * | 2008-11-14 | 2013-08-28 | ヤマハ株式会社 | 信号処理装置およびプログラム |
US8200489B1 (en) * | 2009-01-29 | 2012-06-12 | The United States Of America As Represented By The Secretary Of The Navy | Multi-resolution hidden markov model using class specific features |
BRPI1008915A2 (pt) * | 2009-02-27 | 2018-01-16 | Panasonic Corp | dispositivo de determinação de tom e método de determinação de tom |
JP5375400B2 (ja) * | 2009-07-22 | 2013-12-25 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
US8682669B2 (en) * | 2009-08-21 | 2014-03-25 | Synchronoss Technologies, Inc. | System and method for building optimal state-dependent statistical utterance classifiers in spoken dialog systems |
KR102020334B1 (ko) | 2010-01-19 | 2019-09-10 | 돌비 인터네셔널 에이비 | 고조파 전위에 기초하여 개선된 서브밴드 블록 |
WO2011094710A2 (en) | 2010-01-29 | 2011-08-04 | Carol Espy-Wilson | Systems and methods for speech extraction |
CN102446504B (zh) * | 2010-10-08 | 2013-10-09 | 华为技术有限公司 | 语音/音乐识别方法及装置 |
US8762154B1 (en) * | 2011-08-15 | 2014-06-24 | West Corporation | Method and apparatus of estimating optimum dialog state timeout settings in a spoken dialog system |
US9210506B1 (en) * | 2011-09-12 | 2015-12-08 | Audyssey Laboratories, Inc. | FFT bin based signal limiting |
KR20130133541A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 오디오 신호 처리 방법 및 장치 |
US20140046670A1 (en) * | 2012-06-04 | 2014-02-13 | Samsung Electronics Co., Ltd. | Audio encoding method and apparatus, audio decoding method and apparatus, and multimedia device employing the same |
US9147157B2 (en) | 2012-11-06 | 2015-09-29 | Qualcomm Incorporated | Methods and apparatus for identifying spectral peaks in neuronal spiking representation of a signal |
CN103839551A (zh) * | 2012-11-22 | 2014-06-04 | 鸿富锦精密工业(深圳)有限公司 | 音频处理系统与音频处理方法 |
CN103854644B (zh) * | 2012-12-05 | 2016-09-28 | 中国传媒大学 | 单声道多音音乐信号的自动转录方法及装置 |
US10203839B2 (en) | 2012-12-27 | 2019-02-12 | Avaya Inc. | Three-dimensional generalized space |
US9892743B2 (en) * | 2012-12-27 | 2018-02-13 | Avaya Inc. | Security surveillance via three-dimensional audio space presentation |
CN104078050A (zh) * | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
CN104347067B (zh) | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN104575507B (zh) * | 2013-10-23 | 2018-06-01 | 中国移动通信集团公司 | 语音通信方法及装置 |
US10564923B2 (en) | 2014-03-31 | 2020-02-18 | Sony Corporation | Method, system and artificial neural network |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US20160162473A1 (en) * | 2014-12-08 | 2016-06-09 | Microsoft Technology Licensing, Llc | Localization complexity of arbitrary language assets and resources |
CN104464727B (zh) * | 2014-12-11 | 2018-02-09 | 福州大学 | 一种基于深度信念网络的单通道音乐的歌声分离方法 |
US9407989B1 (en) | 2015-06-30 | 2016-08-02 | Arthur Woodrow | Closed audio circuit |
CN105070301B (zh) * | 2015-07-14 | 2018-11-27 | 福州大学 | 单通道音乐人声分离中的多种特定乐器强化分离方法 |
US10902043B2 (en) | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
US10249305B2 (en) | 2016-05-19 | 2019-04-02 | Microsoft Technology Licensing, Llc | Permutation invariant training for talker-independent multi-talker speech separation |
US11373672B2 (en) | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
WO2017218492A1 (en) * | 2016-06-14 | 2017-12-21 | The Trustees Of Columbia University In The City Of New York | Neural decoding of attentional selection in multi-speaker environments |
CN106847302B (zh) * | 2017-02-17 | 2020-04-14 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
US10614827B1 (en) * | 2017-02-21 | 2020-04-07 | Oben, Inc. | System and method for speech enhancement using dynamic noise profile estimation |
US10825445B2 (en) | 2017-03-23 | 2020-11-03 | Samsung Electronics Co., Ltd. | Method and apparatus for training acoustic model |
KR20180111271A (ko) * | 2017-03-31 | 2018-10-11 | 삼성전자주식회사 | 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치 |
KR102395472B1 (ko) * | 2017-06-08 | 2022-05-10 | 한국전자통신연구원 | 가변 윈도우 사이즈 기반의 음원 분리 방법 및 장치 |
CN107507621B (zh) * | 2017-07-28 | 2021-06-22 | 维沃移动通信有限公司 | 一种噪声抑制方法及移动终端 |
US10878144B2 (en) | 2017-08-10 | 2020-12-29 | Allstate Insurance Company | Multi-platform model processing and execution management engine |
US11755949B2 (en) | 2017-08-10 | 2023-09-12 | Allstate Insurance Company | Multi-platform machine learning systems |
CN107680611B (zh) * | 2017-09-13 | 2020-06-16 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN107749299B (zh) * | 2017-09-28 | 2021-07-09 | 瑞芯微电子股份有限公司 | 一种多音频输出方法和装置 |
KR102128153B1 (ko) * | 2017-12-28 | 2020-06-29 | 한양대학교 산학협력단 | 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법 |
WO2019133765A1 (en) * | 2017-12-28 | 2019-07-04 | Knowles Electronics, Llc | Direction of arrival estimation for multiple audio content streams |
WO2019133732A1 (en) * | 2017-12-28 | 2019-07-04 | Knowles Electronics, Llc | Content-based audio stream separation |
CN108229659A (zh) * | 2017-12-29 | 2018-06-29 | 陕西科技大学 | 基于深度学习的钢琴单键音识别方法 |
US10283140B1 (en) | 2018-01-12 | 2019-05-07 | Alibaba Group Holding Limited | Enhancing audio signals using sub-band deep neural networks |
DE112018006332B4 (de) * | 2018-01-15 | 2021-07-08 | Mitsubishi Electric Corporation | Vorrichtung und Verfahren zur Trennung akustischer Signale |
FR3079706B1 (fr) * | 2018-03-29 | 2021-06-04 | Inst Mines Telecom | Procede et systeme de diffusion d'un flux audio multicanal a des terminaux de spectateurs assistant a un evenement sportif |
US10957337B2 (en) | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
US11756564B2 (en) | 2018-06-14 | 2023-09-12 | Pindrop Security, Inc. | Deep neural network based speech enhancement |
CN108922517A (zh) * | 2018-07-03 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 训练盲源分离模型的方法、装置及存储介质 |
CN108922556B (zh) * | 2018-07-16 | 2019-08-27 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN109166593B (zh) * | 2018-08-17 | 2021-03-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN109272987A (zh) * | 2018-09-25 | 2019-01-25 | 河南理工大学 | 一种分选煤和矸石的声音识别方法 |
KR102691543B1 (ko) | 2018-11-16 | 2024-08-02 | 삼성전자주식회사 | 오디오 장면을 인식하는 전자 장치 및 그 방법 |
DE102019200956A1 (de) * | 2019-01-25 | 2020-07-30 | Sonova Ag | Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen |
DE102019200954A1 (de) | 2019-01-25 | 2020-07-30 | Sonova Ag | Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen |
US11017774B2 (en) | 2019-02-04 | 2021-05-25 | International Business Machines Corporation | Cognitive audio classifier |
US11315585B2 (en) | 2019-05-22 | 2022-04-26 | Spotify Ab | Determining musical style using a variational autoencoder |
US11355137B2 (en) | 2019-10-08 | 2022-06-07 | Spotify Ab | Systems and methods for jointly estimating sound sources and frequencies from audio |
CN110782915A (zh) * | 2019-10-31 | 2020-02-11 | 广州艾颂智能科技有限公司 | 一种基于深度学习的波形音乐成分分离方法 |
US11366851B2 (en) | 2019-12-18 | 2022-06-21 | Spotify Ab | Karaoke query processing system |
WO2021148342A1 (en) * | 2020-01-21 | 2021-07-29 | Dolby International Ab | Noise floor estimation and noise reduction |
CN111370023A (zh) * | 2020-02-17 | 2020-07-03 | 厦门快商通科技股份有限公司 | 一种基于gru的乐器识别方法及系统 |
CN111370019B (zh) * | 2020-03-02 | 2023-08-29 | 字节跳动有限公司 | 声源分离方法及装置、神经网络的模型训练方法及装置 |
US11558699B2 (en) | 2020-03-11 | 2023-01-17 | Sonova Ag | Hearing device component, hearing device, computer-readable medium and method for processing an audio-signal for a hearing device |
CN112115821B (zh) * | 2020-09-04 | 2022-03-11 | 西北工业大学 | 一种基于小波近似系数熵的多信号智能调制模式识别方法 |
CN111787462B (zh) * | 2020-09-04 | 2021-01-26 | 蘑菇车联信息科技有限公司 | 音频流处理方法及系统、设备、介质 |
US11839815B2 (en) | 2020-12-23 | 2023-12-12 | Advanced Micro Devices, Inc. | Adaptive audio mixing |
CN112488092B (zh) * | 2021-02-05 | 2021-08-24 | 中国人民解放军国防科技大学 | 基于深度神经网络的导航频段信号类型识别方法及系统 |
CN113674756B (zh) * | 2021-10-22 | 2022-01-25 | 青岛科技大学 | 基于短时傅里叶变换和bp神经网络的频域盲源分离方法 |
CN114792529B (zh) * | 2022-02-24 | 2024-09-27 | 中国电子科技集团公司第五十四研究所 | 一种基于hog+svm的短波通信话音检测方法 |
CN116828385A (zh) * | 2023-08-31 | 2023-09-29 | 深圳市广和通无线通信软件有限公司 | 一种基于人工智能分析的音频数据处理方法及相关装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2807457B2 (ja) * | 1987-07-17 | 1998-10-08 | 株式会社リコー | 音声区間検出方式 |
JP3521844B2 (ja) | 1992-03-30 | 2004-04-26 | セイコーエプソン株式会社 | ニューラルネットワークを用いた認識装置 |
US5960391A (en) * | 1995-12-13 | 1999-09-28 | Denso Corporation | Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system |
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US7295977B2 (en) * | 2001-08-27 | 2007-11-13 | Nec Laboratories America, Inc. | Extracting classifying data in music from an audio bitstream |
US7243060B2 (en) * | 2002-04-02 | 2007-07-10 | University Of Washington | Single channel sound separation |
FR2842014B1 (fr) * | 2002-07-08 | 2006-05-05 | Lyon Ecole Centrale | Procede et appareil pour affecter une classe sonore a un signal sonore |
JP4104626B2 (ja) * | 2003-02-07 | 2008-06-18 | 日本電信電話株式会社 | 収音方法及び収音装置 |
US7091409B2 (en) * | 2003-02-14 | 2006-08-15 | University Of Rochester | Music feature extraction using wavelet coefficient histograms |
DE10313875B3 (de) * | 2003-03-21 | 2004-10-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Analysieren eines Informationssignals |
KR100486736B1 (ko) * | 2003-03-31 | 2005-05-03 | 삼성전자주식회사 | 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 |
US20040260550A1 (en) * | 2003-06-20 | 2004-12-23 | Burges Chris J.C. | Audio processing system and method for classifying speakers in audio data |
US7232948B2 (en) * | 2003-07-24 | 2007-06-19 | Hewlett-Packard Development Company, L.P. | System and method for automatic classification of music |
US7340398B2 (en) * | 2003-08-21 | 2008-03-04 | Hewlett-Packard Development Company, L.P. | Selective sampling for sound signal classification |
JP3949150B2 (ja) * | 2003-09-02 | 2007-07-25 | 日本電信電話株式会社 | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
US7295607B2 (en) * | 2004-05-07 | 2007-11-13 | Broadcom Corporation | Method and system for receiving pulse width keyed signals |
-
2005
- 2005-10-06 US US11/244,554 patent/US20070083365A1/en not_active Abandoned
-
2006
- 2006-10-03 CN CNA2006800414053A patent/CN101366078A/zh active Pending
- 2006-10-03 JP JP2008534637A patent/JP2009511954A/ja active Pending
- 2006-10-03 CA CA002625378A patent/CA2625378A1/en not_active Abandoned
- 2006-10-03 NZ NZ566782A patent/NZ566782A/en not_active IP Right Cessation
- 2006-10-03 AU AU2006302549A patent/AU2006302549A1/en not_active Abandoned
- 2006-10-03 RU RU2008118004/09A patent/RU2418321C2/ru not_active IP Right Cessation
- 2006-10-03 WO PCT/US2006/038742 patent/WO2007044377A2/en active Search and Examination
- 2006-10-03 EP EP06816186A patent/EP1941494A4/en not_active Withdrawn
- 2006-10-03 BR BRPI0616903-1A patent/BRPI0616903A2/pt not_active Application Discontinuation
- 2006-10-05 TW TW095137147A patent/TWI317932B/zh not_active IP Right Cessation
-
2008
- 2008-03-26 IL IL190445A patent/IL190445A0/en unknown
- 2008-04-23 KR KR1020087009683A patent/KR101269296B1/ko not_active IP Right Cessation
Non-Patent Citations (1)
Title |
---|
SOLTAU et al Recognition of music types. In Proceedings of the IEEE International Conference on Acostincs, Speech, and Signal PRocessing ((ICAAP-1998). Seattle, Washington, May 1998. * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2718999C2 (ru) * | 2014-07-23 | 2020-04-15 | Шлюмбергер Текнолоджи Б.В. | Кепстральный анализ исправности нефтепромыслового насосного оборудования |
RU2666631C2 (ru) * | 2014-09-12 | 2018-09-11 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Обучение dnn-студента посредством распределения вывода |
US11429860B2 (en) | 2014-09-12 | 2022-08-30 | Microsoft Technology Licensing, Llc | Learning student DNN via output distribution |
US11062228B2 (en) | 2015-07-06 | 2021-07-13 | Microsoft Technoiogy Licensing, LLC | Transfer learning techniques for disparate label sets |
RU2698153C1 (ru) * | 2016-03-23 | 2019-08-22 | ГУГЛ ЭлЭлСи | Адаптивное улучшение аудио для распознавания многоканальной речи |
US10515626B2 (en) | 2016-03-23 | 2019-12-24 | Google Llc | Adaptive audio enhancement for multichannel speech recognition |
US11257485B2 (en) | 2016-03-23 | 2022-02-22 | Google Llc | Adaptive audio enhancement for multichannel speech recognition |
US11756534B2 (en) | 2016-03-23 | 2023-09-12 | Google Llc | Adaptive audio enhancement for multichannel speech recognition |
US10885900B2 (en) | 2017-08-11 | 2021-01-05 | Microsoft Technology Licensing, Llc | Domain adaptation in speech recognition via teacher-student learning |
RU2782981C2 (ru) * | 2018-05-30 | 2022-11-08 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Модуль оценки подобия аудиосигналов, аудиокодер, способы и компьютерная программа |
US12051431B2 (en) | 2018-05-30 | 2024-07-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio similarity evaluator, audio encoder, methods and computer program |
RU2720359C1 (ru) * | 2019-04-16 | 2020-04-29 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и оборудование распознавания эмоций в речи |
Also Published As
Publication number | Publication date |
---|---|
JP2009511954A (ja) | 2009-03-19 |
CN101366078A (zh) | 2009-02-11 |
WO2007044377B1 (en) | 2008-11-27 |
KR20080059246A (ko) | 2008-06-26 |
KR101269296B1 (ko) | 2013-05-29 |
EP1941494A2 (en) | 2008-07-09 |
TWI317932B (en) | 2009-12-01 |
WO2007044377A3 (en) | 2008-10-02 |
EP1941494A4 (en) | 2011-08-10 |
TW200739517A (en) | 2007-10-16 |
IL190445A0 (en) | 2008-11-03 |
RU2008118004A (ru) | 2009-11-20 |
US20070083365A1 (en) | 2007-04-12 |
WO2007044377A2 (en) | 2007-04-19 |
BRPI0616903A2 (pt) | 2011-07-05 |
CA2625378A1 (en) | 2007-04-19 |
AU2006302549A1 (en) | 2007-04-19 |
NZ566782A (en) | 2010-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2418321C2 (ru) | Классификатор на основе нейронных сетей для выделения аудио источников из монофонического аудио сигнала | |
Sharma et al. | Trends in audio signal feature extraction methods | |
Marchi et al. | Multi-resolution linear prediction based features for audio onset detection with bidirectional LSTM neural networks | |
KR101101384B1 (ko) | 파라미터화된 시간 특징 분석 | |
AU2002240461B2 (en) | Comparing audio using characterizations based on auditory events | |
Hu et al. | Separation of singing voice using nonnegative matrix partial co-factorization for singer identification | |
JP2009008836A (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
Azarloo et al. | Automatic musical instrument recognition using K-NN and MLP neural networks | |
Prabavathy et al. | An enhanced musical instrument classification using deep convolutional neural network | |
Joshi et al. | Comparative study of Mfcc and Mel spectrogram for Raga classification using CNN | |
Arumugam et al. | An efficient approach for segmentation, feature extraction and classification of audio signals | |
Benetos et al. | Auditory spectrum-based pitched instrument onset detection | |
WO2019053544A1 (en) | IDENTIFICATION OF AUDIOS COMPONENTS IN AN AUDIO MIX | |
Song et al. | Automatic vocal segments detection in popular music | |
Fahmeeda et al. | Voice Based Gender Recognition Using Deep Learning | |
Hashemi et al. | Persian music source separation in audio-visual data using deep learning | |
Sunouchi et al. | Diversity-Robust Acoustic Feature Signatures Based on Multiscale Fractal Dimension for Similarity Search of Environmental Sounds | |
de León et al. | A complex wavelet based fundamental frequency estimator in singlechannel polyphonic signals | |
Bellur et al. | A cepstrum based approach for identifying tonic pitch in Indian classical music | |
Uzun et al. | A preliminary examination technique for audio evidence to distinguish speech from non-speech using objective speech quality measures | |
Guntur | Feature extraction algorithms for speaker recognition system and fuzzy logic | |
Loni et al. | Extracting acoustic features of singing voice for various applications related to MIR: A review | |
MX2008004572A (en) | Neural network classifier for seperating audio sources from a monophonic audio signal | |
Lin et al. | A new approach for classification of generic audio data | |
Lewis et al. | Blind signal separation of similar pitches and instruments in a noisy polyphonic domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20201004 |