RU2686589C2 - Распознавание смешанной речи - Google Patents

Распознавание смешанной речи Download PDF

Info

Publication number
RU2686589C2
RU2686589C2 RU2016137972A RU2016137972A RU2686589C2 RU 2686589 C2 RU2686589 C2 RU 2686589C2 RU 2016137972 A RU2016137972 A RU 2016137972A RU 2016137972 A RU2016137972 A RU 2016137972A RU 2686589 C2 RU2686589 C2 RU 2686589C2
Authority
RU
Russia
Prior art keywords
speech
neural network
sample
mixed
energy
Prior art date
Application number
RU2016137972A
Other languages
English (en)
Other versions
RU2016137972A3 (ru
RU2016137972A (ru
Inventor
Дун ЮЙ
Чао ВЭН
Майкл Л. СЕЛТЗЕР
Джеймс ДРОППО
Original Assignee
МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи filed Critical МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Publication of RU2016137972A publication Critical patent/RU2016137972A/ru
Publication of RU2016137972A3 publication Critical patent/RU2016137972A3/ru
Application granted granted Critical
Publication of RU2686589C2 publication Critical patent/RU2686589C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

Изобретение относится к средствам для распознавания смешанной речи. Технический результат заключается в повышении точности распознавания смешанной речи. Обучают первую нейронную сеть для распознавания речевого сигнала, произнесенного говорящим с более высоким уровнем речевой характеристики, из выборки смешанной речи. Обучают вторую нейронную сеть для распознавания речевого сигнала, произнесенного говорящим с более низким уровнем речевой характеристики, из выборки смешанной речи. Декодируют выборку смешанной речи первой нейронной сетью и второй нейронной сетью путем оптимизации объединенной вероятности наблюдения упомянутых двух речевых сигналов, где объединенная вероятность означает вероятность того, что конкретный кадр является точкой переключения речевой характеристики. Обучают третью нейронную сеть для предсказания переключения речевой характеристики. Декодируют выборку смешанной речи на основе упомянутого предсказания. 3 н. и 12 з.п. ф-лы, 5 табл., 6 ил.

Description

УРОВЕНЬ ТЕХНИКИ
Хотя на сегодня достигнут прогресс в повышении устойчивости систем распознавания речи к шумам, распознавание речи в присутствии параллельно говорящего (смешанная речь) остается большой проблемой. В случае распознавания речи с одного микрофона в присутствии параллельно говорящего разработчики применяют множество различных технических приемов для обработки выборки смешанной речи и сравнивают результаты между собой. Эти технические приемы включают в себя подходы на основе моделей, в которых используются факториальные модели на основе смеси нормальных распределений-скрытые Марковские модели (GMM-HMM) для описания взаимосвязей между целевым и параллельным речевыми сигналами, и их динамическими показателями. При использовании такого подхода совместный вывод или совместное декодирование идентифицируют два наиболее вероятных речевых сигнала или сказанных предложений.
При компьютерном анализе акустической сцены (CASA) и подходах на основе так называемой «недостающей функции» правила сегментации действуют на признаках нижнего слоя для оценки частотно-временной маски, которая выделяет компоненты сигнала, принадлежащие каждому говорителю. Эта маска может быть использована для восстановления сигнала или для передачи информации для процесса декодирования. В других подходах используется неотрицательная матричная факторизация (NMF) для разделения сигнала и повышения качества на основе основного тона.
В одном подходе в системе разделения применяются факториальные генеративные модели на основе GMM-HMM с использованием 256 нормальных распределений для моделирования акустического пространства для каждого говорителя. Хотя это полезно в случае небольшого объема словарных данных, для задачи, характеризующейся большим объемом словарных данных, эта модель весьма примитивна. При использовании большего количества нормальных распределений получение результата на основе факториальной GMM-HMM модели становится практически неприемлемым с точки зрения объема вычислений. Кроме того, такая система предполагает доступность данных обучения, зависимых от говорителя, и замкнутого множества говорителей в период между обучением и тестированием, что может оказаться практически неприемлемым при большом количестве говорителей.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Далее в упрощенном виде представлено описание сущности изобретения, обеспечивающее базовое понимание некоторых описанных здесь аспектов. Этот раздел не дает расширенное представление о заявленной сущности изобретения. Здесь не предполагается ни идентификация ключевых элементов заявленной сущности изобретения, ни определение объема заявленной сущности изобретения. Единственной целью этого раздела является представление ряда концепций заявленной сущности изобретения в упрощенном виде в качестве прелюдии к более подробному описанию, представленному ниже.
Система и способ распознают смешанную речь от источника. Способ включает в себя обучение первой нейронной сети для распознавания речевого сигала говорителя с более высоким уровнем речевой характеристики из выборки смешанной речи. Способ также включает в себя обучение второй нейронной сети для распознавания речевого сигала говорителя с более низким уровнем речевой характеристики из выборки смешанной речи. Вдобавок, способ включает в себя декодирование выборки смешанной речи первой нейронной сетью и второй нейронной сетью путем оптимизации совместной вероятности наблюдения двух речевых сигналов с учетом вероятности того, что специальный кадр является точкой коммутации мощности говорителей.
Варианты осуществления изобретения включают в себя одно или несколько считываемых компьютером запоминающих устройств для хранения считываемых компьютером команд. Считываемые компьютером команды выполняются одним или несколькими обрабатывающими устройствами. Считываемые компьютером команды включают в себя код, сконфигурированный для обучения первой нейронной сети для распознавания более высокого уровня речевой характеристики в первом речевом сигнале из выборки смешанной речи. Обучение второй нейронной сети выполняется для распознавания более низкого уровня речевой характеристики во втором речевом сигнале из выборки смешанной речи. Обучение третьей нейронной сети выполняется для оценки вероятности коммутация для каждого кадра. Выборка смешанной речи декодируется первой нейронной сетью, второй нейронной сетью и третьей нейронной сетью путем оптимизации совместной вероятности наблюдения двух речевых сигналов, где совместная вероятность означает вероятность того, что специальный кадр является точкой коммутации речевой характеристики.
В последующем описании и прилагаемых чертежах подробно раскрываются некоторые иллюстративные аспекты заявленной сущности изобретения. Однако эти аспекты указывают несколько различных путей возможного использования принципов изобретения, причем здесь предполагается, что заявленная сущность изобретения включает в себя все такие аспекты и их эквиваленты. Другие преимущества и новые признаки заявленной сущности изобретения станут очевидными из последующего подробного описания изобретения вместе с упомянутыми чертежами.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг. 1 – блок-схема потока данных в примерной системе для одноканального распознавания смешанной речи согласно описанным здесь вариантам осуществления изобретения;
фиг. 2 – блок-схема потока операций способа для одноканального распознавания смешанной речи согласно описанным здесь вариантам осуществления изобретения;
фиг. 3 – блок-схема потока операций способа для одноканального распознавания смешанной речи согласно описанным здесь вариантам осуществления изобретения;
фиг. 4 - блок-схема примерной системы для одноканального распознавания смешанной речи согласно описанным здесь вариантам осуществления изобретения;
фиг. 5 – блок-схема примерной сетевой среды для реализации различных аспектов заявленной сущности изобретения; и
фиг. 6 - блок-схема примерной операционной среды для реализации различных аспектов заявленной сущности изобретения.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
В качестве преамбулы, с привлечением некоторых фигур описываются концепции в контексте одной или нескольких структурных компонент, называемых здесь по-разному: функциональные возможности, модули, функциональные компоненты, элементы или т.п. Показанные на этих фигурах различные компоненты могут быть реализованы любым образом, например, программными средствами, аппаратными средствами, программно-аппаратными средствами или их комбинациями. В некоторых вариантах осуществления различные компоненты отражают использование соответствующих компонент при их действительной реализации. В других вариантах осуществления любая отдельная компонента, показанная на упомянутых фигурах, может быть реализована несколькими реальными компонентами. Отображение любых двух или более отдельных компонент на фигурах может отражать разные функции, выполняемые одной реальной компонентой. На фиг. 1, обсуждаемой ниже, представлены детали, относящиеся к одной системе, которую можно использовать для реализации показанных на фигурах функций.
На других фигурах описание концепций представлено в виде блок-схем операций. В таком виде конкретные операции описываются в виде отдельных составляющих блоков, выполняемых в определенном порядке. Такие реализации являются примерами, но не ограничениями. Некоторые, из описанных здесь блоков, могут быть сгруппированы вместе и выполняться в одной операции; некоторые блоки могут быть разбиты на множество составляющих блоков, а другие блоки могут выполняться в порядке, отличающемся от показанного здесь порядка, включая параллельное выполнение этих блоков. Блоки, показанные в блок-схемах, могут быть реализованы путем программной, аппаратной, программно-аппаратной и ручной обработки или т.п. Используемые здесь аппаратные средства могут включать в себя компьютерные системы, дискретные логические компоненты, такие как прикладные специализированные интегральные схемы (ASIC) или т.п.
Что касается терминологии, то оборот «сконфигурированный для» распространяется на любой возможный способ построения функциональных возможностей любого вида для выполнения идентифицированной операции. Эти функциональные возможности могут быть сконфигурированы для выполнения одной операции с использованием, например, программных, аппаратных, программно-аппаратных средств или т.п. Термин «логика» охватывает любые функциональные возможности для выполнения некоторой задачи. Например, каждая операция, показанная на блок-схемах, соответствует логике для выполнения этой операции. Операция может выполняться с использованием программных, аппаратных, программно-аппаратных средств и т.п. Термины «компонента», «система» и т.п. могут относиться к компьютерным объектам, аппаратным средствам и исполняемым программным средствам, программно-аппаратным средствам или их комбинации. Компонента может представлять собой процесс, выполняющийся в процессоре, объект, исполняемый файл, программу, функцию, подпрограмму, компьютер или комбинацию программных и аппаратных средств. Термин «процессор» может относиться к аппаратной компоненте, такой как обрабатывающий блок в компьютерной системе.
Кроме того, заявленная сущность изобретения может быть реализована в виде способа, устройства или изделия с использованием стандартных приемов программирования и инженерного проектирования для создания программных, программно-аппаратных, аппаратных средств или любой их комбинации для управления вычислительным устройством с целью реализации раскрытой здесь сущности изобретения. Используемый здесь термин «изделие», как предполагается, охватывает компьютерную программу, доступную из любого считываемого компьютером запоминающего устройства или запоминающей среды. Считываемая компьютером запоминающая среда может включать в себя, но не только: магнитные запоминающие устройства, например, среди прочего, жесткий диск, гибкий диск, магнитные полосы, оптический диск, компакт-диск (CD), цифровой универсальный диск (DVD), смарт-карты, запоминающие устройства типа «флэш-память». В противоположность этому, считываемая компьютером среда, то есть, не запоминающая среда, может включать в себя среду связи, такую как среда передачи для беспроводных сигналов и т.п.
Нейронные сети представляют собой вычислительные модели, пытающиеся имитировать деятельность мозга животных. В нейронных сетях взаимосвязанные системы вычисляют значения на основе входных данных путем передачи информации через сеть. Эти системы взаимосвязаны подобно тому, как взаимосвязаны нейроны в мозге. Глубокая нейронная сеть (DNN), как правило, представляет собой сеть, имеющую более одного скрытого слоя, где слои являются полносвязными. Другими словами, все нейроны одного слоя соединены со всеми нейронами последующего слоя.
При распознавании речи множество входных нейронов может быть активировано речевым сигналом входного кадра смешанной речи. Эти входные кадры могут обрабатываться нейронами первого слоя и передаваться на нейроны других слоев, которые также обрабатывают их входы и передают их на выходы. Выходные данные нейронной сети генерируются выходными нейронами, которые задают вероятность наблюдения конкретных фонемных или субфонемных единиц.
Как правило, в системах разделения речи используются признаки с высоким разрешением, но традиционная система автоматического распознавания речи (ASR) на основе GMM-HMM не способна обеспечить эффективное моделирование признаков с высоким разрешением. Разработчики по сути дела при использовании традиционных систем ASR на основе GMM-HMM обычно разделяют обработку для разделения речи и обработку для распознавания речи.
Однако системы на основе нейронных сетей показали свое преимущество при использовании признаков в спектральной области по сравнению с обработкой признаков в кепстральной области. Кроме того, нейронные сети продемонстрировали свою надежность в отношении речевых вариаций говорителей и искажений со стороны окружающей среды. В вариантах осуществления заявленной сущности изобретения унифицированная система на основе нейронной сети может выполнять как обработку разделения, так и обработку распознавания речи двух говорителей. Преимуществом является то, что эта нейронная сеть может выполнять это более качественно в плане масштабирования, чем традиционные системы ASR.
На фиг. 1 представлена блок-схема примерной системы 100 для одноканального распознавания смешанной речи согласно описанным здесь вариантам осуществления. В системе 100 обучающие последовательности 102 вводятся во множество нейронных сетей 104. Обучение нейронных сетей 104 выполняется с использованием обучающих последовательностей 102, создающих обученные сети 106. Кадры 108 смешанной речи вводятся в обученные сети 106, которые создают фонетические вероятности 110. Фонетические вероятности 110 представляют множество вероятностей наблюдения конкретной фонемной или субфонемной единицы в сигнале. В одном варианте осуществления фонетические вероятности 110 вводятся в преобразователи 112 с конечным числом взвешенных состояний (WFST), которые выполняют совместное декодирование для выбора произнесенных слов. Система 100 использует несколько способов распознавания соканальной речи, которые объединяют обучение с разными объектными функциями, определенными для задачи с множеством говорителей.
Примерные реализации продемонстрировали устойчивость к помехам со стороны параллельно говорителя. В одной из реализаций достигается общая частота словных ошибок, равная 19,7%, что на 1,9% абсолютно лучше по сравнению с существующими системами. Преимуществом является то, что варианты осуществления заявленной сущности изобретения выполняют распознавание при меньшем уровне сложности и с меньшими допущениями.
1. ВВЕДЕНИЕ
Варианты осуществления заявленной сущности изобретения выполняют одноканальное распознавание смешанной речи с использованием глубоких нейронных сетей (нейронные сети 104). Используя стратегию многостилевого обучения на искусственно созданных данных смешанной речи, например, на кадрах 108 смешанной речи, несколько различных обучающих настроек позволяют DNN системам обобщать соответствующие подобные звуковые образы. Вдобавок, WFST декодер 112 представляет собой декодер для совместного декодирования, который работает с обученными нейронными сетями 104.
2. Многостилевое обучение DNN c использованием смешанной речи
На фиг. 2 представлена блок-схема способа 200 для одноканального распознавания смешанной речи согласно описанным здесь вариантам осуществления. Понятно, что эта блок-схема представляет только технические приемы заявленной сущности изобретения, но не обязательно представляет их последовательность. Способ 200 может выполняться системой 100, начиная с блока 202, где создается обучающая последовательность 102 на основе чистой обучающей последовательности. Хотя акустическая модель на основе нейронных сетей подтвердила свою более высокую устойчивость в отношении искажений со стороны окружающей среды по сравнению с традиционными системами, эта надежность недостаточно поддерживается при более высоких уровнях искажений между обучающей последовательностью 102 и кадрами 108 смешанной речи. Как таковые, существующие примеры репрезентативных вариаций в отношении нейронных сетей 104 во время обучения помогают обученным сетям 106 выполнять обобщения применительно к искаженной речи.
Модель на основе нейронных сетей, обученная на речи одного говорителя, не обеспечивает должный уровень обобщения. Однако, варианты осуществления заявленной сущности изобретения снимают эту проблему путем использования стратегии многостилевого обучения. В этой стратегии чистые обучающие данные модифицируют для представления ожидаемой речи. В примерной обучающей последовательности 102 база данных чистой речи одного говорителя «искажается» выборками сигнала параллельной речи от других говорителей с различными уровнями громкости, энергии и т.д. В блоке 204 нейронные сети 104 обучаются с использованием этих модифицированных обучающих данных, которые включают в себя множественные формы сигналов. Преимуществом является то, что эти данные могут быть использованы для создания обученных сетей 106, которые могут разделять звуковые сигналы в речи множества говорителей. В вариантах осуществления обучение нейронной сети 104 может выполняться для каждого из говорителей.
В блоке 206 может быть выполнено совместное декодирование. В одном варианте осуществления WFST декодер модифицирован для декодирования речи множества говорителей.
2.1 МОДЕЛИ СИГНАЛОВ С ВЫСОКОЙ И НИЗКОЙ ЭНЕРГИЕЙ
При каждом произнесении смешанной речи с множеством речевых сигналов предполагается, что один сигнал представляет собой целевую речь, и один сигнал представляет собой помехи. Присваивание индексов является произвольным, когда система декодирует оба сигнала. В одном варианте осуществления используют допущение относительно энергии речевых сигналов. В этом варианте осуществления полагают, что один сигнал имеет более высокую среднюю энергию, чем другой. Приняв это допущение можно идентифицировать целевую речь как сигнал с более высокой энергией (положительное отношение сигнал-шум (SNR)), либо как сигнал с более низкой энергией (отрицательное SNR). Таким образом используются две нейронные сети 104: при условии ввода смешанной речи одну сеть обучают для распознавания речевого сигнала с более высокой энергии, в то время как другую сеть обучают для распознавания речевого сигнала с более низкой энергией.
На фиг. 3 представлена блок-схема способа распознавания одноканальной смешанной речи согласно описанным здесь вариантам осуществления. Понятно, что блок-схема процесса представляет только технические приемы, используемые в заявленной сущности изобретения, но не обязательно представляют их последовательность. Способ 300 может выполняться системой 100, начиная с блока 302, где система 100 нормализует энергию обучающей последовательности 102. Нормализация энергии выполняется при заданной чистой обучающей последовательности данных
Figure 00000001
, так что каждое произнесение речи в этом наборе данных имеет одинаковый уровень мощности. В блоке 304 выполняется смешивание случайных выборок с получением обучающей последовательности 102. Для имитации акустических сред, где целевой речевой сигнал имеет более высокую или более низкую среднюю энергию, другой сигнал выбирают случайным образом из обучающей последовательности 102, масштабируют соответствующим образом его амплитуду и добавляют к обучающей последовательности 102. Таким путем выполняется модификация обучающей последовательности 102 для создания двух многопараметрических последовательностей данных, обозначенных как XH, XL, для данных с высокой и низкой энергией.
В блоке 306 выполняется обучение нейронной сети 104 для каждой из последовательностей данных
Figure 00000002
,
Figure 00000003
, генерирующих две обученные сети 106. Для целевого говорителя с высокой энергией выполнение обучения нейронных сетей 104 возможно с использованием функции потерь,
Figure 00000004
(1)
где
Figure 00000005
- эталонная сенонная метка в t-м кадре. Заметим, что термин «сенонные метки» взят из выравнивания на чистых данных. Это оказалось полезным для получения хороших рабочих характеристик в примерных реализациях. Аналогично можно выполнить обучение нейронной сети 104 для целевого говорителя с низкой энергией на последовательности данных
Figure 00000003
. Дополнительно, в случае двух последовательностей данных
Figure 00000003
и
Figure 00000002
, можно выполнить обучение нейронных сетей 104 в качестве шумоподавителей с использованием функции потерь на основе минимальной среднеквадратической ошибки (MSE),
Figure 00000006
(2)
где
Figure 00000007
- соответствующие отличительные признаки чистой речи, а
Figure 00000008
- оценка неискаженных входных данных с использованием глубокого шумоподавителя. Аналогичным образом можно выполнить обучение шумоподавителя целевого говорителя с низкой энергией на последовательности данных
Figure 00000009
. В блоке 310 может быть выполнено совместное декодирование.
2.2. МОДЕЛИ СИГНАЛА С БОЛЬШОЙ И МАЛОЙ ВЫСОТОЙ ТОНА
Одна из потенциальных проблем, связанных с вышеизложенной стратегией обучения на основе речевых сигналов с высокой и низкой средней энергией, состоит в том, что обученные модели могут оказаться неэффективными, когда смешанные сигналы имеют средние уровни энергии, например, SNR близкие к 0 дБ. Имея ввиду обучение, проблема становится недостаточно определенной, поскольку для одних и тех же входных данных смешанной речи метка обучения имеет противоречивые значения (могут быть метки от говорителей с более высокой энергией и более низкой энергией). Однако маловероятно, что оба говорителя говорят с использованием одной и той же высоты тона. Таким образом, в другом варианте осуществления обучение нейронных сетей 104 для распознавания речи выполняется с более высокой или более низкой высотой тона. В этом варианте осуществления создается одна обучающая последовательность 102
Figure 00000010
из исходной чистой последовательности данных
Figure 00000011
путем случайного выбора помехообразующего речевого сигнала и смешивания его с целевым речевым сигналом. Обучение также включает в себя оценку высоты тона как для целевого, так и для помехообразующего речевых сигналов, которую используют для выбора меток для обучения. Таким образом, функция потерь для обучения нейронных сетей 104 для речевых сигналов с большой высотой тона выглядит следующим образом,
Figure 00000012
(3)
где
Figure 00000013
является эталонной сенонной меткой, полученной на основе выравниваний речевого сигнала с использованием более высокой средней высоты тона. Подобным же образом можно выполнить обучение нейронной сети 104 для речевых сигналов с более низкой высотой тона с использованием сенонных выравниваний речевого сигнала с более низкой высотой тона.
2.3. МОДЕЛИ СИГНАЛОВ С ВЫСОКОЙ И НИЗКОЙ МГНОВЕННОЙ ЭНЕРГИЕЙ
Обучение нейронных сетей также можно выполнить на основе мгновенной энергии в каждом кадре 108. Произнесение речи даже со средней энергией 0 дБ содержит ненулевые мгновенные значения SNR в каждом кадре, что означает отсутствие неоднозначности при создании меток. Обучающая последовательность данных
Figure 00000014
, может быть создана путем смешивания речевых сигналов и вычисления мгновенных энергий кадра в целевом и помехообразующем сигнале. Функция потерь для сигнала с высокой мгновенной энергией задается в виде,
Figure 00000015
(4)
где
Figure 00000016
- соответствует сенонной метке из источника сигнала, который содержит более высокую энергию в кадре t. В этом сценарии в качестве критерия для разделения используют энергию на основе кадра, а не энергию на основе произнесения. По существу не определено, какие выходные данные из кадра 108 соответствуют целевому говорителю, а какие помехообразующему. Например, целевой говоритель может иметь более высокую энергию в одном кадре и боле низкую энергию в следующем кадре.
3. СОВМЕСТНОЕ ДЕКОДИРОВАНИЕ С ИСПОЛЬЗОВАНИЕМ МОДЕЛЕЙ НА ОСНОВЕ DNN
Для нейронных сетей 104 на основе мгновенных энергий каждая из двух обученных сетей 106 определяет, какие выходные данные принадлежат тому или иному говорителю в каждом кадре 108. Для этого декодер для совместного декодирования использует оценки апостериорной вероятности, например, фонетические вероятности 110 из обученных сетей 106, для совместного обнаружения двух последовательностей состояния, по одной для каждого говорителя. Стандартное правило для создания графа декодирования в инфраструктуре WFST можно записать в виде,
Figure 00000017
(5)
где H, C, L и G представляют структуру HMM, фонетическую контекстную зависимость, лексикон и грамматику соответственно, а
Figure 00000018
- WFST композицию. Входные метки для HCLG представляют собой идентификаторы контекстно зависимых HMM состояний (сенонные метки), а выходные метки представляют слова. Сети, обозначенные как
Figure 00000019
и
Figure 00000020
, представляют собой обученные сети на основе сигналов с высоким и низким мгновенным значением энергии. Задачей совместных декодеров является нахождение двух наилучших последовательностей состояний в двумерном совместном пространстве состояний, так чтобы обеспечить максимум суммы логарифмических вероятностей для каждой последовательности состояний,
Figure 00000021
(6)
Декодирующий алгоритм выполняет прохождение совместного речевого оборота по двум
Figure 00000022
декодирующим графам. При этом различие между прохождением речевого оборота совместного декодирования и традиционного декодирования состоит в том, что при совместном декодировании каждый речевой оборот связан с двумя состояниями в декодирующем графе, а не с одним состоянием.
На фиг. 4 представлена блок-схема примерной системы для распознавания одноканальной смешанной речи согласно описанным здесь вариантам осуществления. На фиг. 4 показан модельный пример, иллюстрирующий прохождение совместного речевого оборота. На двух WFST графах:
Figure 00000023
,
Figure 00000024
обозначают пространство состояний, соответствующее одному из двух говорителей;
Figure 00000025
представляет совместное пространство состояний. Положим, что речевой оборот для первого говорителя S1, находится в состоянии 1, а речевой оборот, связанный со вторым говорителем S2 в состоянии 2. Для выходящих дуг с метками, не принадлежащими входным данным (дуги, использующие акустические кадры), расширенные дуги представляют декартово произведение двух наборов выходящих дуг. Цена каждой дуги представляет собой произведение их полуколец. Акустическая цена каждой расширенной дуги вычисляется с использованием сенонных гипотез на основе двух нейронных сетей 104 для высокой и низкой мгновенной энергии. Рассмотрены оба случая, когда каждый из двух источников имеет более высокую энергию. Акустическая цена задается комбинацией с более высокой вероятностью,
Figure 00000026
Figure 00000027
(7)
При использовании уравнения 7 также можно определить признак, указывающий на то, какой говоритель имеет более высокую энергию в соответствующем сигнале в определенном кадре t на всем пути поиска. Для дуг с метками, относящимися к входным данным, дуги со знаком
Figure 00000028
, не используют акустические кадры. Таким образом, чтобы гарантировать синхронизацию речевых оборотов на двух декодирующих графах, создают новое совместное состояние для текущего кадра. Смотри, например, состояние (3,2) на фиг. 4.
Одной из потенциальных проблем совместного декодера 12 является то, что он допускает свободную коммутацию энергии от кадра к кадру при декодировании всей произнесенной речи. На практике коммутация энергии, как правило, происходит не часто. Варианты осуществления заявленной сущности изобретения решают эту проблему путем введения постоянного штрафа на пути поиска, где более громкий сигнал изменился с последнего кадра. В качестве альтернативы, можно оценить вероятность того, что конкретный кадр является точкой коммутация энергии, и с помощью него можно адаптивно изменять значение штрафа. Поскольку обучающая последовательность 102 создается путем смешивания речевых сигналов, энергия каждого кадра исходной речи известна. Обучающую последовательность можно использовать для обучения нейронной сети 104 для предсказания того, появится ли точка коммутации энергии в конкретном кадре. Пусть
Figure 00000029
представляет модели, обученные обнаруживать точку коммутации энергии, и тогда адаптивный штраф за коммутацию энергии задается выражением,
Figure 00000030
(8)
4. ЭКСПЕРИМЕНТЫ
4.1. ПРИМЕРНАЯ РЕАЛИЗАЦИЯ
В приведенной в качестве примера реализации речевые данные извлекались из фонда GRID. Обучающая последовательность 102 содержала 17000 чистых произнесенных речевых отрезков от 34 разных говорителей (500 произнесенных речевых отрезков для каждого говорителя). Оценочная последовательность включала в себя 4200 произнесенных отрезков смешанной речи при 7 состояниях отношения «цель-маска» (TMR): чисто, 6 дБ, 3 дБ, 0 дБ, -3 дБ, -6 дБ, -9 дБ, а развивающая последовательность содержала 1800 отрезков смешанной речи при 6 состояниях (без значения «чисто»). Фиксированная грамматика содержала шесть частей: команда, цвет, предлог, буква (исключая W), число и наречие, например, «place white at L3 now». Во время тестовой фазы говоритель, который произносит название цвета ‘белый’, трактуется как целевой говоритель. Оценочная метрика представляет собой WER на буквах и цифрах, произнесенных целевым говорителем. Заметим, что WER на всех словах имеет меньшее значение, если не определено иное, все WER в нижеследующих экспериментах оценивались только на буквах и числах.
4.2. БАЗОВАЯ СИСТЕМА
Базовая система была построена с использованием DNN, обученной на исходной обучающей последовательности, состоящей из 17000 произнесенных отрезков чистой речи. Система на основе GMM-HMM обучалась с использованием 39-размерных признаков MFCC с использованием 271 отдельных синонов. Вдобавок, в качестве функциональной компоненты был использован 64-размерный банк мел-фильтров, и контекстное окно из 9 кадров для обучения сети DNN. Сеть DNN имела 7 скрытых слоев с 1024 скрытыми блоками на каждом слое 271-рзмерный выходной слой с многопеременной логистической функцией, соответствующий синонам системы на основе GMM-HMM. Эта схема обучения была использована во всех экспериментах с DNN. Инициализация параметров выполнялась от слоя к слою с использованием генеративного предварительного обучения, за которым следовало дискриминантное предварительное обучение. Дискриминантное обучение сети выполнялось с использованием метода обратного распространения. Размер минипакета был установлен равным 256, а начальная скорость изучения установлена равной 0,008. После каждого этапа обучения выполнялась проверка точности кадра на развивающей последовательности. Если улучшение составляло менее 0,5%, то скорость изучения уменьшалась с коэффициентом 0,5. Процесс обучения останавливался после того, как улучшение точности кадра становилось равным менее 0,1%. Показатели WER базовой системы на основе GMM-HMM и на основе DNN-HMM показаны в Таблице 1. Как показано в Таблице 1, система на основе DNN-HMM, обученная на чистых данных, функционирует неэффективно при всех состояниях SNR за исключением «чистого» состояния, что указывает на преимущество многостилевого обучения DNN.
ТАБЛИЦА 1
Системы Состояния
Чисто 6 дБ 3 дБ 0 дБ -3 дБ -6 дБ -9 дБ
GMM 4,0 38,5 54,7 70,5 82,3 89,3 94,2
DNN 0,7 32,5 48,8 66,3 78,4 86,3 91,8
4.3. СИСТЕМЫ DNN, ОБУЧЕННЫЕ С ИСПОЛЬЗОВАНИЕМ МНОГОСТИЛЕВОГО ОБУЧЕНИЯ
Для исследования возможностей использования многостилевого обучения для моделей сигналов с высокой и низкой энергией были сгенерированы две обучающие последовательности данных смешанной речи. Обучающая последовательность с высокой энергией, названная последовательностью I, была создана следующим образом: для каждого чисто произнесенного отрезка случайным образом выбиралось три других произнесенных отрезка, которые смешивались с целевым чисто произнесенным отрезком при 4 состояниях: чисто, 6 дБ, 3 дБ, 0 дБ (17000×12). Последовательность II (Обучающая последовательность с низкой энергией) была создана подобным же образом, но смешивание выполнялось для 5 состояний: чисто и значениях TMR, равных 0 дБ, -3 дБ, -6 дБ, -9 дБ (17000×15). Эти две обучающие последовательности 102 были использованы для обучения двух моделей DNN, DNN I и DNN II, для сигналов с высокой и низкой энергией соответственно. Результаты исследования представлены в Таблице 2.
ТАБЛИЦА 2
Системы Состояния
6 дБ 3 дБ 0 дБ -3 дБ -6 дБ -9 дБ Среднее
DNN 32,5 48,8 66,3 78,4 86,3 91,8 67,4
DNN I 4,5 16,8 56,8 - - - -
DNN II - - 52,6 33,6 18,4 17,4 -
IBM [2] 15,4 17,8 22,7 20,8 22,1 30,9 21,6
DNN I+II 4,5 16,9 49,8 39,8 21,7 19,6 25,4
Из этой Таблицы следует, что хорошие результаты получаются в случаях, когда два смешивающихся сигнала сильно отличаются по уровню энергии, то есть 6 дБ, -6 дБ, -9 дБ. Кроме того, путем комбинирования результатов, полученных от систем DNN I и II с использованием правила, состоящего в том, что целевой говоритель всегда произносит название цвета «белый», комбинированная система DNN I+II достигает значения 25,4% для WER по сравнению с 67,4%, полученных с DNN, обученной только на чистых данных.
С использованием той же обучающей последовательности I, выполнялось обучение DNN в качестве фронтэндного шумоподавителя. С обученным глубоким шумоподавителем были опробованы две разные настройки: при первой настройке признаки шумоподавления непосредственно вводились в сеть DNN, обученную на чистых данных. При второй настройке на данных с подавленным шумом была переобучена другая DNN. Результаты обеих настроек показаны в Таблице 3.
ТАБЛИЦА 3
Системы Состояния
6 dB 3 dB 0 dB
Шумоподавитель I+DNN 16,8 32,2 65,9
Шумоподавитель I+DNN (переобученная) 6,3 17,3 56,3
DNN I 4,5 16,8 56,8
Из вышеописанных экспериментов следует, что система с DNN, обученной для предсказания сенонных меток, функционирует несколько лучше, чем системы с обученным глубоким шумоподавителем, за которой следует другая переобученная DNN. Из указанного следует, что DNN способна автоматически выучить надежные способы представления. Как таковые, ручные признаки могут в фронтэнде не извлекаться. Комбинированная система DNN I+II еще не так эффективна, как известные системы. Причина этого состоит в том, что упомянутая система функционирует очень плохо в тех случаях, когда два смешивающихся сигнала имеют очень близкие уровни энергии, то есть 0 дБ, -3 дБ. В частности, стратегия многостилевого обучения для сигналов с высокой и низкой энергией связана с потенциальной проблемой присваивания конфликтующих меток во время обучения. В Таблице 3 показаны WER (%) глубоких шумоподавителей для сигналов с высокой и низкой энергией.
Для моделей сигналов с высокой и низкой высотой тона высота тона оценивалась для каждого говорителя из чистой обучающей последовательности. Затем обучающая последовательность I и обучающая последовательность II были объединены для образования обучающей последовательности III (17000×24) для обучения двух нейронных сетей 104 для сигналов с высокой и низкой высотой тона соответственно. При обучении нейронных сетей 104 для сигналов с большой высотой тона метку присваивают исходя из выравниваний на произнесенных отрезках чистой речи, соответствующих говорителю с большой высотой тона. При обучении нейронных сетей 104 для сигналов с низкой высотой тона метка присваивается исходя из выравниваний, соответствующих говорителю с низкой высотой тона. При использовании двух обученных сетей 106 декодирование выполняется независимо, как и раньше. В частности, результаты декодирования объединены с использованием правил, заключающихся в том, что целевой говоритель всегда произносит название цвета ‘белый’. Значения показателя WER показаны в Таблице 4.
ТАБЛИЦА 4
Системы Состояния
6 dB 3 dB 0 dB -3 dB -6 dB -9 dB Среднее
DNN I+II 4,5 16,9 49,8 39,8 21,7 19,6 25,4
DNN III 15,5 22,1 30,8 41,9 52,8- 59,6 36,9
Как здесь показано, система с моделями сигналов с большой и малой высотой тона функционирует лучше, чем система с моделями с высокой и низкой энергией в случае 0дБ, но хуже в других случаях.
4.4. СИСТЕМА DNN С СОВМЕСТНЫМ ДЕКОДЕРОМ
Обучающая последовательность III также была использована для обучения двух моделей DNN для сигналов с высокой и низкой мгновенной энергией, описанных в разделе 3. При использовании этих двух обученных моделей совместное декодирование выполняется так, как описано в разделе 3. Результаты подхода на основе использования совместного декодера показаны в Таблице 5. Две последние системы соответствуют случаям, когда введены штрафы за коммутацию энергии. Совместный декодер I представляет собой систему с постоянным штрафом за коммутацию энергии, а совместный декодер II представляет систему с адаптивным штрафом за коммутацию. Для получения значения штрафов за коммутацию энергии, определенных в (8), было выполнено обучение DNN для оценки вероятности коммутации энергии для каждого кадра. В Таблице 5 показаны значения WER (%) систем DNR с совместными декодерами.
ТАБЛИЦА 5
Системы Состояния
6dB 3dB 0dB -3dB -6dB -9dB Среднее
DNN 32,5 48,8 66,3 78,4 86,3 91,8 67,4
IBM [2] 15,4 17,8 22,7 20,8 22,1 30,9 21,6
DNN I + II 4,5 16,9 49,8 39,8 21,7 19,6 25,4
Совместный декодер 18,3 19,8 19,3 21,3 23,2 27,4 21,5
Совместный декодер I 16,1 18,7 20,5 19,6 23,6 26,8 20,9
Совместный декодер II 16,5 17,1 19,9 18,8 22,5 25,3 20,0
Комбинированные 16,0 16,6 19,7 18,8 23,0 24,1 19,7
4.5. СИСТЕМНАЯ КОМБИНАЦИЯ
В Таблице 5 показано, что система DNN I+II эффективно функционирует в тех случаях, когда два смешивающихся речевых сигнала сильно отличаются по уровню энергии, то есть, 6 дБ, -6 дБ, -9 дБ, в то время как система на основе совместного декодера II эффективно функционирует в тех случаях, когда два смешивающихся сигнала имеют близкий уровень энергии. Это предполагает, что можно использовать комбинацию систем в соответствии с различием в энергии между упомянутыми двумя сигналами. Смешанный сигнал вводится в два глубоких шумоподавителя, а два результирующих выходных сигнала используют для оценки сигналов с высокой и низкой энергией. Используя эти разделенные сигналы, можно вычислить отношение энергий для аппроксимации различия в энергии двух исходных сигналов. Выполняется настройка порогового значения для отношения энергий на развивающей последовательности, которое используют для объединения систем, то есть, если отношение энергий двух разделенных сигналов от шумоподавителей превышает пороговое значение, то используют систему DNN I+II для декодирования произнесенного тестового отрезка речи, в противном случае используют системный совместный декодер II. Полученные результаты представлены в Таблице 5.
5. ВЫВОДЫ
В этой работе исследовались системы на основе DNN для распознавания одноканальной смешанной речи путем использования стратегии многостилевого обучения. Также предложен совместный декодер на основе WFST для работы с обученными нейронными сетями 104. Эксперименты на 2006 неполноценных данных, касающихся разделения и распознавания речи, показали, что предложенная система на основе DNN имеет превосходную устойчивость к помехам со стороны параллельно говорителя. При наилучшей настройке предложенных в изобретении систем достигается значение 19,7% для общей WER, что лучше на 1,9% по абсолютной величине результатов, полученных суперпроизводительной системой IBM, причем это достигнуто с меньшим количеством сделанных допущений и более низким уровнем сложности вычислений.
На фиг. 5 представлена блок-схема примерной сетевой среды 500 для реализации различных аспектов заявленной сущности изобретения. Кроме того, это примерная сетевая среда 500 может быть использована для реализации системы и способа, которые обеспечивают обработку внешних последовательностей данных с помощью процессора системы управления базами данных (DBMS).
Сетевая среда 500 включает в себя один или несколько клиентов 502. Клиент (клиенты) 502 может представлять собой аппаратные средства и/или программные средства (например, цепочки подпрограмм, процессы, вычислительные устройства). Например, клиент (клиенты) 502 может представлять собой клиентские устройства, обеспечивающие доступ к серверу 504 через инфраструктуру 508 связи, такую как Интернет.
Среда 500 также включает в себя один или несколько серверов 504. Сервер (серверы) 504 может представлять собой аппаратные средства и/или программные средства (например, цепочки подпрограмм, процессы, вычислительные устройства). Сервер (серверы) 504 может включать в себя серверное устройство. Сервер (серверы) 504 может быть доступен клиенту (клиентам) 502.
Одним из возможных видов связи между клиентом 502 и сервером 504 может быть пакет данных, адаптированный для передачи между двумя или более компьютерными процессами. Среда 500 включает в себя инфраструктуру 508 связи, которую можно использовать для обеспечения связи между клиентом (клиентами) 502 и сервером (серверами) 504.
Клиент (клиенты) 502 оперативно соединены с одним или несколькими хранилищами 510 клиентских данных, которые можно использовать для хранения информации локально для клиента (клиентов) 502. Хранилище (хранилища) 510 клиентских данных могут находится у клиента (клиентов) 502 или удаленно, например, в облачном сервере. Подобным же образом сервер (серверы) 504 оперативно соединены с одним или несколькими хранилищами 506 серверных данных, которые можно использовать для хранения информации локально для серверов 504.
Чтобы обеспечить контекст для реализации различных аспектов заявленной сущности изобретения, предложена фиг. 6, обеспечивающая краткое общее описание вычислительной среды, в которой могут быть реализованы различные аспекты заявленной сущности изобретения. Например, в упомянутой вычислительной среде могут быть реализованы способ и система для изготовления полноцветных 3D-объектов. Хотя заявленная сущность изобретения была описана выше в общем контексте исполняемых компьютером команд, компьютерной программы, которая выполняется на местном компьютере или удаленном компьютере, заявленная сущность изобретения также может быть реализована в комбинации с другими программными модулями. В общем случае программные модули включают в себя стандартные программы, программы, компоненты, структуры данных или т.п., которые выполняют конкретные задачи или реализуют конкретные типы абстрактных данных.
На фиг. 6 представлена блок-схема примерной операционной среды 600 для реализации различных аспектов заявленной сущности изобретения. Примерная операционная среда 600 включает в себя компьютер 602. Компьютер 602 включает в себя обрабатывающий блок 604, системную память 606 и системную шину 608.
Системная шина 608 соединяет системные компоненты, в том числе, но не только, системную память 606 с обрабатывающим блоком 604. Обрабатывающий блок 604 может представлять собой любой из имеющихся различных процессоров. В качестве обрабатывающего блока 604 могут использоваться сдвоенные микропроцессоры и другие микропроцессорные архитектуры.
Системной шиной 608 может быть шинная структура любого из нескольких типов, включая шину памяти или контроллер памяти, периферийную шину или внешнюю шину, а также локальную шину с использованием любой комбинации из имеющихся шинных архитектур, известных специалистам в данной области техники. Системная память 606 включает в себя считываемую компьютером запоминающую среду, которая включает в себя энергозависимую память 610 и энергонезависимую память 612.
Базовая система ввода/вывода (BOIOS), содержащая базовые стандартные программы для пересылки информации между элементами в компьютере 602, например, во время запуска, хранится в энергонезависимой памяти 612. В качестве примера, но не как ограничение, энергонезависимая память 612 может включать в себя память только для считывания (ROM), программируемую ROM (PROM), электрически программируемую ROM (EPROM), электрически стираемую PROM (EEPROM) или флэш-память.
Энергозависимая память 610 включает в себя память с произвольной выборкой (RAM), которая действует в качестве внешней кэш-памяти. Как иллюстрация, но не как ограничение, память RAM доступна во многих видах, таких как статическая RAM (SRAM), динамическая RAM (DRAM), синхронная DRAM (SDRAM), память SDRAM с удвоенной скоростью пересылки данных (DDR SDRAM), усовершенствованная SDRAM (ESDRAM), Synchlink™ DRAM (SLDRAM), память Rambus® RAM (RDRAM) прямого доступа, динамическую память Rambus® RAM (DRDRAM) прямого доступа и динамическую память Rambus® RAM (RDRAM).
Компьютер 602 также включает в себя другие считываемые компьютером среды, такие как съемные/несъемные, энергозависимые/энергонезависимые компьютерные запоминающие среды. В качестве примера на фиг. 6 показано дисковое запоминающее устройство 614. Дисковое запоминающее устройство 614 включает в себя, но не только, устройства типа накопителя на магнитном диске, накопителя на гибком диске, накопителя на магнитной ленте, накопителя Jaz, накопителя Zip, накопителя LS-210, карты флеш-памяти, или флэш-накопителя.
Вдобавок, дисковое запоминающее устройство 614 может включать в себя запоминающую среду по отдельности или в комбинации с другими запоминающими средами, в том числе, но не только, накопитель на оптическом диске, такой как постоянное запоминающее устройство на компакт-диске (CD-ROM), накопитель с однократной записью (накопитель CD-R), накопитель с возможностью многократной записи (накопитель CD-RW) или накопитель на цифровом универсальном диске (DVD-ROM). Для обеспечения соединения дисковых запоминающих устройств 614 с системной шиной 608, как правило, используют съемный или несъемный интерфейс, например, интерфейс 616.
Следует понимать, что на фиг. 6 представлено программное обеспечение, действующее в качестве средства взаимосвязи между пользователями и базовыми компьютерными ресурсами, описанными в подходящей операционной среде 600. Такое программное обеспечение включает в себя операционную систему 618. Операционная система 618, которая может храниться на дисковом запоминающем устройстве 614, обеспечивает управление и распределение ресурсов компьютерной системы 602.
Системные приложения 620 используют управление ресурсами, обеспечиваемого операционной системой 618, посредством программных модулей 622 и программных данных 624, хранящихся в системной памяти 606 или в дисковом запоминающем устройстве 614. Следует понимать, что заявленная сущность изобретения может быть реализована разными операционными системами или их комбинацией.
Пользователь вводит команды или информацию в компьютер 602 через устройства 626 ввода. Устройства 626 ввода включают в себя, но не только, указательное устройство, такое как мышь, шаровой манипулятор, перо и т.п., клавиатуру, микрофон, джойстик, спутниковую тарелку, сканер, карту переключателя каналов TV, цифровую камеру, цифровую видеокамеру, Web-камеру и т.п. Устройства 626 ввода соединены с обрабатывающим блоком 604 посредством системной шины 608 через интерфейсные порты 628. Интерфейсные порты 628 включают в себя, например, последовательный порт, параллельный порт, игровой порт, и универсальную последовательную шину (USB).
Устройства 630 вывода используют некоторые из портов того же типа, что и устройства 626 ввода. Например, порт USB может быть использован для обеспечения ввода в компьютер 602 и вывода информации из компьютера 602 на устройство 610 вывода. Адаптер 632 вывода предусмотрен для иллюстрации того, что имеется ряд устройств 630 вывода типа мониторов, динамиков и принтеров среди других устройств 630 вывода, которые доступны через адаптеры. Адаптеры 632 вывода включают в себя (в качестве иллюстрации, но не как ограничение) видеокарты и аудиокарты, обеспечивающие средство соединения устройства 630 вывода с системной шиной 608. Заметим, что ряд других устройств и систем устройств обеспечивают возможности как ввода, так и вывода, например, удаленные компьютеры 634.
Компьютер 602 может представлять собой сервер, выступающий в качестве хоста для различных программных приложений в сетевой среде, используя логические соединения с одним или несколькими удаленными компьютерами, такими как удаленные компьютеры 634. Удаленные компьютеры 634 могут представлять собой клиентские системы, сконфигурированные с Web-браузерами, PC приложениями, приложениями для мобильной связи и т.п.
Удаленные компьютеры 634 могут представлять собой персональный компьютер, сервер, маршрутизатор, сетевой PC, рабочую станции, бытовой электроприбор на основе микропроцессора, мобильный телефон, одноранговое устройство или другой общий сетевой узел и т.п., и, как правило, включает в себя многие или все элементы, описанные применительно к компьютеру 602.
Для краткости запоминающее устройство 636 показано вместе с удаленными компьютерами 634. Удаленные компьютеры 634 логически соединены с компьютером 602 через сетевой интерфейс 638, а затем подсоединены через соединение 640 беспроводной связи.
Сетевой интерфейс 638 охватывает сети беспроводной связи, такие как локальные сети (LAN) и глобальные сети (WAN). Технологии LAN включают в себя распределенный интерфейс передачи данных по оптоволоконному кабелю (FDDI), распределенный интерфейс передачи данных по медному кабелю(CDDI), Ethernet, Token Ring и т.п. Технологии WAN включают в себя, но не только, линии связи «точка-точка», сети с коммутацией каналов типа цифровых сетей с интегрированными услугами (ISDN) и их версии, сети с пакетной коммутацией и цифровые абонентские линии (DSL).
Коммуникационные соединения 640 относятся к аппаратным/программным средствам, используемым для соединения сетевого интерфейса 638 с шиной 608. Хотя коммуникационное соединение 640 показано для ясности внутри компьютера 602, оно также может быть внешним по отношению к компьютеру 602. Аппаратные/программные средства для соединения с сетевым интерфейсом 638 могут включать в себя, например, внутренние и внешние технологии, такие как коммутаторы мобильной телефонной связи, модемы, включая стандартные телефонные модемы, кабельные модемы и модемы DSL, ISDN адаптеры и карты Ethernet.
Примерный обрабатывающий блок 604 для сервера может представлять собой вычислительный кластер, содержащий центральные процессоры Intel® Xeon. Дисковое хранилише614 может содержать корпоративную систему хранения данных, где, например, хранится множество печатных материалов.
Вышеописанное включает в себя примеры заявленной сущности изобретения. Конечно, невозможно описать каждую потенциально возможную комбинацию компонент или технологий для описания заявленной сущности изобретения, но специалистам в данной области техники понятно, что возможны многие дополнительные комбинации и вариации заявленной сущности изобретения. Соответственно заявленная сущность изобретения предназначена для охвата всех таких вариантов, модификаций и версий, которые не выходят за рамки сущности и объема прилагаемой формулы изобретения.
В частности, в отношении различных функций, выполняемых вышеописанными компонентами, устройствами, схемами, системами и т.п. предполагается, что термины (включая термин «средство»), используемые для описания таких компонент, предназначены для соответствия, если не указано иное, любой компоненте, которая выполняет заданную функцию описанной компоненты, например, термин «функциональный эквивалент», хотя он не является структурным эквивалентом, относящимся к раскрытой структуре, который выполняет указанную функцию в приведенных здесь в качестве примера аспектах заявленной сущности изобретения. В этой связи также следует понимать, что нововведение включает в себя систему, а также считываемую компьютером запоминающую среду, содержащую исполняемые компьютером команды для выполнения действий и событий для различных способов заявленной сущности изобретения.
Имеется множество путей реализации заявленной сущности изобретения, например, подходящий интерфейс API, пакет инструментальных средств разработки программ, код драйвера, операционная система, средство управления, автономный или загружаемый программный объект и т.д., который позволяет приложениям и сервисам использовать описанные здесь технические приемы. Использование заявленной сущности изобретения рассматривается под углом зрения API (или другого программного объекта), а также программного или аппаратного объекта, который действует согласно изложенным здесь технологиям. Таким образом, различные реализации описанной здесь заявленной сущности изобретения могут содержать аспекты, которые реализованы полностью аппаратными средствами, частично программными средствами и частично аппаратными средствами, а также программными средствами.
Вышеупомянутые системы были описаны в плане взаимодействия между несколькими компонентами. Очевидно, что такие системы и компоненты могут включать в себя компоненты или специализированные субкомпоненты, некоторые из специализированных компонент или субкомпонент и дополнительные компоненты согласно различным перестановкам и комбинациям из вышеизложенного. Субкомпоненты также могут быть реализованы в виде компонент, коммуникационно связанных с другими компонентами, вместо того чтобы быть включенными в состав исходных компонент (иерархическая связь).
Вдобавок, следует заметить, что одна или несколько компонент могут быть объединены в единую компоненту, обеспечивающую агрегированные функциональные возможности, или разделить на несколько отдельных субкомпонент, причем может быть обеспечен один или несколько промежуточных уровней, например, уровень управления для коммуникационного соединения с такими субкомпонентами, чтобы обеспечить реализацию интегрированных функциональных возможностей. Любые описанные здесь компоненты также могут взаимодействовать с одной или несколькими другими компонентами, которые здесь подробно не описаны, но в целом известны специалистам в данной области техники.
Вдобавок, хотя конкретный признак заявленной сущности изобретения может быть раскрыт применительно к одной из нескольких реализаций, такой признак может быть объединен с одним или несколькими другими признаками других реализаций, когда это может потребоваться и оказаться перспективным для любого данного или конкретного приложения. Кроме того, предполагается, что термины «включает в себя», «включая», «имеет», «содержит», их варианты и другие подобные слова, использованные в подробном описании или формуле изобретения, являются инклюзивными, в том же смысле, что и термин «содержащий», как открытое переходное слово, не исключающее наличия любых дополнительных или иных элементов.

Claims (40)

1. Способ для распознавания смешанной речи от источника, содержащий:
обучение первой нейронной сети для распознавания речевого сигнала, произнесенного говорящим с более высоким уровнем речевой характеристики, из выборки смешанной речи;
обучение второй нейронной сети для распознавания речевого сигнала, произнесенного говорящим с более низким уровнем речевой характеристики, из выборки смешанной речи; и
декодирование выборки смешанной речи первой нейронной сетью и второй нейронной сетью путем оптимизации объединенной вероятности наблюдения упомянутых двух речевых сигналов, где объединенная вероятность означает вероятность того, что конкретный кадр является точкой переключения речевой характеристики.
2. Способ по п. 1, содержащий декодирование путем учета вероятности, что конкретный кадр является точкой переключения говорящих.
3. Способ по п. 2, содержащий компенсацию для точки переключения, появляющейся в процессе декодирования, на основе вероятности переключения, оцененной из другой нейронной сети.
4. Способ по п. 1, где выборка смешанной речи содержит один аудиоканал, причем упомянутый один аудиоканал генерируется микрофоном.
5. Способ по п. 1, где речевая характеристика содержит одно из:
мгновенной энергии в кадре выборки смешанной речи;
энергии; и
высоты тона.
6. Способ по п. 1, содержащий:
обучение третьей нейронной сети для предсказания переключения речевой характеристики;
предсказание, переключается ли энергия из одного кадра на следующий кадр; и
декодирование выборки смешанной речи на основе упомянутого предсказания.
7. Способ по п. 6, содержащий взвешивание вероятности переключения энергии в кадре, следующем после кадра, в котором предсказано переключение энергии.
8. Система распознавания смешанной речи от источника, причем система содержит:
первую нейронную сеть, содержащую первое множество взаимосвязанных систем; и
вторую нейронную сеть, содержащую второе множество взаимосвязанных систем,
причем каждая взаимосвязанная система содержит:
обрабатывающий блок; и
системную память, причем системная память содержит код, сконфигурированный для инициирования выполнения обрабатывающим блоком:
обучения первой нейронной сети для распознавания более высокого уровня речевой характеристики в первом речевом сигнале из выборки смешанной речи;
обучения второй нейронной сети для распознавания более низкого уровня речевой характеристики во втором речевом сигнале из выборки смешанной речи; и
декодирования выборки смешанной речи первой нейронной сетью и второй нейронной сетью путем оптимизации объединенной вероятности наблюдения упомянутых двух речевых сигналов, где объединенная вероятность означает вероятность того, что конкретный кадр является точкой переключения речевой характеристики.
9. Система по п. 8, содержащая код, сконфигурированный для декодирования выборки смешанной речи путем учета вероятности, что конкретный кадр является точкой переключения речевой характеристики.
10. Система по п. 8, содержащая код, сконфигурированный для инициирования выполнения обрабатывающим блоком компенсации точки переключения, появляющейся в процессе декодирования, на основе вероятности, оцененной из нейронной сети.
11. Система по п. 8, где первая нейронная сеть и вторая нейронная сеть являются глубокими нейронными сетями.
12. Система по п. 8, где речевая характеристика содержит выбранное одно из:
высоты тона, энергии и мгновенной энергии в кадре выборки смешанной речи.
13. Система по п. 8, содержащая код, сконфигурированный для инициирования выполнения обрабатывающим блоком:
обучения третьей нейронной сети для предсказания переключения энергии;
предсказания, переключается ли энергия из одного кадра на следующий кадр; и
декодирования выборки смешанной речи на основе упомянутого предсказания.
14. Система по п. 13, содержащая взвешивание вероятности переключения энергии в кадре, следующем после кадра, в котором предсказано переключение энергии.
15. Одно или несколько считываемых компьютером запоминающих устройств для хранения считываемых компьютером команд, содержащих код, который при его выполнении одним или несколькими обрабатывающими устройствами инициирует выполнение этими одним или несколькими обрабатывающими устройствами:
обучения первой нейронной сети для распознавания более высокого уровня речевой характеристики в первом речевом сигнале из выборки смешанной речи, содержащей один аудиоканал;
обучения второй нейронной сети для распознавания более низкого уровня речевой характеристики во втором речевом сигнале из выборки смешанной речи; и
обучения третьей нейронной сети для оценки вероятности переключения для каждого кадра; и
декодирования выборки смешанной речи первой нейронной сетью, второй нейронной сетью и третьей нейронной сетью путем оптимизации объединенной вероятности наблюдения упомянутых двух речевых сигналов, причем упомянутая объединенная вероятность означает вероятность, что конкретный кадр является точкой переключения речевой характеристики.
RU2016137972A 2014-03-24 2015-03-19 Распознавание смешанной речи RU2686589C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/223,468 2014-03-24
US14/223,468 US9390712B2 (en) 2014-03-24 2014-03-24 Mixed speech recognition
PCT/US2015/021363 WO2015148237A1 (en) 2014-03-24 2015-03-19 Mixed speech recognition

Publications (3)

Publication Number Publication Date
RU2016137972A RU2016137972A (ru) 2018-03-28
RU2016137972A3 RU2016137972A3 (ru) 2018-10-15
RU2686589C2 true RU2686589C2 (ru) 2019-04-29

Family

ID=52808176

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016137972A RU2686589C2 (ru) 2014-03-24 2015-03-19 Распознавание смешанной речи

Country Status (6)

Country Link
US (3) US9390712B2 (ru)
EP (1) EP3123466B1 (ru)
JP (1) JP6486381B2 (ru)
CN (1) CN106104674B (ru)
RU (1) RU2686589C2 (ru)
WO (1) WO2015148237A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2754920C1 (ru) * 2020-08-17 2021-09-08 Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы" Способ синтеза речи с передачей достоверного интонирования клонируемого образца
RU2792288C1 (ru) * 2019-06-26 2023-03-21 Самсунг Электроникс Ко., Лтд. Электронное устройство и способ управления им

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390712B2 (en) 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US9484022B2 (en) * 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US10650805B2 (en) * 2014-09-11 2020-05-12 Nuance Communications, Inc. Method for scoring in an automatic speech recognition system
US9672810B2 (en) * 2014-09-26 2017-06-06 Intel Corporation Optimizations to decoding of WFST models for automatic speech recognition
US9530404B2 (en) * 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories
US10540957B2 (en) 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US10403269B2 (en) 2015-03-27 2019-09-03 Google Llc Processing audio waveforms
US9697826B2 (en) * 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
US9740678B2 (en) * 2015-06-25 2017-08-22 Intel Corporation Method and system of automatic speech recognition with dynamic vocabularies
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US10339921B2 (en) 2015-09-24 2019-07-02 Google Llc Multichannel raw-waveform neural networks
US10014003B2 (en) * 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation
US10332509B2 (en) * 2015-11-25 2019-06-25 Baidu USA, LLC End-to-end speech recognition
US9966066B1 (en) * 2016-02-03 2018-05-08 Nvoq Incorporated System and methods for combining finite state transducer based speech recognizers
US10235994B2 (en) * 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
US10318813B1 (en) * 2016-03-11 2019-06-11 Gracenote, Inc. Digital video fingerprinting using motion segmentation
CN108463848B (zh) 2016-03-23 2019-12-20 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
US10249305B2 (en) 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
WO2017218492A1 (en) * 2016-06-14 2017-12-21 The Trustees Of Columbia University In The City Of New York Neural decoding of attentional selection in multi-speaker environments
US10657437B2 (en) 2016-08-18 2020-05-19 International Business Machines Corporation Training of front-end and back-end neural networks
CN107785015A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种语音识别方法及装置
US10224058B2 (en) 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
US10204620B2 (en) * 2016-09-07 2019-02-12 International Business Machines Corporation Adjusting a deep neural network acoustic model
US10204621B2 (en) * 2016-09-07 2019-02-12 International Business Machines Corporation Adjusting a deep neural network acoustic model
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
ES2608613B2 (es) * 2016-09-16 2018-04-02 Universidad De Las Palmas De Gran Canaria Metodología para el reconocimiento automatizado de reptiles mediante la transformación del modelo de Markov de la fusión paramétrica de características de su producción sonora.
US10552002B1 (en) 2016-09-27 2020-02-04 Palantir Technologies Inc. User interface based variable machine modeling
CN108305619B (zh) * 2017-03-10 2020-08-04 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
US10460727B2 (en) * 2017-03-03 2019-10-29 Microsoft Technology Licensing, Llc Multi-talker speech recognizer
US10529319B2 (en) 2017-05-22 2020-01-07 Samsung Electronics Co., Ltd. User adaptive speech recognition method and apparatus
US11106974B2 (en) * 2017-07-05 2021-08-31 International Business Machines Corporation Pre-training of neural network by parameter decomposition
CN107393526B (zh) * 2017-07-19 2024-01-02 腾讯科技(深圳)有限公司 语音静音检测方法、装置、计算机设备和存储介质
US11763834B2 (en) * 2017-07-19 2023-09-19 Nippon Telegraph And Telephone Corporation Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
WO2019033380A1 (en) * 2017-08-18 2019-02-21 Intel Corporation SLURRY OF NEURAL NETWORKS IN MACHINE LEARNING ENVIRONMENTS
EP3698360B1 (en) * 2017-10-19 2024-01-24 Bose Corporation Noise reduction using machine learning
US11556775B2 (en) 2017-10-24 2023-01-17 Baidu Usa Llc Systems and methods for trace norm regularization and faster inference for embedded models
US10839822B2 (en) 2017-11-06 2020-11-17 Microsoft Technology Licensing, Llc Multi-channel speech separation
CN110709924B (zh) * 2017-11-22 2024-01-09 谷歌有限责任公司 视听语音分离
US10762914B2 (en) 2018-03-01 2020-09-01 Google Llc Adaptive multichannel dereverberation for automatic speech recognition
US10832660B2 (en) 2018-04-10 2020-11-10 Futurewei Technologies, Inc. Method and device for processing whispered speech
WO2019199995A1 (en) 2018-04-11 2019-10-17 Dolby Laboratories Licensing Corporation Perceptually-based loss functions for audio encoding and decoding based on machine learning
US10957337B2 (en) * 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
JP6927419B2 (ja) * 2018-04-12 2021-08-25 日本電信電話株式会社 推定装置、学習装置、推定方法、学習方法及びプログラム
US10811000B2 (en) * 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers
US11416741B2 (en) 2018-06-08 2022-08-16 International Business Machines Corporation Teacher and student learning for constructing mixed-domain model
CN108962271B (zh) * 2018-06-29 2021-06-22 广州视源电子科技股份有限公司 多加权有限状态转换器合并方法、装置、设备及存储介质
JP6985221B2 (ja) * 2018-07-19 2021-12-22 株式会社日立製作所 音声認識装置及び音声認識方法
US10699700B2 (en) * 2018-07-31 2020-06-30 Tencent Technology (Shenzhen) Company Limited Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
CN110867191A (zh) * 2018-08-28 2020-03-06 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品
CN109215662B (zh) * 2018-09-18 2023-06-20 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN110288978B (zh) * 2018-10-25 2022-08-30 腾讯科技(深圳)有限公司 一种语音识别模型训练方法及装置
EP3874495B1 (en) 2018-10-29 2022-11-30 Dolby International AB Methods and apparatus for rate quality scalable coding with generative models
CN109639377B (zh) * 2018-12-13 2021-03-23 西安电子科技大学 基于深度强化学习的频谱资源管理方法
CN109616102B (zh) * 2019-01-09 2021-08-31 百度在线网络技术(北京)有限公司 声学模型的训练方法、装置及存储介质
CN109545199B (zh) * 2019-01-09 2022-06-21 四川虹微技术有限公司 一种音频处理方法、装置及可读存储介质
CN109753938B (zh) 2019-01-10 2021-11-05 京东方科技集团股份有限公司 图像识别方法和设备及应用、神经网络的训练方法
US10803875B2 (en) 2019-02-08 2020-10-13 Nec Corporation Speaker recognition system and method of using the same
EP3951777A4 (en) 2019-03-27 2022-05-18 Sony Group Corporation SIGNAL PROCESSING DEVICE, METHOD AND PROGRAM
CN110070882B (zh) * 2019-04-12 2021-05-11 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
CN111836281B (zh) * 2019-04-23 2024-02-09 三星电子株式会社 用于优化物理层参数的设备和方法
US11146287B2 (en) * 2019-04-23 2021-10-12 Samsjung Electronics Co., Ltd. Apparatus and method for optimizing physical layer parameter
CN110213165B (zh) * 2019-06-05 2021-04-13 北京灵汐科技有限公司 一种异构协同系统及其通信方法
CN110288995B (zh) * 2019-07-19 2021-07-16 出门问问(苏州)信息科技有限公司 基于语音识别的交互方法、装置、存储介质和电子设备
WO2021033222A1 (ja) * 2019-08-16 2021-02-25 日本電信電話株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
CN110634469B (zh) * 2019-09-27 2022-03-11 腾讯科技(深圳)有限公司 基于人工智能的语音信号处理方法、装置及存储介质
CN110674277A (zh) * 2019-09-29 2020-01-10 北京金山安全软件有限公司 交互数据有效性识别方法和装置
CN110767223B (zh) * 2019-09-30 2022-04-12 大象声科(深圳)科技有限公司 一种单声道鲁棒性的语音关键词实时检测方法
CN111354375A (zh) * 2020-02-25 2020-06-30 咪咕文化科技有限公司 一种哭声分类方法、装置、服务器和可读存储介质
CN111798866A (zh) * 2020-07-13 2020-10-20 商汤集团有限公司 音频处理网络的训练及立体声重构方法和装置
CN111885280B (zh) * 2020-07-17 2021-04-13 电子科技大学 一种混合卷积神经网络视频编码环路滤波方法
US11450310B2 (en) * 2020-08-10 2022-09-20 Adobe Inc. Spoken language understanding
US11756551B2 (en) 2020-10-07 2023-09-12 Mitsubishi Electric Research Laboratories, Inc. System and method for producing metadata of an audio signal
GB2602959B (en) * 2020-11-10 2023-08-09 Sony Interactive Entertainment Inc Audio processing
CN112863489B (zh) * 2021-04-26 2021-07-27 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及介质
US20230153957A1 (en) * 2021-11-15 2023-05-18 Samsung Electronics Co., Ltd. System and method for training of noise model using noisy signal pairs

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2161826C2 (ru) * 1998-08-17 2001-01-10 Пензенский научно-исследовательский электротехнический институт Способ автоматической идентификации личности
WO2007018293A1 (ja) * 2005-08-11 2007-02-15 Asahi Kasei Kabushiki Kaisha 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
WO2007080886A1 (ja) * 2006-01-11 2007-07-19 Nec Corporation 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム
US20080059177A1 (en) * 2006-05-19 2008-03-06 Jamey Poirier Enhancement of simultaneous multi-user real-time speech recognition system
US20100114572A1 (en) * 2007-03-27 2010-05-06 Masahiro Tani Speaker selecting device, speaker adaptive model creating device, speaker selecting method, speaker selecting program, and speaker adaptive model making program
US20100198598A1 (en) * 2009-02-05 2010-08-05 Nuance Communications, Inc. Speaker Recognition in a Speech Recognition System
US20100312557A1 (en) * 2009-06-08 2010-12-09 Microsoft Corporation Progressive application of knowledge sources in multistage speech recognition
US20130132082A1 (en) * 2011-02-21 2013-05-23 Paris Smaragdis Systems and Methods for Concurrent Signal Recognition

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69328275T2 (de) * 1992-06-18 2000-09-28 Seiko Epson Corp Spracherkennungssystem
CN1163009A (zh) * 1994-09-30 1997-10-22 摩托罗拉公司 用以识别出连续语音中在声音之间的边界的方法和系统
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
US20030233233A1 (en) * 2002-06-13 2003-12-18 Industrial Technology Research Institute Speech recognition involving a neural network
KR20050115857A (ko) * 2002-12-11 2005-12-08 소프트맥스 인코퍼레이티드 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置
US7620546B2 (en) * 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US7464029B2 (en) 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US20070124264A1 (en) * 2005-11-18 2007-05-31 International Business Machines Corporation Deconvolution and segmentation based on a network of dynamical units
US8515096B2 (en) * 2008-06-18 2013-08-20 Microsoft Corporation Incorporating prior knowledge into independent component analysis
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
WO2013149123A1 (en) 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
US9099096B2 (en) * 2012-05-04 2015-08-04 Sony Computer Entertainment Inc. Source separation by independent component analysis with moving constraint
US8880444B2 (en) * 2012-08-22 2014-11-04 Kodak Alaris Inc. Audio based control of equipment and systems
US9111547B2 (en) * 2012-08-22 2015-08-18 Kodak Alaris Inc. Audio signal semantic concept classification method
KR102219346B1 (ko) * 2013-05-30 2021-02-23 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 베이지안 최적화를 수행하기 위한 시스템 및 방법
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9390712B2 (en) 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2161826C2 (ru) * 1998-08-17 2001-01-10 Пензенский научно-исследовательский электротехнический институт Способ автоматической идентификации личности
WO2007018293A1 (ja) * 2005-08-11 2007-02-15 Asahi Kasei Kabushiki Kaisha 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
WO2007080886A1 (ja) * 2006-01-11 2007-07-19 Nec Corporation 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム
US20080059177A1 (en) * 2006-05-19 2008-03-06 Jamey Poirier Enhancement of simultaneous multi-user real-time speech recognition system
US20100114572A1 (en) * 2007-03-27 2010-05-06 Masahiro Tani Speaker selecting device, speaker adaptive model creating device, speaker selecting method, speaker selecting program, and speaker adaptive model making program
US20100198598A1 (en) * 2009-02-05 2010-08-05 Nuance Communications, Inc. Speaker Recognition in a Speech Recognition System
US20100312557A1 (en) * 2009-06-08 2010-12-09 Microsoft Corporation Progressive application of knowledge sources in multistage speech recognition
US20130132082A1 (en) * 2011-02-21 2013-05-23 Paris Smaragdis Systems and Methods for Concurrent Signal Recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2792288C1 (ru) * 2019-06-26 2023-03-21 Самсунг Электроникс Ко., Лтд. Электронное устройство и способ управления им
RU2754920C1 (ru) * 2020-08-17 2021-09-08 Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы" Способ синтеза речи с передачей достоверного интонирования клонируемого образца

Also Published As

Publication number Publication date
EP3123466A1 (en) 2017-02-01
RU2016137972A3 (ru) 2018-10-15
EP3123466B1 (en) 2017-11-15
RU2016137972A (ru) 2018-03-28
WO2015148237A1 (en) 2015-10-01
US20150269933A1 (en) 2015-09-24
US20160284348A1 (en) 2016-09-29
JP2017515140A (ja) 2017-06-08
US9390712B2 (en) 2016-07-12
CN106104674B (zh) 2019-10-01
US9558742B2 (en) 2017-01-31
US20170110120A1 (en) 2017-04-20
JP6486381B2 (ja) 2019-03-20
CN106104674A (zh) 2016-11-09
US9779727B2 (en) 2017-10-03

Similar Documents

Publication Publication Date Title
RU2686589C2 (ru) Распознавание смешанной речи
EP3459077B1 (en) Permutation invariant training for talker-independent multi-talker speech separation
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
Yoshioka et al. Environmentally robust ASR front-end for deep neural network acoustic models
Henderson et al. Discriminative spoken language understanding using word confusion networks
Triantafyllopoulos et al. Towards robust speech emotion recognition using deep residual networks for speech enhancement
WO2019191556A1 (en) Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition
Weng et al. Single-channel mixed speech recognition using deep neural networks
Roddy et al. Investigating speech features for continuous turn-taking prediction using lstms
JP2005208648A (ja) スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
Kim et al. Sequential labeling for tracking dynamic dialog states
US20200335119A1 (en) Speech extraction using attention network
Van Dalen et al. Improving multiple-crowd-sourced transcriptions using a speech recogniser
Wöllmer et al. Multi-stream LSTM-HMM decoding and histogram equalization for noise robust keyword spotting
Blanchard et al. Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities
CN106796803A (zh) 用于在音频通信中将语音数据与背景数据分离的方法和装置
Shao et al. Stream weight estimation for multistream audio–visual speech recognition in a multispeaker environment
Nguyen et al. Deep variational generative models for audio-visual speech separation
US20230130777A1 (en) Method and system for generating voice in an ongoing call session based on artificial intelligent techniques
US20230117603A1 (en) Quality estimation models for various signal characteristics
Wohlmayr et al. Model-based multiple pitch tracking using factorial HMMs: Model adaptation and inference
Narayanan et al. Large-scale, sequence-discriminative, joint adaptive training for masking-based robust ASR.
Arango-Sánchez et al. An enhanced conv-TasNet model for speech separation using a speaker distance-based loss function
US20240127848A1 (en) Quality estimation model for packet loss concealment
Bovbjerg et al. Self-Supervised Pretraining for Robust Personalized Voice Activity Detection in Adverse Conditions