WO2013002674A1 - Система и способ распознавания речи - Google Patents

Система и способ распознавания речи Download PDF

Info

Publication number
WO2013002674A1
WO2013002674A1 PCT/RU2012/000373 RU2012000373W WO2013002674A1 WO 2013002674 A1 WO2013002674 A1 WO 2013002674A1 RU 2012000373 W RU2012000373 W RU 2012000373W WO 2013002674 A1 WO2013002674 A1 WO 2013002674A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech signal
recognition
groups
acoustic
speech
Prior art date
Application number
PCT/RU2012/000373
Other languages
English (en)
French (fr)
Inventor
Даниил Александрович КОЧАРОВ
Александр Борисович ХОМЯКОВ
Original Assignee
Kocharov Daniil Aleksandrovich
Khomyakov Alexander Borisovich
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to RU2011126653 priority Critical
Priority to RU2011126653/08A priority patent/RU2466468C1/ru
Application filed by Kocharov Daniil Aleksandrovich, Khomyakov Alexander Borisovich filed Critical Kocharov Daniil Aleksandrovich
Publication of WO2013002674A1 publication Critical patent/WO2013002674A1/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

Изобретение относится к распознаванию речи и обеспечивает дикторонезависимое распознавание слитной речи в режиме реального времени в сочетании с компактной системой его реализации и высокой точностью, вне зависимости от специфических особенностей разных языковых систем. Система и способ распознавания речи осуществляют прием речевого сигнала, обработку речевого сигнала аналого-цифровым преобразователем с предустановленной частотой дискретизации и разделением на сегменты, спектральный анализ сегментов речевого сигнала и нормализацию спектра на высоких частотах. Выделение в нормализованном спектре пауз, шумов и звуковых сигналов с последующим определением в каждом сегменте наличия/отсутствия акустических признаков речевого сигнала, комбинаторные наборы которых сравнивают с параметрами групп фонем. По результатам сравнения осуществляют формирование последовательности символов, обозначающих группы фонем соответствующих комбинаторным наборам акустических признаков каждого сегмента. Преобразование последовательности символов в связный текст осуществляют последовательным декодированием комбинаторного сочетания символов групп фонем последовательности на основе словаря размеченного по символам групп фонем.

Description

СИСТЕМА И СПОСОБ РАСПОЗНАВАНИЯ РЕЧИ
Описание изобретения Изобретение относится к технологиям распознавания речи, т.е. системам и способам перевода звукового сигнала, содержащего речь, в текст, состоящий из слов, входящих в лексический и произносительный словари системы распознавания речи.
Область применения изобретения: голосовое управление электронными приборами, автоматическая стенография, специальные программы для слабовидящих, голосовое управление движущимися средствами на расстоянии слышимости голоса.
Заявленное изобретение позволяет распознавать слитную непрерывную речь вне зависимости от индивидуальных особенностей говорящего на основе определения групп фонем по характеризующим их признакам и методе последовательного декодирования последовательностей символов, обозначающих группы фонем, в цепочку слов, составляющих высказывание (текст).
Известно техническое решение характеризующее способ дикторонезависимого распознавания звуков речи, включающий в себя предварительную сегментацию речевого сигнала для определения временной длительности звуковых сегментов, определение периодичности каждого сегмента акустических составляющих речевого сигнала для соотнесения звукового сегмента по способу его образования к к голосовому, шумному или шумно-голосовому виду звуков речи, определение амплитуды и частоты каждой из первых трёх формант в спектре звукового сегмента в качестве информативных признаков звуков речи, интеграция упомянутых информативных признаков для каждого звукового сегмента, фонемное распознавание каждого звукового сегмента путём сопоставления интегральных значений его информативных признаков с имеющимся банком данных отдельно для каждого вида звуков речи, принятие решения относительно распознаваемого звука речи и представление его в виде буквенного или транскрипционного обозначения. Основную сегментацию речевого сигнала выполняют по трём основным режимам в зависимости от ранее найденного вида звукового сегмента, при упомянутом фонемном распознавании сопоставляют интегральные значения информативных признаков каждого звукового сегмента как для каждого упомянутого вида звуков речи, так и для каждого типа в зависимости от числа формант в звуковом сегменте, затем устанавливают временные границы звуков речи в зависимости от изменения фонемной принадлежности звукового сегмента, после чего и принимают упомянутое решение относительно распознаваемого звука речи (патент на изобретение РФ 2234746, G10L19/02, 30.10.2002). К числу недостатков данного решения следует отнести низкую различительную способность и скорость распознавания речи по формантам, поступательный характер распознавания, обуславливающих последовательное распознавание каждой форманты, а также необходимость обращаться в процессе распознавания к словарям и эталонным образцам.
Известно также техническое решение способа распознавания слов в слитной речи, состоящий в том, что с произнесением речевого высказывания периодически берут выборки акустического сигнала этого высказывания, оцифрованного с заданной частотой квантования, через фиксированные интервалы времени и по совокупности этих выборок вычисляют функционал, определяющий текущее акустическое состояние, при этом полученную последовательность текущих акустических состояний используют для восстановления последовательности слов (рабочей гипотезы), произнесенных в исходном речевом высказывании, для чего применяют сеть лексического декодирования, которая задает закономерности следования эталонных акустических состояний в языке. При этом, проводится поиск рабочей гипотезы, являющийся оптимальным в смысле максимума степени ее совпадения с исходным речевым сигналом, что обеспечивается использованием алгоритма перемещаемого маркера, а восстанавливают рабочую гипотезу из маркера, который в этот момент времени находится в конечной вершине сети лексического декодирования (патент на изобретение РФ 2297676, G10L 15/02, 30.03.2005) Несмотря на то, что в данном способе различительная способность выше, чем в предыдущем способе, однако, аналогично с предыдущим известным способом распознавания речи к числу недостатков данного, метода следует также отнести длительность процесса распознавания, обусловленного необходимостью обращения к эталонным образцам, а также поочередным распознавания каждой форманты в слове.
Известны также способ и система распознавания речи построенные с использованием методов фонемного анализа (патент США N_>5315689, МПК G 10 L 5/06, 1995), в котором применяется двухуровневая обработка речевого сигнала. Блок первого уровня осуществляет распознавание слова (команды) как звукового (слухового) образа в целом. Альтернативный блок второго уровня производит фонемное распознавание звукового сигнала. Недостатком этого способа является снижение степени вероятности правильного распознавания слов (фраз) при увеличении объема речевого фрагмента и распознавании слитной речи.
Известны также решения системы и способа распознавания речи (заявка на изобретение США US2010332231A1, G10L15/04, 01.06.2010) заключающиеся в том, что из слитной речи на первом этапе определяют последовательность фонем, подлежащих распознаванию, которые затем сравнивают с хранящимся в памяти устройства списком слов, соответствующих отобранным фонемам, при этом, далее осуществляют вероятностную оценку, по установленным ранее критериям на основании которой, выбирают из ранее сформированного слова наиболее вероятные, а незнакомое слово вносят в словарь и определяют критерии для последующей вероятностной оценки. К числу недостатков данного способа можно отнести его чрезмерную сложность и высокие требования к ресурсам памяти устройства, осуществляющего распознавание речи в соответствии с данным способом, кроме того, решение не позволяет осуществлять распознавание слитной речи, так как распознавание идет слишком медленно и с достаточной степенью точностью возможно лишь определение отдельных речевых команд, а не слитной речи.
Известно также решение, системы распознавания речи(патент на изобретение США US4624011A, G10L5/00 28.01.1983), в которой распознавание речи осуществляется сначала по определению частотных спектров речи, а затем определении последовательности фонем и их акустических характеристик, выделяемых вспомогательным модулем, которые затем сравниваются с хранящимися в памяти эталонными характеристиками для вышеуказанных последовательностей и при вычисляется степень сходства, при этом при превышении предустановленного порога делается вывод о соответствии фонемы эталону, а при не достижении порогового значения либо вносят новое слов в словарь. Недостатки данного способа распознавания речи и системы для его осуществления аналогичны предыдущему решению.
Известен способ и система распознавания речи в которых (патент на изобретение США US4696042, G10L5/00, 03.11.1983,) распознавание речи осуществляется по лингвистическим фонемам предварительно распределенным по группам, соответствующим характеристическим особенностям произнесения звуков. Причем звук определяют в том числе по характерному созвучию со следующим звуком, что позволяет повысить различительную способность и качество распознавания, однако требует достаточно большого времени на последовательную обработку как отдельного звука, так и дифтонга.
Наиболее близким аналогом по совокупности существенных признаков, признанным в качестве прототипа, является решение системы и способа распознавания речи известное из патента США US4852170 (G10L5/04, 18.12.1986) характеризующееся способом цифрового распознавания речи в режиме реального времени системой, включающий анализатор спектра, определяющий частную характеристику каждого сегмента речи заданной длительности, при этом каждый сегмент речи анализируется логически на наличие фонем и их принадлежность определенному классу, частью которого они являются и затем частотный спектр сегмента анализируется на наличие особенностей позволяющих распознать специфические фонемы в пределах типа. Последовательность фонем может быть сохранена в виде компактных групп и преобразована затем для синхронизации с голосом и логически переведена с одного языка на другой. К числу недостатков данного способа и системы распознавания речи следует отнести пофонемное распознание звуков в рамках выделенного речевого сегмента, что требует значительных временных затрат и существенного увеличения аппаратного ресурса и ресурса памяти для обеспечения требуемого быстродействия системы, невозможность реализации системы на базе компактных устройств. Необходимость ориентироваться на образцы произнесения речи разными возрастными категориями, с учетом особенности их спектральных характеристик, выделяемых по различным признакам, как и в предыдущих случаях, либо приводит к потере качества, либо к существенному увеличению длительности распознавания.
Технической задачей заявленного изобретения является предложение способа, обеспечивающего дикторонезависимое распознавания слитной речи в режиме реального времени в сочетании с компактной системой его реализации.
Технический результат, достигаемый заявленным изобретением заключается в сокращении длительности распознавания речи в сочетании с высокой точностью, обеспечиваемых вне зависимости от специфических особенностей разных языковых систем.
Заявленный технический результат достигается тем, что используют способ распознавания речи, включающий последовательно исполняемые этапы приема речевого сигнала на входе блока приема; обработки речевого сигнала блоком обработки информации, включающей его обработку аналого-цифровым преобразователем с предустановленной частотой дискретизации и разделением на сегменты, спектрального анализа сегментов речевого сигнала и нормализации спектра на высоких частотах; выделения в нормализованном спектре пауз, шумов и звуковых сигналов с последующим его распознаванием и преобразованием в текст с использованием предустановленного словаря. При этом отличается от прототипа тем, что на этапе распознавания на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте определяют наличие/отсутствие акустических признаков речевого сигнала, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановленны в блоке памяти, и осуществляют сравнение определенных комбинаторных наборов акустических признаков сегмента с предустановленными параметрами групп фонем, с одновременным формированием последовательности символов, обозначающих группы фонем соответствующие комбинаторным наборам акустических признаков каждого сегмента, преобразование которой в связный текст осуществляют последовательным декодированием комбинаторного сочетания символов групп фонем последовательности на основе словаря размеченного по символам групп фонем.
В предпочтительном варианте изобретения определение комбинаторного набора акустических признаков сегмента речевого сигнала осуществляют параллельно и одномоментно.
В одном из вариантов изобретения на этапе разделения речевого сигнала на сегменты обрабатывают речевой сигнал короткими окнами одинаковой длины со смещением в два раза меньшей длины, с обеспечением возможности регистрации кратковременных характерных явлений внутри звуков речи и плавных переходов от одного звука в потоке речи к другому.
При классификации групп фонем используют комбинаторный набор акустических признаков, включающий определение наличия или отсутствия в речевом сигнале, по меньшей мере, основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного, комбинаторное сочетание которых формирует 11 групп фонем с неповторяемым набором акустических признаков: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда. А преобразование последовательности символов, обозначающих группы фонем в текст осуществляют на основе последовательного метода декодирования заключающегося в последовательном сокращении вариантов в выборке слов и словоформ из словаря, размеченного по символам групп фонем, формируемой по комбинаторной последовательности символов групп фонем от первого символа в сегменте до фрагмента последовательности, включающего комбинацию символов групп фонем определяющую единственное слово из словаря, после которого осуществляют распознавание следующей входной последовательности, начиная с первого символа группы фонем после входящего в определенное ранее слово.
При этом, в одном из вариантов реализации заявленного изобретения, осуществляют формирование словаря на основе слов, написанных в транскрипции с вариантами произнесения, состоящих из размеченных по символам групп фонем.
Словарь может быть выполнен предустановленным в блок памяти, с обеспечением возможности его инициализации на этапе распознавания, так и дополнительного подгружаемым в блок памяти как файл со списком слов с соответствующими им транскрипциями, размеченными по символам групп фонем. На этапе декодирования последовательности символов, обозначающих группы фонем в текст могут использовать один или группу предустановленных тематических словарей, размеченных по символам групп фонем, разных языковых систем. Тематический словарь или группа словарей, размеченных по символам групп фонем может быть выбран из списка предустановленных тематических словарей на начальном этапе способа распознавания речи.
Заявленный технический результат достигается также тем, что для осуществления способа используют систему распознавания речи, включающую блок приема речевого сигнала, последовательно соединенный с аналого- цифровым преобразователем, выход которого соединен с блоком анализа и нормализации частотного спектра речевого сигнала, соединенного с блоком управления и блоком памяти, выполненной с обеспечением возможности записи и хранения распознанного речевого сигнала, хранения и вызова словаря. При этом, система распознавания речи, согласно изобретению, отличается от прототипа тем, что дополнительно содержит последовательно соединенные блок определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем, выполненный с обеспечением возможности формирования по текущим комбинаторным сочетаниям акустических признаков присутствующих в речевом сигнале соответствующей им последовательности символов, обозначающих группы фонем, блок декодирования последовательности символов, обозначающих группы фонем в текст, по меньшей мере, один из входов которого соединен с блоком ввода предустановленного словаря, размеченного по символам групп фонем и вызываемого из блока памяти, выполненный с обеспечением возможности определения слов на основе словаря по комбинаторному сочетанию символов групп фонем текущей последовательности, а также устройство вывода и хранения текста, по меньшей мере, один вход/выход которых соединен с блоком управления, выполненным с обеспечением возможности управления режимами функционирования блоков, обмена данными между ними и взаимодействия с блоком памяти. При этом, вход блока определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем соединен с выходом аналого-цифрового преобразователя, с обеспечением возможности ввода речевого сигнала, и выходом блока анализа и ^нормализации частного спектра речевого сигнала, с обеспечением возможности ввода нормализованного речевого сигнала, и блоком акустических признаков групп фонем, с обеспечением возможности сравнения текущего комбинаторного набора акустических признаков речевого сигнала с параметрами набора акустических признаков предустановленных групп фонем и соединенный с блоком памяти. Устройство вывода и хранения текста дополнительно снабжено дисплеем для вывода и отображения распознанного текста на экран.
При этом в одном из вариантов выполнения изобретения блок акустических признаков групп фонем содержит комбинаторный набор акустических признаков 11 групп фонем: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда включающий для каждой их групп фонем по меньшей мере характеристику наличия/отсутствия в окне основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного.
Заявленное изобретение поясняется чертежами, представленными на фиг1- 3, где фиг 1 - структурная схема системы распознавания речи, фиг.2 - функциональная схема распознавания речи, включая этапы определения акустических признаков, формирования последовательности символов, обозначающих группы фонем и ее декодирования в текст, фиг. 3 - пример формирования последовательности символов, определяющих группы фонем: 3 a) - осциллограмма с разметкой речевого сигнала на аллофоны; 36) - спектрограмма с разметкой на аллофоны; Зв) - иллюстрация определения на основе осциллограммы нормализованного речевого сигнала акустических признаков и формирования последовательности символов, определяющих группы фонем. Данный пример описывает частную реализацию системы и способа в соответствии с изобретением и не является исчерпывающим описанием их возможных реализаций.
В представленном примере реализации, система распознавания речи согласно изобретения реализована на цифровом устройстве, представляющем архитектуру компьютера под управлением центрального микропроцессора с оперативной (ОЗУ) и постоянной (ПЗУ) запоминающими устройствами. Как следует из схемы, представленной на фиг.1 система распознавания речи содержит блок 1 приема речевого сигнала (приемник звука), в качестве которого может быть использован микрофон, как встроенный, так и внешний, любого известного из уровня техники типа и модели, последовательно соединенный с аналого-цифровым преобразователем 2 с частотой дискретизации не менее 22 кГц, осуществляющим преобразование речевого сигнала в цифровую форму. Блок 4 управления, выполненный на основе многоканального центрального микропроцессора, соединен по стандартным интерфейсным, мультиплексным каналам связи с последовательно соединенными друг с другом блоком 3 анализа и нормализации частотного спектра речевого сигнала, блоком 5 определения акустически признаков и формирования последовательности символов, обозначающих группы фонем, блоком 6 декодирования последовательности символов, обозначающих группы фонем в текст и устройством 7 вывода и хранения текста, а также с блоком 1 1 памяти. Блок 5 определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем дополнительно соединен с выходом аналого-цифрового преобразователя 2, с обеспечением возможности передачи на вход бока 5 речевого сигнала, а также с блоком 9 акустических признаков групп фонем, с обеспечением возможности сравнения текущих комбинаций акустических признаков речевого сигнала с предустановленными комбинаторными наборами акустических признаков групп фонем. При этом, блок 6 детектирования последовательности символов, обозначающих группы фонем, в текст соединен по каналам интерфейсной связи с выходом словарного модуля 10, вход которого соединен с блоком 1 1 памяти обеспечением возможности вызова из блока памяти любого предустановленного тематического словаря или группы словарей, размеченных по символам групп фонем и осуществления отбора слов соответствующих комбинациям символов групп фонем в текущей последовательности. Блок 11 памяти через блок 4 управления соединен с устройством 7 вывода и хранения текста, один выход которого соединен с устройством вывода распознанного текста, выполненного, например, в виде устройства 8 отображения - дисплея. В качестве устройства 7 вывода текста может быть использовано устройство печати и или внешнее устройство хранения. В качестве устройства 8 отображения может быть использовано любое известное из уровня техники устройство, используемое в составе компьютерных или телекоммуникационных устройств. Блоки системы и функциональные связи между ними выполнены программно-аппаратным образом, с обеспечением возможности настройки конфигурации и ее адаптации к используемым компьютерным и мультимедийным средствам.
При этом система и способ распознавания речи согласно изобретению, работают следующим образом.
Речевой сигнал в виде звукового потока данных поступает на вход блока приема речевого сигнала системы распознавания речи и передается далее на вход аналого-цифрового преобразователя, где осуществляют преобразование сигнала в цифровой вид. Полученный цифровой речевой сигнал передают на вход блока анализа и нормализации речевого сигнала, где осуществляют его сегментацию при обработке короткими окнами одинаковой длины и со смещением в два раза меньше длины, что позволяет выявлять как плавные переходы от одного звука в потоке речи к другому, так и кратковременные характерные явления внутри звуков речи, например, взрывы смычных согласных. Окна обработки выбирают по длине таким образом, чтобы получить наиболее оптимальные и сглаженные признаки групп фонем по времени их звучания в потоке речи. Эмпирически установлено, что длина окон в 25 мс дает оптимальный результат. Акустические признаки речевого сигнала, характерные для групп фонем, используемых в качестве базовых элементов для распознавания, определяют в рамках каждого окна (сегмента речевого сигнала) параллельно и одномоментно. При этом, часть акустических признаков определяют напрямую из осциллограммы речевого сигнала, полученной от аналого-цифрового преобразователя, а часть - из спектра речевого сигнала, получаемого при обработке речевого сигнала в блоке анализа и нормализации при помощи быстрого преобразования Фурье. Полученный спектр нормализуется на высоких частотах в соответствии с нелинейным восприятием разных частот человеческой слуховой системой, что позволяет компенсировать более низкую интенсивность высоких частот по сравнению с низкими частотами в речевом сигнале.
Как указано выше, для определения акустических признаков речевого сигнала в каждом окне используют как исходный речевой сигнал, так и нормализованный спектр. На основе комбинаций значений акустических признаков определяется группа фонем, к которой относится речевой сигнал в рамках текущего окна обработки.
При этом, процедура выделения акустических признаков, применяемых для определения групп фонем, из сигнала согласно изобретению осуществляется в рамках каждого окна (сегмента речевого сигнала) параллельно и одновременно, программно-аппаратным образом. Так как при классификации групп фонем используют следующий набор акустических признаков, позволяющих однозначно определить каждую из рассматриваемых в рамках изобретения 11 групп фонем: наличие/отсутствие основного тона, наличие/отсутствие широкополосных шумов, наличие/отсутствие перепада интенсивности речевого сигнала, наличие/отсутствие высокочастотных шумов, наличие/отсутствие сонорности, акустический признак присутствия/отсутствия гласного, акустический признак ряда гласного, то и анализ речевого сигнала в каждом окне осуществляют на наличие/отсутствие акустических признаков, присущих группам фонем в речевом сигнале или нормализованном спектре.
Одной из важнейших акустических характеристик является наличие основного тона в речевом сигнале. Отсутствие основного тона в сигнале свидетельствует о том, что в данный момент времени либо произносится глухой согласный, либо присутствует перерыв в речи (пауза). Присутствие основного тона определяют по высокой интенсивности частотных составляющих в низкочастотной области в диапазоне возможных значений частоты основного тона. Интенсивность частотных составляющих в текущем окне определяют относительного их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длинной около 5 секунд. Если в речевом сигнале в рамках предыдущего окна обработки был определено отсутствие основного тона и широкополосных шумов, а в речевом сигнале в текущем окне был определен один из других признаков, то данное окно дополнительно проверяется на наличие в нем широкополосных шумов, что является признаком, характеризующим группу смычные глухие шумные согласные или смычные звонкие шумные согласные.
Кратковременные перепады интенсивности речевого сигнала, свидетельствующие о присутствии в сигнале коротких смычек, характерных для дрожащих сонантов, определяют по соотношению интенсивности речевого сигнала в трех последовательно идущих окнах обработки. Интенсивность речевого сигнала в среднем окне существенно ниже интенсивности речевого сигнала в правом и левом окнах в то время, как интенсивность речевого сигнала в правом и левом окнах практически одинакова.
Наличие широкополосных шумов в речевом сигнале, связанных с произношением щелевых согласных или присутствием взрыва, происходящего во время размыкания смычки при произнесении смычных согласных, определяют по наличию интенсивных частотных составляющих в диапазоне выше возможных значений частоты основного тона и ее первой гармоники. Интенсивность частотных составляющих в текущем окне определяют относительного их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длинной около 5 секунд.
Наличие высокочастотных шумов в речевом сигнале, связанных с произношением щелевых сибилянтов определяют в диапазоне выше возможных значений частоты основного тона и ее первой гармоники, по отношению интенсивности частотных составляющих в области средних частот и интенсивности частотных составляющих в области высоких частот. Интенсивность высокочастотных шумов существенно превосходит интенсивность средних частот в случае произнесения щелевых сибилянтов.
Сонорность речевого сигнала, характерную для произнесения сонантов и гласных, в противоположность шумным согласным, определяют по высокой интенсивности частотных составляющих в диапазоне средних частот выше низкочастотной области в диапазоне возможных значений частоты основного тона, но вмещающих в себя диапазон возможных значений частот формант сонантов. Интенсивность частотных составляющих в текущем окне считается относительного их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длинной около 5 секунд.
Еще одним акустическим признаком, используемом при распознавании речи и для характеристики групп фонем, является отсутствие или наличие гармонических составляющих в спектре в частотной области выше Диапазона возможных значений частот формант сонантов. Отсутствие гармонических составляющих в области средних и верхних частот характерно для сонантов, а присутствие для гласных. Наличие или отсутствие гармонических составляющих определяется по отношению интенсивности частотных составляющих ниже и выше частотного порога.
Другой важной акустической характеристикой звуков речи является качество возможно произнесенного гласного, а именно ряд его произнесения, т.е. положения основной массы языка в полости рта в горизонтальном положении. Ряд произнесения гласного определяют по соотношению интенсивности гармонических составляющих в спектре речевого сигнала в области низких частот, области средних частот и области верхних частот. Отсутствие гармонических составляющих в спектре речевого сигнала в области средних частот и области верхних частот свидетельствует о произнесении гласного заднего ряда. Присутствие гармонических составляющих в спектре речевого сигнала в области средних частот свидетельствует о произнесении гласного среднего ряда. Одновременное присутствие гармонических составляющих в спектре речевого сигнала в области низких частот и области верхних частот и их отсутствие в области средних частот свидетельствует о произнесении гласного заднего ряда. Наличие или отсутствие гармонических составляющих определяют по отношению интенсивности частотных составляющих в области низких частот, области средних частот и области верхних частот.
В системе и способе согласно изобретению, используют следующие группы фонем:: смычные глухие шумные согласные (I), смычные звонкие шумные согласные (II), глухие шумные щелевые согласные (III), звонкие шумные щелевые согласные (IV), глухие сибилянты (V), звонкие сибилянты
(VI), носовые и щелевые сонанты (VII), дрожащие сонанты (VIII), гласные переднего ряда (IX), гласные смешанного ряда (X) и гласные заднего ряда (XI). В скобках указан символ группы фонем, в соответствии с Таблицей 1, однако в качестве символа групп фонем может быть использован любой машиночитаемый цифробуквенный или графический символ, который позволяет идентифицировать группу и осуществлять обработку речевого сигнала программно-аппаратным образом по признакам идентифицированных таким образом групп фонем.
Смычные глухие шумные согласные (I) определяются следующими акустическими признаками: отсутствием основного тона и широполосных шумов, и характеризуются смычкой, то есть фактическим отсутствием речевого сигнала, и последующими кратковременными широкополосными шумами. Смычные глухие шумные согласные отличаются от пауз между словами длиной смычки, которая значительно короче паузы между словами, и наличием последующего взрыва, характеризующегося кратковременными широкополосными шумами.
Смычные звонкие шумные согласные (II) однозначно определяются следующими акустическими признаками: наличием основного тона и отсутствием широполосных шумов на месте смычки, а также последующими кратковременными широкополосными шумами на месте взрыва.
Глухие шумные щелевые согласные (III) определяются следующими акустическими признаками: отсутствием основного тона, наличием широполосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.
Звонкие шумные щелевые согласные (IV) определяются следующими акустическими признаками: наличием основного тона, наличием широполосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.
Глухие сибилянты (V) определяются следующими акустическими признаками: отсутствием основного тона, наличием широполосных шумов, наличием высокочастотных шумов, отсутствием сонорности.
Звонкие сибилянты (VI) определяются следующими акустическими признаками: наличием основного тона, наличием широполосных шумов, наличием высокочастотных шумов, отсутствием сонорности.
Носовые и щелевые сонанты (VII) определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой отсутствия гласного.
Дрожащие сонанты (VIII) определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, наличием перепада интенсивности речевого сигнала.
Гласные заднего ряда (IX) определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой присутствия гласного, акустической характеристикой заднего ряда гласного.
Гласные смешанного ряда (X) определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой присутствия гласного, акустической характеристикой смешанного ряда гласного.
Гласные переднего ряда (XI) определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой присутствия гласного, акустической характеристикой переднего ряда гласного.
Аффрикаты рассматриваются как последовательное произнесение соответствующих смычного и щелевого согласного, т.е. /с/ - это комбинация 1\1 и /s/, a /ch/ - это комбинация Itl и /schV, что отражается в транскрипции словаря блока 4.
Все признаки по группам фонем приведены в таблице 1
Таблица 1.
Figure imgf000018_0001
Соответствие используемых групп фонем и фонем русского и английского языка приведены в Таблице 2.
Таблица 2.
Символ группы Условное обозначение группы Фонемы, объединенные в фонем фонем группу.
I смычные глухие шумные согласные /р/, /р7, /к/, /к'/, Л/, Л7
II смычные звонкие шумные /Ь/, /Ь7, /g/, /gV, /о7, Ιά согласные
III глухие шумные щелевые согласные ΙΐΙ, ΙΠ, I l, /hV
IV звонкие шумные щелевые согласные /v/, /v7 V глухие сибилянты Ы, /s7, , /schV
VI звонкие сибилянты Ы, ΙζΊ,
VII носовые и щелевые сонанты /п/, /п7, /т/, /т7, /1/, /17
VIII дрожащие сонанты /г/, /г7
IX гласные переднего ряда /•/, /y/, /jV
X гласные смешанного ряда /е/, /а/
XI гласные заднего ряда /и/, /о/
Соответствие используемых групп фонем и фонем русского и английского
Figure imgf000019_0001
Транскрипционные значки в Таблице 3 приведены с использованием алфавита ARPAbet, стандартно применяемого во многих современных системах распознавания речи для английского языка.
Как видно из данных представленных Таблиц 2 и 3 признаки групп фонем с одинаковой степенью достоверности позволяют идентифицировать звуки речи как для русского языка, так и для английского, что подтверждает универсальность заявленного способа распознавания речи вне зависимости от языковой системы. Распознавание речи осуществляют на основе метода последовательного декодирования последовательностей символов, обозначающих группы фонем, в цепочку слов, составляющих высказывание (текст). Для определения слова по последовательности символов, обозначающих группы фонем, используется произносительный словарь, состоящий из списка слов Ή соответствующих им транскрипций размеченный в символах групп фонем. Вначале этапа словарь загружают в оперативную память устройства и каждое слово кодируют в символах групп фонем по таблице соответствия. Разбор входной комбинации символов осуществляют на основании последовательного метода, который определяет варианты подходящих слов из словаря по последовательности символов фонем, пока варианты не приведут к единственному слову из словаря наибольшей длины (с наибольшим числом в составе из входной последовательности символов групп фонем). После этого начинается разбор следующей входной последовательности, начиная с первого символа группы фонем после входящего в определенное ранее слово.
Когда обработка входной последовательности символов групп доходит до самой краткой формы слова, имеющейся в словаре, проводится дальнейший выбор из вариантов этого слова с окончаниями и составными словами последовательности этой формы слова. Если следующий символ в последовательности не дает ни одного из вариантов продолжения этого слова, то это конечная форма слова, и происходит переход на определение нового слова. Если есть варианты окончания для этого слова по следующему символу, то выбирается этот вариант до конца. В случае, если выбранная наиболее длинная форма слова из словаря, соответствующее входной последовательности символов, приводит к неразборчивости последующей цепочки (не соответствию ни одному слову из словаря), проверяются варианты с другими формами (более короткими и не составными) этого слова. И если выбор более короткой формы приводит к разборчивости последующей последовательности, выбирается более короткий вариант слова.
Если входная последовательность символов не соответствует ни одному слову из словаря или его левой части (приводит к нулевому выбору слов из словаря), то она отсекается по одному символу из последовательности символов фонем, пока последующий разбор слов (справа от отсеченного) не окажется удачным.
Реализация способа согласно изобретению проиллюстрирована на нижеприведенном примере, дающем представление о работе способа и системы но не являющемся исчерпывающим.
Пример распознавания на примере распознавания слова «ПРИВЕТ»
Слово «привет» и его транскрипции:
- орфографическая запись: привет
- фонемная транскрипция: /р г' i v' е t/
- символьная транскрипция на основе признаков групп фонем: / 1 VIII IX IV X
I / в соответствии с Таблицей 2
На фиг.Зв) обозначены следующие уровни сегментации:
L1 - разметка речевого сигнала на аллфоны.
L2 - определенные группы фонем.
L3 - уровень наличия перепада интенсивности речевого сигнала.
Обозначения: R - наличие перепада интенсивности речевого сигнала, not - отсутствие перепада интенсивности речевого сигнала.
L4 - уровень акустического признака гласного. Обозначения: i - гласный переднего ряда, а - гласный смешанного ряда, и - гласный заднего ряда.
L5 - уровень наличия сонорности. Обозначения: sonant - наличие сонорности, not - отсутствие сонорности.
L6 - уровень наличия высокочастотных шумов. Обозначения: sibilant - наличие высокочастотных шумов, not - отсутствие высокочастотных шумов.
L7 - уровень наличия основного тона. Обозначения: voiced - наличие основного тона, unvoiced - отсутствие основного тона.
L8 - уровень наличия широполосных шумов. Обозначения: not - наличие широполосных шумов, closure - отсутствие широполосных шумов.
L9 - уровень наличия гласного. Обозначения: vowel - наличие гласного, not - отсутствие гласного.
Разбор последовательности символов в текст.
Входной речевой (акустический) сигнал обрабатывают в блоке анализа и нормализации спектра. Длина речевого сигнала слова "привет" составляет около 700мс. Речевой сигнал представляют в виде последовательности из 28 окон длиной в 25мс. В каждом окне при помощи процедуры быстрого преобразования Фурье вычисляют спектр на частоте 0-7000Гц. Полученный спектр нормализуют. Последовательность окон нормализованного сигнала поступает в блок определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем, который определяет, что слово "привет" (в транскрипции pr'iv'et) соответствует последовательности I VIII IX IV X I. Определение производилось на экспериментальном частотном словаре в 2400 словоформ. Минимальное слово, которое соответствует комбинации от первого символа - 1 VIII IX выявляет предлог pr'i. В выборку этого слова входит 49 словоформ (слов, начинающихся с последовательности I VIII IX). Дальнейший выбор происходит только из данной выборки слов, помещенных в хэш программы. Следующий символ группы сужает выборку до 12 слов, соответствующих словоформам - привет, прививка, включая привитый, прививать и др. , приветствую, включая приветствует, приветствуют, приветствуем, приветливый и др. Выбор продолжают, так как все слова имеют большую длину по числу фонем относительно не разобранной последовательности. Четвертый символ в последовательности не сужает выбор, а пятый (X) сужает его на все словоформы слова "прививка" . Шестой символ (I) не сужает выбор из оставшихся словоформ слова "привет" в символах групп, но это последний символ, и такой последовательности символов групп соответствует только одно слово - "привет". Как видно из представленного примера, система и способ распознавания речи не требует обращения к каким-либо образцам произнесения слов, и не связан с характерными особенностями произношения, так как процесс распознавания основан на объективных акустических характеристиках речевого сигнала, являющихся дикторонезависимыми, и их сопоставлении с признаками групп фонем, и использовании произносительного словаря размеченного в терминах групп фонем с обеспечением возможности осуществления последовательно выборки слов из словаря по набору символов групп фонем с сужением выборки до единственного слова при последовательном добавлении символа справа от минимальной последовательности символов, определяющих обособленное слово из словаря и следующих за ним возможных словоформ, исключая последовательное пофонемное распознавание звуков, требующее учета особенностей речи диктора, с последующим распознаванием слов,
Таким образом, система и способ распознавания слитной речи в звуковом потоке согласно изобретению позволяет существенно сократить длительность распознавания речи в сочетании с высокой точностью за счет распознавания речи по цепочки символов групп фонем, исключая пофонемное распознавание, требующее больших временных затрат и значительных аппаратных ресурсов. Одновременное определение несколько основополагающих признаков звучащей речи, включающих в себя наличие или отсутствие основного тона, наличие или отсутствие широкополосных шумов, наличие или отсутствие перепада интенсивности речевого сигнала, наличие или отсутствие высокочастотных шумов, наличие или отсутствие сонорности, акустический признак присутствия или отсутствия гласного, акустический признак ряда гласного позволяют классифицировать речевой сигнал в соответствии с признаками являющимися независимыми от акустических характеристик разных дикторов, а также языка на котором, произносится речь.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ
1. Способ распознавания речи, включающий последовательно исполняемые этапы приема речевого сигнала на входе блока приема; обработки речевого сигнала блоком обработки информации, включающей его обработку аналого- цифровым преобразователем с предустановленной частотой дискретизации и разделением на сегменты, спектрального анализа сегментов речевого сигнала и нормализации спектра на высоких частотах; выделения в нормализованном спектре пауз, шумов и звуковых сигналов с последующим его распознаванием и преобразованием в текст с использованием предустановленного словаря, отличающийся тем, что на этапе распознавания, на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте определяют наличие/отсутствие акустических признаков речевого сигнала, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановленны в блоке памяти, и осуществляют сравнение определенных комбинаторных наборов акустических признаков сегмента с предустановленными параметрами групп фонем, с одновременным формированием последовательности символов, обозначающих группы фонем соответствующие комбинаторным наборам акустических признаков каждого сегмента, преобразование которой в связный текст осуществляют последовательным декодированием комбинаторного сочетания символов групп фонем последовательности на основе словаря размеченного по символам групп фонем.
2. Способ распознавания по п.1. отличающийся тем, что при кассификации групп фонем используют комбинаторный набор акустических признаков, включающий определение наличия или отсутствия в речевом сигнале, по меньшей мере, основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного, комбинаторное сочетание которых формирует 11 групп фонем с неповторяемым набором акустических признаков: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда.
3. Способ распознавания по п.1. отличающийся тем, что часть акустических признаков вычисляют из осциллограммы, а остальные из спектра речевого сигнала, получаемого при помощи быстрого преобразования Фурье;
4. Способ распознавания по п.1 отличающийся тем, что определение комбинаторного набора акустических признаков сегмента речевого сигнала осуществляют параллельно и одномоментно.
5. Способ распознавания по п.1. отличающийся тем, что на этапе распознавания речи по последовательности символов, обозначающих группы фонем, используют предустановленный словарь, размеченный по символам групп фонем
6. Способ распознавания по п.1 или 5 отличающийся тем, что преобразование последовательности символов, обозначающих группы фонем в текст осуществляют на основе последовательного метода декодирования заключающегося в последовательном сокращении выборки слов и словоформ из словаря, размеченного по символам групп фонем, формируемой по комбинаторной последовательности символов групп фонем от первого символа в сегменте до фрагмента последовательности, включающего комбинацию символов групп фонем определяющую единственное слово из словаря, после которого осуществляют распознавание следующей входной последовательности.
7. Способ распознавания по п.2 отличающийся тем, что присутствие основного тона определяют по высокой интенсивности частотных составляющих в низкочастотной области в диапазоне возможных значений частоты основного тона, а интенсивность частотных составляющих в текущем окне определяют относительного их максимальной интенсивности в речевом сигнале на протяжении длинного отрезка речевого сигнала
8. Способ распознавания по п.7 отличающийся тем, что интенсивность частотных составляющих в текущем окне определяют на протяжении отрезка речевого сигнала не менее 4 секунд
9. Способ распознавания по п.2 отличающийся тем, что кратковременные перепады интенсивности определяют по соотношению интенсивности речевого сигнала в трех последовательно идущих окнах обработки.
10. Способ распознавания по п.2. отличающийся тем, что широкополосные шумы определяют по наличию интенсивных частотных составляющих в диапазоне выше возможных значений частоты основного тона и ее первой гармоники, при этом интенсивность частотных составляющих в текущем окне определяют относительно их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала.
1 1. Способ распознавания по п.2 отличающийся тем, что высокочастотные шумы определяют в диапазоне выше возможных значений частоты основного тона и ее первой гармоники, по отношению интенсивности частотных составляющих в области средних частот и интенсивности частотных составляющих в области высоких частот.
12. Способ распознавания по п.2 отличающийся тем, что сонорность определяют по высокой интенсивности частотных составляющих в диапазоне средних частот выше низкочастотной области в диапазоне возможных значений частоты основного тона, но вмещающих в себя диапазон возможных значений частот формант сонантов.
13. Способ распознавания по п.2 отличающийся тем, что наличие гласных или сонант определяют по соответственно наличию/отсутствию гармонических составляющих в области средних и верхних частот.
14. Способ распознавания по п.2 отличающийся тем, что ряд произнесения гласного определяют по соотношению интенсивности гармонических составляющих в спектре речевого сигнала в области низких частот, области средних частот и области верхних частот.
15. Способ распознавания по п.1 отличающийся тем, что на этапе декодирования последовательности символов, обозначающих группы фонем в текст используют один или группу предустановленных тематических словарей, размеченных по символам групп фонем, разных языковых систем, выбор которых осуществляют на начальном этапе распознавания речи.
16. Система распознавания речи включающая блок приема речевого сигнала, последовательно соединенный с аналого-цифровым преобразователем, выход которого соединен с блоком анализа и нормализации частотного спектра речевого сигнала, соединенного с блоком управления и блоком памяти, выполненной с обеспечением возможности записи и хранения распознанного речевого сигнала, хранения и вызова словаря, отличающаяся тем, что дополнительно содержит последовательно соединенные блок определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем, выполненный с обеспечением возможности формирования по текущим комбинаторным сочетаниям акустических признаков присутствующих в речевом сигнале соответствующей им последовательности символов, обозначающих группы фонем, блок декодирования последовательности символов, обозначающих группы фонем в текст, по меньшей мере, один из входов которого соединен с блоком ввода предустановленного словаря, размеченного по символам групп фонем и вызываемого из блока памяти, выполненный с обеспечением возможности определения слов на основе словаря по комбинаторному сочетанию символов групп фонем текущей последовательности, а также устройство вывода и хранения текста, по меньшей мере, один вход/выход которых соединен с блоком управления, выполненным с обеспечением возможности управления режимами функционирования блоков, обмена данными между ними и взаимодействия с блоком памяти.
17. Система распознавания по п.16 отличающаяся тем, что вход блока определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем соединен с выходом аналого-цифрового преобразователя, с обеспечением возможности ввода речевого сигнала, и выходом блока анализа и нормализации частного спектра речевого сигнала, с обеспечением возможности ввода нормализованного речевого сигнала, и блоком акустических признаков групп фонем, с обеспечением возможности сравнения текущего комбинаторного набора акустических признаков речевого сигнала с параметрами набора акустических признаков предустановленных групп фонем и соединенный с блоком памяти.
18. Система распознавания по п.16 отличающаяся тем, что устройство вывода и хранения текста дополнительно снабжено дисплеем для вывода и отображения распознанного текста.
19. Система распознавания по любому из п.16, 17 или 18 отличающаяся тем, что блок акустических признаков групп фонем содержит комбинаторный набор акустических признаков 11 групп фонем: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда включающий для каждой их групп фонем по меньшей мере характеристику наличия/отсутствия в окне основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного.
PCT/RU2012/000373 2011-06-30 2012-05-12 Система и способ распознавания речи WO2013002674A1 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2011126653 2011-06-30
RU2011126653/08A RU2466468C1 (ru) 2011-06-30 2011-06-30 Система и способ распознавания речи

Publications (1)

Publication Number Publication Date
WO2013002674A1 true WO2013002674A1 (ru) 2013-01-03

Family

ID=47322404

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2012/000373 WO2013002674A1 (ru) 2011-06-30 2012-05-12 Система и способ распознавания речи

Country Status (2)

Country Link
RU (1) RU2466468C1 (ru)
WO (1) WO2013002674A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI712033B (zh) * 2019-03-14 2020-12-01 鴻海精密工業股份有限公司 聲音識別方法、裝置、電腦裝置及存儲介質

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016053141A1 (ru) * 2014-09-30 2016-04-07 Общество С Ограниченной Ответственностью "Истрасофт" Устройство для обучения разговорной (устной) речи с визуальной обратной связью
RU2606566C2 (ru) * 2014-12-29 2017-01-10 Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
CN105446489B (zh) 2015-12-08 2017-09-22 广州神马移动信息科技有限公司 语音双模控制方法、装置及用户终端
RU2642802C1 (ru) * 2016-07-25 2018-01-26 Алексей Васильевич Глушков Способ составления списков в программах путем регистрации голосовых сообщений специальным устройством с последующим распознаванием в текст
RU2711153C2 (ru) 2018-05-23 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя
JP2019219740A (ja) * 2018-06-15 2019-12-26 キヤノン株式会社 印刷システム、制御方法、サーバおよびプログラム
RU2691603C1 (ru) * 2018-08-22 2019-06-14 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи
RU2731334C1 (ru) * 2019-03-25 2020-09-01 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для формирования текстового представления фрагмента устной речи пользователя

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
EP0420825A2 (en) * 1989-09-26 1991-04-03 Ing. C. Olivetti & C., S.p.A. A method and equipment for recognising isolated words, particularly for very large vocabularies
WO1997034293A1 (en) * 1996-03-11 1997-09-18 Fonix Corporation User independent, real-time speech recognition system and method
US20040117181A1 (en) * 2002-09-24 2004-06-17 Keiko Morii Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
RU2268504C1 (ru) * 2004-03-30 2006-01-20 Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения" Способ распознавания фонем речи и устройство для реализации способа
RU2296376C2 (ru) * 2005-03-30 2007-03-27 Открытое акционерное общество "Корпорация "Фазотрон - научно-исследовательский институт радиостроения" Способ распознавания слов речи

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6336676B2 (ru) * 1983-06-07 1988-07-21 Matsushita Electric Ind Co Ltd
RU2234746C2 (ru) * 2002-10-30 2004-08-20 Пермский государственный университет Способ дикторонезависимого распознавания звуков речи

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
EP0420825A2 (en) * 1989-09-26 1991-04-03 Ing. C. Olivetti & C., S.p.A. A method and equipment for recognising isolated words, particularly for very large vocabularies
WO1997034293A1 (en) * 1996-03-11 1997-09-18 Fonix Corporation User independent, real-time speech recognition system and method
US20040117181A1 (en) * 2002-09-24 2004-06-17 Keiko Morii Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
RU2268504C1 (ru) * 2004-03-30 2006-01-20 Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения" Способ распознавания фонем речи и устройство для реализации способа
RU2296376C2 (ru) * 2005-03-30 2007-03-27 Открытое акционерное общество "Корпорация "Фазотрон - научно-исследовательский институт радиостроения" Способ распознавания слов речи

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI712033B (zh) * 2019-03-14 2020-12-01 鴻海精密工業股份有限公司 聲音識別方法、裝置、電腦裝置及存儲介質

Also Published As

Publication number Publication date
RU2466468C1 (ru) 2012-11-10

Similar Documents

Publication Publication Date Title
JP6705008B2 (ja) 話者照合方法及びシステム
US9812122B2 (en) Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
O’Shaughnessy Automatic speech recognition: History, methods and challenges
Holmes Speech synthesis and recognition
US8332212B2 (en) Method and system for efficient pacing of speech for transcription
EP0965978B1 (en) Non-interactive enrollment in speech recognition
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
Klatt Speech perception: A model of acoustic–phonetic analysis and lexical access
EP0683483B1 (en) A method and arrangement for speech to text conversion
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
Muthusamy et al. Reviewing automatic language identification
Zhu et al. On the use of variable frame rate analysis in speech recognition
Arslan et al. A study of temporal features and frequency characteristics in American English foreign accent
Wang et al. An acoustic measure for word prominence in spontaneous speech
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US4783807A (en) System and method for sound recognition with feature selection synchronized to voice pitch
EP0178509B1 (en) Dictionary learning system for speech recognition
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US6487532B1 (en) Apparatus and method for distinguishing similar-sounding utterances speech recognition
US7062439B2 (en) Speech synthesis apparatus and method
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
Wu et al. Integrating syllable boundary information into speech recognition
TWI253056B (en) Combined engine system and method for voice recognition
US7062440B2 (en) Monitoring text to speech output to effect control of barge-in
US7191132B2 (en) Speech synthesis apparatus and method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12803617

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase in:

Ref country code: DE

122 Ep: pct app. not ent. europ. phase

Ref document number: 12803617

Country of ref document: EP

Kind code of ref document: A1