RU2466468C1 - System and method of speech recognition - Google Patents

System and method of speech recognition Download PDF

Info

Publication number
RU2466468C1
RU2466468C1 RU2011126653/08A RU2011126653A RU2466468C1 RU 2466468 C1 RU2466468 C1 RU 2466468C1 RU 2011126653/08 A RU2011126653/08 A RU 2011126653/08A RU 2011126653 A RU2011126653 A RU 2011126653A RU 2466468 C1 RU2466468 C1 RU 2466468C1
Authority
RU
Russia
Prior art keywords
speech signal
speech
groups
recognition
phoneme
Prior art date
Application number
RU2011126653/08A
Other languages
Russian (ru)
Inventor
Даниил Александрович Кочаров (RU)
Даниил Александрович Кочаров
Александр Борисович Хомяков (RU)
Александр Борисович Хомяков
Original Assignee
Даниил Александрович Кочаров
Александр Борисович Хомяков
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Даниил Александрович Кочаров, Александр Борисович Хомяков filed Critical Даниил Александрович Кочаров
Priority to RU2011126653/08A priority Critical patent/RU2466468C1/en
Priority to PCT/RU2012/000373 priority patent/WO2013002674A1/en
Application granted granted Critical
Publication of RU2466468C1 publication Critical patent/RU2466468C1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

FIELD: information technologies. ^ SUBSTANCE: system and method are used for speech recognition, which receive a speech signal at the inlet of a reception unit; process the speech signal with an information processing unit, including its processing with an analogue-to-digital converter with preset digitisation frequency and separation into segments, spectral analysis of speech signal segments and normalisation of spectrum at high frequencies; identify pauses, noise and speech signals in the normalised spectrum. Then on the basis of the initial speech signal and the normalised spectrum availability/absence of acoustic criteria of the speech signal is identified in each segment, combinatory sets of which are compared with preset parameters of phoneme groups in the memory unit, and based on comparison results a sequence of symbols is generated to indicate groups of phonemes corresponding to combinatory sets of acoustic criteria of each segment, conversion of which into a cohesive text is carried out with serial decoding of a combinatory combination of symbols of sequence phoneme groups on the basis of a dictionary marked by symbols of phoneme groups. ^ EFFECT: reduced duration and high accuracy of speech recognition. ^ 19 cl, 5 dwg, 3 tbl

Description

Изобретение относится к технологиям распознавания речи, т.е. системам и способам перевода звукового сигнала, содержащего речь, в текст, состоящий из слов, входящих в лексический и произносительный словари системы распознавания речи.The invention relates to speech recognition technologies, i.e. systems and methods for translating an audio signal containing speech into text consisting of words included in the lexical and pronunciation dictionaries of a speech recognition system.

Область применения изобретения: голосовое управление электронными приборами, автоматическая стенография, специальные программы для слабовидящих, голосовое управление движущимися средствами на расстоянии слышимости голоса.Field of application of the invention: voice control of electronic devices, automatic shorthand, special programs for visually impaired, voice control of moving means at a distance of audible voice.

Заявленное изобретение позволяет распознавать слитную непрерывную речь вне зависимости от индивидуальных особенностей говорящего на основе определения групп фонем по характеризующим их признакам и методе последовательного декодирования последовательностей символов, обозначающих группы фонем, в цепочку слов, составляющих высказывание (текст).The claimed invention allows to recognize continuous continuous speech, regardless of the individual characteristics of the speaker, based on the definition of phoneme groups according to their characteristics and the method of sequentially decoding sequences of characters denoting phoneme groups into a chain of words that make up a statement (text).

Известно техническое решение, характеризующее способ дикторонезависимого распознавания звуков речи, включающий в себя предварительную сегментацию речевого сигнала для определения временной длительности звуковых сегментов, определение периодичности каждого сегмента акустических составляющих речевого сигнала для соотнесения звукового сегмента по способу его образования к голосовому, шумному или шумно-голосовому виду звуков речи, определение амплитуды и частоты каждой из первых трех формант в спектре звукового сегмента в качестве информативных признаков звуков речи, интеграцию упомянутых информативных признаков для каждого звукового сегмента, фонемное распознавание каждого звукового сегмента путем сопоставления интегральных значений его информативных признаков с имеющимся банком данных отдельно для каждого вида звуков речи, принятие решения относительно распознаваемого звука речи и представление его в виде буквенного или транскрипционного обозначения. Основную сегментацию речевого сигнала выполняют по трем основным режимам в зависимости от ранее найденного вида звукового сегмента, при упомянутом фонемном распознавании сопоставляют интегральные значения информативных признаков каждого звукового сегмента как для каждого упомянутого вида звуков речи, так и для каждого типа в зависимости от числа формант в звуковом сегменте, затем устанавливают временные границы звуков речи в зависимости от изменения фонемной принадлежности звукового сегмента, после чего и принимают упомянутое решение относительно распознаваемого звука речи (патент на изобретение РФ 2234746, G10L 19/02, 30.10.2002). К числу недостатков данного решения следует отнести низкую различительную способность и скорость распознавания речи по формантам, поступательный характер распознавания, обуславливающие последовательное распознавание каждой форманты, а также необходимость обращаться в процессе распознавания к словарям и эталонным образцам.A technical solution is known that characterizes the method of speaker-independent recognition of speech sounds, including preliminary segmentation of the speech signal to determine the time duration of the sound segments, determining the periodicity of each segment of the acoustic components of the speech signal to correlate the sound segment by the method of its formation to voice, noisy or noisy voice form speech sounds, determining the amplitude and frequency of each of the first three formants in the spectrum of the sound segment as informative features of speech sounds, integration of the mentioned informative features for each sound segment, phonemic recognition of each sound segment by comparing the integral values of its informative features with the existing data bank separately for each type of speech sounds, making a decision on the recognizable speech sound and presenting it in letter or transcriptional notation. The main segmentation of the speech signal is performed according to three main modes depending on the previously found type of sound segment, with the mentioned phonemic recognition, the integrated values of the informative features of each sound segment are compared both for each mentioned type of speech sounds and for each type depending on the number of formants in the sound segment, then set the temporal boundaries of speech sounds depending on changes in the phonemic affiliation of the audio segment, after which they take the decision statement regarding the recognizable sound of speech (patent for the invention of the Russian Federation 2234746, G10L 19/02, 10.30.2002). The disadvantages of this solution include the low discriminating ability and speed of speech recognition by formants, the progressive nature of recognition, which determine the consistent recognition of each formant, as well as the need to use dictionaries and reference samples in the recognition process.

Известно также техническое решение способа распознавания слов в слитной речи, состоящее в том, что с произнесением речевого высказывания периодически берут выборки акустического сигнала этого высказывания, оцифрованного с заданной частотой квантования, через фиксированные интервалы времени и по совокупности этих выборок вычисляют функционал, определяющий текущее акустическое состояние, при этом полученную последовательность текущих акустических состояний используют для восстановления последовательности слов (рабочей гипотезы), произнесенных в исходном речевом высказывании, для чего применяют сеть лексического декодирования, которая задает закономерности следования эталонных акустических состояний в языке. При этом проводится поиск рабочей гипотезы, являющийся оптимальным в смысле максимума степени ее совпадения с исходным речевым сигналом, что обеспечивается использованием алгоритма перемещаемого маркера, а восстанавливают рабочую гипотезу из маркера, который в этот момент времени находится в конечной вершине сети лексического декодирования (патент на изобретение РФ 2297676, G10L 15/02, 30.03.2005) Несмотря на то, что в данном способе различительная способность выше, чем в предыдущем способе, однако, аналогично с предыдущим известным способом распознавания речи к числу недостатков данного метода следует также отнести длительность процесса распознавания, обусловленного необходимостью обращения к эталонным образцам, а также поочередным распознаванем каждой форманты в слове.There is also a technical solution to the method for recognizing words in continuous speech, consisting in the fact that with the utterance of the speech utterance, samples of the acoustic signal of this utterance digitized with a given quantization frequency are periodically taken at fixed time intervals and, based on the totality of these samples, the functional determining the current acoustic state is calculated while the resulting sequence of current acoustic states is used to restore the sequence of words (working hypothesis), p spoken in the original speech utterance, for which a lexical decoding network is used, which sets the patterns for following reference acoustic states in a language. In this case, a search for a working hypothesis is carried out, which is optimal in the sense of the maximum degree of its coincidence with the original speech signal, which is ensured by the use of the moving marker algorithm, and the working hypothesis is restored from the marker, which at this point in time is at the final vertex of the lexical decoding network (patent for the invention RF 2297676, G10L 15/02, 03/30/2005) Despite the fact that in this method the distinguishing ability is higher than in the previous method, however, it is similar to the previous known method of detection Speech skills are among the disadvantages of this method should also include the duration of the recognition process, due to the need to refer to the reference samples, as well as the alternate recognition of each formant in the word.

Известны также способ и система распознавания речи, построенные с использованием методов фонемного анализа (патент США №5315689, МПК G10L 5/06, 1995), в котором применяется двухуровневая обработка речевого сигнала. Блок первого уровня осуществляет распознавание слова (команды) как звукового (слухового) образа в целом. Альтернативный блок второго уровня производит фонемное распознавание звукового сигнала. Недостатком этого способа является снижение степени вероятности правильного распознавания слов (фраз) при увеличении объема речевого фрагмента и распознавании слитной речи.There is also known a method and a speech recognition system constructed using phonemic analysis methods (US patent No. 5315689, IPC G10L 5/06, 1995), in which two-level processing of the speech signal is used. The first level block recognizes a word (command) as a sound (auditory) image as a whole. An alternative block of the second level produces phonemic recognition of the audio signal. The disadvantage of this method is the reduction in the likelihood of correct recognition of words (phrases) with an increase in the volume of a speech fragment and recognition of continuous speech.

Известны также решения системы и способа распознавания речи (заявка на изобретение США US 2010332231 A1, G10L 15/04, 01.06.2010), заключающиеся в том, что из слитной речи на первом этапе определяют последовательность фонем, подлежащих распознаванию, которые затем сравнивают с хранящимся в памяти устройства списком слов, соответствующих отобранным фонемам, при этом далее осуществляют вероятностную оценку, по установленным ранее критериям на основании которой выбирают из ранее сформированного слова наиболее вероятные, а незнакомое слово вносят в словарь и определяют критерии для последующей вероятностной оценки. К числу недостатков данного способа можно отнести его чрезмерную сложность и высокие требования к ресурсам памяти устройства, осуществляющего распознавание речи в соответствии с данным способом, кроме того, решение не позволяет осуществлять распознавание слитной речи, так как распознавание идет слишком медленно и с достаточной степенью точности возможно лишь определение отдельных речевых команд, а не слитной речи.There are also known solutions to a speech recognition system and method (application for US invention US 2010332231 A1, G10L 15/04, 06/01/2010), consisting in the fact that from a single speech at the first stage a sequence of phonemes to be recognized is determined, which are then compared with the stored in the device’s memory with a list of words corresponding to the selected phonemes, a probabilistic assessment is then carried out, according to previously established criteria, based on which the most probable words are selected from the previously generated word, and the unfamiliar word is entered into the dictionary determine the criteria for the subsequent probability estimate. The disadvantages of this method include its excessive complexity and high requirements on the memory resources of a device that performs speech recognition in accordance with this method, in addition, the solution does not allow recognition of continuous speech, since recognition is too slow and with a sufficient degree of accuracy, it is possible only the definition of individual speech commands, and not continuous speech.

Известно также решение системы распознавания речи (патент на изобретение США US 4624011 A, G10L 5/00 28.01.1983), в которой распознавание речи осуществляется сначала по определению частотных спектров речи, а затем по определению последовательности фонем и их акустических характеристик, выделяемых вспомогательным модулем, которые затем сравниваются с хранящимися в памяти эталонными характеристиками для вышеуказанных последовательностей, и вычисляется степень сходства, при этом при превышении предустановленного порога делается вывод о соответствии фонемы эталону, а при недостижении порогового значения - вносят новое слов в словарь. Недостатки данного способа распознавания речи и системы для его осуществления аналогичны предыдущему решению.There is also known a solution to a speech recognition system (US patent US 4,624,011 A, G10L 5/00 01/28/1983), in which speech recognition is carried out first by determining the frequency spectra of speech, and then by determining the sequence of phonemes and their acoustic characteristics emitted by the auxiliary module , which are then compared with the reference characteristics stored in the memory for the above sequences, and the degree of similarity is calculated, and if the predefined threshold is exceeded, a conclusion is made about the correspondence phonemes to the standard, and if the threshold value is not reached, they introduce new words into the dictionary. The disadvantages of this method of speech recognition and the system for its implementation are similar to the previous solution.

Известен способ и система распознавания речи, в которых (патент на изобретение США US 4696042, G10L 5/00, 03.11.1983) распознавание речи осуществляется по лингвистическим фонемам, предварительно распределенным по группам, соответствующим характеристическим особенностям произнесения звуков. Причем звук определяют в том числе по характерному созвучию со следующим звуком, что позволяет повысить различительную способность и качество распознавания, однако требует достаточно большого времени на последовательную обработку как отдельного звука, так и дифтонга.A known method and system for speech recognition in which (US patent US 4696042, G10L 5/00, 11/03/1983) speech recognition is carried out by linguistic phonemes pre-distributed into groups corresponding to the characteristic features of the pronunciation of sounds. Moreover, the sound is determined, among other things, by the characteristic harmony with the following sound, which allows to increase the distinguishing ability and quality of recognition, however, it requires a rather long time for sequential processing of both a single sound and a diphthong.

Наиболее близким аналогом по совокупности существенных признаков, признанным в качестве прототипа, является решение системы и способа распознавания речи, известное из патента США US 4852170 (G10L 5/04, 18.12.1986), характеризующееся способом цифрового распознавания речи в режиме реального времени системой, включающей анализатор спектра, определяющий частную характеристику каждого сегмента речи заданной длительности, при этом каждый сегмент речи анализируется логически на наличие фонем и их принадлежность определенному классу, частью которого они являются, и затем частотный спектр сегмента анализируется на наличие особенностей, позволяющих распознать специфические фонемы в пределах типа. Последовательность фонем может быть сохранена в виде компактных групп и преобразована затем для синхронизации с голосом и логически переведена с одного языка на другой. К числу недостатков данного способа и системы распознавания речи следует отнести пофонемное распознание звуков в рамках выделенного речевого сегмента, что требует значительных временных затрат и существенного увеличения аппаратного ресурса и ресурса памяти для обеспечения требуемого быстродействия системы, невозможность реализации системы на базе компактных устройств. Необходимость ориентироваться на образцы произнесения речи разными возрастными категориями с учетом особенности их спектральных характеристик, выделяемых по различным признакам, как и в предыдущих случаях, либо приводит к потере качества, либо к существенному увеличению длительности распознавания.The closest analogue in terms of essential features recognized as a prototype is the solution of a speech recognition system and method known from US Pat. No. 4,852,170 (G10L 5/04, 12/18/1986), characterized by a real-time digital voice recognition system including a spectrum analyzer that determines the particular characteristic of each speech segment of a given duration, while each speech segment is analyzed logically for the presence of phonemes and their belonging to a particular class, part of which they are, and then the frequency spectrum of the segment is analyzed for features that allow the recognition of specific phonemes within the type. The sequence of phonemes can be stored in compact groups and then transformed to synchronize with the voice and logically translated from one language to another. The disadvantages of this method and system of speech recognition should include the phonon recognition of sounds within the allocated speech segment, which requires significant time and a significant increase in hardware and memory resources to ensure the required system speed, the inability to implement a system based on compact devices. The need to focus on speech patterns by different age categories, taking into account the peculiarities of their spectral characteristics, distinguished by various criteria, as in previous cases, either leads to a loss of quality or to a significant increase in recognition time.

Технической задачей заявленного изобретения является предложение способа, обеспечивающего дикторонезависимое распознавание слитной речи в режиме реального времени в сочетании с компактной системой его реализации.The technical task of the claimed invention is to propose a method that provides speaker-independent recognition of continuous speech in real time in combination with a compact system for its implementation.

Технический результат, достигаемый заявленным изобретением, заключается в сокращении длительности распознавания речи в сочетании с высокой точностью, обеспечиваемых вне зависимости от специфических особенностей разных языковых систем.The technical result achieved by the claimed invention is to reduce the duration of speech recognition in combination with high accuracy, provided regardless of the specific features of different language systems.

Заявленный технический результат достигается тем, что используют способ распознавания речи, включающий последовательно исполняемые этапы приема речевого сигнала на входе блока приема; обработки речевого сигнала блоком обработки информации, включающей его обработку аналого-цифровым преобразователем с предустановленной частотой дискретизации и разделением на сегменты, спектрального анализа сегментов речевого сигнала и нормализации спектра на высоких частотах; выделения в нормализованном спектре пауз, шумов и звуковых сигналов с последующим его распознаванием и преобразованием в текст с использованием предустановленного словаря. При этом отличается от прототипа тем, что на этапе распознавания на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте определяют наличие/отсутствие акустических признаков речевого сигнала, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановленны в блоке памяти, и осуществляют сравнение определенных комбинаторных наборов акустических признаков сегмента с предустановленными параметрами групп фонем, с одновременным формированием последовательности символов, обозначающих группы фонем, соответствующие комбинаторным наборам акустических признаков каждого сегмента, преобразование которой в связный текст осуществляют последовательным декодированием комбинаторного сочетания символов групп фонем последовательности на основе словаря, размеченного по символам групп фонем.The claimed technical result is achieved by using a speech recognition method, which includes sequentially executed steps for receiving a speech signal at the input of a receiving unit; processing the speech signal by the information processing unit, including its processing by an analog-to-digital converter with a pre-set sampling frequency and segmentation, spectral analysis of the speech signal segments and normalization of the spectrum at high frequencies; highlighting in the normalized spectrum of pauses, noise and sound signals with its subsequent recognition and conversion into text using a predefined dictionary. Moreover, it differs from the prototype in that at the recognition stage, based on the initial speech signal and the normalized spectrum in each segment, the presence / absence of acoustic features of the speech signal is determined, combinatorial sets of which characterize groups of phonemes whose parameters are predefined in the memory unit, and they compare certain combinatorial ones sets of acoustic features of a segment with predefined parameters of phoneme groups, with the simultaneous formation of a sequence of characters, I mean groups of phonemes corresponding combinatorial sets of acoustic characteristics of each segment, wherein the conversion is performed in a coherent text sequential combinatorial decoding combining groups of symbols phoneme sequence based on the vocabulary of the markup symbols phoneme groups.

В предпочтительном варианте изобретения определение комбинаторного набора акустических признаков сегмента речевого сигнала осуществляют параллельно и одномоментно.In a preferred embodiment of the invention, the determination of the combinatorial set of acoustic features of a segment of a speech signal is carried out simultaneously and simultaneously.

В одном из вариантов изобретения на этапе разделения речевого сигнала на сегменты обрабатывают речевой сигнал короткими окнами одинаковой длины со смещением в два раза меньшей длины, с обеспечением возможности регистрации кратковременных характерных явлений внутри звуков речи и плавных переходов от одного звука в потоке речи к другому.In one embodiment of the invention, at the stage of dividing the speech signal into segments, the speech signal is processed by short windows of the same length with an offset of half the length, with the possibility of registering short-term characteristic phenomena within speech sounds and smooth transitions from one sound in the speech stream to another.

При классификации групп фонем используют комбинаторный набор акустических признаков, включающий определение наличия или отсутствия в речевом сигнале, по меньшей мере, основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного, комбинаторное сочетание которых формирует 11 групп фонем с неповторяемым набором акустических признаков: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда. А преобразование последовательности символов, обозначающих группы фонем, в текст осуществляют на основе последовательного метода декодирования, заключающегося в последовательном сокращении вариантов в выборке слов и словоформ из словаря, размеченного по символам групп фонем, формируемой по комбинаторной последовательности символов групп фонем от первого символа в сегменте до фрагмента последовательности, включающего комбинацию символов групп фонем, определяющую единственное слово из словаря, после которого осуществляют распознавание следующей входной последовательности, начиная с первого символа группы фонем после входящего в определенное ранее слово.When classifying phoneme groups, a combinatorial set of acoustic features is used, including determining the presence or absence in the speech signal of at least the fundamental tone, broadband noise, the difference in the intensity of the speech signal, high-frequency noise, sonority, vowel, vowel, a combinatorial combination of which forms 11 groups phonemes with a unique set of acoustic features: voiced deaf noisy consonants, voiced voiced noisy consonants, deaf noisy slotted consonants, voiced noisy slotted accords waistband, voiceless sibilants, voiced sibilants, nasal and slotted sonants, trembling sonants, front vowels, vowels mixed-row and back vowels. And the conversion of the sequence of characters denoting phoneme groups into text is carried out on the basis of the sequential decoding method, which consists in sequentially reducing options in the selection of words and word forms from the dictionary marked up by the characters of phonemes, formed by the combinatorial sequence of characters of phoneme groups from the first character in the segment to a fragment of a sequence including a combination of symbols of phoneme groups defining a single word from the dictionary, after which recognition The next input sequence begins, starting with the first character of the phoneme group after the word in the previously defined word.

При этом, в одном из вариантов реализации заявленного изобретения, осуществляют формирование словаря на основе слов, написанных в транскрипции с вариантами произнесения, состоящих из размеченных по символам групп фонем.At the same time, in one embodiment of the claimed invention, a dictionary is formed based on words written in transcription with pronunciation options consisting of phonememes marked out by symbols.

Словарь может быть выполнен предустановленным в блок памяти, с обеспечением возможности его инициализации на этапе распознавания, так и дополнительно подгружаемым в блок памяти как файл со списком слов с соответствующими им транскрипциями, размеченными по символам групп фонем. На этапе декодирования последовательности символов, обозначающих группы фонем, в текст могут использовать один или группу предустановленных тематических словарей, размеченных по символам групп фонем, разных языковых систем. Тематический словарь или группа словарей, размеченных по символам групп фонем, может быть выбран из списка предустановленных тематических словарей на начальном этапе способа распознавания речи.The dictionary can be executed pre-installed in the memory block, with the possibility of its initialization at the recognition stage, and additionally loaded into the memory block as a file with a list of words with their corresponding transcriptions marked up by phoneme group symbols. At the stage of decoding a sequence of symbols denoting phoneme groups, one or a group of predefined thematic dictionaries marked up by the symbols of phoneme groups and different language systems can be used in the text. The thematic dictionary or a group of dictionaries marked up by the symbols of phoneme groups can be selected from the list of predefined thematic dictionaries at the initial stage of the speech recognition method.

Заявленный технический результат достигается также тем, что для осуществления способа используют систему распознавания речи, включающую блок приема речевого сигнала, последовательно соединенный с аналого-цифровым преобразователем, выход которого соединен с блоком анализа и нормализации частотного спектра речевого сигнала, соединенного с блоком управления и блоком памяти, выполненной с обеспечением возможности записи и хранения распознанного речевого сигнала, хранения и вызова словаря. При этом система распознавания речи, согласно изобретению, отличается от прототипа тем, что дополнительно содержит последовательно соединенные блок определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем, выполненный с обеспечением возможности формирования по текущим комбинаторным сочетаниям акустических признаков присутствующих в речевом сигнале соответствующей им последовательности символов, обозначающих группы фонем, блок декодирования последовательности символов, обозначающих группы фонем, в текст, по меньшей мере, один из входов которого соединен с блоком ввода предустановленного словаря, размеченного по символам групп фонем и вызываемого из блока памяти, выполненный с обеспечением возможности определения слов на основе словаря по комбинаторному сочетанию символов групп фонем текущей последовательности, а также устройство вывода и хранения текста, по меньшей мере, один вход/выход которых соединен с блоком управления, выполненным с обеспечением возможности управления режимами функционирования блоков, обмена данными между ними и взаимодействия с блоком памяти. При этом вход блока определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем, соединен с выходом аналого-цифрового преобразователя, с обеспечением возможности ввода речевого сигнала, и выходом блока анализа и нормализации частного спектра речевого сигнала, с обеспечением возможности ввода нормализованного речевого сигнала, и блоком акустических признаков групп фонем, с обеспечением возможности сравнения текущего комбинаторного набора акустических признаков речевого сигнала с параметрами набора акустических признаков предустановленных групп фонем, и соединенный с блоком памяти. Устройство вывода и хранения текста дополнительно снабжено дисплеем для вывода и отображения распознанного текста на экран.The claimed technical result is also achieved by the fact that for the implementation of the method, a speech recognition system is used, including a speech signal receiving unit connected in series with an analog-to-digital converter, the output of which is connected to the analysis and normalization unit of the frequency spectrum of the speech signal connected to the control unit and the memory unit made with the possibility of recording and storing the recognized speech signal, storing and calling the dictionary. Moreover, the speech recognition system according to the invention differs from the prototype in that it further comprises a series-connected unit for determining the presence of acoustic features and the formation of a sequence of characters representing groups of phonemes, made possible by the current combinatorial combinations of acoustic features present in the speech signal corresponding to them character sequences denoting phoneme groups, a character sequence decoding unit, about signifying groups of phonemes, into the text, at least one of the inputs of which is connected to the input unit of a predefined dictionary marked up by the symbols of phoneme groups and called from the memory block, made possible to define words based on the dictionary by combinatorial combination of phoneme group symbols of the current sequence , as well as a device for outputting and storing text, at least one input / output of which is connected to a control unit configured to control the operating modes b shackles, data exchange therebetween and interacting with the memory unit. In this case, the input of the unit for determining the presence of acoustic signs and the formation of a sequence of characters denoting phoneme groups is connected to the output of the analog-to-digital converter, providing the possibility of inputting a speech signal, and the output of the unit for analyzing and normalizing the private spectrum of the speech signal, making it possible to input a normalized speech signal , and a block of acoustic signs of phoneme groups, with the possibility of comparing the current combinatorial set of acoustic signs of a speech signal with the parameters of a set of acoustic signs of predefined phoneme groups, and connected to a memory unit. The text output and storage device is further provided with a display for outputting and displaying the recognized text on the screen.

При этом в одном из вариантов выполнения изобретения блок акустических признаков групп фонем содержит комбинаторный набор акустических признаков 11 групп фонем: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда, включающий для каждой их групп фонем по меньшей мере характеристику наличия/отсутствия в окне основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного.Moreover, in one embodiment of the invention, the block of acoustic signs of phoneme groups contains a combinatorial set of acoustic signs of 11 groups of phonemes: voiced deaf noisy consonants, voiced voiced noisy consonants, deaf noisy slotted consonants, voiced noisy slotted consonants, deaf sibilants, voiced sibilants, nasal and slotted sonants, trembling sonants, front row vowels, mixed row vowels and back row vowels, including for each of the phoneme groups at least a window presence / absence characteristic pitch broadband noise, the differential intensity of a speech signal of high frequency noise, sonority, vowel, vowel series.

Заявленное изобретение поясняется чертежами, представленными на фиг.1-3, где фиг.1 - структурная схема системы распознавания речи, фиг.2 - функциональная схема распознавания речи, включая этапы определения акустических признаков, формирования последовательности символов, обозначающих группы фонем, и ее декодирования в текст, фиг.3 - пример формирования последовательности символов, определяющих группы фонем: 3а) - осциллограмма с разметкой речевого сигнала на аллофоны; 3б) - спектрограмма с разметкой на аллофоны; 3в) - иллюстрация определения на основе осциллограммы нормализованного речевого сигнала акустических признаков и формирования последовательности символов, определяющих группы фонем. Данный пример описывает частную реализацию системы и способа в соответствии с изобретением и не является исчерпывающим описанием их возможных реализаций.The claimed invention is illustrated by the drawings shown in figures 1-3, where figure 1 is a structural diagram of a speech recognition system, figure 2 is a functional diagram of speech recognition, including the steps of determining acoustic features, forming a sequence of characters representing groups of phonemes, and its decoding into the text, FIG. 3 — an example of the formation of a sequence of characters defining phoneme groups: 3a) —the oscillogram with the marking of the speech signal into allophones; 3b) - spectrogram with markup for allophones; 3c) is an illustration of the definition of acoustic characteristics based on the waveform of the normalized speech signal and the formation of a sequence of symbols defining phoneme groups. This example describes a particular implementation of the system and method in accordance with the invention and is not an exhaustive description of their possible implementations.

В представленном примере реализации система распознавания речи согласно изобретению реализована на цифровом устройстве, представляющем архитектуру компьютера под управлением центрального микропроцессора с оперативным (ОЗУ) и постоянным (ПЗУ) запоминающими устройствами. Как следует из схемы, представленной на фиг.1, система распознавания речи содержит блок 1 приема речевого сигнала (приемник звука), в качестве которого может быть использован микрофон, как встроенный, так и внешний, любого известного из уровня техники типа и модели, последовательно соединенный с аналого-цифровым преобразователем 2 с частотой дискретизации не менее 22 кГц, осуществляющим преобразование речевого сигнала в цифровую форму. Блок 4 управления, выполненный на основе многоканального центрального микропроцессора, соединен по стандартным интерфейсным, мультиплексным каналам связи с последовательно соединенными друг с другом блоком 3 анализа и нормализации частотного спектра речевого сигнала, блоком 5 определения акустических признаков и формирования последовательности символов, обозначающих группы фонем, блоком 6 декодирования последовательности символов, обозначающих группы фонем, в текст и устройством 7 вывода и хранения текста, а также с блоком 11 памяти. Блок 5 определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем, дополнительно соединен с выходом аналого-цифрового преобразователя 2, с обеспечением возможности передачи на вход бока 5 речевого сигнала, а также с блоком 9 акустических признаков групп фонем, с обеспечением возможности сравнения текущих комбинаций акустических признаков речевого сигнала с предустановленными комбинаторными наборами акустических признаков групп фонем. При этом блок 6 детектирования последовательности символов, обозначающих группы фонем, в текст соединен по каналам интерфейсной связи с выходом словарного модуля 10, вход которого соединен с блоком 11 памяти с обеспечением возможности вызова из блока памяти любого предустановленного тематического словаря или группы словарей, размеченных по символам групп фонем, и осуществления отбора слов соответствующих комбинациям символов групп фонем в текущей последовательности. Блок 11 памяти через блок 4 управления соединен с устройством 7 вывода и хранения текста, один выход которого соединен с устройством вывода распознанного текста, выполненного, например, в виде устройства 8 отображения - дисплея. В качестве устройства 7 вывода текста может быть использовано устройство печати и/или внешнее устройство хранения. В качестве устройства 8 отображения может быть использовано любое известное из уровня техники устройство, используемое в составе компьютерных или телекоммуникационных устройств. Блоки системы и функциональные связи между ними выполнены программно-аппаратным образом, с обеспечением возможности настройки конфигурации и ее адаптации к используемым компьютерным и мультимедийным средствам.In the presented implementation example, the speech recognition system according to the invention is implemented on a digital device representing the architecture of a computer under the control of a central microprocessor with operational (RAM) and permanent (ROM) storage devices. As follows from the diagram shown in figure 1, the speech recognition system contains a block 1 for receiving a speech signal (sound receiver), which can be used as a microphone, either built-in or external, of any type and model known from the prior art, in series connected to analog-to-digital Converter 2 with a sampling frequency of at least 22 kHz, converting the speech signal into digital form. The control unit 4, made on the basis of a multi-channel central microprocessor, is connected via standard interface, multiplex communication channels with a unit 3 for analyzing and normalizing the frequency spectrum of the speech signal, unit 5 for determining acoustic characteristics and generating a sequence of characters representing phoneme groups, unit 6 decoding a sequence of characters denoting phoneme groups into text and a text output and storage device 7, as well as with a memory unit 11. Block 5 for determining the presence of acoustic signs and the formation of a sequence of characters denoting phoneme groups is additionally connected to the output of the analog-to-digital converter 2, providing the possibility of transmitting a speech signal side 5 to the input, as well as with block 9 of acoustic signs of phoneme groups, allowing comparison current combinations of acoustic features of a speech signal with predefined combinatorial sets of acoustic features of phoneme groups. At the same time, the unit 6 for detecting the sequence of symbols denoting phoneme groups is connected to the text via interface communication channels with the output of the vocabulary module 10, the input of which is connected to the memory unit 11 with the possibility of recalling from the memory unit any predefined thematic dictionary or group of dictionaries marked by symbols phoneme groups, and selecting words corresponding to combinations of phoneme group symbols in the current sequence. The memory unit 11 through the control unit 4 is connected to a text output and storage device 7, one output of which is connected to a recognized text output device made, for example, in the form of a display device 8. As the text output device 7, a printing device and / or an external storage device may be used. As the display device 8, any device known in the art used in computer or telecommunication devices can be used. The system blocks and functional connections between them are made in a hardware-software manner, with the possibility of configuring and adapting them to the used computer and multimedia tools.

При этом система и способ распознавания речи согласно изобретению работают следующим образом.The system and method of speech recognition according to the invention work as follows.

Речевой сигнал в виде звукового потока данных поступает на вход блока приема речевого сигнала системы распознавания речи и передается далее на вход аналого-цифрового преобразователя, где осуществляют преобразование сигнала в цифровой вид. Полученный цифровой речевой сигнал передают на вход блока анализа и нормализации речевого сигнала, где осуществляют его сегментацию при обработке короткими окнами одинаковой длины и со смещением в два раза меньше длины, что позволяет выявлять как плавные переходы от одного звука в потоке речи к другому, так и кратковременные характерные явления внутри звуков речи, например, взрывы смычных согласных. Окна обработки выбирают по длине таким образом, чтобы получить наиболее оптимальные и сглаженные признаки групп фонем по времени их звучания в потоке речи. Эмпирически установлено, что длина окон в 25 мс дает оптимальный результат. Акустические признаки речевого сигнала, характерные для групп фонем, используемых в качестве базовых элементов для распознавания, определяют в рамках каждого окна (сегмента речевого сигнала) параллельно и одномоментно. При этом часть акустических признаков определяют напрямую из осциллограммы речевого сигнала, полученной от аналого-цифрового преобразователя, а часть - из спектра речевого сигнала, получаемого при обработке речевого сигнала в блоке анализа и нормализации при помощи быстрого преобразования Фурье. Полученный спектр нормализуется на высоких частотах в соответствии с нелинейным восприятием разных частот человеческой слуховой системой, что позволяет компенсировать более низкую интенсивность высоких частот по сравнению с низкими частотами в речевом сигнале.The speech signal in the form of an audio data stream is fed to the input of the speech signal receiving unit of the speech recognition system and is then transmitted to the input of an analog-to-digital converter, where the signal is converted to digital form. The resulting digital speech signal is transmitted to the input of the speech signal analysis and normalization block, where it is segmented when processing with short windows of the same length and with an offset of half the length, which allows to detect both smooth transitions from one sound in the speech stream to another, and short-term characteristic phenomena inside speech sounds, for example, explosions of consonant consonants. Processing windows are selected in length so as to obtain the most optimal and smoothed features of phoneme groups by the time they sound in the speech stream. It is empirically established that a window length of 25 ms gives an optimal result. The acoustic features of a speech signal characteristic of phoneme groups used as basic elements for recognition are determined simultaneously and simultaneously within each window (segment of the speech signal). In this case, part of the acoustic characteristics is determined directly from the waveform of the speech signal received from the analog-to-digital converter, and part is determined from the spectrum of the speech signal obtained by processing the speech signal in the analysis and normalization unit using the fast Fourier transform. The resulting spectrum is normalized at high frequencies in accordance with the nonlinear perception of different frequencies by the human auditory system, which allows you to compensate for the lower intensity of high frequencies compared to low frequencies in the speech signal.

Как указано выше, для определения акустических признаков речевого сигнала в каждом окне используют как исходный речевой сигнал, так и нормализованный спектр. На основе комбинаций значений акустических признаков определяется группа фонем, к которой относится речевой сигнал в рамках текущего окна обработки.As indicated above, to determine the acoustic characteristics of a speech signal in each window, both the original speech signal and the normalized spectrum are used. Based on combinations of values of acoustic features, a group of phonemes is determined to which the speech signal belongs within the current processing window.

При этом процедура выделения акустических признаков, применяемых для определения групп фонем, из сигнала согласно изобретению осуществляется в рамках каждого окна (сегмента речевого сигнала) параллельно и одновременно, программно-аппаратным образом. Так как при классификации групп фонем используют следующий набор акустических признаков, позволяющих однозначно определить каждую из рассматриваемых в рамках изобретения 11 групп фонем: наличие/отсутствие основного тона, наличие/отсутствие широкополосных шумов, наличие/отсутствие перепада интенсивности речевого сигнала, наличие/отсутствие высокочастотных шумов, наличие/отсутствие сонорности, акустический признак присутствия/отсутствия гласного, акустический признак ряда гласного, то и анализ речевого сигнала в каждом окне осуществляют на наличие/отсутствие акустических признаков, присущих группам фонем в речевом сигнале или нормализованном спектре.In this case, the procedure for extracting acoustic features used to determine phoneme groups from a signal according to the invention is carried out within each window (segment of a speech signal) in parallel and simultaneously, in a hardware-software manner. Since the classification of phoneme groups uses the following set of acoustic features that make it possible to unambiguously identify each of the 11 phoneme groups considered in the framework of the invention: the presence / absence of the fundamental tone, the presence / absence of broadband noise, the presence / absence of a difference in the intensity of the speech signal, the presence / absence of high-frequency noise , presence / absence of sonority, an acoustic sign of the presence / absence of a vowel, an acoustic sign of a number of vowels, then the analysis of the speech signal in each window is carried out The presence / absence of acoustic features inherent in phoneme groups in a speech signal or normalized spectrum is considered.

Одной из важнейших акустических характеристик является наличие основного тона в речевом сигнале. Отсутствие основного тона в сигнале свидетельствует о том, что в данный момент времени либо произносится глухой согласный, либо присутствует перерыв в речи (пауза). Присутствие основного тона определяют по высокой интенсивности частотных составляющих в низкочастотной области в диапазоне возможных значений частоты основного тона. Интенсивность частотных составляющих в текущем окне определяют относительного их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длинной около 5 секунд. Если в речевом сигнале в рамках предыдущего окна обработки было определено отсутствие основного тона и широкополосных шумов, а в речевом сигнале в текущем окне был определен один из других признаков, то данное окно дополнительно проверяется на наличие в нем широкополосных шумов, что является признаком, характеризующим группу смычные глухие шумные согласные или смычные звонкие шумные согласные.One of the most important acoustic characteristics is the presence of the fundamental tone in the speech signal. The absence of the fundamental tone in the signal indicates that at the given moment either a dull consonant is pronounced or there is a break in speech (pause). The presence of the fundamental tone is determined by the high intensity of the frequency components in the low frequency region in the range of possible values of the frequency of the fundamental tone. The intensity of the frequency components in the current window determines their relative maximum intensity in the speech signal over a relatively long length of the speech signal for about 5 seconds. If the speech signal within the previous processing window detected the absence of the fundamental tone and broadband noise, and one of the other signs was determined in the speech signal in the current window, then this window is additionally checked for the presence of broadband noise in it, which is a characteristic of the group phonetic deaf noisy consonants or phonetic voiced noisy consonants.

Кратковременные перепады интенсивности речевого сигнала, свидетельствующие о присутствии в сигнале коротких смычек, характерных для дрожащих сонантов, определяют по соотношению интенсивности речевого сигнала в трех последовательно идущих окнах обработки. Интенсивность речевого сигнала в среднем окне существенно ниже интенсивности речевого сигнала в правом и левом окнах, в то время как интенсивность речевого сигнала в правом и левом окнах практически одинакова.Short-term differences in the intensity of the speech signal, indicating the presence of short bows in the signal, characteristic of trembling sonants, are determined by the ratio of the intensity of the speech signal in three consecutive processing windows. The intensity of the speech signal in the middle window is significantly lower than the intensity of the speech signal in the right and left windows, while the intensity of the speech signal in the right and left windows is almost the same.

Наличие широкополосных шумов в речевом сигнале, связанных с произношением щелевых согласных или присутствием взрыва, происходящего во время размыкания смычки при произнесении смычных согласных, определяют по наличию интенсивных частотных составляющих в диапазоне выше возможных значений частоты основного тона и ее первой гармоники. Интенсивность частотных составляющих в текущем окне определяют относительного их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длинной около 5 секунд.The presence of broadband noise in a speech signal associated with the pronunciation of slotted consonants or the presence of an explosion occurring during opening the bow when pronouncing the consonant consonants is determined by the presence of intense frequency components in the range above the possible values of the fundamental frequency and its first harmonic. The intensity of the frequency components in the current window determines their relative maximum intensity in the speech signal over a relatively long length of the speech signal for about 5 seconds.

Наличие высокочастотных шумов в речевом сигнале, связанных с произношением щелевых сибилянтов, определяют в диапазоне выше возможных значений частоты основного тона и ее первой гармоники, по отношению интенсивности частотных составляющих в области средних частот и интенсивности частотных составляющих в области высоких частот. Интенсивность высокочастотных шумов существенно превосходит интенсивность средних частот в случае произнесения щелевых сибилянтов.The presence of high-frequency noise in a speech signal associated with the pronunciation of slotted sibilants is determined in the range above the possible values of the frequency of the fundamental tone and its first harmonic, in relation to the intensity of the frequency components in the middle frequency region and the intensity of the frequency components in the high frequency region. The intensity of high-frequency noise significantly exceeds the intensity of medium frequencies in the case of pronouncing slotted sibilants.

Сонорность речевого сигнала, характерную для произнесения сонантов и гласных, в противоположность шумным согласным, определяют по высокой интенсивности частотных составляющих в диапазоне средних частот выше низкочастотной области в диапазоне возможных значений частоты основного тона, но вмещающих в себя диапазон возможных значений частот формант сонантов. Интенсивность частотных составляющих в текущем окне считается относительно их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длинной около 5 секунд.The sonority of a speech signal, characteristic of pronouncing sonants and vowels, as opposed to noisy consonants, is determined by the high intensity of the frequency components in the mid-frequency range above the low-frequency region in the range of possible frequencies of the fundamental tone, but containing the range of possible frequencies of the formants of the sonants. The intensity of the frequency components in the current window is considered relative to their maximum intensity in the speech signal over a relatively long length of the speech signal for about 5 seconds.

Еще одним акустическим признаком, используемым при распознавании речи и для характеристики групп фонем, является отсутствие или наличие гармонических составляющих в спектре в частотной области выше диапазона возможных значений частот формант сонантов. Отсутствие гармонических составляющих в области средних и верхних частот характерно для сонантов, а присутствие для гласных. Наличие или отсутствие гармонических составляющих определяется по отношению интенсивности частотных составляющих ниже и выше частотного порога.Another acoustic feature used in speech recognition and for characterizing phoneme groups is the absence or presence of harmonic components in the spectrum in the frequency domain above the range of possible frequencies of the formants of the sonants. The absence of harmonic components in the mid and high frequencies is characteristic of the sonants, and the presence of vowels. The presence or absence of harmonic components is determined by the ratio of the intensity of the frequency components below and above the frequency threshold.

Другой важной акустической характеристикой звуков речи является качество возможно произнесенного гласного, а именно ряд его произнесения, т.е. положения основной массы языка в полости рта в горизонтальном положении. Ряд произнесения гласного определяют по соотношению интенсивности гармонических составляющих в спектре речевого сигнала в области низких частот, области средних частот и области верхних частот. Отсутствие гармонических составляющих в спектре речевого сигнала в области средних частот и области верхних частот свидетельствует о произнесении гласного заднего ряда. Присутствие гармонических составляющих в спектре речевого сигнала в области средних частот свидетельствует о произнесении гласного среднего ряда. Одновременное присутствие гармонических составляющих в спектре речевого сигнала в области низких частот и области верхних частот и их отсутствие в области средних частот свидетельствует о произнесении гласного заднего ряда. Наличие или отсутствие гармонических составляющих определяют по отношению интенсивности частотных составляющих в области низких частот, области средних частот и области верхних частот.Another important acoustic characteristic of speech sounds is the quality of a vowel that has been pronounced, namely, the number of pronunciations, i.e. the position of the bulk of the tongue in the oral cavity in a horizontal position. A number of vowel pronunciations is determined by the ratio of the intensity of the harmonic components in the spectrum of the speech signal in the low frequency region, the middle frequency region and the high frequency region. The absence of harmonic components in the spectrum of the speech signal in the mid-range and high-frequency region indicates the pronunciation of the back vowel. The presence of harmonic components in the spectrum of the speech signal in the mid-frequency region indicates the pronunciation of the vowel middle series. The simultaneous presence of harmonic components in the spectrum of the speech signal in the low-frequency region and in the high-frequency region and their absence in the middle-frequency region indicates the pronunciation of the back vowel. The presence or absence of harmonic components is determined by the ratio of the intensity of the frequency components in the low frequency region, the middle frequency region and the high frequency region.

В системе и способе согласно изобретению используют следующие группы фонем: смычные глухие шумные согласные (I), смычные звонкие шумные согласные (II), глухие шумные щелевые согласные (III), звонкие шумные щелевые согласные (IV), глухие сибилянты (V), звонкие сибилянты (VI), носовые и щелевые сонанты (VII), дрожащие сонанты (VIII), гласные переднего ряда (IX), гласные смешанного ряда (X) и гласные заднего ряда (XI). В скобках указан символ группы фонем, в соответствии с таблицей 1, однако в качестве символа групп фонем может быть использован любой машиночитаемый цифробуквенный или графический символ, который позволяет идентифицировать группу и осуществлять обработку речевого сигнала программно-аппаратным образом по признакам идентифицированных таким образом групп фонем.In the system and method according to the invention, the following phonemes are used: decoupled noisy noisy consonants (I), decoupled noisy noisy consonants (II), deaf noisy slit consonants (III), voiced noisy slit consonants (IV), deaf sibilants (V) sybilants (VI), nasal and slotted sonants (VII), trembling sonants (VIII), front row vowels (IX), mixed row vowels (X) and back row vowels (XI). The phoneme group symbol is indicated in parentheses in accordance with Table 1, however, any machine-readable alphanumeric or graphic symbol can be used as a phoneme group symbol, which allows you to identify the group and process the speech signal in hardware and software based on the characteristics of the phoneme groups thus identified.

Смычные глухие шумные согласные (I) определяются следующими акустическими признаками: отсутствием основного тона и широполосных шумов, и характеризуются смычкой, то есть фактическим отсутствием речевого сигнала, и последующими кратковременными широкополосными шумами. Смычные глухие шумные согласные отличаются от пауз между словами длиной смычки, которая значительно короче паузы между словами, и наличием последующего взрыва, характеризующегося кратковременными широкополосными шумами.The closed, dull, noisy consonants (I) are determined by the following acoustic features: the absence of a fundamental tone and broadband noise, and are characterized by a bow, that is, an actual absence of a speech signal, and subsequent short-term wide-band noise. The closed, dull, noisy consonants differ from the pauses between words with the length of the bow, which is much shorter than the pause between words, and the presence of a subsequent explosion, characterized by short-term wide-band noises.

Смычные звонкие шумные согласные (II) однозначно определяются следующими акустическими признаками: наличием основного тона и отсутствием широполосных шумов на месте смычки, а также последующими кратковременными широкополосными шумами на месте взрыва.The loud voiced noisy consonants (II) are unambiguously determined by the following acoustic features: the presence of the fundamental tone and the absence of broadband noise at the site of the bow, as well as subsequent short-term wideband noise at the site of the explosion.

Глухие шумные щелевые согласные (III) определяются следующими акустическими признаками: отсутствием основного тона, наличием широполосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.Deaf noisy slotted consonants (III) are determined by the following acoustic features: the absence of a fundamental tone, the presence of broadband noise, the absence of high-frequency noise, and the absence of sonority.

Звонкие шумные щелевые согласные (IV) определяются следующими акустическими признаками: наличием основного тона, наличием широполосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.Voiced noisy slotted consonants (IV) are determined by the following acoustic features: the presence of a fundamental tone, the presence of broadband noise, the absence of high-frequency noise, and the absence of sonority.

Глухие сибилянты (V) определяются следующими акустическими признаками: отсутствием основного тона, наличием широполосных шумов, наличием высокочастотных шумов, отсутствием сонорности.Deaf sibilants (V) are determined by the following acoustic features: lack of pitch, presence of broadband noise, presence of high-frequency noise, lack of sonority.

Звонкие сибилянты (VI) определяются следующими акустическими признаками: наличием основного тона, наличием широполосных шумов, наличием высокочастотных шумов, отсутствием сонорности.The sonorous sibilants (VI) are determined by the following acoustic features: the presence of the fundamental tone, the presence of broadband noise, the presence of high-frequency noise, and the absence of sonority.

Носовые и щелевые сонанты (VII) определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой отсутствия гласного.Nasal and fissured sonants (VII) are determined by the following acoustic features: the presence of a fundamental tone, the presence of sonorrhea, and the acoustic characteristic of the absence of a vowel.

Дрожащие сонанты (VIII) определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, наличием перепада интенсивности речевого сигнала.Trembling sonants (VIII) are determined by the following acoustic features: the presence of the fundamental tone, the presence of sonority, the presence of a difference in the intensity of the speech signal.

Гласные заднего ряда (IX) определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой присутствия гласного, акустической характеристикой заднего ряда гласного.The vowels of the back row (IX) are determined by the following acoustic features: the presence of the main tone, the presence of sonority, the acoustic characteristic of the presence of the vowel, the acoustic characteristic of the back row of the vowel.

Гласные смешанного ряда (X) определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой присутствия гласного, акустической характеристикой смешанного ряда гласного.Mixed vowels (X) are determined by the following acoustic features: the presence of the fundamental tone, the presence of sonority, the acoustic characteristic of the presence of a vowel, the acoustic characteristic of a mixed vowel.

Гласные переднего ряда (XI) определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой присутствия гласного, акустической характеристикой переднего ряда гласного.Vowels of the front row (XI) are determined by the following acoustic features: the presence of the main tone, the presence of sonority, the acoustic characteristic of the presence of the vowel, the acoustic characteristic of the front row of the vowel.

Аффрикаты рассматриваются как последовательное произнесение соответствующих смычного и щелевого согласного, т.е. /с/ - это комбинация /t/ и /s/, a /ch/ - это комбинация /t/ и /sch'/, что отражается в транскрипции словаря блока 4.Affricates are considered as a sequential pronunciation of the corresponding consonant and crevice consonant, i.e. / s / is a combination of / t / and / s /, a / ch / is a combination of / t / and / sch '/, which is reflected in the transcription of the dictionary of block 4.

Все признаки по группам фонем приведены в таблице 1.All signs by phoneme groups are given in table 1.

Figure 00000001
Figure 00000001

Соответствие используемых групп фонем и фонем русского и английского языка приведены в таблице 2.The correspondence of the used phoneme and phoneme groups of the Russian and English languages is given in table 2.

Таблица 2table 2 Символ группы фонемPhoneme Group Symbol Условное обозначение группы фонемSymbols of a group of phonemes Фонемы, объединенные в группуGrouped phonemes II смычные глухие шумные согласныеbowed deaf noisy consonants /р/, /р'/, /k/, /k'/, /t/, /t'// p /, / p '/, / k /, / k' /, / t /, / t '/ IIII смычные звонкие шумные согласныеinterconnected voiced noisy consonants /b/, /b'/, /g/, /g'/, /d/, /d'// b /, / b '/, / g /, / g' /, / d /, / d '/ IIIIII глухие шумные щелевые согласныеdull noisy slotted consonants /f/, /f'/, /h/, /h'// f /, / f '/, / h /, / h' / IVIV звонкие шумные щелевые согласныеvoiced noisy slotted consonants /v/, /v'// v /, / v '/ VV глухие сибилянтыdeaf sibilants /s/, /s'/, /sh/, /sch'// s /, / s '/, / sh /, / sch' / VIVI звонкие сибилянтыvoiced sibilants /z/, /z'/, /zh// z /, / z '/, / zh / VIIVII носовые и щелевые сонантыnasal and fissured sonants /n/, /n'/, /m/, /m'/, /l/, /l'// n /, / n '/, / m /, / m' /, / l /, / l '/ VIIIVIII дрожащие сонантыtrembling sonants /r/, /r'// r /, / r '/ IXIX гласные переднего рядаfront row vowels /i/, /y/, /j'// i /, / y /, / j '/ ХX гласные смешанного рядаmixed vowels /e/, /a// e /, / a / XIXi гласные заднего рядаback vowels /u/, /o// u /, / o /

Соответствие используемых групп фонем и фонем русского и английского языка приведены в таблице 3.The correspondence of the used phoneme and phoneme groups of the Russian and English languages is given in table 3.

Таблица 3Table 3 Символ группы фонемPhoneme Group Symbol Условное обозначение группы фонемSymbols of a group of phonemes Фонемы, объединенные в группуGrouped phonemes II смычные глухие шумные согласныеbowed deaf noisy consonants Р, Т, KP, T, K IIII смычные звонкие шумные согласныеinterconnected voiced noisy consonants В, D, GB, D, G IIIIII глухие шумные щелевые согласныеdull noisy slotted consonants F, НН, ТНF, NN, TH IVIV звонкие шумные щелевые согласныеvoiced noisy slotted consonants V, DHV, DH VV глухие сибилянтыdeaf sibilants Z, ZHZ, ZH VIVI звонкие сибилянтыvoiced sibilants S, SHS, SH VIIVII носовые и щелевые сонантыnasal and fissured sonants N, M, L, NGN, M, L, NG VIIIVIII дрожащие сонантыtrembling sonants RR IXIX гласные переднего рядаfront row vowels EH, ER, IH, YT, JH, YEH, ER, IH, YT, JH, Y XX гласные смешанного рядаmixed vowels AA, АН, АЕAA, AN, AE XIXi гласные заднего рядаback vowels АО, UH, UWAO, UH, UW

Транскрипционные значки в таблице 3 приведены с использованием алфавита ARPAbet, стандартно применяемого во многих современных системах распознавания речи для английского языка.The transcription icons in table 3 are shown using the ARPAbet alphabet, which is standardly used in many modern speech recognition systems for the English language.

Как видно из данных, представленных в таблицах 2 и 3, признаки групп фонем с одинаковой степенью достоверности позволяют идентифицировать звуки речи как для русского языка, так и для английского, что подтверждает универсальность заявленного способа распознавания речи вне зависимости от языковой системы.As can be seen from the data presented in tables 2 and 3, the signs of phoneme groups with the same degree of reliability allow us to identify speech sounds for both the Russian language and English, which confirms the universality of the claimed method of speech recognition regardless of the language system.

Распознавание речи осуществляют на основе метода последовательного декодирования последовательностей символов, обозначающих группы фонем, в цепочку слов, составляющих высказывание (текст). Для определения слова по последовательности символов, обозначающих группы фонем, используется произносительный словарь, состоящий из списка слов и соответствующих им транскрипций, размеченный в символах групп фонем. Вначале этапа словарь загружают в оперативную память устройства и каждое слово кодируют в символах групп фонем по таблице соответствия. Разбор входной комбинации символов осуществляют на основании последовательного метода, который определяет варианты подходящих слов из словаря по последовательности символов фонем, пока варианты не приведут к единственному слову из словаря наибольшей длины (с наибольшим числом в составе из входной последовательности символов групп фонем). После этого начинается разбор следующей входной последовательности, начиная с первого символа группы фонем после входящего в определенное ранее слово.Speech recognition is carried out on the basis of the method of sequential decoding of sequences of characters denoting phoneme groups into a chain of words making up a statement (text). To determine a word by a sequence of characters denoting phoneme groups, a pronunciation dictionary is used, consisting of a list of words and their corresponding transcriptions, marked up in the characters of phoneme groups. At the beginning of the stage, the dictionary is loaded into the RAM of the device and each word is encoded in the symbols of phoneme groups according to the correspondence table. Analysis of the input symbol combination is carried out on the basis of a sequential method that determines the variants of suitable words from the dictionary by the sequence of phoneme symbols until the variants lead to the only word from the dictionary of the greatest length (with the largest number of phoneme group symbols from the input sequence). After that, the analysis of the next input sequence begins, starting with the first character of the phoneme group after the word included in the previously defined one.

Когда обработка входной последовательности символов групп доходит до самой краткой формы слова, имеющейся в словаре, проводится дальнейший выбор из вариантов этого слова с окончаниями и составными словами последовательности этой формы слова. Если следующий символ в последовательности не дает ни одного из вариантов продолжения этого слова, то это конечная форма слова, и происходит переход на определение нового слова. Если есть варианты окончания для этого слова по следующему символу, то выбирается этот вариант до конца. В случае, если выбранная наиболее длинная форма слова из словаря, соответствующая входной последовательности символов, приводит к неразборчивости последующей цепочки (не соответствию ни одному слову из словаря), проверяются варианты с другими формами (более короткими и не составными) этого слова. И если выбор более короткой формы приводит к разборчивости последующей последовательности, выбирается более короткий вариант слова.When the processing of the input sequence of group symbols reaches the shortest form of the word in the dictionary, a further selection is made from the variants of this word with endings and compound words of the sequence of this form of the word. If the next character in the sequence does not give any of the options for the continuation of this word, then this is the final form of the word, and there is a transition to the definition of a new word. If there are ending options for this word for the next character, then this option is selected to the end. If the selected longest word form from the dictionary, corresponding to the input sequence of characters, leads to illegibility of the subsequent chain (does not match any word from the dictionary), variants with other forms (shorter and not compound) of this word are checked. And if the choice of a shorter form leads to legibility of the subsequent sequence, a shorter version of the word is selected.

Если входная последовательность символов не соответствует ни одному слову из словаря или его левой части (приводит к нулевому выбору слов из словаря), то она отсекается по одному символу из последовательности символов фонем, пока последующий разбор слов (справа от отсеченного) не окажется удачным.If the input character sequence does not correspond to any word from the dictionary or its left part (leads to a zero choice of words from the dictionary), then it is cut off one character from the sequence of phoneme characters until the subsequent analysis of the words (to the right of the cut off) is successful.

Реализация способа согласно изобретению проиллюстрирована на нижеприведенном примере, дающем представление о работе способа и системы, но не являющемся исчерпывающим.Implementation of the method according to the invention is illustrated in the following example, giving representation of the method and system, but is not exhaustive.

Пример распознавания на примере распознавания слова «ПРИВЕТ»Recognition example on the example of recognition of the word "HELLO"

Слово «привет» и его транскрипции:The word "hello" and its transcriptions:

- орфографическая запись: привет;- spelling: hello;

- фонемная транскрипция: /р r' i v' e t/;- phonemic transcription: / p r 'i v' e t /;

- символьная транскрипция на основе признаков групп фонем: /I VIII IX IV Х I/ в соответствии с таблицей 2.- symbolic transcription based on the signs of phoneme groups: / I VIII IX IV X I / in accordance with table 2.

На фиг.3в) обозначены следующие уровни сегментации:On figv) designated the following levels of segmentation:

L1 - разметка речевого сигнала на аллфоны.L1 - marking the speech signal to allphones.

L2 - определенные группы фонем.L2 - specific groups of phonemes.

L3 - уровень наличия перепада интенсивности речевого сигнала. Обозначения: R - наличие перепада интенсивности речевого сигнала, not - отсутствие перепада интенсивности речевого сигнала.L3 is the level of the difference in the intensity of the speech signal. Legend: R - the presence of a difference in the intensity of the speech signal, not - the absence of a difference in the intensity of the speech signal.

L4 - уровень акустического признака гласного. Обозначения: i - гласный переднего ряда, а - гласный смешанного ряда, u - гласный заднего ряда.L4 is the level of the acoustic sign of the vowel. Legend: i - vowel of the front row, a - vowel of the mixed series, u - vowel of the back row.

L5 - уровень наличия сонорности. Обозначения: sonant - наличие сонорности, not - отсутствие сонорности.L5 is the level of the presence of drowsiness. Designations: sonant - the presence of sonorrhea, not - the absence of sonorrhea.

L6 - уровень наличия высокочастотных шумов. Обозначения: sibilant - наличие высокочастотных шумов, not - отсутствие высокочастотных шумов.L6 - level of high-frequency noise. Designations: sibilant - the presence of high-frequency noise, not - the absence of high-frequency noise.

L7 - уровень наличия основного тона. Обозначения: voiced - наличие основного тона, unvoiced - отсутствие основного тона.L7 - the level of the presence of the fundamental tone. Designations: voiced - presence of the fundamental tone, unvoiced - absence of the fundamental tone.

L8 - уровень наличия широполосных шумов. Обозначения: not - наличие широполосных шумов, closure - отсутствие широполосных шумов.L8 is the level of broadband noise. Legend: not - the presence of broadband noise, closure - the absence of broadband noise.

L9 - уровень наличия гласного. Обозначения: vowel - наличие гласного, not - отсутствие гласного.L9 is the vowel level. Designations: vowel - the presence of a vowel, not - the absence of a vowel.

Разбор последовательности символов в текстParsing a sequence of characters into text

Входной речевой (акустический) сигнал обрабатывают в блоке анализа и нормализации спектра. Длина речевого сигнала слова "привет" составляет около 700 мс. Речевой сигнал представляют в виде последовательности из 28 окон длиной в 25 мс. В каждом окне при помощи процедуры быстрого преобразования Фурье вычисляют спектр на частоте 0-7000 Гц. Полученный спектр нормализуют. Последовательность окон нормализованного сигнала поступает в блок определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем, который определяет, что слово "привет" (в транскрипции pr'iv'et) соответствует последовательности I VIII IX IV Х I. Определение производилось на экспериментальном частотном словаре в 2400 словоформ. Минимальное слово, которое соответствует комбинации от первого символа, - I VIII IX выявляет предлог pr'i. В выборку этого слова входит 49 словоформ (слов, начинающихся с последовательности I VIII IX). Дальнейший выбор происходит только из данной выборки слов, помещенных в хэш-программы. Следующий символ группы сужает выборку до 12 слов, соответствующих словоформам - привет, прививка, включая привитый, прививать и др., приветствую, включая приветствует, приветствуют, приветствуем, приветливый и др. Выбор продолжают, так как все слова имеют большую длину по числу фонем относительно неразобранной последовательности. Четвертый символ в последовательности не сужает выбор, а пятый (X) сужает его на все словоформы слова "прививка". Шестой символ (I) не сужает выбор из оставшихся словоформ слова "привет" в символах групп, но это последний символ, и такой последовательности символов групп соответствует только одно слово - "привет". Как видно из представленного примера, система и способ распознавания речи не требует обращения к каким-либо образцам произнесения слов и не связан с характерными особенностями произношения, так как процесс распознавания основан на объективных акустических характеристиках речевого сигнала, являющихся дикторонезависимыми, и их сопоставлении с признаками групп фонем, и использовании произносительного словаря, размеченного в терминах групп фонем, с обеспечением возможности осуществления последовательно выборки слов из словаря по набору символов групп фонем с сужением выборки до единственного слова при последовательном добавлении символа справа от минимальной последовательности символов, определяющих обособленное слово из словаря и следующих за ним возможных словоформ, исключая последовательное пофонемное распознавание звуков, требующее учета особенностей речи диктора, с последующим распознаванием слов.The input speech (acoustic) signal is processed in the analysis and normalization unit of the spectrum. The length of the speech signal of the word "hello" is about 700 ms. The speech signal is represented as a sequence of 28 windows 25 ms long. In each window, using the fast Fourier transform procedure, a spectrum is calculated at a frequency of 0-7000 Hz. The resulting spectrum is normalized. The sequence of windows of the normalized signal enters the unit for determining the presence of acoustic signs and the formation of a sequence of characters denoting groups of phonemes, which determines that the word "hello" (in transcription pr'iv'et) corresponds to the sequence I VIII IX IV X I. The determination was made on an experimental frequency dictionary of 2400 word forms. The smallest word that matches the combination of the first character is I VIII IX reveals the preposition pr'i. The sample of this word includes 49 word forms (words starting with sequence I VIII IX). Further selection comes only from a given sample of words placed in hash programs. The next group symbol narrows the sample to 12 words corresponding to word forms - hello, vaccination, including vaccinated, vaccinate, etc., greetings, including greetings, greetings, greetings, friendly, etc. The choice is continued, since all words are long in the number of phonemes relatively unassembled sequence. The fourth character in the sequence does not restrict the choice, and the fifth (X) narrows it to all word forms of the word "vaccination". The sixth character (I) does not restrict the choice of the remaining word forms of the word "hello" in the symbols of the groups, but this is the last character, and only one word corresponds to such a sequence of group symbols - "hello". As can be seen from the presented example, the speech recognition system and method does not require access to any pronunciation patterns of words and is not associated with the characteristic features of pronunciation, since the recognition process is based on objective acoustic characteristics of the speech signal, which are speaker-independent, and their comparison with the characteristics of the groups phonemes and use the pronunciation dictionary markup groups in terms of phonemes, ensuring the possibility of successively sampling dictionary words for a set of characters of phoneme groups with a narrowing of the sample to a single word by sequentially adding a character to the right of the minimum sequence of characters defining a separate word from the dictionary and subsequent possible word forms, excluding sequential phonemic sound recognition, which requires taking into account the peculiarities of the speaker’s speech, followed by word recognition.

Таким образом, система и способ распознавания слитной речи в звуковом потоке согласно изобретению позволяет существенно сократить длительность распознавания речи в сочетании с высокой точностью за счет распознавания речи по цепочке символов групп фонем, исключая пофонемное распознавание, требующее больших временных затрат и значительных аппаратных ресурсов. Одновременное определение несколько основополагающих признаков звучащей речи, включающих в себя наличие или отсутствие основного тона, наличие или отсутствие широкополосных шумов, наличие или отсутствие перепада интенсивности речевого сигнала, наличие или отсутствие высокочастотных шумов, наличие или отсутствие сонорности, акустический признак присутствия или отсутствия гласного, акустический признак ряда гласного, позволяет классифицировать речевой сигнал в соответствии с признаками, являющимися независимыми от акустических характеристик разных дикторов, а также языка на котором, произносится речь.Thus, the system and method for recognizing continuous speech in a sound stream according to the invention allows to significantly reduce the duration of speech recognition in combination with high accuracy due to speech recognition by the chain of characters of phoneme groups, excluding phonon recognition, which requires a lot of time and considerable hardware resources. Simultaneous determination of several fundamental signs of sounding speech, including the presence or absence of a fundamental tone, the presence or absence of broadband noise, the presence or absence of a difference in the intensity of a speech signal, the presence or absence of high-frequency noise, the presence or absence of sonority, an acoustic sign of the presence or absence of a vowel, acoustic feature of a vowel series, allows you to classify a speech signal in accordance with features that are independent of acoustic characteristics akteristik different speakers, as well as the language in which pronounced it.

Claims (19)

1. Способ распознавания речи, включающий последовательно исполняемые этапы приема речевого сигнала на входе блока приема; обработки речевого сигнала блоком обработки информации, включающей его обработку аналого-цифровым преобразователем с предустановленной частотой дискретизации и разделением на сегменты, спектрального анализа сегментов речевого сигнала и нормализации спектра на высоких частотах; выделения в нормализованном спектре пауз, шумов и звуковых сигналов с последующим его распознаванием и преобразованием в текст с использованием предустановленного словаря, отличающийся тем, что на этапе распознавания на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте определяют наличие/отсутствие акустических признаков речевого сигнала, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти, и осуществляют сравнение определенных комбинаторных наборов акустических признаков сегмента с предустановленными параметрами групп фонем, с одновременным формированием последовательности символов, обозначающих группы фонем, соответствующие комбинаторным наборам акустических признаков каждого сегмента, преобразование которой в связный текст осуществляют последовательным декодированием комбинаторного сочетания символов групп фонем последовательности на основе словаря, размеченного по символам групп фонем.1. A method of speech recognition, comprising sequentially executed steps for receiving a speech signal at the input of a receiving unit; processing the speech signal by the information processing unit, including its processing by an analog-to-digital converter with a pre-set sampling frequency and segmentation, spectral analysis of the speech signal segments and normalization of the spectrum at high frequencies; selection in the normalized spectrum of pauses, noise and sound signals with its subsequent recognition and conversion into text using a predefined dictionary, characterized in that at the stage of recognition based on the original speech signal and normalized spectrum in each segment, the presence / absence of acoustic features of the speech signal is determined, combinatorial sets of which characterize groups of phonemes whose parameters are predefined in the memory block and compare certain combinatorial sets of acoustic features of a segment with predefined parameters of phoneme groups, with the simultaneous formation of a sequence of characters denoting phoneme groups corresponding to combinatorial sets of acoustic features of each segment, the conversion of which into connected text is carried out by sequential decoding of the combinatorial combination of characters of phoneme groups of a sequence based on a dictionary marked up with group symbols phonemes. 2. Способ распознавания по п.1, отличающийся тем, что при классификации групп фонем используют комбинаторный набор акустических признаков, включающий определение наличия или отсутствия в речевом сигнале, по меньшей мере, основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного, комбинаторное сочетание которых формирует 11 групп фонем с неповторяемым набором акустических признаков: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда.2. The recognition method according to claim 1, characterized in that when classifying phoneme groups, a combinatorial set of acoustic features is used, including determining the presence or absence in the speech signal of at least the fundamental tone, broadband noise, the difference in the intensity of the speech signal, high-frequency noise, sonorities, vowels, vowels, a combinatorial combination of which forms 11 groups of phonemes with a unique set of acoustic features: interconnected deaf noisy consonants, interconnected voiced noisy consonants, deaf noise slit consonants, voiced noisy slit consonants, deaf sybilants, voiced sybilants, nasal and slit sonants, trembling sonants, front vowels, mixed vowels and back vowels. 3. Способ распознавания по п.1, отличающийся тем, что часть акустических признаков вычисляют из осциллограммы, а остальные - из спектра речевого сигнала, получаемого при помощи быстрого преобразования Фурье.3. The recognition method according to claim 1, characterized in that some of the acoustic features are calculated from the waveform, and the rest from the spectrum of the speech signal obtained using the fast Fourier transform. 4. Способ распознавания по п.1, отличающийся тем, что определение комбинаторного набора акустических признаков сегмента речевого сигнала осуществляют параллельно и одномоментно.4. The method of claim 1 recognition, characterized in that the set of combinatorial determining acoustic features of the speech signal segment is performed in parallel and simultaneously. 5. Способ распознавания по п.1, отличающийся тем, что на этапе распознавания речи по последовательности символов, обозначающих группы фонем, используют предустановленный словарь, размеченный по символам групп фонем.5. Detection method according to claim 1, characterized in that in step speech recognition character sequence, designating a group of phonemes using a predefined vocabulary for the markup symbols phoneme groups. 6. Способ распознавания по п.1 или 5, отличающийся тем, что преобразование последовательности символов, обозначающих группы фонем, в текст осуществляют на основе последовательного метода декодирования, заключающегося в последовательном сокращении выборки слов и словоформ из словаря, размеченного по символам групп фонем, формируемой по комбинаторной последовательности символов групп фонем от первого символа в сегменте до фрагмента последовательности, включающего комбинацию символов групп фонем, определяющую единственное слово из словаря, после которого осуществляют распознавание следующей входной последовательности.6. The recognition method according to claim 1 or 5, characterized in that the conversion of the sequence of characters denoting phoneme groups into text is carried out on the basis of the sequential decoding method, which consists in sequentially reducing the selection of words and word forms from the dictionary marked up by the characters of the phoneme groups formed by combinatorial sequence of phonemes by groups of symbols the first symbol in the segment to the sequence fragment comprising the combination of symbols groups phonemes defining a unique word of the words pn, which is carried out after recognition of the following input sequences. 7. Способ распознавания по п.2, отличающийся тем, что присутствие основного тона определяют по высокой интенсивности частотных составляющих в низкочастотной области в диапазоне возможных значений частоты основного тона, а интенсивность частотных составляющих в текущем окне определяют относительного их максимальной интенсивности в речевом сигнале на протяжении длинного отрезка речевого сигнала.7. The recognition method according to claim 2, characterized in that the presence of the fundamental tone is determined by the high intensity of the frequency components in the low frequency region in the range of possible values of the frequency of the fundamental tone, and the intensity of the frequency components in the current window determines their relative maximum intensity in the speech signal over long segment of the speech signal. 8. Способ распознавания по п.7, отличающийся тем, что интенсивность частотных составляющих в текущем окне определяют на протяжении отрезка речевого сигнала не менее 4 с.8. A method according to claim 7 recognition, characterized in that the intensity of the frequency components in the current window is determined during the speech segment with at least 4. 9. Способ распознавания по п.2, отличающийся тем, что кратковременные перепады интенсивности определяют по соотношению интенсивности речевого сигнала в трех последовательно идущих окнах обработки.9. The detection method according to claim 2, characterized in that the short-term fluctuations of the intensity determined by the ratio of the intensity of the speech signal in three consecutive processing windows. 10. Способ распознавания по п.2, отличающийся тем, что широкополосные шумы определяют по наличию интенсивных частотных составляющих в диапазоне выше возможных значений частоты основного тона и ее первой гармоники, при этом интенсивность частотных составляющих в текущем окне определяют относительно их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала.10. The recognition method according to claim 2, characterized in that broadband noise is determined by the presence of intense frequency components in the range above the possible values of the fundamental frequency and its first harmonic, while the intensity of the frequency components in the current window is determined relative to their maximum intensity in the speech signal over a relatively long length of speech. 11. Способ распознавания по п.2, отличающийся тем, что высокочастотные шумы определяют в диапазоне выше возможных значений частоты основного тона и ее первой гармоники, по отношению интенсивности частотных составляющих в области средних частот и интенсивности частотных составляющих в области высоких частот.11. The recognition method according to claim 2, characterized in that the high-frequency noise is determined in the range above the possible values of the fundamental frequency and its first harmonic, in relation to the intensity of the frequency components in the middle frequency region and the intensity of the frequency components in the high frequency region. 12. Способ распознавания по п.2, отличающийся тем, что сонорность определяют по высокой интенсивности частотных составляющих в диапазоне средних частот выше низкочастотной области в диапазоне возможных значений частоты основного тона, но вмещающих в себя диапазон возможных значений частот формант сонантов.12. The recognition method according to claim 2, characterized in that sonority is determined by the high intensity of the frequency components in the mid-frequency range above the low-frequency region in the range of possible frequencies of the fundamental tone, but containing the range of possible frequencies of the formants of the sonants. 13. Способ распознавания по п.2, отличающийся тем, что наличие гласных или сонант определяют по соответственно наличию/отсутствию гармонических составляющих в области средних и верхних частот.13. A method of recognition according to claim 2, characterized in that the presence or sonant vowels respectively determined by the presence / absence of harmonic components in the medium and high frequencies. 14. Способ распознавания по п.2, отличающийся тем, что ряд произнесения гласного определяют по соотношению интенсивности гармонических составляющих в спектре речевого сигнала в области низких частот, области средних частот и области верхних частот.14. The recognition method according to claim 2, characterized in that the vowel pronunciation series is determined by the ratio of the intensity of the harmonic components in the spectrum of the speech signal in the low frequency region, the middle frequency region and the high frequency region. 15. Способ распознавания по п.1, отличающийся тем, что на этапе декодирования последовательности символов, обозначающих группы фонем, в текст используют один или группу предустановленных тематических словарей, размеченных по символам групп фонем, разных языковых систем, выбор которых осуществляют на начальном этапе распознавания речи.15. The recognition method according to claim 1, characterized in that at the stage of decoding a sequence of characters denoting phoneme groups, one or a group of pre-installed thematic dictionaries marked up by the characters of phoneme groups, different language systems, which are selected at the initial recognition stage, are used in the text speech. 16. Система распознавания речи, включающая блок приема речевого сигнала, последовательно соединенный с аналого-цифровым преобразователем, выход которого соединен с блоком анализа и нормализации частотного спектра речевого сигнала, соединенного с блоком управления и блоком памяти, выполненной с обеспечением возможности записи и хранения распознанного речевого сигнала, хранения и вызова словаря, отличающаяся тем, что дополнительно содержит последовательно соединенные блок определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем, выполненный с обеспечением возможности формирования по текущим комбинаторным сочетаниям акустических признаков присутствующих в речевом сигнале соответствующей им последовательности символов, обозначающих группы фонем, блок декодирования последовательности символов, обозначающих группы фонем в текст, по меньшей мере, один из входов которого соединен с блоком ввода предустановленного словаря, размеченного по символам групп фонем и вызываемого из блока памяти, выполненный с обеспечением возможности определения слов на основе словаря по комбинаторному сочетанию символов групп фонем текущей последовательности, а также устройство вывода и хранения текста, по меньшей мере, один вход/выход которых соединен с блоком управления, выполненным с обеспечением возможности управления режимами функционирования блоков, обмена данными между ними и взаимодействия с блоком памяти.16. A speech recognition system comprising a speech signal receiving unit connected in series with an analog-to-digital converter, the output of which is connected to an analysis and normalization unit for the frequency spectrum of a speech signal connected to a control unit and a memory unit configured to record and store recognized speech signal, storage and call dictionary, characterized in that it further comprises a series-connected unit for determining the presence of acoustic signs and the formation of consistency of symbols denoting phoneme groups, made possible to generate, according to current combinatorial combinations of acoustic signs, the corresponding sequence of symbols denoting phoneme groups present in the speech signal, a block for decoding a sequence of characters denoting phoneme groups into text, at least one of whose inputs connected to the input unit of a predefined dictionary marked up by the symbols of phoneme groups and called from the memory block, made with the possibility of determining words on the basis of a dictionary by a combinatorial combination of symbols of phoneme groups of the current sequence, as well as a text output and storage device, at least one input / output of which is connected to a control unit configured to control the modes of functioning of the units, exchange data between them and interaction with the memory unit. 17. Система распознавания по п.16, отличающаяся тем, что вход блока определения наличия акустических признаков и формирования последовательности символов, обозначающих группы фонем, соединен с выходом аналого-цифрового преобразователя с обеспечением возможности ввода речевого сигнала и выходом блока анализа и нормализации частного спектра речевого сигнала с обеспечением возможности ввода нормализованного речевого сигнала, и блоком акустических признаков групп фонем с обеспечением возможности сравнения текущего комбинаторного набора акустических признаков речевого сигнала с параметрами набора акустических признаков предустановленных групп фонем, и соединенный с блоком памяти.17. The recognition system according to clause 16, characterized in that the input of the unit for determining the presence of acoustic signs and the formation of a sequence of characters denoting phoneme groups is connected to the output of an analog-to-digital converter with the possibility of inputting a speech signal and the output of the analysis and normalization of the private speech spectrum signal with the ability to enter a normalized speech signal, and a block of acoustic signs of phoneme groups with the possibility of comparing the current combinatorial set acoustic features of the speech signal with the parameters set of acoustic features preset groups of phonemes and connected to the memory unit. 18. Система распознавания по п.16, отличающаяся тем, что устройство вывода и хранения текста дополнительно снабжено дисплеем для вывода и отображения распознанного текста.18. The recognition system of claim 16, wherein the text output and storage device is further provided with a display for outputting and displaying the recognized text. 19. Система распознавания по любому из пп.16, 17 или 18, отличающаяся тем, что блок акустических признаков групп фонем содержит комбинаторный набор акустических признаков 11 групп фонем: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда, включающий для каждой из групп фонем по меньшей мере характеристику наличия/отсутствия в окне основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного. 19. A recognition system according to any one of claims 16, 17 or 18, characterized in that the block of acoustic signs of phoneme groups contains a combinatorial set of acoustic signs of 11 groups of phonemes: decoupled noisy consonants, decoupled voiced noisy consonants, deaf noisy slotted consonants, voiced noisy gap consonants, dull sybilants, voiced sybilants, nasal and slit sonants, trembling sonants, front row vowels, mixed row vowels and back row vowels, including at least the presence characteristic for each phoneme group I / lack of pitch window, broadband noise, the differential intensity of the speech signal, high-frequency noise, sonority, vowel, vowel series.
RU2011126653/08A 2011-06-30 2011-06-30 System and method of speech recognition RU2466468C1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2011126653/08A RU2466468C1 (en) 2011-06-30 2011-06-30 System and method of speech recognition
PCT/RU2012/000373 WO2013002674A1 (en) 2011-06-30 2012-05-12 Speech recognition system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2011126653/08A RU2466468C1 (en) 2011-06-30 2011-06-30 System and method of speech recognition

Publications (1)

Publication Number Publication Date
RU2466468C1 true RU2466468C1 (en) 2012-11-10

Family

ID=47322404

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011126653/08A RU2466468C1 (en) 2011-06-30 2011-06-30 System and method of speech recognition

Country Status (2)

Country Link
RU (1) RU2466468C1 (en)
WO (1) WO2013002674A1 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016053141A1 (en) * 2014-09-30 2016-04-07 Общество С Ограниченной Ответственностью "Истрасофт" Device for teaching conversational (verbal) speech with visual feedback
RU2606566C2 (en) * 2014-12-29 2017-01-10 Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) Method and device for classifying noisy voice segments using multispectral analysis
RU2642802C1 (en) * 2016-07-25 2018-01-26 Алексей Васильевич Глушков Method of making lists in programs by registration of voice messages by special device with following character recognition
RU2664410C2 (en) * 2015-12-08 2018-08-17 Гуанчжоу Шэньма Мобайл Информэйшн Текнолоджи Ко., Лтд. Method for double mode control, device and user terminal
RU2691603C1 (en) * 2018-08-22 2019-06-14 Акционерное общество "Концерн "Созвездие" Method of separating speech and pauses by analyzing values of interference correlation function and signal and interference mixture
RU2711153C2 (en) * 2018-05-23 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Methods and electronic devices for determination of intent associated with uttered utterance of user
RU2721223C1 (en) * 2018-06-15 2020-05-18 Кэнон Кабусики Кайся Printing system, control method and server
RU2731334C1 (en) * 2019-03-25 2020-09-01 Общество С Ограниченной Ответственностью «Яндекс» Method and system for generating text representation of user's speech fragment

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI712033B (en) * 2019-03-14 2020-12-01 鴻海精密工業股份有限公司 Voice identifying method, device, computer device and storage media
CN110074759B (en) * 2019-04-23 2023-06-06 平安科技(深圳)有限公司 Voice data auxiliary diagnosis method, device, computer equipment and storage medium
CN113327597B (en) * 2021-06-23 2023-08-22 网易(杭州)网络有限公司 Speech recognition method, medium, device and computing equipment

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0128755A1 (en) * 1983-06-07 1984-12-19 Matsushita Electric Industrial Co., Ltd. Apparatus for speech recognition
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
RU2234746C2 (en) * 2002-10-30 2004-08-20 Пермский государственный университет Method for narrator-independent recognition of speech sounds
RU2268504C1 (en) * 2004-03-30 2006-01-20 Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения" Method for recognition of speech patterns and device for realization of method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
IT1232301B (en) * 1989-09-26 1992-01-28 Olivetti & Co Spa METHOD AND RECOGNITION EQUIPMENT OF ISOLATED WORDS, IN PARTICULAR FOR VERY LARGE VOCABULARS
DE69637326D1 (en) * 1996-03-11 2007-12-27 Fonix Corp SYSTEM AND METHOD FOR SPEAKER INDEPENDENT REAL-TIME LANGUAGE IDENTIFICATION
CN1312656C (en) * 2002-09-24 2007-04-25 松下电器产业株式会社 Speaking person standarding method and speech identifying apparatus using the same
RU2296376C2 (en) * 2005-03-30 2007-03-27 Открытое акционерное общество "Корпорация "Фазотрон - научно-исследовательский институт радиостроения" Method for recognizing spoken words

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0128755A1 (en) * 1983-06-07 1984-12-19 Matsushita Electric Industrial Co., Ltd. Apparatus for speech recognition
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
RU2234746C2 (en) * 2002-10-30 2004-08-20 Пермский государственный университет Method for narrator-independent recognition of speech sounds
RU2268504C1 (en) * 2004-03-30 2006-01-20 Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения" Method for recognition of speech patterns and device for realization of method

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016053141A1 (en) * 2014-09-30 2016-04-07 Общество С Ограниченной Ответственностью "Истрасофт" Device for teaching conversational (verbal) speech with visual feedback
RU2606566C2 (en) * 2014-12-29 2017-01-10 Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) Method and device for classifying noisy voice segments using multispectral analysis
RU2664410C2 (en) * 2015-12-08 2018-08-17 Гуанчжоу Шэньма Мобайл Информэйшн Текнолоджи Ко., Лтд. Method for double mode control, device and user terminal
US10373613B2 (en) 2015-12-08 2019-08-06 Guangzhou Shenma Mobile Information Technology Co., Ltd. Dual-mode voice control method, device, and user terminal
RU2642802C1 (en) * 2016-07-25 2018-01-26 Алексей Васильевич Глушков Method of making lists in programs by registration of voice messages by special device with following character recognition
RU2711153C2 (en) * 2018-05-23 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Methods and electronic devices for determination of intent associated with uttered utterance of user
US10818284B2 (en) 2018-05-23 2020-10-27 Yandex Europe Ag Methods of and electronic devices for determining an intent associated with a spoken user utterance
RU2721223C1 (en) * 2018-06-15 2020-05-18 Кэнон Кабусики Кайся Printing system, control method and server
RU2691603C1 (en) * 2018-08-22 2019-06-14 Акционерное общество "Концерн "Созвездие" Method of separating speech and pauses by analyzing values of interference correlation function and signal and interference mixture
RU2731334C1 (en) * 2019-03-25 2020-09-01 Общество С Ограниченной Ответственностью «Яндекс» Method and system for generating text representation of user's speech fragment
US11043215B2 (en) 2019-03-25 2021-06-22 Yandex Europe Ag Method and system for generating textual representation of user spoken utterance

Also Published As

Publication number Publication date
WO2013002674A1 (en) 2013-01-03

Similar Documents

Publication Publication Date Title
RU2466468C1 (en) System and method of speech recognition
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Zissman et al. Automatic language identification
US4181813A (en) System and method for speech recognition
US4852170A (en) Real time computer speech recognition system
US4284846A (en) System and method for sound recognition
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US6553342B1 (en) Tone based speech recognition
US20040073423A1 (en) Phonetic speech-to-text-to-speech system and method
JPH09500223A (en) Multilingual speech recognition system
Mouaz et al. Speech recognition of moroccan dialect using hidden Markov models
JPH0968994A (en) Word voice recognition method by pattern matching and device executing its method
WO2011046474A2 (en) Method for identifying a speaker based on random speech phonograms using formant equalization
KR20140121580A (en) Apparatus and method for automatic translation and interpretation
Pellegrino et al. Automatic language identification: an alternative approach to phonetic modelling
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
CN110570842B (en) Speech recognition method and system based on phoneme approximation degree and pronunciation standard degree
Mishra et al. An Overview of Hindi Speech Recognition
Mary et al. Automatic syllabification of speech signal using short time energy and vowel onset points
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
JPS6138479B2 (en)
KR100391123B1 (en) speech recognition method and system using every single pitch-period data analysis
Tzudir et al. Analyzing RMFCC feature for dialect identification in Ao, an under-resourced language
Tunalı A speaker dependent, large vocabulary, isolated word speech recognition system for turkish
Yoon et al. Voice quality dependent speech recognition

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20140701