RU2234746C2 - Method for narrator-independent recognition of speech sounds - Google Patents

Method for narrator-independent recognition of speech sounds Download PDF

Info

Publication number
RU2234746C2
RU2234746C2 RU2002129029/09A RU2002129029A RU2234746C2 RU 2234746 C2 RU2234746 C2 RU 2234746C2 RU 2002129029/09 A RU2002129029/09 A RU 2002129029/09A RU 2002129029 A RU2002129029 A RU 2002129029A RU 2234746 C2 RU2234746 C2 RU 2234746C2
Authority
RU
Russia
Prior art keywords
sound
speech
segment
voice
sound segment
Prior art date
Application number
RU2002129029/09A
Other languages
Russian (ru)
Other versions
RU2002129029A (en
Inventor
И.А. Грибанов (RU)
И.А. Грибанов
Original Assignee
Пермский государственный университет
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Пермский государственный университет filed Critical Пермский государственный университет
Priority to RU2002129029/09A priority Critical patent/RU2234746C2/en
Publication of RU2002129029A publication Critical patent/RU2002129029A/en
Application granted granted Critical
Publication of RU2234746C2 publication Critical patent/RU2234746C2/en

Links

Landscapes

  • Telephone Function (AREA)

Abstract

FIELD: voice recognition technology.
SUBSTANCE: method includes segmentation of voice signal with time, determination of periodicity of each sound segment for comparing sound segment with certain type of voice sounds, determination of amplitude and frequency of each of first three formants in spectrum of sound segment in form of informative indications, integration of these indications for each sound segment, phoneme recognition of each sound segment by means of comparing its integral values, taking decision relatively to recognized voice sound and its representation in form of letter marking. Comparing of sound segment is performed to voice, noise and voice-noise types of sounds of speech, main segmentation of voice signal is performed at three main modes, at phoneme recognition integral values of informative indications of each sound fragment are compared dependent on number of formants in sound segment, time intervals of speech sounds are set dependent on change of phoneme belonging of sound segment, after which said decision is taken relatively to recognized sound of speech.
EFFECT: higher probability of correct recognition of speech sounds which form words.
1 dwg

Description

Изобретение относится к системам обработки информации, а именно к способам построения систем распознавания речи.The invention relates to information processing systems, and in particular to methods for constructing speech recognition systems.

Известен способ распознавания, построенный с использованием методов фонемного анализа (патент США №5315689, МПК G 10 L 5/06, 1995), в котором применяется двухуровневая обработка речевого сигнала. Блок первого уровня осуществляет распознавание слова (команды) как звукового (слухового) образа в целом. Альтернативный блок второго уровня производит фонемное распознавание звукового сигнала.A known recognition method constructed using phoneme analysis methods (US patent No. 5315689, IPC G 10 L 5/06, 1995), which uses two-level processing of the speech signal. The first level block recognizes a word (command) as a sound (auditory) image as a whole. An alternative block of the second level produces phonemic recognition of the audio signal.

Недостатком этого способа является снижение степени вероятности правильного распознавания слов (фраз) при увеличении объема словаря распознаваемых слов.The disadvantage of this method is the reduction in the probability of correct recognition of words (phrases) with an increase in the volume of the dictionary of recognizable words.

В качестве ближайшего аналога автором принят способ обработки речевого сигнала с использованием блока первого уровня, построенного на основании метода динамического программирования, и блока второго уровня, построенного с использованием методов фонемного анализа (патент RU №2103753, МПК G 10 L 5/04, приоритет 03.02.97 г.). Блок первого уровня отбирает наиболее вероятных кандидатов слов для анализируемого сигнала и выбора на втором уровне наиболее вероятной альтернативы из отобранных кандидатов, отличающийся тем, что результаты распознавания речевого сигнала на первом и втором уровнях анализируют блоком принятия решения и в случае несоответствия указанного результата требованиям блока принятия решения формируют сигнал переспроса блока первого уровня.As the closest analogue, the author adopted a method for processing a speech signal using a first-level block constructed based on the dynamic programming method and a second-level block constructed using phonemic analysis methods (patent RU No. 2103753, IPC G 10 L 5/04, priority 03.02 .97 g.). The first level block selects the most probable word candidates for the analyzed signal and selects the most probable alternative from the selected candidates at the second level, characterized in that the speech signal recognition results at the first and second levels are analyzed by the decision block and, if the specified result does not meet the requirements of the decision block form a signal for interrogation of the block of the first level.

Основным недостатком способа по патенту RU №2103753 является снижение степени вероятности правильного распознавания слов (фраз) при увеличении объема словаря распознаваемых слов.The main disadvantage of the method according to patent RU No. 2103753 is the reduction in the probability of correct recognition of words (phrases) with an increase in the volume of the dictionary of recognized words.

Перед заявителем изобретения поставлена задача повышения вероятности правильного фонемного распознавания звуков речи, осуществляемого без предварительной подстройки под голос диктора.The applicant of the invention has the task of increasing the probability of correct phoneme recognition of speech sounds, carried out without prior adjustment to the voice of the speaker.

Указанная задача решается за счет того что применяется способ дикторонезависимого фонемного распознавания звуков речи, образующих слова, содержащий многоуровневую обработку сигнала. Отличительная особенность способа состоит в том, что ведут многоуровневую обработку речевого сигнала, при которой определяют фонемное соответствие обрабатываемого сигнала с использованием интеграции значений таких его информативных признаков, как амплитуда и частота первых трех формант.This problem is solved due to the fact that a method of speaker-independent phoneme recognition of speech sounds that form words containing multilevel signal processing is applied. A distinctive feature of the method is that they carry out multi-level processing of the speech signal, in which the phonemic correspondence of the processed signal is determined using the integration of the values of its informative features, such as the amplitude and frequency of the first three formants.

Технический результат заявленного изобретения состоит в повышении вероятности правильного распознавания звуков речи, входящих в состав слов. Указанная задача решается за счет того что применяется способ дикторонезависимого распознавания звуков речи, образующих слова, содержащий многоуровневую обработку сигнала, с определением на первом уровне периодичности таких акустических составляющих звукового сигнала, которые позволяют соотносить звуковой сегмент (предварительная сегментация) по способу его образования к одному из трех видов: голосовому, шумовому, шумно-голосовому. На втором уровне осуществляется основная сегментация звуков речи. На третьем - посегментное определение значений таких иформативных признаков звуков речи, как амплитуда и частота первых трех формант (пики в спектре звука). На четвертом уровне производится фонемное распознавание каждого звукового сегмента на основании интеграции значений информативных признаков обрабатываемого сигнала и сопоставления с имеющимся банком данных, отдельно для каждого вида и типа (сигнал с одной, двумя и тремя формантами) звука. На пятом уровне в зависимости от изменения фонемной принадлежности сегмента устанавливаются временные границы звуков речи. На шестом уровне принимается итоговое фонемное решение относительно распознаваемого звука речи и представление его в виде буквенного или транскрипционного обозначения.The technical result of the claimed invention is to increase the likelihood of correct recognition of speech sounds that are part of the words. This problem is solved due to the fact that the method of speaker-independent recognition of speech sounds that form words containing multilevel signal processing is applied, with the determination at the first level of the frequency of such acoustic components of the sound signal that allow you to correlate the sound segment (preliminary segmentation) by one of its formation methods to one of three types: voice, noise, noise-voice. At the second level, the main segmentation of speech sounds is carried out. On the third - a step-by-step determination of the values of such informative features of speech sounds as the amplitude and frequency of the first three formants (peaks in the sound spectrum). At the fourth level, phonemic recognition of each sound segment is performed based on the integration of the values of the informative features of the processed signal and comparison with the existing data bank, separately for each type and type (signal with one, two and three formants) of the sound. At the fifth level, depending on the change in the phonemic affiliation of the segment, the time boundaries of speech sounds are set. At the sixth level, the final phoneme decision is made regarding the recognizable sound of speech and its presentation in the form of an alphabetic or transcriptional designation.

Указанные выше отличительные признаки каждый в отдельности и все совместно направлены на решение поставленной задачи и являются существенными. Использование предлагаемого сочетания существенных отличительных признаков в известном уровне техники не обнаружено, следовательно, предлагаемое техническое решение соответствует критерию патентоспособности “новизна”.The above distinguishing features each individually and all together are aimed at solving the problem and are significant. The use of the proposed combination of significant distinguishing features in the prior art is not found, therefore, the proposed technical solution meets the patentability criterion of “novelty”.

Единая совокупность новых существенных признаков с общими, известными обеспечивает решение поставленной задачи, является не очевидной для специалистов в данной области техники и свидетельствует о соответствии заявленного технического решения критерию патентоспособности “изобретательский уровень”.A single set of new essential features with common, well-known provides a solution to the problem, is not obvious to specialists in this field of technology and indicates that the claimed technical solution meets the patentability criterion of “inventive step”.

Пример осуществления изобретенияAn example embodiment of the invention

Настоящее изобретение конкретно иллюстрируется следующим примером осуществления изобретения, который иллюстрирует, но не ограничивает объем использования изобретения.The present invention is specifically illustrated by the following embodiment, which illustrates, but does not limit the scope of use of the invention.

Основой способа является классификация и интеграция информативных признаков звуков речи, таких как частотные и амплитудные значения первых трех условных формант звука, частотные значения их основного тона, акустические характеристики, соответствующие источнику звука (шум-голос), и общие длительности их звучания. В структурном виде рассматриваемый способ распознавания можно представить следующим образом.The basis of the method is the classification and integration of informative features of speech sounds, such as the frequency and amplitude values of the first three conditional sound formants, the frequency values of their fundamental tone, acoustic characteristics corresponding to the sound source (noise-voice), and the total duration of their sound. In a structural form, the recognition method under consideration can be represented as follows.

1. Определение участия голосового источника в образовании звука речи.1. Determination of the participation of the voice source in the formation of the sound of speech.

2. Определение участия шумового источника в образовании звука речи.2. Determining the participation of a noise source in the formation of speech sound.

Далее в зависимости от условий образования звука речи (голосовой, шумный, шумно-голосовой) и количества достаточно четко выраженных формант (пиков в спектре звука речи) до трех включительно выбирается один из девяти возможных вариантов распознавания:Further, depending on the conditions for the formation of speech sound (voice, noisy, noisy-voice) and the number of sufficiently pronounced formants (peaks in the spectrum of speech sound) up to three, one of nine possible recognition options is selected:

1. Голосовой одноформантный.1. Voice uniform.

2. Шумный одноформантный.2. Noisy one-form.

3. Шумно-голосовой одноформантный.3. Noisy voice uniform.

4. Голосовой двухформантный.4. Voice two-form.

5. Шумный двухформантный.5. Noisy two-form.

6. Шумно-голосовой двухформантный.6. Noisy-voice two-form.

7. Голосовой трехформантный.7. Voice three-form.

8. Шумный трехформантный.8. Noisy three-form.

9. Шумно-голосовой трехформантный.9. Noisy voice three-form.

Далее следует операция интеграции значений информативных признаков звуков речи и обращение к файлам-идентификаторам, в которых хранятся значения интегральных амплитудно-частотных характеристик формант, чем в итоге и определяется фонемная принадлежность того или иного звука речи. На завершающем этапе распознавания на основании значений относительной временной длительности дифференцируются краткие звуки речи, такие, как й, к, п, б и др.The following is the operation of integrating the values of informative features of speech sounds and accessing identifier files that store the values of the integral amplitude-frequency characteristics of formants, which ultimately determines the phonemic affiliation of a speech sound. At the final stage of recognition, based on the values of the relative time duration, brief speech sounds, such as th, k, n, b, etc., are differentiated.

На чертеже изображена схема осуществления предлагаемого способа фонемного распознавания звуков речи.The drawing shows a diagram of an implementation of the proposed method of phonemic recognition of speech sounds.

На первом уровне 1 производится определение периодичности таких акустических составляющих речевого (звукового) сигнала (PC), которые позволяют соотносить звуковой сегмент по способу его образования к одному из трех видов звуков речи: голосовому, шумному, шумно-голосовому, при этом временная длительность обрабатываемого сигнала определяется его предварительной сегментацией. На втором уровне 2-4 осуществляется основная сегментация звуков речи по трем различным режимам, в зависимости от определенного на первом уровне вида обрабатываемого звукового сигнала. На третьем уровне 5-7 проводится спектральный анализ и посегментное определение значений таких иформативных признаков звуков речи, как амплитуда и частота первых трех формант (пики в спектре звука). На четвертом уровне 8-16 производится фонемное распознавание каждого звукового сегмента на основании интеграции значений информативных признаков обрабатываемого сигнала и сопоставления с имеющимся банком данных отдельно для каждого вида и типа (сигнал с одной, двумя и тремя формантами) звука. На пятом уровне 17, в зависимости от изменения фонемной принадлежности сегмента, устанавливаются временные границы звуков речи. На шестом 18 уровне принимается итоговое фонемное решение относительно распознаваемого звука речи и представление его в виде буквенного или транскрипционного обозначения (БО).At the first level 1, the periodicity of such acoustic components of the speech (sound) signal (PC) is determined, which allows you to correlate the sound segment by the method of its formation to one of three types of speech sounds: voice, noisy, noisy-voice, while the time duration of the processed signal determined by its preliminary segmentation. At the second level 2-4, the main segmentation of speech sounds is carried out in three different modes, depending on the type of processed audio signal defined at the first level. At the third level 5-7, a spectral analysis and segment-by-line determination of the values of such informative features of speech sounds as the amplitude and frequency of the first three formants (peaks in the sound spectrum) is carried out. At the fourth level 8-16, a phonemic recognition of each sound segment is made based on the integration of the values of the informative features of the processed signal and comparison with the existing data bank separately for each type and type (signal with one, two and three formants) of the sound. At the fifth level 17, depending on the change in the phonemic affiliation of the segment, the time boundaries of speech sounds are set. At the sixth level 18, the final phoneme decision is made regarding the recognizable sound of speech and its presentation in the form of an alphabetic or transcriptional notation (BO).

Предлагаемый способ, реализованный в виде макетной программы распознавания неассимилированных звуков современной русской речи, позволяет проводить их распознавание без предварительной подстройки под голос диктора с надежностью, практически равняющейся 100%.The proposed method, implemented in the form of a mock program for recognizing the unassimilated sounds of modern Russian speech, allows them to be recognized without preliminary adjustment to the voice of the speaker with a reliability of almost 100%.

Claims (1)

Способ дикторонезависимого распознавания звуков речи, включающий в себя предварительную сегментацию речевого сигнала для определения временной длительности звуковых сегментов, определение периодичности каждого сегмента акустических составляющих речевого сигнала для соотнесения звукового сегмента по способу его образования к конкретному виду звуков речи, определение амплитуды и частоты каждой из первых трёх формант в спектре звукового сегмента в качестве информативных признаков звуков речи, интеграция упомянутых информативных признаков для каждого звукового сегмента, фонемное распознавание каждого звукового сегмента путём сопоставления интегральных значений его информативных признаков с имеющимся банком данных отдельно для каждого вида звуков речи, принятие решения относительно распознаваемого звука речи и представление его в виде буквенного или транскрипционного обозначения, отличающийся тем, что упомянутое соотнесение звукового сегмента осуществляют к голосовому, шумному или шумно-голосовому виду звуков речи, далее выполняют основную сегментацию речевого сигнала по трём основным режимам в зависимости от ранее найденного вида звукового сегмента, при упомянутом фонемном распознавании сопоставляют интегральные значения информативных признаков каждого звукового сегмента как для каждого упомянутого вида звуков речи, так и для каждого типа в зависимости от числа формант в звуковом сегменте, затем устанавливают временные границы звуков речи в зависимости от изменения фонемной принадлежности звукового сегмента, после чего и принимают упомянутое решение относительно распознаваемого звука речи.A method of speaker-independent recognition of speech sounds, including preliminary segmentation of the speech signal to determine the time duration of the sound segments, determining the frequency of each segment of the acoustic components of the speech signal to correlate the sound segment by the method of its formation to a specific type of speech sounds, determining the amplitude and frequency of each of the first three formant in the spectrum of the sound segment as informative features of speech sounds, integration of the above informative of identities for each sound segment, phonemic recognition of each sound segment by comparing the integral values of its informative features with the available data bank separately for each type of speech sound, making a decision regarding the recognizable speech sound and presenting it in the form of an alphabetic or transcriptional designation, characterized in that correlation of the sound segment is carried out to the voice, noisy or noisy-voice type of speech sounds, then the main speech segmentation is performed signal in three main modes, depending on the previously found type of sound segment, with the mentioned phonemic recognition, the integrated values of the informative features of each sound segment are compared both for each mentioned type of speech sounds and for each type depending on the number of formants in the sound segment, then establish the temporal boundaries of speech sounds depending on changes in the phonemic affiliation of the audio segment, after which they make the mentioned decision regarding the recognizable sound decree of speech.
RU2002129029/09A 2002-10-30 2002-10-30 Method for narrator-independent recognition of speech sounds RU2234746C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2002129029/09A RU2234746C2 (en) 2002-10-30 2002-10-30 Method for narrator-independent recognition of speech sounds

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2002129029/09A RU2234746C2 (en) 2002-10-30 2002-10-30 Method for narrator-independent recognition of speech sounds

Publications (2)

Publication Number Publication Date
RU2002129029A RU2002129029A (en) 2004-05-27
RU2234746C2 true RU2234746C2 (en) 2004-08-20

Family

ID=33413137

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2002129029/09A RU2234746C2 (en) 2002-10-30 2002-10-30 Method for narrator-independent recognition of speech sounds

Country Status (1)

Country Link
RU (1) RU2234746C2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2466468C1 (en) * 2011-06-30 2012-11-10 Даниил Александрович Кочаров System and method of speech recognition
RU2530314C1 (en) * 2013-04-23 2014-10-10 Общество с ограниченной ответственностью "ЦРТ-инновации" Method for hybrid generative-discriminative segmentation of speakers in audio-flow
WO2016032365A1 (en) * 2014-08-26 2016-03-03 Общество С Ограниченной Ответственностью "Истрасофт" System and method for converting a speech signal into a transcribed form with metadata
RU2587652C2 (en) * 2010-11-10 2016-06-20 Конинклейке Филипс Электроникс Н.В. Method and apparatus for evaluation of structure in signal
RU2763124C1 (en) * 2021-07-06 2021-12-27 Валерий Олегович Лелейтнер Method for speaker-independent phoneme recognition in a speech signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
КАЛИНЦЕВ Ю.К. Разборчивость речи в цифровых вокодерах. – М.: Радио и связь, 1991, с. 36 и 37. *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2587652C2 (en) * 2010-11-10 2016-06-20 Конинклейке Филипс Электроникс Н.В. Method and apparatus for evaluation of structure in signal
RU2466468C1 (en) * 2011-06-30 2012-11-10 Даниил Александрович Кочаров System and method of speech recognition
RU2530314C1 (en) * 2013-04-23 2014-10-10 Общество с ограниченной ответственностью "ЦРТ-инновации" Method for hybrid generative-discriminative segmentation of speakers in audio-flow
WO2016032365A1 (en) * 2014-08-26 2016-03-03 Общество С Ограниченной Ответственностью "Истрасофт" System and method for converting a speech signal into a transcribed form with metadata
RU2589851C2 (en) * 2014-08-26 2016-07-10 Общество С Ограниченной Ответственностью "Истрасофт" System and method of converting voice signal into transcript presentation with metadata
RU2763124C1 (en) * 2021-07-06 2021-12-27 Валерий Олегович Лелейтнер Method for speaker-independent phoneme recognition in a speech signal

Similar Documents

Publication Publication Date Title
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US8401861B2 (en) Generating a frequency warping function based on phoneme and context
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
Zhang et al. Analysis and classification of speech mode: whispered through shouted.
RU2419890C1 (en) Method of identifying speaker from arbitrary speech phonograms based on formant equalisation
US20220068257A1 (en) Synthesized Data Augmentation Using Voice Conversion and Speech Recognition Models
US20070038455A1 (en) Accent detection and correction system
KR101888058B1 (en) The method and apparatus for identifying speaker based on spoken word
US20230401338A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
CN112750445B (en) Voice conversion method, device and system and storage medium
Mannepalli et al. Analysis of emotion recognition system for Telugu using prosodic and formant features
US7650281B1 (en) Method of comparing voice signals that reduces false alarms
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
US7908142B2 (en) Apparatus and method for identifying prosody and apparatus and method for recognizing speech
JP2006235243A (en) Audio signal analysis device and audio signal analysis program for
RU2234746C2 (en) Method for narrator-independent recognition of speech sounds
Bisikalo et al. Precision Automated Phonetic Analysis of Speech Signals for Information Technology of Text-dependent Authentication of a Person by Voice.
Jung et al. Selecting feature frames for automatic speaker recognition using mutual information
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
Jayanna et al. Fuzzy vector quantization for speaker recognition under limited data conditions
Bhukya et al. End point detection using speech-specific knowledge for text-dependent speaker verification

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20061031