RU2742040C1 - Biometric method for subscriber identification based on speech signal - Google Patents

Biometric method for subscriber identification based on speech signal Download PDF

Info

Publication number
RU2742040C1
RU2742040C1 RU2020126629A RU2020126629A RU2742040C1 RU 2742040 C1 RU2742040 C1 RU 2742040C1 RU 2020126629 A RU2020126629 A RU 2020126629A RU 2020126629 A RU2020126629 A RU 2020126629A RU 2742040 C1 RU2742040 C1 RU 2742040C1
Authority
RU
Russia
Prior art keywords
speech
subscriber
portrait
spectrum
signal
Prior art date
Application number
RU2020126629A
Other languages
Russian (ru)
Inventor
Сергей Владиславович Мельник
Original Assignee
Общество с ограниченной ответственностью "Центр компетенции инновационных технологий"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Центр компетенции инновационных технологий" filed Critical Общество с ограниченной ответственностью "Центр компетенции инновационных технологий"
Priority to RU2020126629A priority Critical patent/RU2742040C1/en
Application granted granted Critical
Publication of RU2742040C1 publication Critical patent/RU2742040C1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

FIELD: physics.
SUBSTANCE: invention relates to computer engineering and communication. Method includes preliminary determination of a set of characteristics of a voice portrait of a subscriber, setting said characteristics for different subscribers, recording them in a database, determination of a speech portrait of the addressed subscriber, comparison of this speech portrait with voice portraits from the database and determination of the subscriber. Determination of the voice characteristics of a subscriber for composing a voice portrait is carried out using simultaneous spectral, time and spectral-time analysis methods together with analogue-to-digital conversion using wavelet transformation. As voice example can be used any fragment of speech, except pauses. Identification is performed not by signal envelope, but by specially processed digital representation thereof. This significantly speeds up the identification process and enables real-time operation on a communication network with a capacity of up to 3000 subscribers.
EFFECT: technical result consists in remote identification of subscriber.
1 cl

Description

Изобретение относится к области инфо-коммуникационных технологий (вычислительная техника и связь), в частности к автоматизированной системе идентификации и аутентификации личности по биометрическим и иным параметрам личности, и предназначена для решения задач предоставления доступа к специальной информации и/или операциям с ней на основе идентификации и верификации по голосу, либо по голосу и лицу, и через распознавание речи.The invention relates to the field of information and communication technologies (computers and communications), in particular to an automated system of identification and authentication of a person by biometric and other personality parameters, and is intended to solve the problem of providing access to special information and / or operations with it based on identification and verification by voice, or by voice and face, and through speech recognition.

Известен (RU, патент 5995927, опубл. 30.11.1999) способ распознавания абонента на основе чисто стохастического подхода. В данном способе распознавание абонента выполняют путем построения и сравнения матриц ковариации признаковых описаний входного речевого сигнала и эталонов речевого сигнала известных абонентов.Known (RU, patent 5995927, publ. 30.11.1999) a method for recognizing a subscriber based on a purely stochastic approach. In this method, subscriber recognition is performed by constructing and comparing covariance matrices of feature descriptions of the input speech signal and speech patterns of known subscribers.

Этот известный способ не пригоден для ситуации, когда используемые голосовые сообщения (пароли) очень коротки (5 секунд и менее), а также очень чувствителен к пропаданию сигнала на отдельных участках частотного речевого диапазона за счет окружающего шума и низкокачественных микрофонов.This known method is not suitable for a situation where the used voice messages (passwords) are very short (5 seconds or less), and is also very sensitive to signal loss in certain parts of the speech frequency range due to ambient noise and low-quality microphones.

Известен (RU, патент 2047912, опубл. 10.11.1995) способ распознавания изолированных слов речи с адаптацией к диктору, основанный на обработке с предискажениями входного речевого сигнала, дискретизации и последовательной сегментации речевого сигнала, кодировании сегментов дискретными элементами, вычислении энергетического спектра, измерении формантных частот и определении амплитуд и энергии в различных частотных полосах речевого сигнала, классификации артикуляторных событий и состояний, формировании и сортировке эталонов слов, вычислении расстояний между эталонами слов с реализацией распознаваемого слова, принятии решений о распознавании или отказе от распознавания слова с дополнением словаря эталонов в процессе адаптации к диктору. Предискажение входного речевого сигнала выполняют во временной области при дифференцировании со сглаживанием, квантование энергетического спектра выполняют в зависимости от дисперсии шума канала связи, формантные частоты определяют при нахождении глобального максимума логарифмического спектра и вычитании из этого спектра заданной частотно-зависимой функции, при классификации артикуляторных событий и состояний определяют доли периодического и шумового источников возбуждения при сравнении с порогом коэффициентов автокорреляции последовательности прямоугольных импульсов в нескольких частотных полосах, начало и конец артикуляторных движений и соответствующих им акустических процессов определяют при сравнении с порогом функции правдоподобия от значений коэффициентов автокорреляции, формантных частот и энергий в заданных частотных полосах, речевой сигнал сегментируют на интервалы между началом и концом акустических процессов, соответствующих специфическим артикуляторным движениям, и последовательно, начиная с гласных звуков, причем опознавание сегмента производят только в случае совпадения типов переходов на его левой и правой границах и заканчивают сегментацию при опознавании слева и справа по времени сегментов паузы между словами. Эталоны слов формируют в виде матриц с бинарными значениями правдоподобия признаков, а отказ от распознавания осуществляют при нормированной разности расстояния от неизвестной реализации до двух ближайших эталонов, принадлежащих разным словам, меньшей установленного порога.It is known (RU, patent 2047912, publ. 10.11.1995) a method for recognizing isolated speech words with adaptation to the speaker, based on processing with predistortions of the input speech signal, sampling and sequential segmentation of the speech signal, coding segments with discrete elements, calculating the energy spectrum, measuring formant frequencies and determination of amplitudes and energy in different frequency bands of a speech signal, classification of articulatory events and states, formation and sorting of word standards, calculating distances between word standards with the implementation of a recognized word, making decisions on recognizing or refusing to recognize a word with the addition of a dictionary of standards in the process adaptation to the speaker. The pre-distortion of the input speech signal is performed in the time domain when differentiating with smoothing, the energy spectrum is quantized depending on the dispersion of the communication channel noise, the formant frequencies are determined by finding the global maximum of the logarithmic spectrum and subtracting a given frequency-dependent function from this spectrum, when classifying articulatory events and states determine the fractions of periodic and noise sources of excitation when compared with the threshold of the autocorrelation coefficients of a sequence of rectangular pulses in several frequency bands, the beginning and end of articulatory movements and the corresponding acoustic processes are determined when comparing with the threshold of the likelihood function from the values of the autocorrelation coefficients, formant frequencies and energies in given frequency bands, the speech signal is segmented into intervals between the beginning and end of acoustic processes corresponding to specific articulatory movements, and Consequently, starting with vowel sounds, the segment is identified only if the types of transitions on its left and right boundaries coincide, and segmentation is completed when identifying the pause segments between words on the left and right in time. The standards of words are formed in the form of matrices with binary values of the likelihood of features, and the refusal of recognition is carried out at a normalized difference in the distance from the unknown implementation to the two nearest standards belonging to different words, less than the set threshold.

Недостатками данного известного способа распознавания изолированных слов речи с адаптацией к диктору является слабая различительная сила данного способа при его использовании для распознавания дикторов по произнесению голосового пароля, так как данный способ не различает дикторов при произнесении ими паролей с совпадающим словесным составом.The disadvantages of this known method for recognizing isolated speech words with adaptation to the speaker is the weak distinctive power of this method when it is used to recognize speakers by pronouncing a voice password, since this method does not distinguish between speakers when they pronounce passwords with the same verbal composition.

Известен (RU, патент 2406163, опубл. 10.12.2010) способ аутентификации пользователя, содержащий этапы, на которых:Known (RU, patent 2406163, publ. 10.12.2010) is a method for user authentication, containing the stages at which:

- сохраняют набор персональной информации в обслуживающей программе, причем этот набор персональной информации получен от пользователя во время ориентированного на обслуживание взаимодействия пользователя с обслуживающей программой;- storing a set of personal information in the service program, and this set of personal information obtained from the user during a service-oriented interaction of the user with the service program;

- используют средство извлечения информации для осуществления доступа к упомянутому набору персональной информации;- use the means of extracting information to access the said set of personal information;

- выполняют операцию аутентификации, которая основана на упомянутом наборе персональной информации и задействует по меньшей мере один динамический компонент, при этом операция аутентификации включает в себя передачу пользователю вопроса, который основывается, по меньшей мере частично, на этом наборе персональной информации, причем операция аутентификации сконфигурирована таким образом, чтобы приглашать пользователя дать ответ на этот вопрос в форме фрагмента речи;- performing an authentication operation that is based on said set of personal information and involves at least one dynamic component, wherein the authentication operation includes sending a question to the user, which is based at least in part on this set of personal information, and the authentication operation is configured in such a way as to invite the user to answer this question in the form of a piece of speech;

- принимают от пользователя фрагмент речи;- receive a fragment of speech from the user;

- выполняют проверку на предмет того, что фрагмент речи является правильным ответом на упомянутый вопрос;- check that the speech fragment is the correct answer to the mentioned question;

- используют компьютерный процессор, являющийся функциональным компонентом компьютера, для сравнения фрагмента речи с сохраненным профилем голоса; после чего предоставляют пользователю доступ к обслуживающей программе при условии того, что фрагмент речи является правильным ответом на упомянутый вопрос, и того, что фрагмент речи, по меньшей мере, в значительной степени соответствует сохраненному профилю голоса.- use a computer processor, which is a functional component of the computer, to compare a fragment of speech with a stored voice profile; then providing the user with access to the service program, provided that the speech fragment is the correct answer to the said question, and that the speech fragment at least substantially matches the stored voice profile.

Недостатком известного технического решения являются узкие функциональные возможности, не позволяющие производить регистрацию и идентификацию людей в самых различных ситуациях, а также их идентификацию и распознавание голосов в режиме реального времени.The disadvantage of the known technical solution is the narrow functionality that does not allow the registration and identification of people in various situations, as well as their identification and voice recognition in real time.

Известное техническое решение принято в качестве ближайшего аналога.The known technical solution was adopted as the closest analogue.

Техническая проблема, решаемая путем реализации разработанного способа, состоит в обеспечении возможности идентификации абонентов по голосовому портрету.The technical problem, solved by implementing the developed method, consists in providing the possibility of identifying subscribers by voice portrait.

Технический результат, достигаемый при реализации разработанного способа, состоит в обеспечении возможности дистанционной идентификации абонента. В качестве голосового примера может быть использован любой фрагмент речи кроме пауз.The technical result achieved by implementing the developed method consists in providing the possibility of remote identification of the subscriber. Any fragment of speech except pauses can be used as a voice example.

Идентификация производится не по огибающей сигнала, а по специально обработанному его цифровому представлению. Это существенно ускоряет процесс идентификации и дает возможным работать в реальном времени на сети связи с емкостью до 3000 абонентов. В канале связи нигде не передается информация о речевом сигнале в открытом виде - все передачи в открытых каналах используют шифрование. Это дает возможность эффективно применять данный алгоритм в облачных сервисах (распределенных инфо-коммуникационных системах, где информация хранится и обрабатывается в разных местах).Identification is carried out not by the envelope of the signal, but by its specially processed digital representation. This significantly speeds up the identification process and makes it possible to work in real time on a communication network with a capacity of up to 3000 subscribers. In the communication channel, information about the speech signal is not transmitted anywhere in the clear - all transmissions in open channels use encryption. This makes it possible to effectively apply this algorithm in cloud services (distributed information and communication systems, where information is stored and processed in different places).

Для достижения указанного технического результата предложено использовать разработанный биометрический способ идентификации абонента по речевому сигналу. Согласно разработанному способу проводят предварительное определение набора характеристик речевого портрета абонента, установление указанных характеристик для различных абонентов, запись их в базу данных, определение речевого портрета обратившегося абонента, сравнение этого речевого портрета с речевыми портретами из базы данных и определение абонента, причем определение характеристик голоса абонента для составления речевого портрета речевого портрета проводят с использованием методов одновременного спектрального, временного и спектрально-временного анализа совместно с аналого-цифровым преобразованием с использованием Вейвлет-преобразования при этом в качестве указанных характеристик используют, характеристики, выбранные из группы, содержащей, по меньшей мере, среднее значение спектра речевого сигнала, нормализованные средние значения спектра, относительное время пребывания сигнала в полосах спектра, нормализованное время пребывания сигнала в полосах спектра, медианное значение спектра речи в полосах, относительная мощность спектра речи в полосах, вариацию огибающих спектра речи, нормализованные величины вариации огибающих спектра речи, коэффициенты кросскорреляции спектральных огибающих между полосами спектра, длительность сегмента фонемы, высоту сегмента фонемы, коэффициент формы сегмента фонемы, а также характеристики тональных участков звуковой волны, непериодических участков звуковой волны, участков, не содержащих речевых пауз и средней частоты пауз. А в процессе произнесения неизвестным абонентом речевого сигнала, определяют аналогичные характеристики и путем сравнения данных характеристик с записанными в базу данных определяют абонента.To achieve the indicated technical result, it is proposed to use the developed biometric method for identifying a subscriber by a speech signal. According to the developed method, a preliminary determination of the set of characteristics of the subscriber's speech portrait is carried out, the specified characteristics are established for various subscribers, they are recorded in the database, the speech portrait of the contacting subscriber is determined, this speech portrait is compared with the speech portraits from the database and the subscriber is determined, and the characteristics of the subscriber's voice are determined to compose a speech portrait, a speech portrait is carried out using methods of simultaneous spectral, temporal and spectral-temporal analysis in conjunction with analog-to-digital conversion using Wavelet transform, while the specified characteristics are used, characteristics selected from the group containing at least average value of the spectrum of a speech signal, normalized average values of the spectrum, relative residence time of the signal in the spectral bands, normalized residence time of the signal in the spectral bands, median value of the spectrum speech in bands, the relative power of the speech spectrum in bands, the variation of the envelopes of the speech spectrum, normalized values of the variation of the envelopes of the speech spectrum, the cross-correlation coefficients of the spectral envelopes between the bands of the spectrum, the duration of the phoneme segment, the height of the phoneme segment, the shape factor of the phoneme segment, as well as the characteristics of the tonal sections of the sound waves, non-periodic sections of a sound wave, sections that do not contain speech pauses and the average frequency of pauses. And in the process of pronouncing a speech signal by an unknown subscriber, similar characteristics are determined and by comparing these characteristics with those recorded in the database, the subscriber is determined.

При реализации разработанного способа произвольный фрагмент речевого сигнала длительностью в 120 сек преобразуют с использованием Вейвлет преобразования в цифровой код, который хранится в базе данных абонентов. По указанному фрагменту оценивают, по меньшей мере, следующие характеристики голосового сигнала абонента:When implementing the developed method, an arbitrary fragment of a speech signal with a duration of 120 sec is converted using a Wavelet transform into a digital code that is stored in a subscriber database. According to the specified fragment, at least the following characteristics of the subscriber's voice signal are evaluated:

Среднее значение спектра речевого сигнала - среднее арифметическое между гармониками речевого сигнала, представляющими крайне верхнюю и крайне нижнюю. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.The average value of the spectrum of a speech signal is the arithmetic average between the harmonics of the speech signal, representing the extreme upper and extreme lower. It is calculated by processing the code obtained as a result of the Wavelet transform.

Нормализованные средние значения спектра - значения, полученные из средних значений спектра, нормированные относительно средней гармоники. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.Normalized Spectrum Means - Values derived from spectrum averages, normalized to the harmonic mean. It is calculated by processing the code obtained as a result of the Wavelet transform.

Относительное время пребывания сигнала в полосах спектра - вектор числовых значений, соответствующих времени, когда сигнал находится в границах частотных диапазонов. Спектр речевого сигнала локализован в полосе 100 Гц - 4000 Гц. Эта полоса разбивается на неравномерные составляющие, по характерной окраске речи. Выделяются 8 полос. В каждой полосе речевой сигнал находится определенное время - это и есть составляющая вектора относительного пребывания сигнала в полосах частот. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.The relative residence time of the signal in the spectrum bands is a vector of numerical values corresponding to the time when the signal is within the boundaries of the frequency ranges. The spectrum of the speech signal is localized in the band 100 Hz - 4000 Hz. This strip is divided into uneven components, according to the characteristic color of speech. 8 lanes stand out. In each band, the speech signal is located for a certain time - this is the component of the vector of the relative stay of the signal in the frequency bands. It is calculated by processing the code obtained as a result of the Wavelet transform.

Нормализованное время пребывания сигнала в полосах спектра - векторная величина, получающаяся из вектора относительного пребывания сигнала в полосах частот при нормировании среднего значения спектра речевого сигнала. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.The normalized residence time of the signal in the spectrum bands is a vector value obtained from the vector of the relative residence of the signal in the frequency bands when normalizing the average value of the spectrum of the speech signal. It is calculated by processing the code obtained as a result of the Wavelet transform.

Медианное значение спектра речи в полосах - векторная характеристика распределения амплитуды речевого сигнала в полосах анализа спектра. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.The median value of the speech spectrum in bands is a vector characteristic of the distribution of the amplitude of the speech signal in the bands of the spectrum analysis. It is calculated by processing the code obtained as a result of the Wavelet transform.

Относительная мощность спектра речи в полосах векторная характеристика распределения мощности речевого сигнала в полосах анализа спектра. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.The relative power of the speech spectrum in bands is a vector characteristic of the distribution of the speech signal power in the spectrum analysis bands. It is calculated by processing the code obtained as a result of the Wavelet transform.

Вариация огибающих спектра речи - векторная характеристика рассчитывается на основе сравнения нескольких речевых сигналов одинаковой длины. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.Variation of the envelopes of the speech spectrum - the vector characteristic is calculated based on the comparison of several speech signals of the same length. It is calculated by processing the code obtained as a result of the Wavelet transform.

Нормализованные величины вариации огибающих спектра речи векторная характеристика рассчитывается на основе Вариация огибающих спектра речи при нормировании среднего значения спектра. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.Normalized Speech Spectrum Envelope Variation The vector characteristic is calculated on the basis of Speech spectrum envelope variation when normalizing the average spectrum value. It is calculated by processing the code obtained as a result of the Wavelet transform.

Коэффициенты кросскорреляции спектральных огибающих между полосами спектра - векторная характеристика, для оценки совпадения огибающих. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.Cross-correlation coefficients of spectral envelopes between spectral bands are a vector characteristic for evaluating the coincidence of envelopes. It is calculated by processing the code obtained as a result of the Wavelet transform.

В некоторых вариантах реализации разработанного способа по речевому фрагменту длинной 50 сек оценивают такие характеристики, какIn some embodiments of the developed method, according to a speech fragment 50 sec long, characteristics such as

- Длительность сегмента, фонемы- Segment duration, phonemes

Высота сегментаSegment height

- Коэффициент формы сегмента- Segment shape factor

В некоторых вариантах реализации разработанного способа по речевому фрагменту в 120 сек оценивают такие характеристики голоса как:In some embodiments of the developed method, according to a speech fragment in 120 seconds, such voice characteristics are estimated as:

- Коэффициент тональных участков звуковой волны- Coefficient of tonal sections of a sound wave

- Коэффициент непериодических участков звуковой волны- Coefficient of non-periodic sections of the sound wave

- Коэффициент участков, не содержащих речевых пауз- Coefficient of sections without speech pauses

средняя частота паузaverage pause frequency

средняя продолжительность паузaverage pause duration

Данные характеристики получаются при помощи обработки огибающей аналогового речевого сигнала специально сконструированным фильтром.These characteristics are obtained by processing the envelope of the analog speech signal with a specially designed filter.

Каждой полученной характеристике присваивают четырехзначный цифровой код, с получением кодовой последовательность длиной 64. Данная последовательность называется речевым портретом, однозначно характеризующем абонента. Речевой портрет сохраняют в базе данных абонентов. Для каждого нового абонента вычисляют речевой портрет и сравнивают с имеющимися в базе. Сравнение делают по каждым четырем символам отдельно. Если по минимум 12 характеристикам значение попадает в установленный допуск, то принимается решение о совпадении речевых портретов и абонент идентифицируется по базе, а речевой портрет из распознаваемого сигнала добавляется в базу, как уточняющий. Всего для каждого абонента хранят, по меньшей мере, по три речевых портрета, если есть возможность их получить. Идентификацию проводят по каждому из них отдельно. Положительное решение (известность абонента) принимают при совпадении двух из трех.Each obtained characteristic is assigned a four-digit digital code, resulting in a code sequence of length 64. This sequence is called a speech portrait that uniquely characterizes the subscriber. The speech portrait is stored in the subscriber database. For each new subscriber, a speech portrait is calculated and compared with those in the database. Comparison is made for each four characters separately. If, according to at least 12 characteristics, the value falls within the established tolerance, then a decision is made on the coincidence of speech portraits and the subscriber is identified by the base, and the speech portrait from the recognized signal is added to the base as a clarifying one. In total, for each subscriber, at least three speech portraits are stored, if it is possible to obtain them. Identification is carried out for each of them separately. A positive decision (the subscriber's popularity) is made when two out of three coincide.

Пример реализации.An example of implementation.

1. Получаем речевой сигнал.1. We receive a speech signal.

2. Выделяем произвольные фрагменты дительностью 50 с и 120 с. Фрагменты могут накладываться друг на друга.2. Select arbitrary fragments with a duration of 50 s and 120 s. Fragments can overlap each other.

3. Пропускаем сигналы 50 с и 120 с через специальный фильтр и получаем значения характеристик:3. We pass the signals of 50 s and 120 s through a special filter and obtain the values of the characteristics:

Длительность сегмента, фонемы - L1Segment duration, phonemes - L1

Высота сегмента фонемы - L2Phoneme segment height - L2

Коэффициент формы сегмента фонемы - L3Phoneme segment shape factor - L3

Коэффициент тональных участков звуковой волны - L4The coefficient of the tonal sections of the sound wave - L4

Коэффициент непериодических участков звуковой волны - L5Coefficient of non-periodic sections of a sound wave - L5

Коэффициент участков, не содержащих речевых пауз - L6Coefficient of sections without speech pauses - L6

Средняя частота пауз - L7Average pause frequency - L7

средняя продолжительность пауз - L8average pause duration - L8

Каждому значению присваивается четырехзначный двоичный код, соответствующий диапазону, в который оно попадает.Each value is assigned a four-digit binary code corresponding to the range in which it falls.

Формируется кодовое слово 32 шестнадцатиричных, состоящее из сегментов K1 - К8 - акустическая составляющая речевого портрета (АС РП)A 32 hexadecimal codeword is formed, consisting of the segments K1 - K8 - the acoustic component of the speech portrait (AS RP)

4. Сегмент сигнала длительностью 120 с пропускаем через Вейвлет преобразователь и оцениваем характеристики:4. A signal segment with a duration of 120 s is passed through the Wavelet transducer and the characteristics are estimated:

Среднее значение спектра речевого сигнала - S1Average value of the speech signal spectrum - S1

Нормализованные средние значения спектра - S2Normalized Spectrum Means - S2

Относительное время пребывания сигнала в полосах спектра - S3Relative residence time of the signal in the spectrum bands - S3

Нормализованное время пребывания сигнала в полосах спектра - S4Normalized signal dwell time in spectrum bands - S4

Медианное значение спектра речи - S5Median speech spectrum - S5

Относительная мощность спектра речи в полосах - S6The relative power of the speech spectrum in bands - S6

Вариация огибающих спектра речи - S7Variation of speech spectrum envelopes - S7

Нормализованные величины вариации огибающих спектра речи - S8Normalized Speech Spectrum Envelope Variation - S8

Каждое значение каждой характеристики укладывается в диапазонEach value of each characteristic fits into the range

0000 - FFFF (шестнадцатиричные). Значению присваивается четырехзначный шестнадцатиричный код, соответствующий диапазону, в который оно попадает.0000 - FFFF (hexadecimal). The value is assigned a four-digit hexadecimal code corresponding to the range in which it falls.

Формируется кодовое слово, состоящее из 32 шестнадцатиричных символов сегментов К9 - К16 - спектральная составляющая речевого портрета (СС РП)A codeword is formed, consisting of 32 hexadecimal symbols of the segments K9 - K16 - the spectral component of the speech portrait (SS RP)

Кодовые слова объединяются в 64 разрядный речевой портрет РП. Например у нас получился РПThe code words are combined into a 64-bit speech portrait of the RP. For example, we got RP

23AF 4257 ААЕЕ 2433 993F АВ01 32F1 FF32 - АС РП23AF 4257 AAEE 2433 993F AB01 32F1 FF32 - AS RP

207F 6857 А32Е 24А3 453F А351 77F1 F342 - СС РП207F 6857 A32E 24A3 453F A351 77F1 F342 - SS RP

Речевой портрет пропускается через кодер и передается по сети связи.The speech portrait is passed through the encoder and transmitted over the communication network.

В базе данных речевых портретов (БД РП) принятый сигнал декодируется и сравнивается с РП, хранящимися в базеIn the database of speech portraits (DB RP), the received signal is decoded and compared with the RP stored in the database

Например, мы принялиFor example, we took

23AF 4257 ААЕЕ 2433 993F АВ01 32F1 FF32 - АС РП23AF 4257 AAEE 2433 993F AB01 32F1 FF32 - AS RP

207F 6857 А32Е 24А3 453F А351 77F1 F342 - СС РП207F 6857 A32E 24A3 453F A351 77F1 F342 - SS RP

И в БД РП имеется записьAnd there is a record in the RP DB

23AF 4257 ААЕЕ 993F А 431 32 FA - АС РП23AF 4257 ААЕЕ 993F А 431 32 FA - АС RP

207F 6857A32F 24А3 453F 77FFF F388 - ССРП207F 6857A32F 24А3 453F 77FFF F388 - SSRP

Эта запись имеет 12 коэффициентов, отличающиеся на единицу или совпадающих.This entry has 12 odds that differ by one or overlap.

Принимается решение об идентификации принятого РП и принятый РП добавляется к БД РП, как уточняющий для данного абонента.A decision is made on the identification of the received RP and the received RP is added to the RP DB, as clarifying for the given subscriber.

Claims (1)

Биометрический способ идентификации абонента по речевому сигналу, включающий предварительное определение набора характеристик речевого портрета абонента, установление указанных характеристик для различных абонентов, запись их в базу данных, определение речевого портрета обратившегося абонента, сравнение этого речевого портрета с речевыми портретами из базы данных и определение абонента, отличающийся тем, что определение характеристик голоса абонента для составления речевого портрета проводят с использованием методов одновременного спектрального, временного и спектрально-временного анализа совместно с аналого-цифровым преобразованием с использованием Вейвлет-преобразования, при этом в качестве указанных характеристик используют характеристики, выбранные из группы, содержащей, по меньшей мере, среднее значение спектра речевого сигнала, нормализованные средние значения спектра, относительное время пребывания сигнала в полосах спектра, нормализованное время пребывания сигнала в полосах спектра, медианное значение спектра речи в полосах, относительную мощность спектра речи в полосах, вариацию огибающих спектра речи, нормализованные величины вариации огибающих спектра речи, коэффициенты кросскорреляции спектральных огибающих между полосами спектра, длительность сегмента фонемы, высоту сегмента фонемы, коэффициент формы сегмента фонемы, а также характеристики тональных участков звуковой волны, непериодических участков звуковой волны, участков, не содержащих речевых пауз и средней частоты пауз, а в процессе произнесения неизвестным абонентом речевого сигнала определяют аналогичные характеристики и путем сравнения данных характеристик с записанными в базу данных определяют абонента.A biometric method for identifying a subscriber by a speech signal, including a preliminary determination of a set of characteristics of a speech portrait of a subscriber, establishing the specified characteristics for various subscribers, recording them in a database, determining a speech portrait of a contacting subscriber, comparing this speech portrait with speech portraits from a database and identifying a subscriber, characterized in that the determination of the characteristics of the subscriber's voice to compose a speech portrait is carried out using the methods of simultaneous spectral, temporal and spectral-temporal analysis in conjunction with analog-to-digital conversion using the Wavelet transform, while the characteristics selected from the group are used as these characteristics, containing at least the average value of the spectrum of the speech signal, normalized average values of the spectrum, the relative residence time of the signal in the spectral bands, the normalized residence time of the signal in the specific bands ktra, the median value of the speech spectrum in the bands, the relative power of the speech spectrum in the bands, the variation of the envelopes of the speech spectrum, the normalized values of the variation of the envelopes of the speech spectrum, the cross-correlation coefficients of the spectral envelopes between the spectral bands, the duration of the phoneme segment, the height of the phoneme segment, the shape factor of the phoneme segment, and also the characteristics of the tonal sections of the sound wave, non-periodic sections of the sound wave, sections that do not contain speech pauses and the average frequency of pauses, and in the process of pronouncing a speech signal by an unknown subscriber, similar characteristics are determined and the subscriber is determined by comparing these characteristics with those recorded in the database.
RU2020126629A 2020-08-07 2020-08-07 Biometric method for subscriber identification based on speech signal RU2742040C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2020126629A RU2742040C1 (en) 2020-08-07 2020-08-07 Biometric method for subscriber identification based on speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020126629A RU2742040C1 (en) 2020-08-07 2020-08-07 Biometric method for subscriber identification based on speech signal

Publications (1)

Publication Number Publication Date
RU2742040C1 true RU2742040C1 (en) 2021-02-02

Family

ID=74554553

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020126629A RU2742040C1 (en) 2020-08-07 2020-08-07 Biometric method for subscriber identification based on speech signal

Country Status (1)

Country Link
RU (1) RU2742040C1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2779445C1 (en) * 2021-10-27 2022-09-07 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method and system for automated identification threshold determination for biometric samples in the access control system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2047912C1 (en) * 1994-04-20 1995-11-10 Виктор Николаевич Сорокин Method of recognition of separate words of speech with adaptation to announcer
US20070299671A1 (en) * 2004-03-31 2007-12-27 Ruchika Kapur Method and apparatus for analysing sound- converting sound into information
RU2399102C2 (en) * 2008-11-05 2010-09-10 Андрей Николаевич Голубинский Method and device for identity verification using voice
RU2406163C2 (en) * 2004-12-03 2010-12-10 Майкрософт Корпорейшн User authentication by combining speaker verification and reverse turing test
CN107093430A (en) * 2017-05-10 2017-08-25 哈尔滨理工大学 A kind of vocal print feature extraction algorithm based on wavelet package transforms

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2047912C1 (en) * 1994-04-20 1995-11-10 Виктор Николаевич Сорокин Method of recognition of separate words of speech with adaptation to announcer
RU94014278A (en) * 1994-04-20 1996-10-20 В.Н. Сорокин Method of recognition of isolated words of speech provided with adaptation to announcer
US20070299671A1 (en) * 2004-03-31 2007-12-27 Ruchika Kapur Method and apparatus for analysing sound- converting sound into information
RU2406163C2 (en) * 2004-12-03 2010-12-10 Майкрософт Корпорейшн User authentication by combining speaker verification and reverse turing test
RU2399102C2 (en) * 2008-11-05 2010-09-10 Андрей Николаевич Голубинский Method and device for identity verification using voice
CN107093430A (en) * 2017-05-10 2017-08-25 哈尔滨理工大学 A kind of vocal print feature extraction algorithm based on wavelet package transforms

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2779445C1 (en) * 2021-10-27 2022-09-07 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method and system for automated identification threshold determination for biometric samples in the access control system

Similar Documents

Publication Publication Date Title
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
RU2419890C1 (en) Method of identifying speaker from arbitrary speech phonograms based on formant equalisation
US20070129941A1 (en) Preprocessing system and method for reducing FRR in speaking recognition
JP2002514318A (en) System and method for detecting recorded speech
JPH10500781A (en) Speaker identification and verification system
CN116490920A (en) Method for detecting an audio challenge, corresponding device, computer program product and computer readable carrier medium for a speech input processed by an automatic speech recognition system
Nandyal et al. MFCC based text-dependent speaker identification using BPNN
RU2742040C1 (en) Biometric method for subscriber identification based on speech signal
Maazouzi et al. MFCC and similarity measurements for speaker identification systems
Thian et al. Spectral subband centroids as complementary features for speaker authentication
Kakade et al. An automatic real time speech-speaker recognition system: a real time approach
Jayanna et al. Fuzzy vector quantization for speaker recognition under limited data conditions
Kekre et al. Speaker identification using row mean vector of spectrogram
Yang et al. A comparison of MFCC and LPCC with deep learning for speaker recognition
Alkhatib et al. Voice identification using MFCC and vector quantization
Omer Joint MFCC-and-vector quantization based text-independent speaker recognition system
Trysnyuk et al. A method for user authenticating to critical infrastructure objects based on voice message identification
RU2399102C2 (en) Method and device for identity verification using voice
Piotrowski et al. Subscriber authentication using GMM and TMS320C6713DSP
RU2230375C2 (en) Method of identification of announcer and device for its realization
Tahliramani et al. Performance Analysis of Speaker Identification System With and Without Spoofing Attack of Voice Conversion
Chadha et al. Text-independent speaker recognition for low SNR environments with encryption
Hsieh et al. A robust speaker identification system based on wavelet transform
Nainan et al. A comparison of performance evaluation of ASR for noisy and enhanced signal using GMM
Cherian et al. Effect of VoIP on prosodic features for speaker verification