RU2351023C2 - User verification method in authorised access systems - Google Patents
User verification method in authorised access systems Download PDFInfo
- Publication number
- RU2351023C2 RU2351023C2 RU2007116231/09A RU2007116231A RU2351023C2 RU 2351023 C2 RU2351023 C2 RU 2351023C2 RU 2007116231/09 A RU2007116231/09 A RU 2007116231/09A RU 2007116231 A RU2007116231 A RU 2007116231A RU 2351023 C2 RU2351023 C2 RU 2351023C2
- Authority
- RU
- Russia
- Prior art keywords
- user
- word
- access
- database
- segments
- Prior art date
Links
Images
Landscapes
- Storage Device Security (AREA)
Abstract
Description
Область техникиTechnical field
Изобретение относится к системам биометрии человека по индивидуальным характеристикам его голоса в применении к санкционированию доступа, например, к операционной системе, компьютерным ресурсам, банковскому счету или физическому доступу к помещению и тому подобным случаям, требующим санкционированного доступа.The invention relates to a person’s biometrics systems according to the individual characteristics of his voice as applied to authorization of access, for example, to an operating system, computer resources, bank account or physical access to a room and the like, requiring authorized access.
Уровень техникиState of the art
Верификация диктора по голосу состоит в подтверждении соответствия характеристик его голоса заранее записанным характеристикам при указании диктором своего идентификатора (фамилии, кодового номера и т.п.) неголосовыми средствами (например, набором на клавиатуре) или путем автоматического распознавания произнесенного идентификатора.Verification of the speaker by voice consists in confirming the correspondence of the characteristics of his voice to the pre-recorded characteristics when the speaker indicates his identifier (last name, code number, etc.) by non-voice means (for example, typing on the keyboard) or by automatically recognizing the spoken identifier.
Эффективность бизнеса в значительной степени зависит от обеспечения информационной безопасности. Несанкционированный доступ к конфиденциальной информации о финансовой деятельности компании, контрактах и планах чреват не только потерями, но и полным банкротством. Во многих случаях утечка информации происходит изнутри компании. Обман и злоупотребления со стороны своих сотрудников наносят ущерб в размере 6% годовой прибыли, составляя, в среднем, $100000 на каждый случай (в 14.6% случаев потери превысили $1000000) (Association of Certified Fraud Examiners, 2004). В банковской сфере потери от злонамеренной деятельности сотрудников могут достигать огромных величин.Business performance is heavily dependent on information security. Unauthorized access to confidential information about the financial activities of the company, contracts and plans is fraught not only with losses, but also with complete bankruptcy. In many cases, information leakage occurs from within the company. Deception and abuse by its employees cause damage of 6% of annual profit, averaging $ 100,000 per case (in 14.6% of cases, losses exceeded $ 1,000,000) (Association of Certified Fraud Examiners, 2004). In the banking sector, losses from malicious activities by employees can be enormous.
Передаваемые по телефону параметры кредитной карты в 12% случаев подслушиваются с последующим воровством денег с карты (American Bankers Association). Аналогично параметры кредитной карты перехватываются в системах электронной торговли или в банкоматах. Украденные суммы исчисляются сотнями миллионов долларов в год.Credit card parameters transmitted by telephone in 12% of cases are overheard, followed by theft of money from the card (American Bankers Association). Similarly, credit card parameters are intercepted in e-commerce systems or at ATMs. Stolen amounts amount to hundreds of millions of dollars a year.
Наряду со стандартными методами повышения информационной безопасности (цифровые пароли, специальные аппаратные средства, кадровая политика), все большее применение находят биометрические средства санкционирования доступа по персональным характеристикам пользователя. Среди них наиболее перспективным является подтверждение (верификация) личности по голосу.Along with standard methods of increasing information security (digital passwords, special hardware, personnel policy), biometric means of authorizing access according to the user's personal characteristics are increasingly used. Among them, the most promising is the confirmation (verification) of a person by voice.
Голосовой пароль использует характеристики голоса, присущие только данному человеку. Он является одним из наиболее удобных и надежных средств обеспечения информационной безопасности. Использование голосового пароля не требует аппаратной поддержки, необходимой при распознавании отпечатков пальцев, ладони, радужной оболочки или сетчатки глаза. Индивидуальные характеристики голоса невозможно забыть, потерять, передать другому человеку, украсть, и очень трудно подделать.Voice password uses voice characteristics that are unique to that person. It is one of the most convenient and reliable means of ensuring information security. The use of a voice password does not require the hardware support necessary for the recognition of fingerprints, palm, iris or retina. The individual characteristics of the voice cannot be forgotten, lost, transferred to another person, stolen, and it is very difficult to fake.
Разработка систем верификации диктора по его голосу ведется как крупными корпорациями в США (IBM, Lucent, ATT, Microsoft, Cisco, Nuance), Японии (Hitachi, Fujitsu, Matsushita), Европе (France Telecom, British Telecom, Philips), Корее (Samsung), так и специализированными компаниями, такими как Persay, Sentrycom (Израиль), Diaphonics, VoiceVault, VeriVoice, Quantum Signal (США). Исследованиям в области верификации диктора был посвящен специальный выпуск журнала Speech Communication, 2000, v.31.The development of speaker verification systems by his voice is being conducted by large corporations in the USA (IBM, Lucent, ATT, Microsoft, Cisco, Nuance), Japan (Hitachi, Fujitsu, Matsushita), Europe (France Telecom, British Telecom, Philips), Korea (Samsung ), and specialized companies such as Persay, Sentrycom (Israel), Diaphonics, VoiceVault, VeriVoice, Quantum Signal (USA). Research in the field of speaker verification was the subject of a special issue of Speech Communication, 2000, v.31.
Методы верификации диктора разрабатываются уже в течение нескольких десятилетий, однако характеристики предлагаемых систем еще далеки от требований надежности во многих реальных приложениях. Согласно испытаниям, ежегодно проводимым National Institute of Standards and Technologies, USA, эти системы неустойчивы по отношению к типу микрофона и расстоянию до него, шумам и искажениям в канале связи, естественным вариациям речевых характеристик диктора. Такое положение определяется формальным статистическим подходом к анализу речи, крайне чувствительным к различию в условиях обучения системы верификации и распознавания. Характерным признаком таких систем является их независимость от языка и контекста. Известно также, что ошибки, связанные со "старением" обученной модели быстро растут со временем. Поэтому к сообщениям о чрезвычайно высокой надежности верификации следует относиться с большой осторожностью.Speaker verification methods have been developed for several decades, however, the characteristics of the proposed systems are still far from the reliability requirements in many real-world applications. According to tests conducted annually by the National Institute of Standards and Technologies, USA, these systems are unstable with respect to the type of microphone and distance to it, noise and distortion in the communication channel, and natural variations in the speech characteristics of the speaker. This situation is determined by a formal statistical approach to the analysis of speech, which is extremely sensitive to differences in the learning environment of the verification and recognition system. A characteristic feature of such systems is their independence from language and context. It is also known that the errors associated with the “aging” of a trained model grow rapidly with time. Therefore, reports of extremely high reliability of verification should be treated with great caution.
Баланс между числом ложного пропуска самозванца и ложным отказом не устраивает подавляющее большинство потенциальных клиентов, и предлагаемые системы верификации востребованы менее чем 1% потенциального рынка (Gartner Research, 2004).The balance between the number of false pretense and false rejection does not suit the vast majority of potential customers, and the proposed verification systems are less than 1% of the potential market (Gartner Research, 2004).
Для достижения максимальной эффективности системы верификации необходимо наложить как можно больше ограничений на условия ее применения, но эти ограничения не должны затруднять ее эксплуатацию. К числу таких ограничений относится использование фиксированного словаря для конкретного языка. В частности, голосовой пароль может быть представлен в виде случайной последовательности и количества слов из ограниченного словаря числительных от 0 до 9. Такая случайная последовательность препятствует попытке обмана системы верификации путем записи и последующего воспроизведения пароля.To achieve maximum efficiency of the verification system, it is necessary to impose as many restrictions on the conditions for its use as possible, but these restrictions should not impede its operation. Among these limitations is the use of a fixed dictionary for a particular language. In particular, a voice password can be represented as a random sequence and the number of words from a limited vocabulary of numbers from 0 to 9. Such a random sequence prevents attempts to deceive the verification system by recording and then reproducing the password.
Известен способ адаптации к неизвестному каналу связи, описанный в патентах US 6233556 и US 6804647. С этой целью в процессе обучения системы верификации используется несколько различных типов приемника звука, например угольный, электретный микрофон или микрофон мобильного телефона. В процессе верификации сравнивают спектральные характеристики произнесенного слова с запомненными характеристиками этого слова из референтной базы данных. Разница в этих спектральных характеристиках используется для нормализации неизвестного канала связи к одному из каналов, представленных в референтной базе данных. Недостаток известного способа состоит в том, что точность такой нормализации зависит от точности сегментации и определения спектральных характеристик сегментов, которые используются для нормализации. В случае ошибки сегментации вместо нормализации канала произойдет существенное искажение характеристик принятого слова. Поскольку сама сегментация слова на информативные элементы частот сопровождается ошибками, то и процесс нормализации канала связан с ошибками, ухудшающими надежность верификации.A known method of adapting to an unknown communication channel is described in US Pat. Nos. 6,233,556 and 6,804,447. For this purpose, several different types of sound receivers are used in the training of the verification system, for example, a carbon, electret, or mobile phone microphone. In the verification process, the spectral characteristics of the spoken word are compared with the stored characteristics of the word from the reference database. The difference in these spectral characteristics is used to normalize the unknown communication channel to one of the channels presented in the reference database. The disadvantage of this method is that the accuracy of such normalization depends on the accuracy of segmentation and the determination of the spectral characteristics of the segments that are used for normalization. In the case of a segmentation error, instead of normalizing the channel, a significant distortion of the characteristics of the received word will occur. Since the very segmentation of a word into informative elements of frequencies is accompanied by errors, the channel normalization process is associated with errors that worsen the reliability of verification.
Известен стандартный способ для аппроксимации плотности вероятности в пространстве признаков, который состоит в вычислении параметров небольшого числа нормальных распределений. Этот способ используется, в частности, в патенте US 6411930, в котором плотность вероятности распределения признаков для диктора, подлежащего верификации, описывается лишь одним нормальным распределением. Недостаток такого описания заключается в том, что в силу нелинейных зависимостей параметров друг от друга использование одного нормального распределения сопровождается большой погрешностью аппроксимации и, следовательно, возрастанием ошибок верификации - пропуска самозванца или отказа законному пользователю. Аппроксимация плотности вероятности множества референтных дикторов несколькими нормальными распределениями также ухудшает характеристики системы верификации, поскольку нормальное распределение не ограничено в пространстве аргументов, тогда как реальные значения параметров ограничены как физически, так и по своим диапазонам для каждого диктора.A standard method is known for approximating the probability density in a feature space, which consists in calculating the parameters of a small number of normal distributions. This method is used, in particular, in patent US 6411930, in which the probability density of the distribution of features for the speaker to be verified is described by only one normal distribution. The disadvantage of this description is that due to the non-linear dependencies of the parameters from each other, the use of one normal distribution is accompanied by a large approximation error and, consequently, an increase in verification errors - skipping an impostor or rejecting a legitimate user. The approximation of the probability density of the set of reference speakers by several normal distributions also degrades the characteristics of the verification system, since the normal distribution is not limited in the space of arguments, while the real values of the parameters are limited both physically and in their ranges for each speaker.
В патенте US 6496800 слитная последовательность слов в пароле сначала подвергается автоматическому распознаванию независимо от диктора. Затем параметры каждого из распознанных слов сопоставляются с параметрами соответствующего слова этого диктора и дикторов из референтной базы.In US Pat. No. 6,496,800, a fused sequence of words in a password is first automatically recognized regardless of the speaker. Then the parameters of each of the recognized words are compared with the parameters of the corresponding word of this speaker and speakers from the reference base.
Преимущество этого подхода состоит в практической невозможности воспользоваться подслушанным и записанным произнесением пароля. Однако принципиальные недостатки такого подхода не позволяют достичь требуемой надежности верификации. Во-первых, распознавание слов выполняется с заметными ошибками порядка нескольких процентов, и каждая такая ошибка приводит к значительному падению меры сходства произнесенного слова со словами этого диктора, записанными в процессе обучения. Во-вторых, параметры слов в слитном произнесении могут существенно отличаться от параметров слов, которые в процессе обучения должны записываться только в изолированном произнесении. В-третьих, так называемое явление коартикуляции искажает сегменты слов на границе с другими словами вплоть до полной ассимиляции конца или начала слова. В результате параметры слова, выделенного из слитного потока речи, отличаются от параметров, полученных в процессе обучения, и вероятность подтверждения законного диктора падает.The advantage of this approach is the practical impossibility of using the eavesdropped and recorded pronunciation of the password. However, the fundamental shortcomings of this approach do not allow achieving the required verification reliability. Firstly, word recognition is performed with noticeable errors of the order of several percent, and each such error leads to a significant drop in the measure of similarity of the spoken word with the words of this speaker recorded in the learning process. Secondly, the parameters of words in a continuous pronunciation can differ significantly from the parameters of words, which in the learning process should be recorded only in isolated pronunciation. Thirdly, the so-called phenomenon of coarticulation distorts the segments of words on the border with other words until the complete assimilation of the end or beginning of the word. As a result, the parameters of the word extracted from the continuous flow of speech differ from the parameters obtained in the learning process, and the probability of confirmation of a legitimate speaker decreases.
Решаемая техническая задачаSolved technical problem
Описываемое изобретение решает задачу поиска таких акустических признаков, которые устойчивы к помехам и искажениям в канале связи пользователя с верификатором, сохраняя в то же время индивидуальные особенности, присущие голосу конкретного пользователя. В частности, необходимо было создать способ, с помощью которого вероятность ошибки пропуска самозванца или отказа законному пользователю не превышает 0.05, если количество числительных в пароле не меньше 10 слов, при этом способ должен быть устойчивым к стационарным и нестационарным помехам типа посторонних разговоров и музыки при отношении сигнал/шум от +12 дБ и выше, причем ошибки верификации должны слабо зависеть от типа приемника звука и расстояния до него.The described invention solves the problem of searching for such acoustic features that are resistant to interference and distortion in the user's communication channel with the verifier, while preserving at the same time the individual characteristics inherent in the voice of a particular user. In particular, it was necessary to create a method by which the probability of an impostor’s skipping error or refusal to a legitimate user does not exceed 0.05 if the number of numerals in the password is not less than 10 words, and the method should be resistant to stationary and non-stationary interference such as extraneous conversations and music signal-to-noise ratio from +12 dB and above, and verification errors should weakly depend on the type of sound receiver and the distance to it.
Сущность изобретенияSUMMARY OF THE INVENTION
Сущность предлагаемого изобретения состоит в том, что предложен способ верификации пользователя в системах санкционирования доступа, включающий создание референтной базы данных дикторов, создание базы данных пользователей, при этом для верификации пользователя пользователь вводит свой идентификатор, после чего система санкционирования доступа предлагает пользователю произнести пароль из случайной последовательности слов из словаря базы пользователя, после получения звуковых сигналов произнесенного пароля система санкционирования доступа вычисляет вероятность принадлежности произнесенного пароля к голосу пользователя и принимает решение о разрешении доступа или отказе от доступа, при этом для создания референтной базы данных выбирают дикторов, записывают речевые сигналы произнесенных дикторами слов из заданного словаря через основные типы приемников звука и в различных помещениях, вычисляют и запоминают динамические спектры этих речевых сигналов, размечают речевые сигналы на основные типы сегментов, вычисляют и запоминают сигналы динамических детекторов, определяющих возрастание или спад энергии в частотных областях динамического спектра речевого сигнала, вычисляют и запоминают плотность вероятности в пространстве признаков каждого слова, из множества реализации каждого слова по всем дикторам референтной базы отбирают и запоминают эталонные последовательности сегментов, отличающиеся друг от друга хотя бы одним сегментом, при этом для создания базы данных пользователей записывают речевые сигналы произнесенных пользователями слов из заданного словаря, размечают речевые сигналы на основные типы сегментов, вычисляют и запоминают плотность вероятности в пространстве признаков каждого слова, при формировании базы данных пользователя и в процессе его верификации границы сегментов слов предварительно устанавливают в моменты, соответствующие максимумам суммарной по частоте энергии динамических детекторов, при этом признаки сегментов вычисляют как частоты локальных максимумов детекторов спектрально-временных и спектральных неоднородностей, при этом окончательную сегментацию произнесенного слова при верификации выполняют с использованием метода динамической трансформации оси времени с поиском эталона из референтной базы данных, последовательность сегментов и значения признаков которых наиболее близки к признакам сегментов произнесенного слова.The essence of the invention consists in the fact that a method of user verification in access authorization systems is proposed, which includes creating a reference database of speakers, creating a user database, and for user verification, the user enters his identifier, after which the access authorization system prompts the user to generate a password from random the sequence of words from the dictionary of the user base, after receiving the sound signals of the spoken password, the system is authorized access calculates the probability that the spoken password belongs to the user's voice and decides whether to allow or deny access, in order to create a reference database, speakers are selected, voice signals spoken by the speakers from the given dictionary are recorded through the main types of sound receivers and in various rooms, calculate and store the dynamic spectra of these speech signals, mark the speech signals into the main types of segments, calculate and store the signals of dynamic detectors that determine the increase or decrease in energy in the frequency domains of the dynamic spectrum of the speech signal, the probability density in the feature space of each word is calculated and stored, from the set of each word implementation for all speakers of the reference base, reference sequences of segments that differ from each other by at least one segment are selected and stored at the same time, to create a database of users record speech signals of words spoken by users from a given dictionary, mark speech signals on basic types of segments, calculate and remember the probability density in the space of features of each word, when forming the user database and during its verification, the boundaries of the word segments are pre-set at the moments corresponding to the maxima of the total energy frequency of the dynamic detectors, while the characteristics of the segments are calculated as the frequencies of local maxima of the detectors of spectral-temporal and spectral inhomogeneities, with the final segmentation of the spoken word during verification Follow the important method using dynamic time-axis transformation to search the reference database of the reference sequence segment, and the characteristic values which are closest to the features of the spoken word segments.
Кроме того, плотность вероятности в пространстве признаков каждого слова для каждого пользователя и диктора могут вычислять, как нормированную суперпозицию нормальных распределений с математическим ожиданием, расположенным в координатах каждого вектора, соответствующего реализации этого слова, а среднеквадратическое отклонение вычисляют пропорционально среднему расстоянию между реализациями данного слова.In addition, the probability density in the feature space of each word for each user and speaker can be calculated as a normalized superposition of normal distributions with a mathematical expectation located in the coordinates of each vector corresponding to the implementation of this word, and the standard deviation is calculated in proportion to the average distance between the realizations of this word.
Кроме того, вероятность принадлежности произнесенного пароля к голосу пользователя могут вычислять как среднее значение вероятностей принадлежности каждого слова в пароле.In addition, the probability that the spoken password belongs to the user's voice can be calculated as the average value of the probability of belonging of each word in the password.
Кроме того, для принятия решения о разрешении доступа или отказе от доступа могут сравнивать вычисленную вероятность с порогом, который устанавливают для каждого пользователя индивидуально путем минимизации ошибки пропуска самозванца при заданной вероятности отказа пользователю.In addition, to make a decision on access permission or refusal of access, the calculated probability can be compared with a threshold that is set for each user individually by minimizing the skipping error of the impostor at a given probability of failure for the user.
Достигаемый технический результатAchievable technical result
Создан способ, решивший задачу поиска таких акустических признаков, которые устойчивы к помехам и искажениям в канале связи пользователя с верификатором, сохраняя в то же время индивидуальные особенности, присущие голосу конкретного пользователя. Достигнута устойчивость к стационарным и нестационарным помехам типа посторонних разговоров и музыки при отношении сигнал/шум от +12 дБ и выше, причем ошибки верификации слабо зависят от типа приемника звука и расстояния до него. Если количество числительных в пароле не меньше 10 слов, то гарантируется, что вероятность ошибки пропуска самозванца или отказа законному пользователю не превышает 0.05.A method has been created that solves the problem of searching for such acoustic signs that are resistant to interference and distortion in the user's communication channel with the verifier, while preserving at the same time the individual characteristics inherent in the voice of a particular user. Resistance to stationary and non-stationary interference such as extraneous conversations and music is achieved with a signal-to-noise ratio of +12 dB or more, and verification errors are weakly dependent on the type of sound receiver and the distance to it. If the number of numerals in the password is not less than 10 words, then it is guaranteed that the probability of skipping an impostor or refusal to a legitimate user does not exceed 0.05.
Сущность способа и его работа иллюстрируется чертежами.The essence of the method and its operation is illustrated by drawings.
На Фиг.1 представлены осциллограммы, сонограммы, детектограммы и фонетическая разметка речевых сигналов.Figure 1 presents the waveforms, sonograms, detectors and phonetic marking of speech signals.
На Фиг.2 показана блок-схема формирования референтной базы данных.Figure 2 shows a block diagram of the formation of the reference database.
На Фиг.3 показана блок-схема формирования базы данных диктора.Figure 3 shows a block diagram of the formation of the speaker database.
На Фиг.4 показана блок-схема верификации пользователя по последовательности слов в голосовом пароле.Figure 4 shows a block diagram of the verification of the user by the sequence of words in the voice password.
Технический результат достигается за счет максимального использования имеющейся информации. В настоящем изобретении используется изолированное произнесение слов из заданного словаря, причем слово, которое должен произнести пользователь, и последовательность этих слов определяется самой системой верификации. В процессе формирования баз данных для каждого слова находятся сегменты, параметры которых наилучшим образом разделяют пользователя и дикторов, записанных в референтной базе данных. В пространстве этих параметров для каждого сегмента слова выполняется аппроксимация плотности вероятности, а в процессе верификации для сегментов каждого произнесенного слова вычисляется отношение правдоподобия относительно аналогичного сегмента соответствующего слова в референтной базе. Затем с помощью формулы Байеса для каждого пространства вычисляется апостериорная вероятность принадлежности к голосу пользователя, и эти вероятности усредняются по всем словам в пароле. Решение о доступе или отказе принимается по значению этой апостериорной вероятности относительно некоторого порога, индивидуального для каждого пользователя.The technical result is achieved by maximizing the use of available information. The present invention uses isolated pronunciation of words from a given dictionary, the word that the user must pronounce and the sequence of these words is determined by the verification system itself. In the process of creating databases for each word are segments whose parameters are best shared by the user and the speakers recorded in the reference database. In the space of these parameters, an approximation of the probability density is performed for each word segment, and during the verification process, the likelihood ratio relative to the corresponding segment of the corresponding word in the reference base is calculated for the segments of each spoken word. Then, using the Bayes formula for each space, the posterior probability of belonging to the user's voice is calculated, and these probabilities are averaged over all words in the password. The decision on access or denial is made by the value of this posterior probability relative to a certain threshold, individual for each user.
В настоящем изобретении для сегментации речевого сигнала на характерные участки, а также для определения признаков голоса диктора используются детекторы спектрально-временных неоднородностей, описанные в статье В.Н.Сорокина и Д.Н.Чепелева "Модель первичного анализа речевых сигналов". Акустический ж., 2005, т.51, №3, с.340-346.In the present invention, spectral-temporal heterogeneity detectors described in the article by V.N. Sorokin and D.N. Chepelev "Model of the primary analysis of speech signals" are used to segment the speech signal into characteristic sections, as well as to determine the characteristics of the speaker’s voice. Acoustic J., 2005, vol. 51, No. 3, pp. 340-346.
ОператорOperator
описывает акустические детекторы спектрально-временных неоднородностей сигнала и моделирует многие известные свойства слухового восприятия. Здесь S(ω,t) - динамический спектр мощности принятого сигнала, ΔΩ - сдвиг отсчета спектра по частоте, ΔТ - сдвиг отсчета спектра по времени, θ1 и θ2 - скользящие интервалы сглаживания спектрального разреза по частоте, τ1 и τ2 - постоянные времени сглаживания спектральных компонент фильтром первого порядка, С≥1.describes acoustic detectors of spectral-temporal inhomogeneities of a signal and simulates many well-known properties of auditory perception. Here S (ω, t) is the dynamic power spectrum of the received signal, ΔΩ is the frequency shift of the spectrum reference, ΔT is the time shift of the spectrum reference, θ 1 and θ 2 are the moving intervals of smoothing the spectral section in frequency, and τ 1 and τ 2 are the time constants of smoothing the spectral components with a first-order filter, C≥1.
Оператор А(ω,t) обладает рядом важных свойств, необходимых для успешной верификации диктора. Прежде всего он слабо зависит от аддитивных помех и амплитудно-частотной характеристики канала связи, включая характеристики разных типов микрофонов. Это свойство существенно повышает помехоустойчивость верификации. При τ1≠0 и τ2≠0, оператор A(ω,t) оценивает скорость переходных процессов в динамическом спектре речевого сигнала, формируя разнообразные динамические детекторы для различных сочетаний τ1 и τ2. Эти детекторы моделируют явления амплитудно-частотных модуляций в речевом сигнале. При θ1≠0 и θ2≠0, оператор A(ω,t) оценивает неоднородность спектрального профиля в каждый момент времени. При разных значениях параметров θ1 и θ2 формируются детекторы, которые моделируют так называемый эффект латерального торможения в спектральной области.The operator A (ω, t) has a number of important properties necessary for successful verification of the speaker. First of all, it weakly depends on additive interference and the amplitude-frequency characteristics of the communication channel, including the characteristics of different types of microphones. This property significantly increases the noise immunity of verification. For τ 1 ≠ 0 and τ 2 ≠ 0, the operator A (ω, t) estimates the rate of transients in the dynamic spectrum of the speech signal, forming various dynamic detectors for various combinations of τ 1 and τ 2 . These detectors simulate the effects of amplitude-frequency modulations in a speech signal. For θ 1 ≠ 0 and θ 2 ≠ 0, the operator A (ω, t) estimates the inhomogeneity of the spectral profile at each moment in time. At different values of the parameters θ 1 and θ 2 , detectors are formed that simulate the so-called lateral drag effect in the spectral region.
Детекторы спектральных и спектрально-временных неоднородностей подчеркивают индивидуальные характеристики голоса диктора, поскольку разные размеры речевого тракта влияют на форму мгновенного спектра и скорость движения артикуляторных органов - языка, губ и нижней челюсти.Detectors of spectral and spectral-temporal heterogeneities emphasize the individual characteristics of the speaker’s voice, since different sizes of the speech tract affect the shape of the instant spectrum and the speed of movement of articulatory organs - the tongue, lips and lower jaw.
На Фиг.1 показаны примеры работы детекторов при разных соотношениях их параметров. Вверху приведены осциллограммы последовательности слов "один, шесть, четыре" с разметкой на акустико-фонетические сегменты. Тип сегмента указан на флажке, установленном на границе соответствующего сегмента. Типы сегментов в значительной степени не зависят от конкретного языка, для которого разрабатывается система верификации, хотя и существуют различия, например, в количестве гласных или месте артикуляции некоторых согласных звуков. В системе верификации для русского языка используется более 120 типов сегментов, включающих в себя ударные, безударные и редуцированные гласные, а также огласованные сегменты, не имеющие фонетической классификации, такие как сегменты между согласными и звуком "p" (например, в слове "mъpu"). Кроме границ фонетических элементов - гласных и согласных, необходимо указывать и границы акустических сегментов, таких как шумовые участки речевого сигнала после взрыва смычных согласных. На Фиг.1 такой сегмент в слове "шесть" обозначен флажком с символами Th'.Figure 1 shows examples of the operation of the detectors with different ratios of their parameters. At the top are waveforms of the sequence of words “one, six, four” marked with phono-acoustic segments. The type of segment is indicated on the flag set on the border of the corresponding segment. The types of segments are largely independent of the particular language for which the verification system is developed, although there are differences, for example, in the number of vowels or in the place of articulation of some consonants. The verification system for the Russian language is used more than 120 types of segments, including the drums, unstressed and reduced vowels and voiced segments without phonetic classification, such as segments between consonants and sound "p" (for example, in the word "m b pu "). In addition to the boundaries of phonetic elements - vowels and consonants, it is also necessary to indicate the boundaries of acoustic segments, such as noise sections of a speech signal after an explosion of consonant consonants. 1, such a segment in the word "six" is indicated by a flag with the symbols Th '.
Под осциллограммами показаны динамические спектры (сонограммы). Под сонограммой показаны отклики динамического детектора (детектограммы), реагирующего на возрастание энергии в данной частотной полосе, а под ним - отклики динамического детектора, реагирующего на спад энергии. И на сонограммах, и на детектограммах амплитуда сигнала в данной частотной полосе отображается степенью черноты изображения. Еще ниже показаны отклики детекторов, описывающих неоднородности спектрального профиля энергетического спектра S при разных параметрах θ1 и θ2.Under the oscillograms, dynamic spectra (sonograms) are shown. Below the sonogram are shown the responses of a dynamic detector (detogram) that responds to an increase in energy in a given frequency band, and below it are the responses of a dynamic detector that responds to a decrease in energy. In both sonograms and detograms, the signal amplitude in a given frequency band is displayed by the degree of blackness of the image. Below are shown the responses of detectors describing the inhomogeneities of the spectral profile of the energy spectrum S for different parameters θ 1 and θ 2 .
Энергия каждого динамического детектора в каждый момент времени суммируется по частоте. Максимумы этой функции во времени принимаются за границы сегментов речевого сигнала, а мгновенные или усредненные на квазистационарном сегменте спектральные профили детектограмм используются для вычисления признаков индивидуальности голоса диктора.The energy of each dynamic detector at each moment of time is summed over the frequency. The maxima of this function in time are taken beyond the boundaries of the segments of the speech signal, and the spectral profiles of detograms that are instantaneous or averaged over the quasi-stationary segment are used to calculate the characteristics of the speaker’s voice personality.
В дополнение к свойствам оператора A(ω,t) устойчивость оценки параметров голоса к различным характеристикам акустического и электронного каналов связи достигается еще и тем, что референтная база данных формируется с использованием основных типов приемников звука (направленных и ненаправленных микрофонов, расположенных на разных расстояниях от диктора) и характеристик помещения, в котором производится запись.In addition to the properties of the operator A (ω, t), the stability of the estimation of voice parameters to various characteristics of the acoustic and electronic communication channels is also achieved by the fact that the reference database is formed using the main types of sound receivers (directional and non-directional microphones located at different distances from speaker) and the characteristics of the room in which the recording is made.
При формировании референтной базы данных выполняется ручная разметка речевых сигналов, состоящая в установлении границ между сегментами и маркировке типа сегмента, следующего за границей. На каждой границе считываются амплитуды и частоты локальных максимумов профиля детектограмм, описывающих переходные процессы с возрастанием или спадом энергии в спектре речевого сигнала. Между границами сегментов вычисляются средние частоты локальных максимумов спектра, найденных с помощью детекторов спектральных неоднородностей. Множество динамических и статических параметров сегментов каждого слова формирует пространство признаков этого слова. В отличие от техники нормализации канала связи в данном изобретении в пространстве признаков вычисляется плотность вероятности по всем типам каналов связи и всем дикторам референтной базы данных для каждого слова, используемого в голосовом пароле. Преимущество такого подхода заключается в аппроксимации характеристик каналов связи, находящихся как бы между характеристиками тех типов каналов, которые были использованы в процессе обучения. Кроме того, это позволяет избежать процесса нормализации, чреватого значительными ошибками.When forming the reference database, manual marking of speech signals is performed, which consists in establishing the boundaries between the segments and marking the type of segment following the border. At each boundary, the amplitudes and frequencies of the local maxima of the profile of detectors are read, which describe transients with increasing or decreasing energy in the spectrum of the speech signal. Between the boundaries of the segments, the average frequencies of the local maximums of the spectrum found using spectral inhomogeneity detectors are calculated. The set of dynamic and static parameters of the segments of each word forms the space of attributes of this word. In contrast to the communication channel normalization technique, in this invention, in the feature space, the probability density is calculated for all types of communication channels and all speakers of the reference database for each word used in the voice password. The advantage of this approach is the approximation of the characteristics of communication channels that are, as it were, between the characteristics of those types of channels that were used in the learning process. In addition, this avoids the normalization process, which is fraught with significant errors.
Для наиболее точной аппроксимации плотности вероятности в пространстве признаков вектор признаков каждой реализации слова рассматривается как математическое ожидание некоторой гиперсферы с нормальным распределением. Среднеквадратическое отклонение этого распределения вычисляется пропорционально среднему расстоянию между множеством реализации данного слова для каждого диктора. Затем плотность вероятности в пространстве признаков слова вычисляется как нормированная суперпозиция всех нормальных распределений. Такой подход лишен недостатков, присущих аппроксимации плотности вероятности несколькими или тем более одним нормальным распределением.For the most accurate approximation of the probability density in the feature space, the feature vector of each word implementation is considered as the mathematical expectation of some hypersphere with a normal distribution. The standard deviation of this distribution is calculated in proportion to the average distance between the set of realizations of a given word for each speaker. Then the probability density in the attribute space of the word is calculated as the normalized superposition of all normal distributions. Such an approach is free from the drawbacks inherent in approximating the probability density by several or even more so by one normal distribution.
Сегментация слова на акустические элементы необходима для установления соответствия параметров слов. Например, на сегментах гласных вычисляются частоты локальных экстремумов спектра, а на сегментах фрикативных звуков - частотные характеристики шумового участка спектра. Ошибка в типе сегмента приводит к падению отношения правдоподобия анализируемого слова. В настоящем изобретении используется оригинальный метод сегментации, не имеющий аналогов в мировой патентной литературе.The segmentation of a word into acoustic elements is necessary to establish the correspondence of the parameters of words. For example, the frequencies of local extrema of the spectrum are calculated on segments of vowels, and on the segments of fricative sounds, the frequency characteristics of the noise portion of the spectrum. An error in the type of segment leads to a drop in the likelihood ratio of the analyzed word. The present invention uses an original segmentation method, which has no analogues in the world patent literature.
Все типы акустических и фонетических сегментов сводятся к 6 основным типам: гласный, назальный, глухая смычка, звонкая смычка, звонкий фрикативный, глухой фрикативный. В процессе обучения системы по всем реализациям каждого слова из заданного словаря формируется кодовая книга, состоящая из множества кодов, представленных в виде последовательности 6 основных типов сегментов. Эти коды служат эталонами, использующимися при сегментации речевых сигналов в процессе верификации пользователя. Каждому эталону соответствует свое пространство признаков, в котором осуществляется аппроксимация плотности вероятности. Все множество эталонов каждого слова формирует общее пространство признаков слова и описывается плотностью вероятности в этом пространстве. Процесс формирования референтной базы данных иллюстрируется блок-схемой на Фиг.2.All types of acoustic and phonetic segments are reduced to 6 main types: vowel, nasal, deaf bow, voiced bow, voiced fricative, deaf fricative. In the process of training the system for all implementations of each word, a code book is formed from a given dictionary, consisting of many codes, presented in the form of a sequence of 6 basic types of segments. These codes serve as standards used in the segmentation of speech signals in the process of user verification. Each standard has its own attribute space in which the probability density is approximated. The whole set of standards of each word forms a common space of features of the word and is described by the probability density in this space. The process of forming a reference database is illustrated in the flowchart of FIG. 2.
При формировании базы данных для диктора, подлежащего верификации, вместо ручной разметки используются эталоны референтной базы данных. Сегментация слов в процессе обучения системы на данного диктора выполняется путем стандартного метода динамического программирования, осуществляющего деформацию временной оси с поиском последовательности сегментов, характеристики которых в терминах некоторого критерия наиболее близки к одному из эталонов референтной базы данных. Затем для каждого произнесенного слова определяется пространство признаков, и в этом пространстве по всем словам, участвовавшим в обучении, формируется плотность вероятности с помощью смеси нормальных распределений. Этот процесс иллюстрируется блок-схемой на Фиг.3.When forming the database for the speaker to be verified, instead of manual marking, reference database standards are used. The words are segmented during the learning process of the system using this speaker using the standard dynamic programming method, which deforms the time axis and searches for a sequence of segments whose characteristics, in terms of a certain criterion, are closest to one of the reference database standards. Then, for each spoken word, a space of signs is determined, and in this space, according to all the words that participated in the training, a probability density is formed using a mixture of normal distributions. This process is illustrated in the flowchart of FIG. 3.
В процессе верификации каждое произнесенное слово также сегментируется с использованием последовательностей сегментов слов, записанных в референтной базе данных. Затем для полученной последовательности сегментов формируется вектор признаков этого слова, и считываются условные вероятности принадлежности этого вектора к пространству признаков диктора или соответствующего кода в референтной базе. Процесс обработки речевого сигнала и информационные потоки в режиме верификации диктора показаны на блок-схеме (Фиг.4).During the verification process, each spoken word is also segmented using sequences of word segments recorded in the reference database. Then, for the obtained sequence of segments, a vector of attributes of this word is formed, and the conditional probabilities of belonging of this vector to the attribute space of the speaker or the corresponding code in the reference base are read. The process of processing a speech signal and information flows in the verification mode of the speaker are shown in the block diagram (Figure 4).
Конкретные примеры работыCase Studies
"Способа верификация пользователя в системах санщионирования доступа"."Methods of user verification in access sanitation systems."
Способ может быть реализован с помощью аппаратных средств, например, на основе цифрового сигнального процессора или в виде специализированного чипа. Один из вариантов реализации способа может быть представлен как программный модуль, предназначенный для обеспечения доступа к операционной системе Windows в персональных компьютерах. Такой программный модуль был протестирован на обширной речевой базе данных, состоящей из речевых сигналов 420 дикторов разного возраста и пола. Речевые сигналы разных групп дикторов записывались через разные типы приемников звука, включая 2 типа телефонных трубок, 2 типа микрофонов с подавлением шумов, расположенных на головной гарнитуре, 2 типа направленных микрофонов, расположенных на расстоянии 20 см и 80 см от диктора, всенаправленный микрофон и кардиоидный микрофон, расположенный на расстоянии 20 см и 80 см от диктора. Запись речевых сигналов производилась в помещениях различного объема. Каждый диктор произносил каждое числительное от 0 до 9 от 20 до 40 раз.The method can be implemented using hardware, for example, based on a digital signal processor or in the form of a specialized chip. One of the options for implementing the method can be represented as a software module designed to provide access to the Windows operating system in personal computers. Such a software module was tested on an extensive speech database consisting of 420 voice signals of different age and gender. The speech signals of different groups of speakers were recorded through different types of sound receivers, including 2 types of handsets, 2 types of noise-canceling microphones located on the headset, 2 types of directional microphones located at a distance of 20 cm and 80 cm from the speaker, an omnidirectional microphone and a cardioid a microphone located at a distance of 20 cm and 80 cm from the speaker. Recording of speech signals was carried out in rooms of various sizes. Each announcer pronounced each numeral from 0 to 9 from 20 to 40 times.
При тестировании системы верификации поочередно каждый диктор назначался пользователем. Из его произнесений в случайном порядке формировались пароли из 10 числительных, и выполнялась оценка вероятности пропуска самозванца или отказа. Объем тестирования составил более 30 миллионов реализаций, что является вполне представительной выборкой для полученной оценки вероятности ошибок обоего рода, которая оказалась менее 0.05.When testing the verification system, each speaker was assigned by the user in turn. Passwords from 10 numerals were randomly generated from his utterances, and the probability of skipping an impostor or failure was evaluated. The testing volume amounted to more than 30 million implementations, which is a fairly representative sample for the resulting estimate of the probability of errors of both kinds, which turned out to be less than 0.05.
При реализации способа эта база данных используется как референтная база. Каждый пользователь производит обучение системы верификации, произнося каждое числительное не менее 20 раз, причем порядок следования числительных определяется системой верификации. Количество произнесений на этапе обучения, а также количество слов в пароле при верификации зависит от требуемого отношения вероятности пропуска самозванца к вероятности отказа законному пользователю. Это отношение устанавливается самим пользователем.When implementing the method, this database is used as a reference database. Each user carries out training of the verification system, pronouncing each numeral at least 20 times, and the order of the numerals is determined by the verification system. The number of pronunciations at the training stage, as well as the number of words in the password during verification, depends on the required ratio of the probability of skipping an impostor to the probability of rejection to a legitimate user. This relationship is set by the user.
Примеры работы системы верификации при санкционировании доступа иллюстрируются окнами с сообщениями системы. При вызове верификатора появляется окно, в котором пользователю предлагается нажать на клавишу пробела для запуска процесса верификации (Фиг.5). Затем система верификации последовательно высвечивает числительные, которые пользователь должен произнести (Фиг.6). Процесс верификации завершается принятием решения о доступе или отказе от доступа (Фиг.7, 8). В случае отказа от доступа пользователю предоставляется, например, еще две попытки. Если и эти попытки оказались неудачными, то предлагается ввести мастер-ключ (Фиг.9).Examples of operation of the verification system when authorizing access are illustrated by windows with system messages. When the verifier is called, a window appears in which the user is prompted to press the space bar to start the verification process (Figure 5). Then, the verification system sequentially displays the numerals that the user must say (Fig.6). The verification process ends with a decision on access or denial of access (Fig.7, 8). In case of refusal of access, the user is granted, for example, two more attempts. If these attempts were unsuccessful, it is proposed to enter a master key (Fig.9).
Если система верификации предназначена для индивидуального использования, то мастер-ключ известен пользователю. Этот ключ должен храниться отдельно, аналогично ПИН-коду кредитной карты. Если система верификации используется, например, в компании со многими пользователями, то мастер-ключ известен только системному администратору или представителю службы безопасности.If the verification system is intended for individual use, the master key is known to the user. This key must be stored separately, similar to a credit card PIN. If the verification system is used, for example, in a company with many users, then the master key is known only to the system administrator or security representative.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2007116231/09A RU2351023C2 (en) | 2007-05-02 | 2007-05-02 | User verification method in authorised access systems |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2007116231/09A RU2351023C2 (en) | 2007-05-02 | 2007-05-02 | User verification method in authorised access systems |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2007116231A RU2007116231A (en) | 2008-11-10 |
RU2351023C2 true RU2351023C2 (en) | 2009-03-27 |
Family
ID=40543141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2007116231/09A RU2351023C2 (en) | 2007-05-02 | 2007-05-02 | User verification method in authorised access systems |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2351023C2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016108722A1 (en) * | 2014-12-30 | 2016-07-07 | Obshestvo S Ogranichennoj Otvetstvennostyu "Integrirovannye Biometricheskie Reshenija I Sistemy" | Method to restore the vocal tract configuration |
RU2617393C2 (en) * | 2014-06-26 | 2017-04-24 | Сяоми Инк. | Method and device for file locking |
US9904774B2 (en) | 2014-06-26 | 2018-02-27 | Xiaomi Inc. | Method and device for locking file |
-
2007
- 2007-05-02 RU RU2007116231/09A patent/RU2351023C2/en not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2617393C2 (en) * | 2014-06-26 | 2017-04-24 | Сяоми Инк. | Method and device for file locking |
US9904774B2 (en) | 2014-06-26 | 2018-02-27 | Xiaomi Inc. | Method and device for locking file |
WO2016108722A1 (en) * | 2014-12-30 | 2016-07-07 | Obshestvo S Ogranichennoj Otvetstvennostyu "Integrirovannye Biometricheskie Reshenija I Sistemy" | Method to restore the vocal tract configuration |
Also Published As
Publication number | Publication date |
---|---|
RU2007116231A (en) | 2008-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Who is real bob? adversarial attacks on speaker recognition systems | |
Yu et al. | Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features | |
Reynolds | An overview of automatic speaker recognition technology | |
Gałka et al. | Playback attack detection for text-dependent speaker verification over telephone channels | |
EP0983587B1 (en) | Speaker verification method using multiple class groups | |
US20150112682A1 (en) | Method for verifying the identity of a speaker and related computer readable medium and computer | |
CN105933272A (en) | Voiceprint recognition method capable of preventing recording attack, server, terminal, and system | |
US20070038460A1 (en) | Method and system to improve speaker verification accuracy by detecting repeat imposters | |
US20140195237A1 (en) | Fast, language-independent method for user authentication by voice | |
Reynolds | Automatic speaker recognition: Current approaches and future trends | |
US9373325B2 (en) | Method of accessing a dial-up service | |
Arif et al. | Voice spoofing countermeasure for logical access attacks detection | |
US7630895B2 (en) | Speaker verification method | |
Chakroun et al. | Improving text-independent speaker recognition with GMM | |
RU2351023C2 (en) | User verification method in authorised access systems | |
Reynolds et al. | Automatic speaker recognition | |
Saleema et al. | Voice biometrics: the promising future of authentication in the internet of things | |
Nagakrishnan et al. | Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models | |
Ye et al. | Detection of replay attack based on normalized constant q cepstral feature | |
Smiatacz | Playback attack detection: the search for the ultimate set of antispoof features | |
Al-Hassani et al. | Design a text-prompt speaker recognition system using LPC-derived features | |
Turajlic et al. | Neural network based speaker verification for security systems | |
Chadha et al. | Text-independent speaker recognition for low SNR environments with encryption | |
Mohamed et al. | An Overview of the Development of Speaker Recognition Techniques for Various Applications. | |
Turner | Security and privacy in speaker recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC4A | Invention patent assignment |
Effective date: 20091214 |
|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20110503 |