RU2697736C1 - Верификация говорящего - Google Patents

Верификация говорящего Download PDF

Info

Publication number
RU2697736C1
RU2697736C1 RU2018112272A RU2018112272A RU2697736C1 RU 2697736 C1 RU2697736 C1 RU 2697736C1 RU 2018112272 A RU2018112272 A RU 2018112272A RU 2018112272 A RU2018112272 A RU 2018112272A RU 2697736 C1 RU2697736 C1 RU 2697736C1
Authority
RU
Russia
Prior art keywords
vector
user
neural network
speech
speaker
Prior art date
Application number
RU2018112272A
Other languages
English (en)
Inventor
Игнасио Лопес МОРЕНО
Ли ВАНЬ
Цюань ВАН
Original Assignee
ГУГЛ ЭлЭлСи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ГУГЛ ЭлЭлСи filed Critical ГУГЛ ЭлЭлСи
Application granted granted Critical
Publication of RU2697736C1 publication Critical patent/RU2697736C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

Изобретение относится к верификации говорящего. Технический результат – обеспечение точной верификации подлинности говорящих, которые говорят на разных языках или диалектах. Предлагаются способы, системы, устройство, включающее в себя компьютерные программы, кодированные на компьютерном носителе информации, для способствования независимой от языка верификации говорящего. В одном аспекте, способ включает в себя действия по приему, пользовательским устройством, аудиоданных, представляющих фрагмент речи пользователя. Другие действия могут включать в себя предоставление в нейронную сеть, хранящуюся на пользовательском устройстве, входных данных, полученных из аудиоданных и идентификатора языка. Нейронная сеть может быть обучена с использованием речевых данных, представляющих речь на разных языках или диалектах. Способ может включать в себя дополнительные действия по генерированию, на основе вывода нейронной сети, представления говорящего и определению, на основе представления говорящего и второго представления, что фрагмент речи является фрагментом речи пользователя. Способ может предоставить пользователю доступ к пользовательскому устройству на основе определения, что фрагмент речи является фрагментом речи пользователя. 2 н. и 12 з.п. ф-лы, 5 ил.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
[1] Это описание относится к верификации говорящего.
УРОВЕНЬ ТЕХНИКИ
[2] Голосовая аутентификация предоставляет пользователю пользовательского устройства легкий способ получения доступа к пользовательскому устройству. Голосовая аутентификация обеспечивает пользователю возможность разблокировки, и осуществления доступа к, устройства пользователя без запоминания или ввода пароля. Однако, существование многочисленных разных языков, диалектов, акцентов и подобного представляет некоторые проблемы в области голосовой аутентификации.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[3] В одной реализации, модель верификации говорящего улучшается на обыкновенных системах посредством способствования верификации говорящего независимо от языка, диалекта или акцента говорящего. Модель верификации говорящего может быть основана на нейронной сети. Нейронная сеть может быть обучена с использованием вводов, которые включают в себя фрагмент речи и идентификатор языка. Однажды обученные, активации, выводимые скрытым слоем нейронной сети, могут быть использованы как отпечаток голоса, который можно сравнить с опорным представлением на устройстве пользователя. Говорящий может быть аутентифицирован, если отпечаток голоса и опорное представление удовлетворяют предварительно определенному порогу сходства.
[4] Согласно одной реализации, изобретение согласно этому описанию может быть осуществлено в способе способствования независимой от языка верификации говорящего. Способ может включать в себя действия по: приему, пользовательским устройством, аудиоданных, представляющих фрагмент речи пользователя; определению идентификатора языка, ассоциированного с пользовательским устройством; предоставлению, нейронной сети, хранящейся на пользовательском устройстве, набора входных данных, полученных из аудиоданных и определенного идентификатора языка, причем нейронная сеть имеет параметры, обученные с использованием речевых данных, представляющих речь на разных языках и разных диалектах; генерированию, на основе вывода нейронной сети, произведенного в ответ на прием набора входных данных, представления говорящего, указывающего характеристики голоса пользователя; определению, на основе представления говорящего и второго представления, что фрагмент речи является фрагментом речи пользователя; и предоставлению пользователю доступа к пользовательскому устройству на основе определения того, что фрагмент речи является фрагментом речи пользователя.
[5] Другие версии включают в себя соответствующие системы, устройства и компьютерные программы для выполнения действий способов, кодированные на компьютерных устройствах хранения.
[6] Эти и другие версии могут опционально включать в себя один или более из нижеследующих признаков. Например, в некоторых реализациях, набор входных данных, полученных из аудиоданных и определенного идентификатора языка, включает в себя первый вектор, который получен из аудиоданных, и второй вектор, который получен из определенного идентификатора языка.
[7] В некоторых реализациях, способ может включать в себя генерирование входного вектора посредством объединения первого вектора и второго вектора в единый объединенный вектор, предоставление, нейронной сети, сгенерированного входного вектора и генерирование, на основе вывода нейронной сети, произведенного в ответ на прием входного вектора, представления говорящего, указывающего характеристики голоса пользователя.
[8] В некоторых реализациях, способ может включать в себя генерирование входного вектора посредством объединения выводов по меньшей мере двух других нейронных сетей, которые соответственно генерируют выводы на основе (i) первого вектора, (ii) второго вектора или (iii) и первого вектора, и второго вектора, предоставление, нейронной сети, сгенерированного входного вектора и генерирование, на основе вывода нейронной сети, произведенного в ответ на прием входного вектора, представления говорящего, указывающего характеристики голоса пользователя.
[9] В некоторых реализациях, способ может включать в себя генерирование входного вектора на основе первого вектора и взвешенной суммы второго вектора, предоставление, нейронной сети, сгенерированного входного вектора и генерирование, на основе вывода нейронной сети, произведенного в ответ на прием входного вектора, представления говорящего, указывающего характеристики голоса пользователя.
[10] В некоторых реализациях, вывод нейронной сети, произведенный в ответ на прием набора входных данных, включает в себя набор активаций, сгенерированных скрытым слоем нейронной сети.
[11] В некоторых реализациях, определение, на основе представления говорящего и второго представления, что фрагмент речи является фрагментом речи пользователя, может включать в себя определение расстояния между первым представлением и вторым представлением.
[12] В некоторых реализациях, способ может включать в себя предоставление пользователю доступа к пользовательскому устройству на основе определения того, что фрагмент речи является фрагментом речи пользователя, включая разблокировку пользовательского устройства.
[13] Другие реализации изобретения, описанного этим описанием, включают в себя способ независимой от языка верификации говорящего, который включает в себя прием, мобильным устройством, которое реализует независимую от языка модель верификации говорящего, выполненную с возможностью определения того, включают ли вероятно в себя принятые аудиоданные фрагмент речи с одним из многочисленных характерных для языка ключевых слов, (i) конкретных аудиоданных, соответствующих конкретному фрагменту речи пользователя, и (ii) данных, указывающих конкретный язык, на котором говорит пользователь, и в ответ на прием (i) конкретных аудиоданных, соответствующих конкретному фрагменту речи пользователя, и (ii) данных, указывающих конкретный язык, на котором говорит пользователь, предоставление, для вывода, указания, что независимая от языка модель верификации говорящего определила, что конкретные аудиоданные вероятно включают в себя фрагмент речи с ключевым словом, предназначенным для конкретного языка, на котором говорит пользователь.
[14] Эти и другие версии могут опционально включать в себя один или более из нижеследующих признаков. Например, в одной реализации, предоставление, для вывода, указания может включать в себя предоставление доступа к ресурсу мобильного устройства. В качестве альтернативы, или в дополнение, предоставление, для вывода, указания может включать в себя разблокировку мобильного устройства. В качестве альтернативы, или в дополнение, предоставление, для вывода, указания может включать в себя выведение мобильного устройства из состояния с пониженным энергопотреблением. В качестве альтернативы, или в дополнение, предоставление, для вывода, указания содержит предоставление указания, что независимая от языка модель верификации говорящего определила, что конкретные аудиоданные включают в себя фрагмент речи конкретного пользователя, ассоциированного с мобильным устройством.
[15] В некоторых реализациях, независимая от языка модель верификации говорящего может включать в себя нейронную сеть, обученную без использования фрагментов речи пользователя.
[16] Изобретение согласно этому описанию предоставляет многочисленные преимущества над обыкновенными способами. Например, изобретение по настоящей заявке предусматривает модель верификации говорящего, которая может быть легко распространена. Так как модель верификации говорящего является независимой от языка, диалекта и акцента, одна и та же модель верификации говорящего может быть широко распространена на пользовательские устройства. Это гораздо более эффективно, чем предоставление разных моделей верификации говорящего разным устройствам на основе языка пользователя устройства. В качестве альтернативы, это предотвращает необходимость развертывания многочисленных моделей верификации говорящего на одном и том же устройстве, из которых пользователь может выбрать одну.
[17] Модель верификации говорящего, предусматриваемая настоящей заявкой, демонстрирует улучшенную точность при использовании одной и той же модели для выполнения верификации говорящего независимо от языка, диалекта или акцента говорящего. Например, вариации в языке, диалекте или акценте могут привести к тому, что конкретный пользователь произносит предварительно определенное ключевое слово иным образом, чем другие пользователи. В обыкновенных системах эта разница в произношении может вызвать проблемы с точностью. Модель верификации говорящего по настоящему раскрытию улучшает эту слабость обыкновенных систем.
[18] Модель верификации говорящего, предусматриваемая настоящей заявкой, также обеспечивает легкое обновление. Например, вновь обученная модель может легко быть развернута как часть обновления стандартного программного обеспечения для операционной системы пользовательского устройства. Такие обновленные модели верификации говорящего могут легко обучаться, чтобы учитывать новые языки, диалекты и/или акценты по мере их появления. В качестве альтернативы, обновления могут быть созданы для существующей версии модели верификации говорящего на основе известных языков, диалектов и/или акцентов. Такие обновленные модели верификации говорящего могут быть универсальным образом развернуты, без необходимости предоставления конкретных моделей верификации говорящего конкретным устройствам в конкретных географических регионах.
[19] Подробности одного или более вариантов осуществления изобретения, описанного в этом описании, изложены на прилагаемых чертежах и в описании ниже. Другие признаки, аспекты и преимущества изобретения станут очевидны из описания, чертежей и формулы изобретения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[20] Фиг. 1 показывает контекстную схему примера системы для использования независимой от языка модели верификации говорящего для выполнения верификации говорящего.
[21] Фиг. 2 является примером системы для обучения независимой от языка модели верификации говорящего.
[22] Фиг. 3 является примером концептуального представления множества соответствующих векторов идентификации языка.
[23] Фиг. 4 является примером системы, которая выполняет независимую от языка верификацию говорящего.
[24] Фиг. 5 является схемой последовательности операций процесса для выполнения независимой от языка верификации говорящего.
ПОДРОБНОЕ ОПИСАНИЕ
[25] В некоторых реализациях, система предоставляет пользовательскому устройству независимую от языка модель верификации говорящего, которая может быть моделью на основе нейронной сети. Независимая от языка модель верификации говорящего обучается, до установки на пользовательское устройство, на основе обучающих данных, которые включают в себя (i) фрагменты речи от многочисленных разных пользователей и (ii) векторы, указывающие языки или местоположения, соответствующие соответственным фрагментам речи. После установки на пользовательское устройство, независимая от языка модель верификации говорящего может быть использована для верификации подлинности пользователя пользовательского устройства без последующего обучения независимой от языка модели верификации говорящего. Хотя пользовательское устройство может получить и использовать фрагменты речи пользователя для регистрации пользователя, сама модель не должна обучаться на основе каких-либо фрагментов речи пользователя пользовательского устройства.
[26] Как используется в настоящем документе, "независимая от языка" модель верификации говорящего относится к единой модели, которая может быть использована для точной верификации подлинности говорящих, которые говорят на разных языках или диалектах. То есть, модель не зависит, или не ограничивается, от речи, имеющей конкретный единственный язык. В результате, вместо использования разных моделей для разных языков, диалектов или акцентов, может быть использована единственная независимая от языка модель. В некоторых реализациях, зависимая от текста модель, обученная идентифицировать говорящего на основе фрагмента речи с конкретным словом или фразой, например, предварительно определенным ключевым словом или словом для привлечения внимания. Независимая от языка модель может быть обучена различать говорящих на разных языках на основе единого ключевого слова, либо на основе разных ключевых слов для разных языков или местоположений. Даже когда одно и то же ключевое слово используется в разных языках или местоположениях, пользователи, имеющие разные языки, диалекты, акценты или местоположения, могут произносить ключевое слово по-разному. Эти вариации снизили точность предшествующих моделей, которые часто неверно описывали вариативность из-за регионального языка или акцента как отличающую говорящего характеристику. Например, частота ложноположительного результата при верификации увеличивается, когда предшествующая модель интерпретирует основные признаки регионального акцента как главные отличительные элементы голоса конкретного говорящего, когда в действительности признаки являются фактически общими для многих других пользователей, которые имеют очень схожий акцент. В настоящей заявке получают информацию о языке или местоположении пользователя и предоставляют информацию модели, обеспечивая модели возможность создавать представления говорящего, например, отпечатки голоса, которые лучше отличают пользователя от других пользователей, имеющих тот же язык, диалект, акцент или местоположение.
[27] Фиг. 1 показывает контекстную схему примера системы для использования независимой от языка модели верификации говорящего для выполнения верификации подлинности. Система 100 включает в себя пользовательское устройство 110, пользовательское устройство 120, сеть 130, сервер 140, нейронную сеть 150 и модель 180 верификации говорящего.
[28] Система 100 включает в себя сервер 140, который хранит нейронную сеть 150. Нейронная сеть 150 была обучена с использованием речевых данных, представляющих образцы речи на разных языках, разных диалектах или и с тем, и другим. Сервер 140 генерирует модель 180 верификации говорящего на основе нейронной сети 150. Затем, сервер 150 передает копию модели 180 верификации говорящего через сеть 130 первому пользовательскому устройству 110 и второму пользовательскому устройству 120. Копия модели 180 верификации говорящего затем сохраняется на каждом соответствующем пользовательском устройстве 110, 120.
[29] Пользователь, например, "Joe" может попытаться получить доступ к пользовательскому устройству 110 с использованием голосовой аутентификации. Например, Joe может произнести предварительно определенное ключевое слово 105a, или фразу, такую как "Ok Google" на английском. Аудио 105b, соответствующее предварительно определенному фрагменту речи, может быть обнаружено микрофоном 111 пользовательского устройства 110. Пользовательское устройство 110 может сгенерировать первый ввод для сохраненной модели 180 верификации говорящего, который получен из аудио 105b, обнаруженного микрофоном 111. В дополнение, пользовательское устройство 110 может получить второй ввод для сохраненной модели 180 верификации говорящего на основе определения, что Joe произнес ключевое слово 105a, или фразу, на английском языке. Пользовательское устройство 110 может определить, что Joe произнес ключевое слово 105a, или фразу, на английском языке, посредством получения настройки языка устройства. Модель 180 верификации говорящего, хранящаяся на пользовательском устройстве 110 Joe, может затем сгенерировать отпечаток голоса для Joe, на основе обработки первого ввода, полученного из аудио 105b, и второго ввода, полученного исходя из использования Joe английского языка. На основе анализа сгенерированного отпечатка голоса, пользовательское устройство 110 может определить, что Joe аутентифицирован для осуществления доступа к устройству 110. В ответ на определение, что Joe аутентифицирован для осуществления доступа к пользовательскому устройству 110, пользовательское устройство 110 может инициировать обработку, которая разблокирует пользовательское устройство 110. В некоторых случаях, пользовательское устройство 110 может отобразить сообщение на графическом пользовательском интерфейсе 112, которое говорит, например, "Speaker Identity Verified" 113. В качестве альтернативы, или в дополнение, когда пользовательское устройство 110 разблокировано, динамик пользовательского устройства 110 может вывести аудиоприветствие 115, которое говорит "Welcome Joe".
[30] В примере по Фиг. 1, другой пользователь, например, "Wang", имеет пользовательское устройство 120, которое также хранит копию той же самой модели 180 верификации говорящего. Wang, имеющий беглую речь на китайском языке, может попытаться получить доступ к пользовательскому устройству 120 с использованием голосовой аутентификации. Например, Wang может произнести предварительно определенное ключевое слово 115a, или фразу, такую как "Nǐ hǎo Android" на китайском (грубо переводимую на английский как "Hello Android"). Аудио 115b, соответствующее предварительно определенному фрагменту речи, может быть обнаружено микрофоном 121 пользовательского устройства 120. В дополнение, пользовательское устройство 120 может получить второй ввод для сохраненной модели 180 верификации говорящего на основе определения, что Wang произнес ключевое слово 115a, или фразу, на китайском языке. Пользовательское устройство 120 может определить, что Wang произнес ключевое слово 115a, или фразу, на китайском языке, посредством получения настройки языка устройства. Модель 180 верификации говорящего, хранящаяся на пользовательском устройстве 120 Wang, может затем сгенерировать отпечаток голоса для Wang, на основе обработки первого ввода, полученного из аудио 115b, и второго ввода, полученного исходя из использования Wang китайского языка. На основе анализа сгенерированного отпечатка голоса, пользовательское устройство 120 может определить, что Wang аутентифицирован для осуществления доступа к устройству 120. В ответ на определение, что Wang аутентифицирован для осуществления доступа к пользовательскому устройству 120, пользовательское устройство 120 может инициировать обработку, которая разблокирует пользовательское устройство 120. В некоторых случаях, пользовательское устройство 120 может отобразить сообщение на графическом пользовательском интерфейсе 122, которое говорит, например, "Shuōhuàzhě de shēnfèn yànzhèng" 123 (грубо переводимое на английский как "Speaker Identity Verified"). В качестве альтернативы, или в дополнение, когда пользовательское устройство 120 разблокировано, динамик пользовательского устройства 120 может вывести аудиоприветствие 125, которое говорит "Huānyíng Wang" (грубо переводимое на английский как "Welcome Wang").
[31] Как показано в примере по Фиг. 1, единая зависимая от текста модель 180 распознавания говорящего может быть выполнена с возможностью использования разных предварительно определенных ключевых слов для разных языков или местоположений. В дополнение, или в качестве альтернативы, модель 180 может использовать одно и то же ключевое слово для многочисленных языков или местоположений, но модель 180 может генерировать представления говорящего относительно разных вариаций произношения ключевого слова, например, из-за разных языков или региональных акцентов. Как рассмотрено ниже, модель 180 может тонко настроить процесс верификации посредством ввода идентификатора для языка или местоположения в нейронную сеть модели 180 вместе с аудиоинформацией.
[32] Фиг. 2 является примером системы 200 для обучения независимой от языка модели 280 верификации говорящего. Система 200 включает в себя пользовательское устройство 210, сеть 230, сервер 240 и нейронную сеть 250. В общем, обучение независимой от языка модели 280 верификации говорящего происходит посредством обработки, которая происходит на сервере 240, до распределения модели 280 на пользовательское устройство 210 и использования для выполнения распознавания говорящего. Такое обучение не требует соединения пользовательского устройства 210 с сетью 230.
[33] Перед началом обучения, сервер 240 получает набор обучающих фрагментов речи 210a и 210b. Обучающие фрагменты речи могут включать в себя один или более образцов речи, каждый из который был соответственно произнесен многочисленными разными обучающими говорящими, записан и сохранен в репозитории обучающих фрагментов речи, сделанным доступным для сервера 240. Каждый обучающий фрагмент речи 210a, 210b может включать в себя по меньшей мере участок аудиосигнала, который возникает, когда пользователь произносит обучающий фрагмент речи.
[34] Чтобы способствовать голосовой аутентификации, нейронная сеть 250 может быть обучена с использованием обучающих фрагментов речи, которые соответствуют предварительно определенному ключевому слову, которое может быть произнесено пользователем пользовательского устройства 210 во время голосовой аутентификации. Обучающие фрагменты речи могут включать в себя фрагменты речи от многочисленных разных пользователей, каждый из которых произносит одно и то же ключевое слово на разном языке, разном диалекте, с разным акцентом или подобным. В одной реализации, многочисленные наборы обучающих данных могут быть использованы для обучения нейронной сети 250, причем каждый набор обучающих данных, соответствующий произнесению конкретного ключевого слова на конкретном языке, диалекте, с акцентом или подобным. Например, единая нейронная сеть 250 может быть обучена с помощью набора обучающих фрагментов речи от многочисленных разных пользователей, произносящих "Ok Google" на американском английском, и другого набора обучающих данных, где многочисленные разные пользователи произносят "Ok Google" на британском английском. В одной реализации, единая нейронная сеть 250 может быть аналогичным образом обучена с помощью других наборов обучающих данных, которые включают в себя ключевое слово "Ok Google", произнесенное на разных языках, с разными диалектами, разными акцентами или подобным, пока нейронная сеть 250 не будет обучена для всех известных языков, диалектов, акцентов или подобного. В качестве альтернативы, единая нейронная сеть 250 может быть аналогичным образом обучена с помощью других наборов обучающих данных, которые включают в себя ключевое слово "Ok Google", произнесенное на разных языках, с разными диалектами, разными акцентами или подобным, пока нейронная сеть 250 не будет обучена для всех языков, диалектов, акцентов или подобного в регионах, где будет развернута модель верификации говорящего на основе нейронной сети 250. Как использовано в настоящем документе, ключевое слово может быть одиночным словом или фразой, которая включает в себя многочисленные слова. В некоторых реализациях, ключевое слово для каждого языка является фиксированным во время обучения модели, так что каждый пользователь с использованием модели в конкретном местоположении использует то же самое ключевое слово.
[35] Аудиосигналы, соответствующие произнесенным обучающим фразам, могут быть захвачены и записаны. Хотя предоставленные здесь примеры обучающих фрагментов речи, соответствующих предварительно определенному ключевому слову, включают в себя "Ok Google" и "Nǐ hǎo Android", настоящее раскрытие не должно ограничиваться таким образом. Вместо этого, обучающие фрагменты речи, соответствующие любому предварительно определенному ключевому слову, на любом языке или любом диалекте могут быть использованы для обучения нейронной сети 250. В дополнение, предполагается, что нейронная сеть 250 может быть легко обучена для вмещения всех известных языков, диалектов, акцентов или подобного.
[36] В некоторых случаях, обучающего говорящего могут попросить произнести, и записать, одну и ту же обучающую фразу множество раз для того, чтобы сгенерировать многочисленные разные обучающие фрагменты речи для одного и того же обучающего слова или фразы. Таким образом, обучающие фрагменты речи могут быть получены с использованием многочисленных разных говорящих, произносящих обучающее слово или фразу на многочисленных разных языках, многочисленных разных диалектах или подобном. Как только обучающие фрагменты речи 210a, 210b получены, система 200 может получить 212a, 212b соответствующий вектор признаков для каждого обучающего фрагмента речи, который соответствует акустическим признакам соответствующего обучающего фрагмента речи. Соответствующий вектор признаков для каждого обучающего фрагмента речи может включать в себя, например, вектор N на 1, который получен из обучающего фрагмента речи и соответствует акустическим признакам фрагмента речи. Вектор N на 1 может быть концептуально смоделирован с использованием одиночной колонны из N значений. В одной реализации, каждое из N значений в векторе N на 1 может включать в себя значение либо "0", либо "1".
[37] Система 200 может также получить многочисленные разные ID 215a, 215b языков. ID языка может включать в себя данные, которые идентифицируют конкретный язык. В одной реализации, ID языка может включать в себя вектор языка с одним активным состоянием. Такие векторы языка с одним активным состоянием могут включать в себя вектор N на 1, где активирован только один признак вектора языка. Конкретный признак вектора языка может быть активирован, например, посредством задания признака в значение "1". Аналогично, для любого заданного вектора языка с одним активным состоянием, все остальные признаки вектора языка с одним активным состоянием будут деактивированы. Признак вектора языка может быть деактивирован, например, посредством задания признака в значение "0".
[38] Фиг. 3 является примером концептуального представления множества векторов 305, 310, 315, 320 языка с одним активным состоянием. В каждом векторе 305, 310, 315, 320 языка с одним активным состоянием был активирован только один признак, тогда как все остальные признаки деактивированы. Система 200 может ассоциировать каждый вектор 305, 310, 315, 320 языка с одним активным состоянием с конкретным языком. Например, система 200 может определить, что вектор языка с одним активным состоянием с активированным первым признаком вектора языка, таким как в случае в отношении вектора 305 идентификации языка, может быть ассоциирован с "английским" языком. Аналогично, система 200 может определить, что вектор языка с одним активным состоянием с активированным вторым признаком вектора, таким как в случае в отношении вектора 310 идентификации языка, может быть ассоциирован с "китайским" языком. Аналогичные ассоциации языка могут быть сделаны между векторами идентификации языков 315 и 320 и другими языками.
[39] Обучение модели 280 верификации говорящего может начаться посредством предоставления обучающих данных нейронной сети 250. В одной реализации, нейронная сеть 250 может быть обучена с использованием метода попарного обучения. Например, первый набор обучающих данных 213a вводится в нейронную сеть 250, которая включает в себя вектор 214a обучающего фрагмента речи, и второй ввод, который включает в себя ID 215a языка. ID 215a языка может включать в себя, например, вектор языка с одним активным состоянием, который идентифицирует язык или диалект, используемый обучающим говорящим, который предоставляет обучающий фрагмент речи 210a, из которого был получен вектор 214a обучающего фрагмента речи. Нейронная сеть 250 обрабатывает первый набор обучающих данных 213a и генерирует вывод 260a. Впоследствии, второй набор обучающих данных 213b вводится в нейронную сеть 250. Нейронная сеть 250 обрабатывает второй набор обучающих данных 213b и генерирует вывод 260b. Выводы 260a, 260b затем сравниваются с использованием компаратора 270. Компаратор 270 анализирует выводы 260a, 260b для определения, были ли обучающие векторы 214a, 214b получены из обучающих фрагментов речи 210a, 210b, которые были произнесены одним и тем же говорящим. В одной реализации, модуль 440 сравнения может определить, были ли обучающие векторы 214a, 214b получены из обучающих фрагментов речи 210a, 210b, которые были произнесены одним и тем же говорящим, посредством вычисления расстояния между выводами 260a, 260b. Такое расстояние может быть вычислено, например, с использованием косинусного подобия.
[40] Вывод 272 модуля сравнения предоставляет указание, были ли обучающие фрагменты речи 210a, 210b произнесены одним говорящим. В одной реализации, например, выводом 272 может быть двоичное значение, которое содержит либо "0", либо "1". В такой реализации, "0" может указывать, что фрагменты речи были не от одного говорящего. С другой стороны, "1" может указывать, что фрагменты речи были от одного говорящего. В качестве альтернативы, выводом 272 может быть значение, которое может быть отображено в двоичное значение, такое как "0" или "1". Например, вывод 272 может включать в себя вероятность, которая указывает, были ли обучающие фрагменты речи 210a, 210b произнесены одним говорящим. Параметры нейронной сети 250 могут быть затем отрегулированы на основе вывода 272 модуля сравнения 270. В некоторых реализациях, параметры нейронной сети 250 могут быть отрегулированы автоматически на основе вывода 272. В качестве альтернативы, в некоторых реализациях, один или более параметров нейронной сети могут быть отрегулированы вручную на основе вывода 272. Многочисленные наборы обучающих данных могут обрабатываться таким образом, пока сравнение двух выводов 260a, 260b не будет неизменно указывать, была ли пара обучающих векторов, таких как 214a, 214b, получена из фрагментов речи 210a, 210b, которые были произнесены одним говорящим.
[41] Нейронная сеть 250 может включать в себя слой 252 ввода для ввода наборов обучающих данных, многочисленных скрытых слоев 254a, 254b, 254c для обработки наборов обучающих данных, и слой 256 вывода для предоставления вывода. Каждый скрытый слой 254a, 254b, 254c может включать в себя один или более весов или других параметров. Веса или другие параметры каждого соответствующего скрытого слоя 254a, 254b, 254c могут быть отрегулированы так, что обученная нейронная сеть производит желаемый целевой вектор, соответствующий каждому набору обучающих данных. Вывод каждого скрытого слоя 254a, 254b, 254c может сгенерировать вектор активации M на 1. Вывод последнего скрытого слоя, такого как 254c, может быть предоставлен слою 256 вывода, который выполняет дополнительные вычисления принятого вектора активации, для того, чтобы сгенерировать вывод нейронной сети. Как только нейронная сеть 250 достигает желаемого уровня производительности, нейронная сеть 250 может быть обозначена как обученная нейронная сеть. Например, нейронная сеть 250 может обучаться до тех пор, пока сеть 250 не сможет делать различие между речью разных говорящих, и идентифицировать совпадения между речью одного говорящего, с частотой ошибок, меньшей, чем максимальная частота ошибок.
[42] Набор обучающих данных, такой как 213a, который включает в себя вектор 214a обучающего фрагмента речи и ID 215a языка, может быть предварительно обработан до предоставления в качестве ввода в нейронную сеть 250 всевозможными способами. Например, вектор 214a обучающего фрагмента речи и ID 215a языка, такой как вектор языка с одним активным состоянием, могут быть объединены. В таких случаях, объединенный вектор может быть предоставлен как ввод в нейронную сеть 250 во время обучения. В качестве альтернативы, система 200 может сгенерировать ввод в нейронную сеть 250 посредством объединения выводов по меньшей мере двух других нейронных сетей, которые имеют соответствующим образом сгенерированные выводы на основе обработки каждой соответствующей нейронной сетью вектора 214a обучающего фрагмента речи, вектора языка с одним активным состоянием, или и вектора 214a обучающего фрагмента речи, и вектора языка с одним активным состоянием. В таких случаях, объединенный вывод двух или более других нейронных сетей может быть использован для обучения нейронной сети 250. В качестве альтернативы, система 200 может сгенерировать входной вектор на основе вектора 214a обучающего фрагмента речи и взвешенной суммы вектора языка с одним активным состоянием. Могут быть использованы другие способы генерирования набора обучающих данных на основе вектора 214a обучающего фрагмента речи и вектора языка с одним активным состоянием.
[43] Участок 258 нейронной сети 250 может быть получен, как только нейронная сеть 250 обозначена как обученная, и использован для генерирования модели 280 верификации говорящего. Полученный участок 258 нейронной сети 250 может включать в себя слой 252 ввода нейронной сети 250 и один или более скрытых слоев нейронной сети 254a. В некоторых реализациях, однако, полученный участок нейронной сети 250 не включает в себя слой 256 вывода. Как только обучена, нейронная сеть 250 способна произвести вектор активации как вывод последнего скрытого слоя полученного участка 258, который может быть использован как отпечаток голоса для говорящего. Отпечаток голоса может быть использован пользовательским устройством для верификации подлинности человека, который предоставляет фрагмент речи с ключевым словом пользовательскому устройству.
[44] Сервер 240 передает копию модели 280 верификации говорящего через сеть 230 одному или более соответствующим пользовательским устройствам, таким как пользовательское устройство 210. Копия модели 280 верификации говорящего затем сохраняется на каждом соответствующим пользовательском устройстве 110, и может быть использована для способствования независимой от языка верификации подлинности говорящего. В качестве другого примера, модель 280 верификации говорящего может быть предварительно установлена на пользовательское устройство 210, например, с помощью операционной системы пользовательского устройства 210.
[45] Фиг. 4 является примером системы 400, которая выполняет независимую от языка верификацию подлинности говорящего. Система 400 включает в себя пользовательское устройство 210, модель 280 верификации говорящего, модуль 440 сравнения и модуль 450 верификации.
[46] В примере, показанном на Фиг. 4, пользователь 402 пытается осуществить доступ к пользовательскому устройству 210 с использованием голосовой верификации. Пользовательское устройство 210, которое ранее приняло, и сохранило, модель 280 верификации говорящего, предоставленную сервером 240 через сеть 230. Для осуществления доступа к пользовательскому устройству 210 с использованием голосовой верификации, пользователь 402 произносит предварительно определенное ключевое слово 410a или фразу, такую как "Ok Google". Аудио 410b, соответствующее предварительно определенному ключевому слову 410a или фразе "Ok Google", обнаруживается микрофоном 211 пользовательского устройства 210. Пользовательское устройство 410b может получить 413 вектор акустических признаков из аудио 410b, которое представляет акустические признаки аудио 410b.
[47] В дополнение, система 400 может получить ID 415 языка, который сохранен в области хранения ID языков пользовательского устройства 210. ID языка может включать в себя данные, которые идентифицируют конкретный язык или диалект, ассоциированный с пользователем. В одной реализации, ID языка может включать в себя вектор языка с одним активным состоянием. ID 415 языка, который хранится на любом конкретном пользовательском устройстве 210, может быть задан в значение ID конкретного языка из набора ID многочисленных разных языков, соответствующих известным языкам и диалектам, любым числом разных способов. Например, пользователь может выбрать конкретный язык или диалект при включении питания, и конфигурировании, пользовательского устройства 210 в первый раз после приобретения пользовательского устройства 210. ID соответствующего языка может быть выбран, и сохранен в пользовательском устройстве 210, на основе конкретного языка или диалекта, выбранного пользователем.
[48] В качестве альтернативы, или в дополнение, ID конкретного языка может быть выбран, и сохранен в пользовательском устройстве 210, на основе местоположения устройства. Например, пользовательское устройство 210 может установить настройки по умолчанию для ID языка на основе местоположения, где устройство было впервые активировано, текущего местоположения устройства или подобного. В качестве альтернативы, или в дополнение, пользовательское устройство 210 может динамически обнаруживать конкретный язык или диалект, ассоциированный с пользователем, на основе образцов речи, полученных от пользователя. Динамическое обнаружение конкретного языка или диалекта, ассоциированного с пользователем, может быть определено, например, когда пользователь произносит предварительно определенное ключевое слово, во время аутентификации говорящего. В таких случаях, ID соответствующего языка может быть выбран, и сохранен на пользовательском устройстве 210, на основе языка или диалекта, обнаруженного из образцов речи пользователя. В качестве альтернативы, или в дополнение, пользователь может в любое время модифицировать настройки языка или диалекта, ассоциированные с пользовательским устройством 210, для того, чтобы выбрать конкретный язык или диалект. В таких случаях, ID соответствующего языка может быть выбран, и сохранен на пользовательском устройстве 210, на основе пользовательской модификации настроек языка или диалекта пользовательского устройства 210.
[49] Вектор 414 акустических признаков и ID 415 языка могут быть предоставлены в качестве ввода в модель 280 верификации речи, которая основана по меньшей мере на участке обученной нейронной сети 250. Например, модель 280 верификации речи может включать в себя один или более слоев обученной нейронной сети 250, таких как, например, слой 252 ввода и один или более скрытых слоев 254a, 254b, 254. В одной реализации, однако, модель 280 верификации речи не использует слой 256 вывода нейронной сети 250.
[50] Вектор 414 акустических признаков и ID 415 языка могут быть предоставлены как ввод в модель 280 верификации речи всевозможными способами. Например, вектор 414 акустических признаков и ID 415 языка, такой как вектор языка с одним активным состоянием, могут быть объединены. В таких случаях, объединенный вектор может быть предоставлен как ввод в модель верификации речи. В качестве альтернативы, система 400 может объединить выводы по меньшей мере двух других нейронных сетей, которые соответственно сгенерировали выводы на основе обработки каждой соответствующей нейронной сетью вектора 414 акустических признаков, ID 415 языка, такого как вектор языка с одним активным состоянием, или и вектора 414 акустических признаков, и ID 415 языка. В таких случаях, объединенный вывод двух или более других нейронных сетей может быть предоставлен модели 280 верификации речи. В качестве альтернативы, система 400 может сгенерировать входной вектор на основе вектора 414 акустических признаков и взвешенной суммы вектора языка с одним активным состоянием, используемого как ID 415 языка. Могут быть использованы другие способы генерирования входных данных для модели 280 верификации речи на основе вектора 414 акустических признаков и ID 415 языка.
[51] Обработка моделью 280 верификации речи предоставленных входных данных на основе вектора 414 акустических признаков и ID 415 языка может дать в результате генерирование набора активаций в одном или более скрытых слоях нейронной сети модели 280 верификации речи. Например, обработка моделью 280 верификации речи предоставленного ввода может дать в результате набор активаций, сгенерированных в первом скрытом слое 254a, втором скрытом слое 255b, третьем скрытом слое 254c или подобных. В одной реализации, система 400 может получить активации, выведенные последним скрытым слоем 254c нейронной сети модели 280 верификации речи. Активации, выведенные последним скрытым слоем 254c, могут быть использованы для генерирования вектора 420 говорящего. Этот вектор 420 говорящего предоставляет представление, которое указывает характеристики голоса пользователя. Этот вектор говорящего может называться отпечатком голоса. Отпечаток голоса может быть использован, чтобы уникальным образом верифицировать подлинность говорящего на основе характеристик голоса пользователя.
[52] Модуль 440 сравнения может быть выполнен с возможностью приема вектора 420 говорящего и опорного вектора 430. Опорный вектор 430 может быть вектором, который был получен из предыдущего фрагмента речи пользователя, захваченного устройством, например, фрагмента речи, предоставленного во время регистрации пользователя на устройстве. Например, в некоторый момент времени до использования пользователем 402 системы 400 для разблокирования пользовательского устройства 210 с использованием голосовой аутентификации, пользователь 402 может произнести фразу, такую как "Ok Google", один или несколько раз. Пользовательское устройство 210 может быть выполнено с возможностью использования микрофона 211 для захвата аудиосигналов, которые соответствуют фрагментам речи пользователя. Пользовательское устройство 210 может затем получить опорный вектор признаков 430 из аудиосигналов, которые соответствуют по меньшей мере одной из произнесенных фраз, захваченных в некоторый момент времени до использования пользователем 402 системы 400 для разблокировки пользовательского устройства 210 с использованием голосовой аутентификации. Опорный вектор 430 может предоставить базовое представление характеристик голоса пользователя 402, с которым можно сравнить сгенерированный отпечаток голоса. В одной реализации, опорный вектор 430 может быть сгенерирован на основе фрагмента речи пользователя 402 с предварительно определенным ключевым словом, которое может быть произнесено для разблокировки телефона во время голосовой авторизации.
[53] Модуль 440 сравнения может определить уровень сходства между вектором 420 говорящего и опорным вектором 430. В одной реализации, модуль 440 сравнения может вычислить показатель сходства между вектором 420 говорящего и опорным вектором 430. В некоторых случаях, модуль 440 сравнения может определить, превышает ли показатель сходства между вектором 420 говорящего и опорным вектором 430 предварительно определенный порог. В тех случаях, когда показатель сходства превышает предварительно определенный порог, модуль 440 сравнения может предоставить выходные данные в модуль 450 верификации, указывающие, что показатель сходства превышает предварительно определенный порог. В качестве альтернативы, модуль 440 сравнения может определить, что показатель сходства не превышает предварительно определенный порог. В таких случаях, модуль 440 сравнения может предоставить выходные данные в модуль 450 верификации, указывающие, что показатель сходства не превысил предварительно определенный порог.
[54] В некоторых реализациях, показатель сходства между вектором 420 говорящего и опорным вектором 430 может быть вычислен на основе расстояния между вектором 420 говорящего и опорным вектором 430. Модуль 440 сравнения может быть выполнен с возможностью определения расстояния между вектором 420 говорящего и опорным вектором 430. В одной реализации, расстояние между вектором 420 говорящего и опорным вектором 430 может быть определено, например, с использованием функции косинуса. Функция косинуса может определить расстояние между вектором 420 говорящего и опорным вектором 430 посредством измерения угла между двумя векторами.
[55] Модуль 450 верификации принимает и интерпретирует выходные данные, которые модуль 450 верификации принимает от модуля 440 сравнения. На основе выходных данных, принятых от модуля 440 сравнения, модуль верификации может определить, является ли пользователь 402, который произнес фразу 410a, из которой был получен вектор 420 говорящего, тем же пользователем, который ранее произнес фразу, из которой был получен опорный вектор 430. Если определено, что пользователь 402, который произнес фразу 410a, из которой был получен вектор 420 говорящего, является тем же пользователем, который ранее произнес фразу, из которой был получен опорный вектор 430, модуль 450 верификации может дать команду приложению, выполняющемуся на пользовательском устройстве 210, предоставить пользователю 402 доступ к устройству 420. В качестве альтернативы, или в дополнение, после определения, что пользователь 402, который произнес фразу 410a, из которой был получен вектор 420 говорящего, является тем же пользователем, который ранее произнес фразу, из которой был получен опорный вектор 420, модуль 450 верификации может предоставить доступ к конкретному ресурсу на устройстве, разблокировать устройство, вывести устройство из режима с пониженным энергопотреблением или подобное.
[56] Модуль 450 верификации может определить, на основе выходных данных от модуля 440 сравнения, что пользователь, который произнес фразу 410a, является тем же пользователем, который произнес фразу, из которой был получен опорный вектор 430, если выходные данные от модуля 440 сравнения, указывают, что показатель сходства превышает предварительно определенный порог. В таких случаях, модуль верификации может определить, что пользователь полностью аутентифицирован и авторизован для использования пользовательского устройства 210. В качестве альтернативы, модуль 450 верификации может определить, на основе выходных данных от модуля 440 сравнения, что модуль 450 верификации не может заключить, что пользователь 402, который произнес фразу 410a, является тем же пользователем, который произнес опорный вектор 430. В таких случаях, пользователь 402 не аутентифицируется, и ему не предоставляется доступ к устройству. Вместо этого, система 400, пользовательское устройство 210, одно или более других приложений, или их комбинация, могут предоставить альтернативные варианты для осуществления доступа к пользовательскому устройству 210. Например, пользовательское устройство 210 может предложить пользователю 402 ввести секретный пароль.
[57] Когда пользователь 402 был аутентифицирован, посредством определения того, что пользователь 402 который произнес фразу 410a, является тем же пользователем, который произнес фразу, из которой был получен опорный вектор 430, пользовательское устройство 210 разблокируется и может вывести сообщение 460 пользователю, указывающее, что "Speaker's Identity is Verified". Это сообщение может быть текстовым сообщением, отображаемым на графическом пользовательском интерфейсе пользовательского устройства 210, аудиосообщением, выведенным динамиком пользовательского устройства 210, видеосообщением, отображаемым на графическом пользовательском интерфейсе пользовательского устройства 210, или комбинацией одного или более из вышеупомянутых типов сообщений.
[58] Фиг. 5 является схемой последовательности операций процесса 500 для выполнения независимой от языка верификации подлинности говорящего. Для удобства, процесс 500 будет описан как выполняющийся системой. Например, система 400, рассмотренная выше, может выполнить процесс 500 для аутентификации пользователя, пытающегося осуществить доступ к пользовательскому устройству 210.
[59] Процесс 500 может начаться, когда пользовательское устройство 210 принимает 510 запрос на выполнение голосовой аутентификации от пользователя устройства. В некоторых реализациях, пользователь может быть должен выбрать кнопку на пользовательском устройстве, выполнить жест на пользовательском интерфейсе пользовательского устройства, выполнить жест в воздухе в области видимости камеры пользовательского устройства или подобное, для того, чтобы дать команду телефону инициировать голосовую аутентификацию пользователя. В таких случаях, после приема команды инициировать голосовую аутентификацию, пользователь может произнести предварительно определенное ключевое слово, на любом языке или диалекте, который может быть использован для верификации подлинности пользователя. В качестве альтернативы, или в дополнение, пользовательское устройство 210 может использовать микрофон, чтобы пассивно "прослушивать" на предмет обнаружения предварительно определенного произнесенного ключевого слова, на любом языке или диалекте, который может быть использован для инициирования голосовой аутентификации пользователя. Предварительно определенное ключевое слово, может включать в себя, например "Hello Phone", "Ok Google", "Nǐ hǎo Android" или подобное. В некоторых реализациях, есть единое ключевое слово для всех пользователей в конкретном местоположении или всех пользователей, которые говорят на конкретном языке.
[60] Процесс может продолжиться на этапе 520, когда система 400 получает фрагмент речи, введенный пользователем пользовательского устройства 210. Фрагмент речи может включать в себя, например, предварительно определенное ключевое слово, на любом языке или диалекте, который может быть использован для инициализации голосовой аутентификации пользователя. Система 400 может получить вектор акустических признаков из аудиосигналов, соответствующих полученному фрагменту речи.
[61] Система 400 может определить 530 идентификатор языка, ассоциированный с пользовательским устройством 210. Идентификатор языка может включать в себя данные, которые идентифицируют конкретный язык или диалект, ассоциированный с пользователем. В одной реализации, идентификатор языка может включать в себя вектор языка с одним активным состоянием. Идентификатор 415 языка, который храниться на любом конкретном пользовательском устройстве 210, может быть задан в значение идентификатора конкретного языка из пула идентификаторов многочисленных разных языков, соответствующих известным языкам и диалектам, любым числом разных способов, например, как описано выше. Однако, изобретение согласно настоящему описанию не ограничивается только известными в настоящее время языками или диалектами. Например, модель верификации говорящего может быть обучена для вмещения новых языков, диалектов или акцентов. Когда модель верификации говорящего обучается повторно, установление соответствий между языками или местоположениями и идентификаторами могут быть отрегулированы, например, чтобы добавить новые местоположения или языки.
[62] Система 400 может предоставить 540 входные данные в модель верификации говорящего на основе вектора акустических признаков и идентификатора языка. Ввод может быть предоставлен в модель верификации говорящего всевозможными способами. Например, вектор акустических признаков и идентификатор языка, такой как вектор языка с одним активным состоянием, могут быть объединены. В таких случаях, объединенный вектор может быть предоставлен как ввод в модель верификации речи. В качестве альтернативы, система 400 может объединить выводы по меньшей мере двух других нейронных сетей, которые соответственно сгенерировали выводы на основе обработки каждой соответствующей нейронной сетью вектора акустических признаков, идентификатора языка, такого как вектор языка с одним активным состоянием, или и вектора акустических признаков и идентификатора языка. В таких случаях, объединенный вывод двух или более других нейронных сетей может быть предоставлен модели верификации речи. В качестве альтернативы, система 400 может сгенерировать входной вектор на основе вектора акустических признаков и взвешенной суммы вектора языка с одним активным состоянием, используемого как идентификатор языка. Могут быть использованы другие способы генерирования входных данных для модели 280 верификации речи на основе вектора акустических признаков и идентификатора языка.
[63] Система 400 может сгенерировать представление говорящего на основе ввода, представленного на этапе 540. Например, модель верификации говорящего может включать в себя нейронную сеть, которая обрабатывает ввод, предоставленный на этапе 540, и генерирует набор активаций в одном или более скрытых слоях. Представление говорящего может быть затем получено из конкретного набора активаций, полученного по меньшей мере из одного скрытого слоя нейронной сети. В одной реализации, активации могут быть получены из последнего скрытого слоя нейронной сети. Представление говорящего может включать в себя вектор признаков, который указывает характеристики голоса пользователя.
[64] На этапе 560, система 400 может определить, может ли говорящий фрагмента речи, полученного на этапе 520, осуществить доступ к пользовательскому устройству 210. Это определение может быть основано, например, на сравнении представления говорящего с опорным представлением. Опорным может быть вектор признаков, который был получен из ввода пользовательского фрагмента речи в пользовательское устройство 210 в некоторый момент времени до осуществления пользователем запроса на доступ к пользовательскому устройству с использованием голосовой аутентификации. Сравнение представления говорящего с опорным представлением может привести к определению показателя сходства, который указывает сходство между представлением говорящего и опорным представлением. Показатель сходства может включать в себя расстояние между представлением говорящего и опорным представлением. В одной реализации, расстояние может быть вычислено с использованием функции косинуса. Если определено, что показатель сходства превышает предварительно определенный порог, система 400 может определить предоставить 570 пользователю доступ к пользовательскому устройству 210.
[65] Варианты осуществления изобретения, функциональные операции и процессы, описанные в этом описании, могут быть реализованы в виде цифровой электронной схемы, в виде материально осуществленного компьютерного программного обеспечения или программно-аппаратных средств, в виде компьютерных аппаратных средств, включающих в себя структуры, раскрытые в этом описании, и их структурные эквиваленты, или в виде комбинаций одного или более из них. Варианты осуществления изобретения, описанного в этом описании, могут быть реализованы как одна или более компьютерных программ, т.е., один или более модулей инструкций компьютерной программы, закодированных на материальном энергонезависимом носителе программ для исполнения устройством обработки данных или управления его работой. В качестве альтернативы или в дополнение, программные инструкции могут быть кодированы в искусственно сгенерированном распространяемом сигнале, например, сгенерированном машиной электрическом, оптическом или электромагнитном сигнале, который сгенерирован для кодирования информации для передачи в подходящее устройство приемника для исполнения посредством устройства обработки данных. Компьютерный носитель информации может быть машиночитаемым устройством хранения, подложкой с машиночитаемым устройством хранения, устройством памяти с произвольным или последовательным доступом, или комбинацией одного или более из них.
[66] Термин "устройство обработки данных" охватывает все виды устройств и машин для обработки данных, включающих в себя в качестве примера программируемый процессор, компьютер, или несколько компьютеров или процессоров. Устройство может включать в себя логическую схему специального назначения, например, FPGA (программируемую пользователем вентильную матрицу) или ASIC (специализированную интегральную микросхему). Устройство может также включать в себя, в дополнение к аппаратным средствам, код, который создает исполнительная среда для компьютерной программы, например, код, который составляет программно-аппаратные средства процессора, стек протоколов, систему управления базой данных, операционную систему, или комбинацию одного или более из них.
[67] Компьютерная программа (которая может называться или описываться как программа, программное обеспечение, программное приложение, модуль, программный модуль, скрипт или код) может быть написана в любой форме языка программирования, включающей в себя компилируемые или интерпретируемые языки, декларативные или процедурные языки, и она может быть развернута в любой форме, включающей в себя в качестве самостоятельной программы или в качестве модуля, компонент, стандартную подпрограмму или другой блок, подходящий для использования в вычислительной среде. Компьютерная программа может, но не должна, соответствовать файлу в файловой системе. Программа может храниться в части файла, которая хранит другие программы или данные (например, один или более сценариев, хранящихся в документе языка разметки), в отдельном файле, выделенном программе, о которой идет речь, или в многочисленных согласованных файлах (например, файлах, которые хранят один или более модулей, подпрограмм, или частей кода). Компьютерная программа может быть развернута для исполнения на одном компьютере или многочисленных компьютерах, которые размещены на одном участке или распределены по многочисленным участкам и взаимно соединены посредством сети связи.
[68] Процессы и логические потоки, описанные в этом описании, могут выполняться одним или более программируемыми компьютерами, исполняющими одну или более компьютерных программ для выполнения функций посредством оперирования с входными данными и генерирования вывода. Процессы и логические потоки могут также выполняться, и устройство может быть также реализовано как, логической схемой специального назначения, например, FPGA (программируемой пользователем вентильной матрицей) или ASIC (специализированной интегральной микросхемой).
[69] Компьютеры, подходящие для выполнения компьютерной программы, включают в себя, в качестве примера, могут быть основаны на микропроцессорах общего или специального назначения, или обоих, или любом другом виде центрального процессора. В общем, центральный процессор будет принимать инструкции и данные из постоянной памяти или оперативной памяти, или обеих. Необходимыми элементами компьютера являются центральный процессор для выполнения или исполнения инструкций и одно или более запоминающих устройств для хранения инструкций и данных. В общем, компьютер будет также включать в себя одно или более устройств хранения большой емкости для хранения данных, например, магнитные, магнитно-оптические диски или оптические диски, или оперативно соединен для приема данных от них или передачи им данных, или того и другого. Однако, компьютеру не требуется иметь такие устройства. Более того, компьютер может быть встроен в другое устройство, например, мобильный телефон, персональный цифровой помощник (PDA), мобильный аудио или видеопроигрыватель, игровую консоль, приемник системы глобального позиционирования (GPS), или портативное устройство хранения (например, flash-накопитель с универсальной последовательной шиной (USB)), для примера.
[70] Компьютерно-читаемые носители, подходящие для хранения инструкций компьютерной программы и данных, включают в себя все виды энергонезависимой памяти, носителей и запоминающих устройств, например, EPROM, EEPROM и устройства flash-памяти; магнитные диски, например, внутренние жесткие диски или съемные диски; магнито-оптические диски; и диски CD-ROM и DVD-ROM. Процессор и память могут быть дополнены специальной логической схемой или соединены с ней.
[71] Для обеспечения взаимодействия с пользователем, варианты осуществления изобретения, описанного в это описании, могут быть реализованы на компьютере, имеющем устройство отображения, например, монитор с CRT (катодно-лучевой трубкой) или LCD (жидкокристаллическим дисплеем), для отображения информации пользователю, и клавиатуру и указывающее устройство, например, мышь или шаровый манипулятор, посредством которого пользователь может предоставить ввод компьютеру. Также могут быть использованы другие виды устройств для обеспечения взаимодействия с пользователем; например, обратная связь, предоставляемая пользователю, может быть любой формой сенсорной обратной связи, например, визуальной обратной связью, слышимой обратной связью или тактильной обратной связью; и ввод от пользователя может быть принят в любом виде, включая акустический, речевой или тактильный ввод. В дополнение, компьютер может взаимодействовать с пользователем посредством отправки документов на устройство, которое используется пользователем, и приема документов от него; например, посредством отправки веб-страницы в веб-браузер на пользовательском устройстве пользователя в ответ на запросы, принятые от веб-браузера.
[72] Варианты осуществления изобретения, описанного в этом описании, могут быть реализованы в вычислительной системе, которая включает в себя внутренний компонент, например, как сервер данных, или которая включает в себя промежуточный компонент, например, сервер приложений, или которая включает в себя внешний компонент, например, клиентский компьютер, имеющий графический пользовательский интерфейс или веб-браузер, посредством которого пользователь может взаимодействовать с изобретением, описанным в этом описании, или любую комбинацию таких внутреннего, промежуточного или внешнего компонентов. Компоненты системы могут быть взаимно соединены посредством любого вида или среды передачи цифровых данных, например, сети связи. Примеры сетей связи включают в себя локальную сеть ("LAN") и глобальную сеть ("WAN"), например, Интернет.
[73] Вычислительная система может включать в себя клиенты и серверы. Клиент и сервер обычно отдалены друг от друга и обычно взаимодействуют посредством сети связи. Взаимосвязь клиента и сервера возникает в силу выполнения компьютерных программ на соответствующих компьютерах и наличия взаимосвязи "клиент-сервер" друг с другом.
[74] Хотя это описание содержит много характерных для реализации сведений, они не должны трактоваться как ограничения на объем того, что может быть заявлено, но скорее как описания признаков, которые могут быть характерны для конкретных вариантов осуществления. Конкретные признаки, которые описаны в этом описании в контексте раздельных вариантов осуществления, могут быть также реализованы в комбинации с отдельным вариантом осуществления. И наоборот, различные признаки, которые описаны в контексте отдельного варианта осуществления, могут быть также реализованы в нескольких вариантах осуществления раздельно или в любой подходящей подкомбинации. Более того, хотя признаки могут быть описаны выше как действующие в определенных комбинациях и даже изначально заявленные как таковые, один или более признаков из заявленной комбинации могут в некоторых случаях удаляться из данной комбинации, и заявленная комбинация может быть направлена на подкомбинацию или вариацию подкомбинации.
[75] Аналогично, в то время как операции изображены на чертежах в конкретном порядке, это не должно пониматься как требование того, что такие операции должны выполняться в конкретном показанном порядке или в последовательном порядке, или что все проиллюстрированные операции должны выполняться, чтобы достигнуть желаемых результатов. В определенных обстоятельствах, многозадачная и параллельная обработка может быть полезной. Более того, разделение различных компонентов системы в вариантах осуществления, описанных выше, не следует понимать как требование такого разделения во всех вариантах осуществления, и следует понимать, что описанные программные компоненты и системы могут в основном быть интегрированы вместе в едином программном продукте или упакованы в многочисленные программные продукты.
[76] Были описаны конкретные варианты осуществления изобретения. Другие варианты осуществления находятся в рамках объема нижеследующей формулы изобретения. Например, действия, изложенные в формуле изобретения, могут быть выполнены в другом порядке и все равно достигнут желаемых результатов. В качестве одного примера, процессы, изображенные на прилагающихся Фигурах не обязательно требуют конкретного показанного порядка, или последовательного порядка, для достижения желаемых результатов. В некоторых реализациях, многозадачная и параллельная обработка может быть полезной. Могут быть предусмотрены другие этапы или стадии, или этапы или стадии могут быть удалены из описанных процессов. Соответственно, другие реализации находятся в рамках объема нижеследующей формулы изобретения.

Claims (43)

1. Система для управления доступом пользователя к пользовательскому устройству с использованием голосовой аутентификации, содержащая:
один или более компьютеров и одно или более устройств хранения данных, хранящих инструкции, которые функционируют, при их исполнении одним или более компьютерами, для предписания одному или более компьютерам выполнять операции, содержащие:
прием, пользовательским устройством, аудиоданных (410b), представляющих фрагмент речи (410a) пользователя (402);
предоставление, в нейронную сеть (280), хранящуюся на пользовательском устройстве (211), набора входных данных (414), полученных из аудиоданных и идентификатора языка (415) или идентификатора местоположения, ассоциированного с пользовательским устройством, причем нейронная сеть имеет параметры, обученные с использованием речевых данных, представляющих речь на разных языках или разных диалектах;
генерирование, на основе вывода нейронной сети, произведенного в ответ на прием набора входных данных, представления (420) говорящего, которое указывает характеристики голоса пользователя;
определение, на основе представления говорящего и второго представления (430), что фрагмент речи является фрагментом речи пользователя; и
предоставление пользователю доступа к пользовательскому устройству на основе определения того, что фрагмент речи является фрагментом речи пользователя.
2. Система по п. 1, при этом набор входных данных, полученных из аудиоданных и идентификатора языка, включает в себя первый вектор, который получен из аудиоданных, и второй вектор, который получен из идентификатора языка, ассоциированного с пользовательским устройством.
3. Система по п. 2, в которой операции дополнительно содержат:
генерирование входного вектора посредством объединения первого вектора и второго вектора в единый объединенный вектор;
предоставление, в нейронную сеть, сгенерированного входного вектора; и
генерирование, на основе вывода нейронной сети, произведенного в ответ на прием входного вектора, представления говорящего, указывающего характеристики голоса пользователя.
4. Система по п. 2, в которой операции дополнительно содержат:
генерирование входного вектора посредством объединения выводов по меньшей мере двух других нейронных сетей, которые соответственно генерируют выводы на основе (i) первого вектора, (ii) второго вектора или (iii) и первого вектора, и второго вектора;
предоставление, в нейронную сеть, сгенерированного входного вектора; и
генерирование, на основе вывода нейронной сети, произведенного в ответ на прием входного вектора, представления говорящего, которое указывает характеристики голоса пользователя.
5. Система по п. 2, в которой операции дополнительно содержат:
генерирование входного вектора на основе взвешенной суммы первого вектора и второго вектора;
предоставление, в нейронную сеть, сгенерированного входного вектора; и
генерирование, на основе вывода нейронной сети, произведенного в ответ на прием входного вектора, представления говорящего, указывающего характеристики голоса пользователя.
6. Система по любому из предыдущих пунктов, при этом вывод нейронной сети, произведенный в ответ на прием набора входных данных, включает в себя набор активаций, сгенерированных скрытым слоем нейронной сети.
7. Способ управления доступом пользователя к пользовательскому устройству с использованием голосовой аутентификации, содержащий этапы, на которых:
принимают, посредством пользовательского устройства, аудиоданные, представляющие фрагмент речи пользователя;
предоставляют, в нейронную сеть, хранящуюся на пользовательском устройстве, набор входных данных, полученных из аудиоданных и идентификатора языка или идентификатора местоположения, ассоциированного с пользовательским устройством, причем нейронная сеть имеет параметры, обученные с использованием речевых данных, представляющих речь на разных языках или разных диалектах;
генерируют, на основе вывода нейронной сети, произведенного в ответ на прием набора входных данных, представление говорящего, указывающее характеристики голоса пользователя;
определяют, на основе представления говорящего и второго представления, что фрагмент речи является фрагментом речи пользователя; и
предоставляют пользователю доступ к пользовательскому устройству на основе определения того, что фрагмент речи является фрагментом речи пользователя.
8. Способ по п. 7, в котором набор входных данных, полученный из аудиоданных и идентификатора языка, включает в себя первый вектор, который получен из аудиоданных, и второй вектор, который получен из идентификатора языка, ассоциированного с пользовательским устройством.
9. Способ по п. 8, дополнительно содержащий этапы, на которых:
генерируют входной вектор посредством объединения первого вектора и второго вектора в единый объединенный вектор;
предоставляют в нейронную сеть сгенерированный входной вектор; и
генерируют, на основе вывода нейронной сети, произведенного в ответ на прием входного вектора, представление говорящего, указывающее характеристики голоса пользователя.
10. Способ по п. 8, дополнительно содержащий этапы, на которых:
генерируют входной вектор посредством объединения выводов по меньшей мере двух других нейронных сетей, которые соответственно генерируют выводы на основе (i) первого вектора, (ii) второго вектора или (iii) и первого вектора, и второго вектора;
предоставляют в нейронную сеть сгенерированный входной вектор; и
генерируют, на основе вывода нейронной сети, произведенного в ответ на прием входного вектора, представление говорящего, указывающее характеристики голоса пользователя.
11. Способ по п. 8, дополнительно содержащий этапы, на которых:
генерируют входной вектор на основе взвешенной суммы первого вектора и второго вектора;
предоставляют в нейронную сеть сгенерированный входной вектор; и
генерируют, на основе вывода нейронной сети, произведенного в ответ на прием входного вектора, представление говорящего, указывающее характеристики голоса пользователя.
12. Способ по п. 7, в котором вывод нейронной сети, произведенный в ответ на прием набора входных данных, включает в себя набор активаций, сгенерированных скрытым слоем нейронной сети.
13. Способ по п. 7, в котором упомянутое определение, на основе представления говорящего и второго представления, что фрагмент речи является фрагментом речи пользователя, содержит этап, на котором определяют расстояние между первым представлением и вторым представлением.
14. Способ по п. 7, в котором упомянутое предоставление пользователю доступа к пользовательскому устройству на основе определения того, что фрагмент речи является фрагментом речи пользователя, включает в себя этап, на котором разблокируют пользовательское устройство.
RU2018112272A 2016-07-15 2017-07-06 Верификация говорящего RU2697736C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/211,317 US20180018973A1 (en) 2016-07-15 2016-07-15 Speaker verification
US15/211,317 2016-07-15
PCT/US2017/040906 WO2018013401A1 (en) 2016-07-15 2017-07-06 Speaker verification

Publications (1)

Publication Number Publication Date
RU2697736C1 true RU2697736C1 (ru) 2019-08-19

Family

ID=59366524

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018112272A RU2697736C1 (ru) 2016-07-15 2017-07-06 Верификация говорящего

Country Status (7)

Country Link
US (4) US20180018973A1 (ru)
EP (2) EP3373294B1 (ru)
JP (1) JP6561219B1 (ru)
KR (1) KR102109874B1 (ru)
CN (1) CN108140386B (ru)
RU (1) RU2697736C1 (ru)
WO (1) WO2018013401A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2723902C1 (ru) * 2020-02-15 2020-06-18 Илья Владимирович Редкокашин Способ верификации голосовых биометрических данных

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11676608B2 (en) * 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
CN106469040B (zh) * 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN106251859B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
EP3535751A4 (en) * 2016-11-10 2020-05-20 Nuance Communications, Inc. METHOD FOR LANGUAGE-INDEPENDENT WAY RECOGNITION
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
JP2020529035A (ja) * 2017-07-31 2020-10-01 ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド 言語に基づくサービス呼び掛けのためのシステムおよび方法
US11817103B2 (en) 2017-09-15 2023-11-14 Nec Corporation Pattern recognition apparatus, pattern recognition method, and storage medium
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
KR102486395B1 (ko) * 2017-11-23 2023-01-10 삼성전자주식회사 화자 인식을 위한 뉴럴 네트워크 장치, 및 그 동작 방법
US10593321B2 (en) * 2017-12-15 2020-03-17 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for multi-lingual end-to-end speech recognition
US10783873B1 (en) * 2017-12-15 2020-09-22 Educational Testing Service Native language identification with time delay deep neural networks trained separately on native and non-native english corpora
CN111630934B (zh) * 2018-01-22 2023-10-13 诺基亚技术有限公司 隐私保护的声纹认证装置和方法
CN108597525B (zh) * 2018-04-25 2019-05-03 四川远鉴科技有限公司 语音声纹建模方法及装置
US11152006B2 (en) * 2018-05-07 2021-10-19 Microsoft Technology Licensing, Llc Voice identification enrollment
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
GB2573809B (en) 2018-05-18 2020-11-04 Emotech Ltd Speaker Recognition
CN110914898B (zh) * 2018-05-28 2024-05-24 北京嘀嘀无限科技发展有限公司 一种用于语音识别的系统和方法
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
JP6980603B2 (ja) * 2018-06-21 2021-12-15 株式会社東芝 話者モデル作成システム、認識システム、プログラムおよび制御装置
US10991379B2 (en) 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
CN110634489B (zh) * 2018-06-25 2022-01-14 科大讯飞股份有限公司 一种声纹确认方法、装置、设备及可读存储介质
KR20200011796A (ko) * 2018-07-25 2020-02-04 엘지전자 주식회사 음성 인식 시스템
CN110874875B (zh) * 2018-08-13 2021-01-29 珠海格力电器股份有限公司 门锁控制方法及装置
WO2020068056A1 (en) * 2018-09-25 2020-04-02 Google Llc Speaker diarization using speaker embedding(s) and trained generative model
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN110164452B (zh) 2018-10-10 2023-03-10 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
KR102623246B1 (ko) * 2018-10-12 2024-01-11 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체.
US11144542B2 (en) 2018-11-01 2021-10-12 Visa International Service Association Natural language processing system
US11031017B2 (en) * 2019-01-08 2021-06-08 Google Llc Fully supervised speaker diarization
US12021864B2 (en) 2019-01-08 2024-06-25 Fidelity Information Services, Llc. Systems and methods for contactless authentication using voice recognition
US12014740B2 (en) * 2019-01-08 2024-06-18 Fidelity Information Services, Llc Systems and methods for contactless authentication using voice recognition
TW202029181A (zh) * 2019-01-28 2020-08-01 正崴精密工業股份有限公司 語音識別用於特定目標喚醒的方法及裝置
US10978069B1 (en) * 2019-03-18 2021-04-13 Amazon Technologies, Inc. Word selection for natural language interface
US11948582B2 (en) * 2019-03-25 2024-04-02 Omilia Natural Language Solutions Ltd. Systems and methods for speaker verification
CN113646835B (zh) * 2019-04-05 2024-05-28 谷歌有限责任公司 联合自动语音识别和说话人二值化
WO2020223122A1 (en) * 2019-04-30 2020-11-05 Walmart Apollo, Llc Systems and methods for processing retail facility-related information requests of retail facility workers
US11158305B2 (en) * 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word
US11222622B2 (en) 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
US11132992B2 (en) 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11031013B1 (en) 2019-06-17 2021-06-08 Express Scripts Strategic Development, Inc. Task completion based on speech analysis
CN110400562B (zh) * 2019-06-24 2022-03-22 歌尔科技有限公司 交互处理方法、装置、设备及音频设备
EP4002356A4 (en) * 2019-07-17 2023-05-24 Hosiden Corporation MICROPHONE UNIT
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
CN110379433B (zh) * 2019-08-02 2021-10-08 清华大学 身份验证的方法、装置、计算机设备及存储介质
US11900246B2 (en) 2019-09-02 2024-02-13 Samsung Electronics Co., Ltd. Method and apparatus for recognizing user based on on-device training
CN113261056B (zh) * 2019-12-04 2024-08-02 谷歌有限责任公司 使用说话者相关语音模型的说话者感知
JP7388239B2 (ja) * 2020-02-21 2023-11-29 日本電信電話株式会社 照合装置、照合方法、および、照合プログラム
CN111370003B (zh) * 2020-02-27 2023-05-30 杭州雄迈集成电路技术股份有限公司 一种基于孪生神经网络的声纹比对方法
US11651767B2 (en) 2020-03-03 2023-05-16 International Business Machines Corporation Metric learning of speaker diarization
US11443748B2 (en) * 2020-03-03 2022-09-13 International Business Machines Corporation Metric learning of speaker diarization
KR102227624B1 (ko) * 2020-03-09 2021-03-15 주식회사 퍼즐에이아이 워터마크를 삽입한 음성 인증 시스템 및 이에 대한 방법
WO2021187146A1 (ja) * 2020-03-16 2021-09-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報送信装置、情報受信装置、情報送信方法、プログラム、及び、システム
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11508380B2 (en) * 2020-05-26 2022-11-22 Apple Inc. Personalized voices for text messaging
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
KR102277422B1 (ko) * 2020-07-24 2021-07-19 이종엽 음성 단말기의 음성 검증 및 제한 방법
US20220059121A1 (en) * 2020-08-21 2022-02-24 Pindrop Security, Inc. Speaker recognition with quality indicators
US11676572B2 (en) * 2021-03-03 2023-06-13 Google Llc Instantaneous learning in text-to-speech during dialog
US11776550B2 (en) * 2021-03-09 2023-10-03 Qualcomm Incorporated Device operation based on dynamic classifier
US20220328050A1 (en) * 2021-04-12 2022-10-13 Paypal, Inc. Adversarially robust voice biometrics, secure recognition, and identification
US11798562B2 (en) * 2021-05-16 2023-10-24 Google Llc Attentive scoring function for speaker identification
CA3236335A1 (en) * 2021-11-01 2023-05-04 Pindrop Security, Inc. Cross-lingual speaker recognition
US20230206924A1 (en) * 2021-12-24 2023-06-29 Mediatek Inc. Voice wakeup method and voice wakeup device

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998022936A1 (en) * 1996-11-22 1998-05-28 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
RU2161336C2 (ru) * 1995-06-07 2000-12-27 Ратгерс Юниверсити Система для верификации говорящего
US6519561B1 (en) * 1997-11-03 2003-02-11 T-Netix, Inc. Model adaptation of neural tree networks and other fused models for speaker verification
WO2010047816A1 (en) * 2008-10-24 2010-04-29 Nuance Communications, Inc. Speaker verification methods and apparatus
US20140214417A1 (en) * 2013-01-28 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US20150127336A1 (en) * 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination

Family Cites Families (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4799262A (en) 1985-06-27 1989-01-17 Kurzweil Applied Intelligence, Inc. Speech recognition
US4868867A (en) 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
JP2733955B2 (ja) 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
US5465318A (en) 1991-03-28 1995-11-07 Kurzweil Applied Intelligence, Inc. Method for generating a speech recognition model for a non-vocabulary utterance
JP2979711B2 (ja) 1991-04-24 1999-11-15 日本電気株式会社 パターン認識方式および標準パターン学習方式
US5680508A (en) 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
EP0576765A1 (en) 1992-06-30 1994-01-05 International Business Machines Corporation Method for coding digital data using vector quantizing techniques and device for implementing said method
US5636325A (en) 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5627939A (en) 1993-09-03 1997-05-06 Microsoft Corporation Speech recognition system and method employing data compression
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
US5509103A (en) 1994-06-03 1996-04-16 Motorola, Inc. Method of training neural networks used for speech recognition
US5542006A (en) 1994-06-21 1996-07-30 Eastman Kodak Company Neural network based character position detector for use in optical character recognition
US5729656A (en) 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US6067517A (en) 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5745872A (en) 1996-05-07 1998-04-28 Texas Instruments Incorporated Method and system for compensating speech signals using vector quantization codebook adaptation
US6038528A (en) 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
US6260013B1 (en) 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
KR100238189B1 (ko) 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
US6188982B1 (en) 1997-12-01 2001-02-13 Industrial Technology Research Institute On-line background noise adaptation of parallel model combination HMM with discriminative learning using weighted HMM for noisy speech recognition
US6397179B2 (en) 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
US6381569B1 (en) 1998-02-04 2002-04-30 Qualcomm Incorporated Noise-compensated speech recognition templates
US6434520B1 (en) 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6665644B1 (en) 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
GB9927528D0 (en) 1999-11-23 2000-01-19 Ibm Automatic language identification
DE10018134A1 (de) 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
US6631348B1 (en) 2000-08-08 2003-10-07 Intel Corporation Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
DE10047172C1 (de) 2000-09-22 2001-11-29 Siemens Ag Verfahren zur Sprachverarbeitung
US6876966B1 (en) 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
JP4244514B2 (ja) 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US7280969B2 (en) 2000-12-07 2007-10-09 International Business Machines Corporation Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
GB2370401A (en) 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
US7062442B2 (en) 2001-02-23 2006-06-13 Popcatcher Ab Method and arrangement for search and recording of media signals
GB2375673A (en) 2001-05-14 2002-11-20 Salgen Systems Ltd Image compression method using a table of hash values corresponding to motion vectors
GB2375935A (en) 2001-05-22 2002-11-27 Motorola Inc Speech quality indication
GB0113581D0 (en) 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
US7668718B2 (en) 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US20030033143A1 (en) 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
US7571095B2 (en) 2001-08-15 2009-08-04 Sri International Method and apparatus for recognizing speech in a noisy environment
US7043431B2 (en) 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US6950796B2 (en) 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
EP1652173B1 (en) 2002-06-28 2015-12-30 Chemtron Research LLC Method and system for processing speech
US20040006748A1 (en) 2002-07-03 2004-01-08 Amit Srivastava Systems and methods for providing online event tracking
US6756821B2 (en) * 2002-07-23 2004-06-29 Broadcom High speed differential signaling logic gate and applications thereof
JP4352790B2 (ja) 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US20040111272A1 (en) 2002-12-10 2004-06-10 International Business Machines Corporation Multimodal speech-to-speech language translation and display
US7593842B2 (en) 2002-12-10 2009-09-22 Leslie Rousseau Device and method for translating language
KR100486735B1 (ko) 2003-02-28 2005-05-03 삼성전자주식회사 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
US7571097B2 (en) 2003-03-13 2009-08-04 Microsoft Corporation Method for training of subspace coded gaussian models
US8849185B2 (en) 2003-04-15 2014-09-30 Ipventure, Inc. Hybrid audio delivery system and method therefor
JP2004325897A (ja) 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
US7275032B2 (en) 2003-04-25 2007-09-25 Bvoice Corporation Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
US7499857B2 (en) 2003-05-15 2009-03-03 Microsoft Corporation Adaptation of compressed acoustic models
US20040260550A1 (en) 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
JP4548646B2 (ja) 2003-09-12 2010-09-22 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US20050144003A1 (en) 2003-12-08 2005-06-30 Nokia Corporation Multi-lingual speech synthesis
FR2865846A1 (fr) 2004-02-02 2005-08-05 France Telecom Systeme de synthese vocale
FR2867598B1 (fr) 2004-03-12 2006-05-26 Thales Sa Procede d'identification automatique de langues, en temps reel, dans un signal audio et dispositif de mise en oeuvre
US20050228673A1 (en) 2004-03-30 2005-10-13 Nefian Ara V Techniques for separating and evaluating audio and video source data
FR2868586A1 (fr) 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
US20050267755A1 (en) 2004-05-27 2005-12-01 Nokia Corporation Arrangement for speech recognition
US7406408B1 (en) 2004-08-24 2008-07-29 The United States Of America As Represented By The Director, National Security Agency Method of recognizing phones in speech of any language
US7418383B2 (en) 2004-09-03 2008-08-26 Microsoft Corporation Noise robust speech recognition with a switching linear dynamic model
EP1854095A1 (en) 2005-02-15 2007-11-14 BBN Technologies Corp. Speech analyzing system with adaptive noise codebook
US20060253272A1 (en) 2005-05-06 2006-11-09 International Business Machines Corporation Voice prompts for use in speech-to-speech translation system
WO2006123539A1 (ja) 2005-05-18 2006-11-23 Matsushita Electric Industrial Co., Ltd. 音声合成装置
US20080312926A1 (en) 2005-05-24 2008-12-18 Claudio Vair Automatic Text-Independent, Language-Independent Speaker Voice-Print Creation and Speaker Recognition
US20070088552A1 (en) 2005-10-17 2007-04-19 Nokia Corporation Method and a device for speech recognition
US20070118372A1 (en) 2005-11-23 2007-05-24 General Electric Company System and method for generating closed captions
WO2007064640A2 (en) 2005-11-29 2007-06-07 Google Inc. Detecting repeating content in broadcast media
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
US20080004858A1 (en) 2006-06-29 2008-01-03 International Business Machines Corporation Apparatus and method for integrated phrase-based and free-form speech-to-speech translation
US7996222B2 (en) 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
CN101166017B (zh) 2006-10-20 2011-12-07 松下电器产业株式会社 用于声音产生设备的自动杂音补偿方法及装置
US8204739B2 (en) 2008-04-15 2012-06-19 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
WO2008091947A2 (en) 2007-01-23 2008-07-31 Infoture, Inc. System and method for detection and analysis of speech
US7848924B2 (en) 2007-04-17 2010-12-07 Nokia Corporation Method, apparatus and computer program product for providing voice conversion using temporal dynamic features
US20080300875A1 (en) 2007-06-04 2008-12-04 Texas Instruments Incorporated Efficient Speech Recognition with Cluster Methods
CN101359473A (zh) 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
GB2453366B (en) 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
WO2009113204A1 (ja) * 2008-03-14 2009-09-17 名古屋油化株式会社 離型性シートおよび成形物
US8615397B2 (en) 2008-04-04 2013-12-24 Intuit Inc. Identifying audio content using distorted target patterns
CN101562013B (zh) * 2008-04-15 2013-05-22 联芯科技有限公司 一种自动识别语音的方法和装置
US8374873B2 (en) 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
WO2010025460A1 (en) 2008-08-29 2010-03-04 O3 Technologies, Llc System and method for speech-to-speech translation
US8239195B2 (en) 2008-09-23 2012-08-07 Microsoft Corporation Adapting a compressed model for use in speech recognition
WO2010075623A1 (en) 2008-12-31 2010-07-08 Bce Inc. System and method for unlocking a device
US20100198577A1 (en) 2009-02-03 2010-08-05 Microsoft Corporation State mapping for cross-language speaker adaptation
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
CN102405495B (zh) 2009-03-11 2014-08-06 谷歌公司 使用稀疏特征对信息检索进行音频分类
US9009039B2 (en) 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
US20110238407A1 (en) 2009-08-31 2011-09-29 O3 Technologies, Llc Systems and methods for speech-to-speech translation
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US8700394B2 (en) 2010-03-24 2014-04-15 Microsoft Corporation Acoustic model adaptation using splines
US8234111B2 (en) 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
US20110313762A1 (en) 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
ES2540995T3 (es) 2010-08-24 2015-07-15 Veovox Sa Sistema y método para reconocer un comando de voz de usuario en un entorno con ruido
US8782012B2 (en) 2010-08-27 2014-07-15 International Business Machines Corporation Network analysis
EP2431969B1 (de) 2010-09-15 2013-04-03 Svox AG Spracherkennung mit kleinem Rechenaufwand und reduziertem Quantisierungsfehler
US8972253B2 (en) 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
US9318114B2 (en) 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
US20120143604A1 (en) 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
TWI413105B (zh) 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
US9286886B2 (en) 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US8594993B2 (en) 2011-04-04 2013-11-26 Microsoft Corporation Frame mapping approach for cross-lingual voice transformation
US8260615B1 (en) 2011-04-25 2012-09-04 Google Inc. Cross-lingual initialization of language models
WO2012089288A1 (en) 2011-06-06 2012-07-05 Bridge Mediatech, S.L. Method and system for robust audio hashing
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
CN103562993B (zh) * 2011-12-16 2015-05-27 华为技术有限公司 说话人识别方法及设备
CA2806372C (en) 2012-02-16 2016-07-19 Qnx Software Systems Limited System and method for dynamic residual noise shaping
US9042867B2 (en) 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
JP5875414B2 (ja) 2012-03-07 2016-03-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 雑音抑制方法、プログラム及び装置
US9524730B2 (en) 2012-03-30 2016-12-20 Ohio State Innovation Foundation Monaural speech filter
US9368104B2 (en) 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
US20130297299A1 (en) 2012-05-07 2013-11-07 Board Of Trustees Of Michigan State University Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
US9489950B2 (en) 2012-05-31 2016-11-08 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
US9123338B1 (en) 2012-06-01 2015-09-01 Google Inc. Background audio identification for speech disambiguation
US9704068B2 (en) 2012-06-22 2017-07-11 Google Inc. System and method for labelling aerial images
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9153230B2 (en) * 2012-10-23 2015-10-06 Google Inc. Mobile speech recognition hardware accelerator
US9336771B2 (en) 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9477925B2 (en) 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
US9263036B1 (en) 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
US20140156575A1 (en) 2012-11-30 2014-06-05 Nuance Communications, Inc. Method and Apparatus of Processing Data Using Deep Belief Networks Employing Low-Rank Matrix Factorization
US9454958B2 (en) 2013-03-07 2016-09-27 Microsoft Technology Licensing, Llc Exploiting heterogeneous data in deep neural network-based speech recognition systems
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
JP5734354B2 (ja) * 2013-06-26 2015-06-17 ファナック株式会社 工具クランプ装置
US9311915B2 (en) 2013-07-31 2016-04-12 Google Inc. Context-based speech recognition
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US9620145B2 (en) 2013-11-01 2017-04-11 Google Inc. Context-dependent state tying using a neural network
US9514753B2 (en) * 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
US9715660B2 (en) 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
US8965112B1 (en) 2013-12-09 2015-02-24 Google Inc. Sequence transcription with deep neural networks
US9195656B2 (en) 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US20150228277A1 (en) 2014-02-11 2015-08-13 Malaspina Labs (Barbados), Inc. Voiced Sound Pattern Detection
US10102848B2 (en) 2014-02-28 2018-10-16 Google Llc Hotwords presentation framework
US9412358B2 (en) * 2014-05-13 2016-08-09 At&T Intellectual Property I, L.P. System and method for data-driven socially customized models for language generation
US9728185B2 (en) 2014-05-22 2017-08-08 Google Inc. Recognizing speech using neural networks
US20150364129A1 (en) 2014-06-17 2015-12-17 Google Inc. Language Identification
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
CN104168270B (zh) * 2014-07-31 2016-01-13 腾讯科技(深圳)有限公司 身份验证方法、服务器、客户端及系统
US9378731B2 (en) 2014-09-25 2016-06-28 Google Inc. Acoustic model training corpus selection
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9418656B2 (en) * 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection
CN104732978B (zh) * 2015-03-12 2018-05-08 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2161336C2 (ru) * 1995-06-07 2000-12-27 Ратгерс Юниверсити Система для верификации говорящего
WO1998022936A1 (en) * 1996-11-22 1998-05-28 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
US6519561B1 (en) * 1997-11-03 2003-02-11 T-Netix, Inc. Model adaptation of neural tree networks and other fused models for speaker verification
WO2010047816A1 (en) * 2008-10-24 2010-04-29 Nuance Communications, Inc. Speaker verification methods and apparatus
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US20140214417A1 (en) * 2013-01-28 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US20150127336A1 (en) * 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2723902C1 (ru) * 2020-02-15 2020-06-18 Илья Владимирович Редкокашин Способ верификации голосовых биометрических данных
WO2021162584A1 (ru) * 2020-02-15 2021-08-19 Илья Владимирович РЕДКОКАШИН Способ верификаци голосовых биометрических данных

Also Published As

Publication number Publication date
KR102109874B1 (ko) 2020-05-12
KR20180050365A (ko) 2018-05-14
CN108140386A (zh) 2018-06-08
CN108140386B (zh) 2021-11-23
EP3345181A1 (en) 2018-07-11
EP3373294B1 (en) 2019-12-18
US20180277124A1 (en) 2018-09-27
EP3373294A1 (en) 2018-09-12
JP6561219B1 (ja) 2019-08-14
JP2019530888A (ja) 2019-10-24
US20180018973A1 (en) 2018-01-18
US11017784B2 (en) 2021-05-25
EP3345181B1 (en) 2019-01-09
US20190385619A1 (en) 2019-12-19
US20210256981A1 (en) 2021-08-19
US11594230B2 (en) 2023-02-28
WO2018013401A1 (en) 2018-01-18
US10403291B2 (en) 2019-09-03

Similar Documents

Publication Publication Date Title
RU2697736C1 (ru) Верификация говорящего
US11056120B2 (en) Segment-based speaker verification using dynamically generated phrases
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
JPWO2018088534A1 (ja) 電子機器、電子機器の制御方法及び電子機器の制御プログラム
Kang et al. Design and Prototype Implementation of Smart-Phone Voice Locker Using Voice Recognition
KR20240132372A (ko) 멀티태스크 음성 모델을 이용한 화자 검증