RU2738325C2 - Способ и устройство аутентификации личности - Google Patents

Способ и устройство аутентификации личности Download PDF

Info

Publication number
RU2738325C2
RU2738325C2 RU2018144787A RU2018144787A RU2738325C2 RU 2738325 C2 RU2738325 C2 RU 2738325C2 RU 2018144787 A RU2018144787 A RU 2018144787A RU 2018144787 A RU2018144787 A RU 2018144787A RU 2738325 C2 RU2738325 C2 RU 2738325C2
Authority
RU
Russia
Prior art keywords
audio
voice
video stream
target
physiological
Prior art date
Application number
RU2018144787A
Other languages
English (en)
Other versions
RU2018144787A3 (ru
RU2018144787A (ru
Inventor
Пэн ЛИ
Ипэн СУНЬ
Юнсян СЕ
Лян ЛИ
Original Assignee
Алибаба Груп Холдинг Лимитед
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Алибаба Груп Холдинг Лимитед filed Critical Алибаба Груп Холдинг Лимитед
Publication of RU2018144787A3 publication Critical patent/RU2018144787A3/ru
Publication of RU2018144787A publication Critical patent/RU2018144787A/ru
Application granted granted Critical
Publication of RU2738325C2 publication Critical patent/RU2738325C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols

Abstract

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности и надежности аутентификации личности. Способ аутентификации личности, в котором получают собранный аудио- и видеопоток, когда аудио- и видеопоток формируется целевым объектом, который должен быть аутентифицирован; определяют, являются ли согласующимися чтение по губам и голос в аудио- и видеопотоке, и если чтение по губам и голос являются согласующимися, получают идентификатор объекта для целевого объекта путем использования голосового контента; определяют, содержит ли предварительно сохраненная регистрационная информация идентификатор объекта; получают физиологический признак модели, соответствующий идентификатору объекта, из регистрационной информации об объекте, если предварительно сохраненная регистрационная информация об объекте содержит идентификатор объекта; выполняют физиологическое распознавание по аудио- и видеопотоку, чтобы получать физиологический признак целевого объекта; и сравнивают физиологический признак целевого объекта с физиологическим признаком модели, чтобы получать результат сравнения, и если результат сравнения удовлетворяет условию аутентификации, определяют, что целевой объект был аутентифицирован. 2 н. и 8 з.п. ф-лы, 7 ил.

Description

Область техники, к которой относится изобретение
[0001] Настоящая заявка относится к сетевым технологиям и, в частности, к способу и устройству аутентификации личности.
Уровень техники
[0002] С развитием Интернет-технологий сетевые службы все более широко используются людьми. Например, люди могут отправлять и принимать электронные письма с помощью почтового ящика, осуществлять онлайн-покупки или даже работать в режиме онлайн. Некоторые приложения имеют высокие требования безопасности, и личность пользователя должна быть идентифицирована. Например, личность пользователя должна быть аутентифицирована, прежде чем оплата авторизуется для онлайн-покупки; или пользователь может регистрироваться в приложении с относительно высоким требованием безопасности, после того как личность пользователя была аутентифицирована. В технологиях предшествующего уровня существуют несколько способов аутентификации личности, используемых посредством Интернета, таких как распознавание лица и распознавание образца голоса. Однако, эти повсеместно используемые способы аутентификации являются относительно сложными. Например, пользователю необходимо вводить ID пользователя и затем проверять образец голоса для распознавания образца голоса. Кроме того, существующие способы аутентификации имеют относительно низкую надежность. Например, злоумышленник может осуществлять распознавание лица с помощью аналогового видео или записи. Даже если проверка выполняется на основе двух объединенных способов аутентификации, например, со ссылкой на лицо и образец голоса, поскольку эти способы аутентификации являются относительно независимыми друг от друга, злоумышленник может прорываться сквозь процессы аутентификации. Ранее описанные недостатки способов аутентификации личности могут создавать некоторые риски для безопасности приложения.
Сущность изобретения
[0003] Принимая во внимание вышеописанное, настоящая заявка предоставляет способ и устройство аутентификации личности, с тем, чтобы улучшать эффективность и надежность аутентификации личности.
[0004] В частности, настоящая заявка реализуется с помощью следующих технических решений.
[0005] Согласно первому аспекту предоставляется способ аутентификации личности, и способ включает в себя получение собранного аудио- и видеопотока, когда аудио- и видеопоток формируется целевым объектом, который должен быть аутентифицирован; определение того, являются ли согласующимися чтение по губам и голос в аудио- и видеопотоке, и если чтение по губам и голос являются согласующимися, использование голосового контента, полученного посредством выполнения распознавания голоса по аудиопотоку для аудио- и видеопотока, в качестве идентификатора объекта для целевого объекта; получение физиологического признака модели, соответствующего идентификатору объекта, из регистрационной информации об объекте, если предварительно сохраненная регистрационная информация об объекте включает в себя идентификатор объекта; выполнение физиологического распознавания по аудио- и видеопотоку, чтобы получать физиологический признак целевого объекта; и сравнение физиологического признака целевого объекта с физиологическим признаком модели, чтобы получать результат сравнения, и если результат сравнения удовлетворяет условию аутентификации, определение того, что целевой объект был аутентифицирован.
[0006] Согласно второму аспекту предоставляется устройство аутентификации личности, и устройство включает в себя модуль получения информации, сконфигурированный, чтобы получать собранный аудио- и видеопоток, когда аудио- и видеопоток формируется целевым объектом, который должен быть аутентифицирован; модуль определения идентификатора, сконфигурированный, чтобы определять, являются ли согласующимися чтение по губам и голос в аудио- и видеопотоке, и если чтение по губам и голос являются согласующимися, использовать голосовой контент, полученный посредством выполнения распознавания голоса по аудиопотоку в аудио- и видеопотоке, в качестве идентификатора объекта для целевого объекта; модуль управления информацией, сконфигурированный, чтобы получать физиологический признак модели, соответствующий идентификатору объекта, из регистрационной информации об объекте, если предварительно сохраненная регистрационная информация об объекте включает в себя идентификатор объекта; модуль распознавания отличительного признака, сконфигурированный, чтобы выполнять физиологическое распознавание по аудио- и видеопотоку, чтобы получать физиологический признак целевого объекта; и модуль обработки аутентификации, сконфигурированный, чтобы сравнивать физиологический признак целевого объекта с физиологическим признаком модели, чтобы получать результат сравнения, и если результат сравнения удовлетворяет условию аутентификации, определять, что целевой объект был аутентифицирован.
[0007] Согласно способу и устройству аутентификации личности, предоставленным в настоящей заявке, идентификатор пользователя получается посредством распознавания аудио- и видеопотока во время аутентификации пользователя, и лицевой отличительный признак и отличительный признак образца голоса могут также быть проверены с помощью того же аудио- и видеопотока. Это упрощает пользовательскую операцию, улучшает эффективность аутентификации, поддерживает модель аутентификации один к одному и гарантирует точность распознавания. Кроме того, в способе, согласованность между чтением по губам и голосом определяется, чтобы гарантировать, что целевой объект является живым объектом вместо поддельной видеозаписи злоумышленника, тем самым, улучшая безопасность и надежность аутентификации.
Краткое описание чертежей
[0008] Фиг. 1 иллюстрирует процедуру регистрации личности согласно примерной реализации настоящей заявки;
[0009] Фиг. 2 иллюстрирует процедуру определения согласованности между чтением по губам и голосом, согласно примерной реализации настоящей заявки;
[0010] Фиг. 3 иллюстрирует процедуру распознавания лицевого отличительного признака, согласно примерной реализации настоящей заявки;
[0011] Фиг. 4 иллюстрирует процедуру распознавания отличительного признака образца голоса, согласно примерной реализации настоящей заявки;
[0012] Фиг. 5 иллюстрирует процедуру аутентификации личности согласно примерной реализации настоящей заявки;
[0013] Фиг. 6 является структурной схемой устройства аутентификации личности согласно примерной реализации настоящей заявки; и
[0014] Фиг. 7 является структурной схемой устройства аутентификации личности согласно примерной реализации настоящей заявки.
Описание вариантов осуществления
[0015] Примерные реализации описываются подробно в настоящем документе, и примеры примерных реализаций представляются на сопровождающих чертежах. Когда последующее описание соотносится с сопровождающими чертежами, пока не указано иное, одинаковые номера на различных сопровождающих чертежах представляют одинаковые или аналогичные элементы. Реализации, описанные в последующих примерных реализациях, не представляют все реализации, согласующиеся с настоящей заявкой. Вместо этого, они являются лишь примерами устройств и способов, согласующихся с некоторыми аспектами настоящей заявки, которые описываются подробно в прилагаемой формуле изобретения.
[0016] Способ аутентификации личности, предоставленный в реализации настоящей заявки, может быть применен к Интернет-аутентификации личности. Например, пользователь может входить в сетевое приложение после аутентификации с помощью способа, с тем, чтобы гарантировать безопасность приложения.
[0017] Последующее использует приложение с относительно высоким требованием безопасности в качестве примера. Предположим, что приложение может работать на пользовательском интеллектуальном устройстве, например, смартфоне или интеллектуальном планшете. Когда пользователь должен входить в приложение на интеллектуальном устройстве, аудио- и видеопоток может быть собран с помощью камеры и микрофона на интеллектуальном устройстве. Например, пользователь может читать ID приложения для пользователя в камеру и микрофон мобильного телефона. ID приложения может быть учетным номером "123456", который регистрируется пользователем в приложении. После того как пользователь читает ID приложения, мобильный телефон может собирать аудио- и видеопоток пользователя, в том числе видеоизображение и считывание голоса.
[0018] Согласно способу аутентификации личности в этой реализации настоящей заявки собранный аудио- и видеопоток может быть обработан. Перед аутентификацией пользователю необходимо выполнять процедуру регистрации личности, чтобы выполнять аутентификацию личности позже. Процедура регистрации также выполняется на основе собранного аудио- и видеопотока. Последующее отдельно описывает процедуру регистрации личности и процедуру аутентификации личности. Кроме того, эта реализация не накладывает ограничение на устройство, которое выполняет регистрацию личности или обработку аутентификации в фактических приложениях. Например, после того как аудио- и видеопоток пользователя собирается, смартфон может передавать аудио- и видеопоток внутреннему серверу приложения, или часть обработки может быть выполнена на стороне клиентского программного обеспечения смартфона, а другие части обработки могут быть выполнены на стороне сервера; или могут быть использованы другие способы.
Регистрация личности
[0019] В способе в этой реализации, когда пользователь выполняет регистрацию личности, могут содержаться два типа информации. Один тип информации является идентификатором объекта. Например, когда пользователь входит в приложение, пользователь может упоминаться как целевой объект. Когда пользователь регистрируется в приложении, информация, используемая для различения пользователя от другого пользователя, является идентификатором объекта в приложении, например, может быть учетным номером 123456 пользователя в приложении, и учетный номер 123456 является идентификатором объекта для целевого объекта. Другой тип информации является физиологической информацией, которая может уникально идентифицировать пользователя, например, отличительным признаком образца голоса пользователя или лицевым отличительным признаком пользователя. Обычно, образцы голоса и лица различных людей являются различными, и физиологическая информация, которая идентифицирует каждого пользователя, может называться физиологическим признаком модели.
[0020] Сопоставляющее соотношение устанавливается между двумя типами информации: идентификатором объекта и физиологическим признаком модели, и сопоставляющее соотношение сохраняется. Соответственно сохраненный идентификатор объекта и физиологический признак модели целевого объекта могут называться "регистрационной информацией об объекте". Например, пользователь Сяо Женг может сохранять регистрационную информацию об объекте для пользователя как "123456 - физиологический признак A модели". Для более точной идентификации пользователя физиологическая информация, включенная в физиологический признак модели, используемый в этом примере, может быть, по меньшей мере, двумя типами физиологической информации, например, лицом и образцом голоса.
[0021] Фиг. 1 иллюстрирует примерную процедуру регистрации личности. Процедура включает в себя следующую обработку:
[0022] Этап 101: Получение аудио- и видеопотока, который должен быть зарегистрирован для целевого объекта.
[0023] Например, пользователь регистрируется в приложении, и пользователь может читать учетный номер "123456" приложения в интеллектуальное устройство пользователя, такое как мобильный телефон. В этом примере пользователь, который выполняет регистрацию, может называться целевым объектом; и камера и микрофон интеллектуального устройства могут собирать аудио- и видеопоток, сформированный, когда пользователь читает учетный номер. Аудио- и видеопоток, собранный во время регистрации, может называться аудио- и видеопотоком, который должен быть зарегистрирован, включающим в себя аудиопоток и видеопоток. Аудиопоток является считыванием голоса пользователя, а видеопоток является считыванием видеоизображения пользователя.
[0024] После того как аудио- и видеопоток на настоящем этапе получен, три последующих аспекта обработки могут быть выполнены, чтобы завершать регистрацию пользователя. Более подробно, ссылки могут все еще выполняться на фиг. 1.
[0025] В одном аспекте обработка является следующей: Этап 102: Определение того, являются ли согласующимися чтение по губам и голос в аудио- и видеопотоке, который должен быть зарегистрирован.
[0026] Согласованность здесь указывает сопоставляющее соотношение между движением губ и движением, указываемым голосом. Например, предположим, что голос является фразой "погода сегодня солнечная", когда голос формируется с низкой скоростью, но движение губ соответствует фразе "погода сегодня солнечная", формируемой с высокой скоростью. Очевидно, что голос и движение губ не соответствуют друг другу: когда движение губ остановилось (контент полностью считан), голос продолжается (… сегодня солнечная). Это может происходить во множестве возможных ситуаций, таких как, когда злоумышленник пытается пройти определение ID пользователя и лица, злоумышленник может атаковать определение лица с помощью предыдущей видеозаписи пользователя (атакованного пользователя), и злоумышленник считывает ID пользователя, чтобы атаковать распознавание ID голосового контента. По существу, злоумышленник может аутентифицироваться. Однако, при такой атаке, чтение по губам и голос обычно являются несогласующимися, и может быть определено, что читающий не является пользователем.
[0027] Как показано на этапе 102, если определяется, что чтение по губам и голос в аудио- и видеопотоке, который должен быть сформирован, являются несогласующимися, неудача регистрации может быть сообщена пользователю. Альтернативно, как показано на фиг. 1, выполняется переход к этапу 101, чтобы снова собирать аудио- и видеопоток, чтобы предотвращать ошибку обработки.
[0028] Иначе, если определяется, что чтение по губам и голос в аудио- и видеопотоке, который должен быть зарегистрирован, являются согласующимися, выполняется этап 103: Использование голосового контента, полученного посредством выполнения распознавания голоса по аудиопотоку в собранном аудио- и видеопотоке, в качестве идентификатора объекта для целевого объекта. Распознавание голоса использует компьютерные технологии, чтобы автоматически распознавать голосовой контент человека, т.е., процесс распознавания для преобразования голоса в контент. Например, после того как распознавание голоса выполняется по аудиопотоку чтения "123456" пользователем, который должен выполнять регистрацию, полученным голосовым контентом аудиопотока является "123456", и контент, полученный посредством распознавания, может быть использован в качестве идентификатора пользователя, а именно, ID пользователя.
[0029] Предыдущее распознавание голоса аудиопотока может быть выполнено, после того как определяется, что чтение по губам и голос являются согласующимися, чтобы получать идентификатор объекта, или может быть выполнено в процессе определения того, являются ли согласующимися чтение по губам и голос, чтобы получать идентификатор объекта.
[0030] В другом аспекте физиологическое распознавание выполняется по аудио- и видеопотоку, который должен быть зарегистрирован, чтобы получать физиологический признак модели аудио- и видеопотока, который должен быть зарегистрирован. В этом примере физиологический признак включает в себя лицевой отличительный признак и отличительный признак образца голоса, но не ограничивается двумя отличительными признаками, при условии, что примерный отличительный признак может уникально идентифицировать пользователя, и может быть использован для различения между физиологическими признаками различных пользователей. В этом аспекте, как показано на этапе 104, распознавание образца голоса может быть выполнено по аудиопотоку в аудио- и видеопотоке, который должен быть зарегистрирован, чтобы получать отличительный признак образца голоса целевого объекта.
[0031] В еще одном аспекте обнаружение лица выполняется по видеопотоку в аудио- и видеопотоке, который должен быть зарегистрирован, чтобы получать лицевой отличительный признак целевого объекта.
[0032] В процедуре регистрации обнаруженный лицевой отличительный признак может называться лицевым отличительным признаком модели и использоваться в качестве критерия в последующем процессе аутентификации. Аналогично, обнаруженный отличительный признак образца голоса может также называться отличительным признаком образца голоса модели, и отличительный признак образца голоса модели и лицевой отличительный признак модели могут совместно называться физиологическим признаком модели.
[0033] В этой реализации физиологический признак модели и идентификатор объекта для целевого объекта также называются регистрационной информацией об объекте. После того как определяется, что данные в регистрационной информации об объекте являются полными, на этапе 106, идентификатор объекта для целевого объекта и соответствующий физиологический признак модели сохраняются в базе данных в качестве регистрационной информации об объекте.
[0034] Кроме того, порядок выполнения трех аспектов, показанный на фиг. 1, не ограничивается. Например, после того как аудио- и видеопоток, который должен быть зарегистрирован, получается на этапе 101, три аспекта могут выполняться параллельно. Если чтение по губам и голос являются несогласующимися, распознанный отличительный признак образца голоса и распознанный лицевой отличительный признак могут не сохраняться. Альтернативно, после того как определяется, что чтение по губам и голос являются согласующимися, обнаружение и распознавание затем выполняются по отличительному признаку образца голоса и лицевому отличительному признаку.
[0035] Фиг. 2 иллюстрирует процедуру определения согласованности между чтением по губам и голосом на фиг. 1. Процедура может включать в себя следующие этапы:
[0036] Этап 201: Выполнение обнаружения конечной точки на основе аудиопотока в аудио- и видеопотоке, который должен быть зарегистрирован. На текущем этапе время начала и время окончания аудиопотока могут быть обнаружены в непрерывном аудиопотоке.
[0037] Этап 202: Извлечение постоянных голосовых отличительных признаков на основе аудиопотока, когда отличительные признаки включают в себя, но не только, MFCC-признак и LPCC-признак. Отличительные признаки, извлеченные на текущем этапе, могут быть использованы для распознавания голоса.
[0038] Этап 203: Идентификация слога голоса и соответствующего момента времени в аудиопотоке. На текущем этапе каждый слог в аудиопотоке может быть идентифицирован на основе голосовых отличительных признаков, извлеченных на этапе 202, и соответствующий момент времени появления и соответствующий момент времени исчезновения слога могут быть определены. Способ распознавания голоса включает в себя, но не только, способы, такие как скрытая Марковская модель (HMM), глубокая нейронная сеть (DNN) и долгая краткосрочная модель (LSTM).
[0039] Этап 204: Обнаружение местоположений губ на основе видеопотока в аудио- и видеопотоке, который должен быть зарегистрирован. На текущем этапе местоположения губ могут быть обнаружены из видеоизображения.
[0040] Этап 205: Определение качества обнаруженного изображения губ. Например, параметры, такие как четкость и экспозиция местоположений губ, могут быть определены. Если четкость является низкой, или степень экспозиции является слишком высокой, определяется, что изображение является неотвечающим требованиям; и в этом случае сбор аудио- и видеопотока, который должен быть зарегистрирован, выполняется снова. Если изображение отвечает требованиям, выполняется переход к этапу 206, чтобы выполнять распознавание чтения по губам.
[0041] Этап 206: Извлечение постоянных отличительных признаков губ. На текущем этапе отличительный признак может быть извлечен из непрерывных изображений губ, и отличительный признак включает в себя, но не только, локальный описатель изображения, такой как пустой пиксел, LBP, Gabor, SIFT или Surf.
[0042] Этап 207: Идентификация слога чтения по губам и соответствующего момента времени в видеопотоке. На текущем этапе слог чтения по губам может быть идентифицирован с помощью способов, таких как скрытая Марковская модель (HMM) и долгой краткосрочной модели. Момент времени, соответствующий слогу чтения по губам во временной последовательности видео, также определяется с помощью модели во время распознавания чтения по губам.
[0043] Этап 208: Определение того, являются ли слог чтения по губам и слог голоса согласующимися с соответствующим моментом времени. Например, на текущем этапе, информация о моменте времени для слога голоса может быть сравнена с информацией о моменте времени для слога чтения по губам. Если результат сравнения указывает согласованность, считается, что аудиопоток формируется реальным человеком; в этом случае выполняется переход к этапу 209. Если результат сравнения указывает несогласованность, предполагается, что аудиопоток является атакующим поведением; и в этом случае выполняется возврат к процедуре регистрации. В этой реализации способ обнаружения согласованности между слогом чтения по губам и слогом голоса и соответствующим моментом времени является более детализированным, и, следовательно, существует более высокая точность в определении реального голоса человека.
[0044] Этап 209: Выполнение распознавания голоса по отличительным признакам голоса, извлеченным на этапе 202, чтобы получать ID пользователя, а именно, идентификатор объекта. Способ распознавания голоса включает в себя, но не только, способы, такие как скрытая Марковская модель (HMM), глубокая нейронная сеть (DNN) и долгая краткосрочная модель (LSTM).
[0045] Кроме того, в примере, показанном на фиг. 2, распознавание голоса для аудиопотока может быть выполнено на этапе 209, после того как определяется, что чтение по губам и голос являются согласующимися. Альтернативно, когда момент времени слога в аудиопотоке идентифицируется на этапе 203, ID пользователя получается посредством выполнения распознавания голоса на основе отличительного признака голоса. В этом случае, после того как определяется, что чтение по губам и голос являются согласующимися, на этапе 208, ID пользователя, полученный посредством распознавания, может быть непосредственно использован в качестве идентификатора объекта.
[0046] Фиг. 3 иллюстрирует процедуру распознавания лицевого отличительного признака на фиг. 1. Процедура может включать в себя следующие этапы:
[0047] Этап 301: Обнаружение изображений лица на основе видеопотока в аудио- и видеопотоке, который должен быть зарегистрирован. На текущем этапе изображение видеокадра может быть извлечено из видеопотока в аудио- и видеопотоке, и может быть обнаружено, появляется ли лицо в изображении видеокадра. Ели да, выполняется переход к этапу 302. Иначе, выполняется возврат к процедуре определения.
[0048] Этап 302: Обнаружение качества изображений лица. На текущем этапе обнаружение точки лицевого отличительного признака может быть выполнено на лице, обнаруженном на этапе 301, и углы лица в горизонтальном направлении и в вертикальном направлении, могут быть определены на основе результата обнаружения точки отличительного признака. Если оба угла не превышают некоторые углы наклона, требование к качеству удовлетворяется. Иначе, требование к качеству не удовлетворяется. Кроме того, четкость, экспозиция и т.д. области лица определяются, которые также должны быть в пределах некоторых пороговых значений. Если изображения лица имеют хорошее качество, лицевой отличительный признак может быть лучше распознан.
[0049] Этап 303: Для изображений лица, которые удовлетворяют требованию по качеству, выполняется извлечение собственных векторов из изображений лица, где собственные векторы включают в себя, но не только, локальный бинарный шаблон (LBP), Gabor, сверточную нейронную сеть (CNN), и т.д.
[0050] Этап 304: Объединение множества лицевых собственных факторов, извлеченных на этапе 303, чтобы формировать уникальный лицевой отличительный признак пользователя, а именно, лицевой отличительный признак модели.
[0051] Фиг. 4 иллюстрирует процедуру распознавания отличительного признака образца голоса на фиг. 1. Процедура может включать в себя следующие этапы.
[0052] Этап 401: Получение аудиопотока в аудио- и видеопотоке, который должен быть зарегистрирован.
[0053] В этом примере распознавание отличительного признака образца голоса может быть выполнено на основе аудиопотока в аудио- и видеопотоке, который должен быть зарегистрирован.
[0054] Этап 402: Определение того, что качество звука аудиопотока удовлетворяет критерию качества.
[0055] На текущем этапе может быть определено качество звука. Лучшее качество собранного аудиопотока ведет к лучшему результату выполнения распознавания образца голоса по звуку. Следовательно, прежде чем выполняется последующее распознавание образца голоса, сначала может быть определено качество аудиопотока. Например, информация, такая как сила сигнала и соотношение сигнал-шум для голоса в аудиопотоке, может быть вычислена, чтобы определять, удовлетворяет ли голос критерию качества. Например, критерием качества может быть то, что соотношение сигнал-шум попадает в некоторый диапазон, или может быть то, что сила сигнала голоса больше порогового значения силы. Если аудиопоток соответствует требованиям, выполняется переход к этапу 403. Иначе, сбор аудио- и видеопотока, который должен быть зарегистрирован, выполняется снова.
[0056] Этап 403: Извлечение собственных векторов образца голоса из аудиопотока.
[0057] В этом примере может быть множество аудио- и видеопотоков, которые должны быть зарегистрированы. Например, пользователь может читать ID пользователя дважды, и, следовательно, два аудио- и видеопотока собираются. На текущем этапе собственный вектор образца голоса аудиопотока в каждом аудио- и видеопотоке может быть извлечен. Собственный вектор может быть извлечен множеством способов, и подробности пропускаются здесь ради простоты. Например, коэффициент косинусного преобразования Фурье для частот чистых тонов (MFCC) параметра отличительного признака голоса может быть извлечен из голосового сигнала аудиопотока, и затем собственный вектор вычисляется с помощью способа, такого как i-вектор (алгоритм распознавания говорящего) или вероятностный линейный дискриминантный анализ (PLDA, т.е., алгоритм корректировки канала для распознавания образца голоса).
[0058] Этап 404: Определение того, являются ли согласующимися собственные векторы образца голоса для множества аудиопотоков.
[0059] Например, когда пользователь читает ID пользователя, по меньшей мере, дважды во время регистрации, существуют, соответственно, по меньшей мере, два собранных аудиопотока. Чтобы гарантировать, что различие между отличительными признаками образца голоса для множества аудиопотоков является не слишком большим, определение согласованности образца голоса может быть выполнено между множеством аудиопотоков. Например, оценка сходства между множеством аудиопотоков может быть вычислена на основе собственного вектора образца голоса, извлеченного из каждого аудиопотока на этапе 403.
[0060] Если оценка сходства попадает в пределы некоторого порогового значения оценки, это указывает, что аудиопотоки удовлетворяют требованию по сходству; и в этом случае выполняется переход к этапу 405. Иначе, это указывает, что существует большое различие между множеством звуков, введенных пользователем, и пользователь, который выполняет регистрацию, может быть проинструктирован, чтобы читать ID пользователя снова, т.е., собирать аудиопоток снова.
[0061] Этап 405: Формирование отличительного признака образца голоса модели на основе собственных векторов образца голоса для множества аудиопотоков.
[0062] На текущем этапе взвешенное суммирование может быть выполнено по собственным векторам образца голоса, извлеченным из аудиопотоков на предыдущем этапе, чтобы получать отличительный признак образца голоса модели.
[0063] После того как предыдущая процедура регистрации завершается, регистрационная информация об объекте для целевого объекта сохраняется в базе данных. Регистрационная информация об объекте может включать в себя идентификатор объекта и соответствующий физиологический признак модели. Физиологический признак модели может включать в себя отличительный признак образца голоса модели и лицевой отличительный признак модели, и обработка аутентификации личности объекта может быть выполнена ниже на основе регистрационной информации об объекте.
Аутентификация личности
[0064] Фиг. 5 иллюстрирует примерную процедуру аутентификации личности. В этой процедуре физиологический признак, используемый для аутентификации, описывается с помощью сочетания лицевого отличительного признака и отличительного признака образца голоса в качестве примера. Кроме того, физиологические признаки могут быть сравнены, после того как определяется, что целевой объект, который аутентифицируется, является живым объектом вместо видеозаписи. Как показано на фиг. 5, процедура аутентификации включает в себя следующую обработку:
[0065] Этап 501: Получение собранного аудио- и видеопотока, когда аудио- и видеопоток формируется целевым объектом, который должен быть аутентифицирован.
[0066] Например, пользователь может входить в приложение с относительно высоким требованием по безопасности, только после того как личность пользователя была аутентифицирована приложением. На текущем этапе пользователь может запускать приложение на интеллектуальном устройстве, например, смартфоне пользователя, и пользователь может собирать аудио- и видеопоток, который должен быть аутентифицирован, с помощью камеры и микрофона смартфона. Аудио- и видеопоток может быть сформирован, когда пользователь читает ID приложения пользователя.
[0067] Этап 502: Определение того, являются ли согласующимися чтение по губам и голос в аудио- и видеопотоке.
[0068] В этом примере, сначала может быть определено, являются ли согласующимися чтение по губам и голос в аудио- и видеопотоке. Что касается конкретной процедуры определения согласованности, ссылки могут быть выполнены на фиг. 2, и подробности пропускаются здесь ради простоты.
[0069] Если чтение по губам и голос являются согласующимися, это указывает, что целевой объект, который аутентифицируется, является живым объектом вместо видеозаписи, и т.д. В этом случае выполняется переход к этапу 503. Иначе, выполняется возврат к этапу 501, чтобы выполнять сбор снова.
[0070] Этап 503: Выполнение распознавания голоса по аудиопотоку в аудио- и видеопотоке, чтобы получать голосовой контент аудиопотока. Например, голосовой контент, полученный посредством распознавания, может быть ID пользователя "123456".
[0071] Этап 504: Использование голосового контента в качестве идентификатора объекта для целевого объекта и определение того, включает ли в себя предварительно сохраненная регистрационная информация об объекте идентификатор объекта.
[0072] Например, если предварительно определенная регистрационная информация об объекте включает в себя идентификатор объекта, физиологический признак модели, соответствующий идентификатору объекта, может быть получен в регистрационной информации об объекте, например, лицевой отличительный признак модели и отличительный признак образца голоса модели. Физиологическое распознавание дополнительно выполняется по аудио- и видеопотоку, который должен быть аутентифицирован, чтобы получать физиологический признак целевого объекта, с тем, чтобы сравнивать физиологический признак с физиологическим признаком модели. Если предварительно сохраненная регистрационная информация об объекте не включает в себя идентификатор объекта, пользователь может быть уведомлен о том, что пользователь не выполнил регистрацию.
[0073] Этап 505: Выполнение распознавания образца голоса по аудио- и видеопотоку, чтобы получать отличительный признак образца голоса целевого объекта. Что касается извлечения отличительного признака образца голоса на текущем этапе, ссылки могут быть выполнены на фиг. 4.
[0074] Этап 506: Выполнение распознавания лица по аудио- и видеопотоку, чтобы получать лицевой отличительный признак целевого объекта.
[0075] Затем физиологический признак целевого объекта может быть сравнен с физиологическим признаком модели, чтобы получать результат сравнения, и если результат сравнения удовлетворяет условию аутентификации, определяется, что целевой объект был аутентифицирован. Например, содержатся этапы 507-509.
[0076] Этап 507: Сравнение отличительного признака образца голоса целевого объекта с отличительным признаком образца голоса модели, чтобы получать оценку сравнения образца голоса.
[0077] Этап 508: Сравнение лицевого отличительного признака целевого объекта с лицевым отличительным признаком модели, чтобы получать оценку сравнения лица.
[0078] Этап 509: Определение того, удовлетворяют ли оценка сравнения образца голоса и оценка совпадения лица условию аутентификации.
[0079] Например, определяется, что целевой объект был аутентифицирован, если оценка сравнения образца голоса и оценка сравнения лица удовлетворяют, по меньшей мере, одному из следующего: оценка сравнения образца голоса больше порогового значения оценки образца голоса, оценка сравнения лица больше порогового значения оценки лица; или произведение оценки сравнения образца голоса и оценки сравнения лица больше соответствующего порогового значения произведения; или взвешенная сумма оценки сравнения образца голоса и оценки сравнения лица больше соответствующего взвешенного порогового значения.
[0080] Если определяется, что оценка сравнения образца голоса и оценка сравнения лица удовлетворяют условию аутентификации на текущем этапе, определяется, что целевой объект был аутентифицирован. Иначе, определяется, что целевой объект не удается аутентифицировать.
[0081] Кроме того, в этом примере аутентификации личности, аналогично предыдущей процедуре регистрации личности, распознавание голоса может быть выполнено по аудиопотоку, чтобы получать ID пользователя, после того как определяется, что чтение по губам и голос являются согласующимися, или ID пользователя может быть получен, когда момент времени слога в аудиопотоке идентифицируется. В предыдущем примере ID пользователя идентифицируется, после того как определяется, что чтение по губам и голос являются согласующимися.
[0082] Согласно способу аутентификации личности в этой реализации настоящей заявки, аудио- и видеопоток должен быть сформирован только однократно во время аутентификации пользователя. Например, пользователь должен читать ID пользователя только один раз. В способе ID пользователя может быть получен посредством выполнения распознавания голоса по аудио- и видеопотоку, и лицевой отличительный признак и отличительный признак образца голоса могут также быть проверены с помощью того же аудио- и видеопотока. Это упрощает пользовательскую операцию, улучшает эффективность аутентификации, поддерживает модель аутентификации один к одному и гарантирует точность распознавания. Другими словами, распознанный физиологический признак сравнивается только с отличительным признаком, соответствующим идентификатору объекта в базе данных, тем самым, обеспечивая точность распознавания. Кроме того, в способе, согласованность между чтением по губам и голосом определяется, чтобы гарантировать, что целевой объект является живым объектом вместо поддельной видеозаписи злоумышленника, тем самым, улучшая безопасность и надежность аутентификации. В способе ID пользователя и физиологический признак, полученный посредством распознавания, получаются на основе того же аудио- и видеопотока. До некоторой степени, поддельный аудио- и видеопоток злоумышленника может быть распознан.
[0083] Чтобы реализовать предыдущий способ аутентификации личности, реализация настоящей заявки дополнительно предоставляет устройство аутентификации личности. Как показано на фиг. 6, устройство может включать в себя модуль 61 получения информации, модуль 62 определения идентификатора, модуль 63 управления информацией, модуль 64 распознавания отличительного признака и модуль 65 обработки аутентификации.
[0084] Модуль 61 получения информации конфигурируется, чтобы получать собранный аудио- и видеопоток, когда аудио- и видеопоток формируется целевым объектом, который должен быть аутентифицирован.
[0085] Модуль 62 определения идентификатора конфигурируется, чтобы определять, являются ли согласующимися чтение по губам и голос в аудио- и видеопотоке, и если чтение по губам и голос являются согласующимися, использовать голосовой контент, полученный посредством выполнения распознавания голоса по аудиопотоку в аудио- и видеопотоке, в качестве идентификатора объекта для целевого объекта.
[0086] Модуль 63 управления информацией конфигурируется, чтобы получать физиологический признак модели, соответствующий идентификатору объекта, из регистрационной информации об объекте, если предварительно сохраненная регистрационная информация об объекте включает в себя идентификатор объекта.
[0087] Модуль 64 распознавания отличительного признака конфигурируется, чтобы выполнять физиологическое распознавание по аудио- и видеопотоку, чтобы получать физиологический признак целевого объекта.
[0088] Модуль 65 обработки аутентификации конфигурируется, чтобы сравнивать физиологический признак целевого объекта с физиологическим признаком модели, чтобы получать результат сравнения, и если результат сравнения удовлетворяет условию аутентификации, определять, что целевой объект был аутентифицирован.
[0089] Обращаясь к фиг. 7, в примере модуль 64 распознавания отличительного признака может включать в себя подмодуль 641 распознавания образца голоса и подмодуль 642 распознавания лица.
[0090] Подмодуль 641 распознавания образца голоса конфигурируется, чтобы выполнять распознавание образца голоса по аудио- и видеопотоку, чтобы получать отличительный признак образца голоса целевого объекта.
[0091] Подмодуль 642 распознавания лица конфигурируется, чтобы выполнять распознавание лица по аудио- и видеопотоку, чтобы получать лицевой отличительный признак целевого объекта.
[0092] Модуль 65 обработки аутентификации конфигурируется, чтобы сравнивать отличительный признак образца голоса целевого объекта с отличительным признаком образца голоса модели, чтобы получать оценку сравнения образца голоса, и сравнивать лицевой отличительный признак целевого объекта с лицевым отличительным признаком модели, чтобы получать оценку сравнения лица; и если оценка сравнения образца голоса и оценка сравнения лица удовлетворяют условию аутентификации, определять, что целевой объект был аутентифицирован.
[0093] В примере определяется, что целевой объект был аутентифицирован, если оценка сравнения образца голоса и оценка сравнения лица удовлетворяют, по меньшей мере, одному из следующего: оценка сравнения образца голоса больше порогового значения оценки образца голоса, оценка сравнения лица больше порогового значения оценки лица; или произведение оценки сравнения образца голоса и оценки сравнения лица больше соответствующего порогового значения произведения; или взвешенная сумма оценки сравнения образца голоса и оценки сравнения лица больше соответствующего взвешенного порогового значения.
[0094] В примере, как показано на фиг. 7, модуль 62 определения идентификатора может включать в себя следующее: подмодуль 621 распознавания слога, сконфигурированный, чтобы идентифицировать слог голоса и соответствующий момент времени в аудиопотоке в аудио- и видеопотоке и идентифицировать слог чтения по губам и соответствующий момент времени в видеопотоке в аудио- и видеопотоке; и подмодуль 622 определения согласованности, сконфигурированный, чтобы определять, что чтение по губам и голос являются согласующимися, если и слог голоса, и слог чтения по губам согласуются с соответствующим моментом времени.
[0095] В примере модуль 61 получения информации дополнительно конфигурируется, чтобы получать аудио- и видеопоток, который должен быть зарегистрирован для целевого объекта.
[0096] Модуль 62 определения идентификатора дополнительно конфигурируется, чтобы использовать голосовой контент, полученный посредством выполнения распознавания голоса по аудиопотоку в аудио- и видеопотоке, в качестве идентификатора объекта для целевого объекта, когда чтение по губам и голос в аудио- и видеопотоке, который должен быть зарегистрирован, являются согласующимися.
[0097] Модуль 64 распознавания отличительного признака дополнительно конфигурируется, чтобы выполнять физиологическое распознавание по аудио- и видеопотоку, который должен быть зарегистрирован, чтобы получать физиологический признак модели аудио- и видеопотока, который должен быть зарегистрирован.
[0098] Модуль 63 управления информацией дополнительно конфигурируется, чтобы соответствующим образом хранить идентификатор объекта для целевого объекта и соответствующий физиологический признак модели в регистрационной информации об объекте.
[0099] Предыдущие описания являются просто примерными реализациями настоящей заявки и не предназначены, чтобы ограничивать настоящую заявку. Любые модификации, эквивалентные замены, улучшения и т.д., выполненные в духе и принципе настоящей заявки, должны попадать в рамки защиты настоящей заявки.

Claims (45)

1. Способ аутентификации личности, при этом способ содержит этапы, на которых:
получают собранный аудио- и видеопоток, когда аудио- и видеопоток формируется целевым объектом, который должен быть аутентифицирован;
определяют, являются ли согласующимися чтение по губам и голос в аудио- и видеопотоке, и если чтение по губам и голос являются согласующимися, получают идентификатор объекта для целевого объекта путем использования голосового контента, полученного путем выполнения распознавания голоса по аудиопотоку в аудио- и видеопотоке;
определяют, содержит ли предварительно сохраненная регистрационная информация идентификатор объекта;
получают физиологический признак модели, соответствующий идентификатору объекта, из регистрационной информации об объекте, если предварительно сохраненная регистрационная информация об объекте содержит идентификатор объекта;
выполняют физиологическое распознавание по аудио- и видеопотоку, чтобы получать физиологический признак целевого объекта; и
сравнивают физиологический признак целевого объекта с физиологическим признаком модели, чтобы получать результат сравнения, и если результат сравнения удовлетворяет условию аутентификации, определяют, что целевой объект был аутентифицирован.
2. Способ по п. 1, в котором физиологический признак целевого объекта содержит отличительный признак образца голоса целевого объекта и лицевой отличительный признак целевого объекта, и физиологический признак модели содержит лицевой отличительный признак модели и отличительный признак образца голоса модели;
выполнение физиологического распознавания по аудио- и видеопотоку, чтобы получать физиологический признак целевого объекта, содержит этапы, на которых:
выполняют распознавание образца голоса по аудио- и видеопотоку, чтобы получать отличительный признак образца голоса целевого объекта; и
выполняют распознавание лица по аудио- и видеопотоку, чтобы получать лицевой отличительный признак целевого объекта; и
сравнение физиологического признака целевого объекта с физиологическим признаком модели, чтобы получать результат сравнения, и если результат сравнения удовлетворяет условию аутентификации, определение того, что целевой объект был аутентифицирован, содержат этапы, на которых:
сравнивают отличительный признак образца голоса целевого объекта с отличительным признаком образца голоса модели, чтобы получать оценку сравнения образца голоса, и сравнивают лицевой отличительный признак целевого объекта с лицевым отличительным признаком модели, чтобы получать оценку сравнения лица; и
если оценка сравнения образца голоса и оценка сравнения лица удовлетворяют условию аутентификации, определяют, что целевой объект был аутентифицирован.
3. Способ по п. 2, в котором определяется, что целевой объект был аутентифицирован, если оценка сравнения образца голоса и оценка сравнения лица удовлетворяют, по меньшей мере, одному из следующего:
оценка сравнения образца голоса больше порогового значения оценки образца голоса, оценка сравнения лица больше порогового значения оценки лица; или произведение оценки сравнения образца голоса и оценки сравнения лица больше соответствующего порогового значения произведения; или взвешенная сумма оценки сравнения образца голоса и оценки сравнения лица больше соответствующего взвешенного порогового значения.
4. Способ по п. 1, в котором определение того, являются ли согласующимися чтение по губам и голос в аудио- и видеопотоке, и если чтение по губам и голос являются согласующимися, использование голосового контента, полученного посредством выполнения распознавания голоса по аудиопотоку в аудио- и видеопотоке, в качестве идентификатора объекта для целевого объекта содержат этапы, на которых:
идентифицируют слог голоса и соответствующий момент времени в аудиопотоке в аудио- и видеопотоке;
идентифицируют слог чтения по губам и соответствующий момент времени в видеопотоке в аудио- и видеопотоке; и
определяют, что чтение по губам и голос являются согласующимися, если и слог голоса, и слог чтения по губам согласуются с соответствующим моментом времени.
5. Способ по п. 1, в котором перед получением собранного аудио- и видеопотока способ дополнительно содержит этапы, на которых:
получают аудио- и видеопоток, который должен быть зарегистрирован для целевого объекта;
используют голосовой контент, полученный посредством выполнения распознавания голоса по аудиопотоку в аудио- и видеопотоке, в качестве идентификатора объекта для целевого объекта, когда чтение по губам и голос в аудио- и видеопотоке, который должен быть зарегистрирован, являются согласующимися;
выполняют физиологическое распознавание в аудио- и видеопотоке, который должен быть зарегистрирован, чтобы получать физиологический признак модели для аудио- и видеопотока, который должен быть зарегистрирован; и
соответственно сохраняют идентификатор объекта для целевого объекта и соответствующий физиологический признак модели в регистрационной информации об объекте.
6. Устройство аутентификации личности, при этом устройство содержит:
модуль получения информации, сконфигурированный, чтобы получать собранный аудио- и видеопоток, когда аудио- и видеопоток формируется целевым объектом, который должен быть аутентифицирован;
модуль определения идентификатора, сконфигурированный, чтобы определять, являются ли согласующимися чтение по губам и голос в аудио- и видеопотоке, и если чтение по губам и голос являются согласующимися, получать идентификатор объекта для целевого объекта путем использования голосового контента, полученного путем выполнения распознавания голоса по аудиопотоку в аудио- и видеопотоке;
модуль управления информацией, сконфигурированный, чтобы определять содержит ли предварительно сохраненная регистрационная информация идентификатор объекта и получать физиологический признак модели, соответствующий идентификатору объекта, из регистрационной информации об объекте, если предварительно сохраненная регистрационная информация об объекте содержит идентификатор объекта;
модуль распознавания отличительного признака, сконфигурированный, чтобы выполнять физиологическое распознавание по аудио- и видеопотоку, чтобы получать физиологический признак целевого объекта; и
модуль обработки аутентификации, сконфигурированный, чтобы сравнивать физиологический признак целевого объекта с физиологическим признаком модели, чтобы получать результат сравнения, и если результат сравнения удовлетворяет условию аутентификации, определять, что целевой объект был аутентифицирован.
7. Устройство по п. 6, в котором модуль распознавания отличительного признака содержит подмодуль распознавания образца голоса и подмодуль распознавания лица, при этом
подмодуль распознавания образца голоса конфигурируется, чтобы выполнять распознавание образца голоса по аудио- и видеопотоку, чтобы получать отличительный признак образца голоса целевого объекта;
подмодуль распознавания лица конфигурируется, чтобы выполнять распознавание лица по аудио- и видеопотоку, чтобы получать лицевой отличительный признак целевого объекта; и
модуль обработки аутентификации конфигурируется, чтобы сравнивать отличительный признак образца голоса целевого объекта с отличительным признаком образца голоса модели, чтобы получать оценку сравнения образца голоса, и сравнивать лицевой отличительный признак целевого объекта с лицевым отличительным признаком модели, чтобы получать оценку сравнения лица; и если оценка сравнения образца голоса и оценка сравнения лица удовлетворяют условию аутентификации, определять, что целевой объект был аутентифицирован.
8. Устройство по п. 7, в котором определяется, что целевой объект был аутентифицирован, если оценка сравнения образца голоса и оценка сравнения лица удовлетворяют, по меньшей мере, одному из следующего:
оценка сравнения образца голоса больше порогового значения оценки образца голоса, оценка сравнения лица больше порогового значения оценки лица; или произведение оценки сравнения образца голоса и оценки сравнения лица больше соответствующего порогового значения произведения; или взвешенная сумма оценки сравнения образца голоса и оценки сравнения лица больше соответствующего взвешенного порогового значения.
9. Устройство по п. 6, в котором модуль определения идентификатора содержит:
подмодуль распознавания слога, сконфигурированный, чтобы идентифицировать слог голоса и соответствующий момент времени в аудиопотоке в аудио- и видеопотоке и идентифицировать слог чтения по губам и соответствующий момент времени в видеопотоке в аудио- и видеопотоке; и
подмодуль определения согласованности, сконфигурированный, чтобы определять, что чтение по губам и голос являются согласующимися, если и слог голоса, и слог чтения по губам согласуются с соответствующим моментом времени.
10. Устройство по п. 6, в котором
модуль получения информации дополнительно конфигурируется, чтобы получать аудио- и видеопоток, который должен быть зарегистрирован для целевого объекта;
модуль определения идентификатора дополнительно сконфигурирован, чтобы использовать голосовой контент, полученный посредством выполнения распознавания голоса по аудиопотоку в аудио- и видеопотоке, в качестве идентификатора объекта для целевого объекта, когда чтение по губам и голос в аудио- и видеопотоке, который должен быть зарегистрирован, являются согласующимися;
модуль распознавания отличительного признака дополнительно сконфигурирован, чтобы выполнять физиологическое распознавание по аудио- и видеопотоку, который должен быть зарегистрирован, чтобы получать физиологический признак модели аудио- и видеопотока, который должен быть зарегистрирован; и
модуль управления информацией дополнительно сконфигурирован, чтобы соответствующим образом хранить идентификатор объекта для целевого объекта и соответствующий физиологический признак модели в регистрационной информации об объекте.
RU2018144787A 2016-05-19 2017-04-12 Способ и устройство аутентификации личности RU2738325C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610340549.4 2016-05-19
CN201610340549.4A CN107404381A (zh) 2016-05-19 2016-05-19 一种身份认证方法和装置
PCT/CN2017/080196 WO2017198014A1 (zh) 2016-05-19 2017-04-12 一种身份认证方法和装置

Publications (3)

Publication Number Publication Date
RU2018144787A3 RU2018144787A3 (ru) 2020-06-19
RU2018144787A RU2018144787A (ru) 2020-06-19
RU2738325C2 true RU2738325C2 (ru) 2020-12-11

Family

ID=60324817

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018144787A RU2738325C2 (ru) 2016-05-19 2017-04-12 Способ и устройство аутентификации личности

Country Status (16)

Country Link
US (1) US10789343B2 (ru)
EP (1) EP3460697B1 (ru)
JP (2) JP2019522840A (ru)
KR (1) KR102196686B1 (ru)
CN (1) CN107404381A (ru)
AU (1) AU2017266971B2 (ru)
BR (1) BR112018073635A2 (ru)
CA (1) CA3024565C (ru)
MX (1) MX2018014147A (ru)
MY (1) MY192351A (ru)
PH (1) PH12018502437A1 (ru)
RU (1) RU2738325C2 (ru)
SG (1) SG11201810131VA (ru)
TW (1) TWI706268B (ru)
WO (1) WO2017198014A1 (ru)
ZA (1) ZA201807860B (ru)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6778010B2 (ja) * 2016-04-13 2020-10-28 キヤノン株式会社 画像識別システム、画像識別方法
CN107404381A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 一种身份认证方法和装置
WO2018108263A1 (en) * 2016-12-14 2018-06-21 Telefonaktiebolaget Lm Ericsson (Publ) Authenticating a user subvocalizing a displayed text
US10803297B2 (en) 2017-09-27 2020-10-13 International Business Machines Corporation Determining quality of images for user identification
US10795979B2 (en) 2017-09-27 2020-10-06 International Business Machines Corporation Establishing personal identity and user behavior based on identity patterns
US10839003B2 (en) 2017-09-27 2020-11-17 International Business Machines Corporation Passively managed loyalty program using customer images and behaviors
US10776467B2 (en) 2017-09-27 2020-09-15 International Business Machines Corporation Establishing personal identity using real time contextual data
KR20190046063A (ko) * 2017-10-25 2019-05-07 현대자동차주식회사 사용자 인증 시스템, 사용자 인증 방법 및 서버
US10565432B2 (en) * 2017-11-29 2020-02-18 International Business Machines Corporation Establishing personal identity based on multiple sub-optimal images
CN108052813A (zh) * 2017-11-30 2018-05-18 广东欧珀移动通信有限公司 终端设备的解锁方法、装置及移动终端
US10971173B2 (en) 2017-12-08 2021-04-06 Google Llc Signal processing coordination among digital voice assistant computing devices
KR102480949B1 (ko) 2017-12-08 2022-12-23 구글 엘엘씨 디지털 음성 어시스턴트 컴퓨팅 디바이스들 사이에서 신호 프로세싱 조정
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置
TWI661329B (zh) 2017-12-15 2019-06-01 鴻海精密工業股份有限公司 身份資訊關聯系統與方法、電腦存儲介質及使用者設備
CN110288349A (zh) * 2018-03-16 2019-09-27 杭州海康威视数字技术股份有限公司 用户信息管理方法、装置及系统、存储介质
CN108597523B (zh) * 2018-03-23 2019-05-17 平安科技(深圳)有限公司 说话人认证方法、服务器及计算机可读存储介质
CN108712381A (zh) * 2018-04-16 2018-10-26 出门问问信息科技有限公司 一种身份验证方法及装置
CN108446674A (zh) * 2018-04-28 2018-08-24 平安科技(深圳)有限公司 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质
US10678899B2 (en) * 2018-05-24 2020-06-09 Nice Ltd. System and method for performing voice biometrics analysis
CN108682424A (zh) * 2018-07-13 2018-10-19 广州势必可赢网络科技有限公司 一种音频采集设备及方法
CN109344703B (zh) * 2018-08-24 2021-06-25 深圳市商汤科技有限公司 对象检测方法及装置、电子设备和存储介质
CN109409204B (zh) * 2018-09-07 2021-08-06 北京市商汤科技开发有限公司 防伪检测方法和装置、电子设备、存储介质
CN109271915B (zh) * 2018-09-07 2021-10-08 北京市商汤科技开发有限公司 防伪检测方法和装置、电子设备、存储介质
CN109461437B (zh) * 2018-11-28 2023-05-09 平安科技(深圳)有限公司 唇语识别的验证内容生成方法及相关装置
JP7299708B2 (ja) * 2019-01-15 2023-06-28 グローリー株式会社 認証システム、管理装置及び認証方法
CN109801638B (zh) * 2019-01-24 2023-10-13 平安科技(深圳)有限公司 语音验证方法、装置、计算机设备及存储介质
CN109872714A (zh) * 2019-01-25 2019-06-11 广州富港万嘉智能科技有限公司 一种提高语音识别准确性的方法、电子设备及存储介质
CN110113319A (zh) * 2019-04-16 2019-08-09 深圳壹账通智能科技有限公司 身份认证方法、装置、计算机设备和存储介质
CN110223710A (zh) * 2019-04-18 2019-09-10 深圳壹账通智能科技有限公司 多重联合认证方法、装置、计算机装置及存储介质
CN110110513A (zh) * 2019-04-24 2019-08-09 上海迥灵信息技术有限公司 基于人脸和声纹的身份认证方法、装置和存储介质
CN110288286A (zh) * 2019-05-21 2019-09-27 深圳壹账通智能科技有限公司 基于身份验证的物品入库方法、装置、设备及存储介质
CN110324314B (zh) * 2019-05-23 2023-04-18 深圳壹账通智能科技有限公司 用户注册方法及装置、存储介质、电子设备
CN110569707A (zh) * 2019-06-25 2019-12-13 深圳和而泰家居在线网络科技有限公司 一种身份识别方法和电子设备
CN110364163A (zh) * 2019-07-05 2019-10-22 西安交通大学 一种语音和唇语相融合的身份认证方法
CN110348378A (zh) * 2019-07-10 2019-10-18 北京旷视科技有限公司 一种认证方法、装置和存储介质
WO2021007857A1 (zh) * 2019-07-18 2021-01-21 深圳海付移通科技有限公司 一种身份验证方法、终端设备、存储介质
CN110517106A (zh) * 2019-07-24 2019-11-29 合肥善达信息科技有限公司 一种用于评标的专家身份认证系统及其实时监测方法
TWI801647B (zh) * 2019-08-07 2023-05-11 華南商業銀行股份有限公司 基於動態影像的身分驗證裝置及方法
TWI822646B (zh) * 2019-08-07 2023-11-11 華南商業銀行股份有限公司 基於唇部動態影像的身分驗證裝置及方法
CN110491413B (zh) * 2019-08-21 2022-01-04 中国传媒大学 一种基于孪生网络的音频内容一致性监测方法及系统
CN110717407A (zh) * 2019-09-19 2020-01-21 平安科技(深圳)有限公司 基于唇语密码的人脸识别方法、装置及存储介质
CN110602405A (zh) * 2019-09-26 2019-12-20 上海盛付通电子支付服务有限公司 拍摄方法和装置
CN110738159A (zh) * 2019-10-11 2020-01-31 中国建设银行股份有限公司 用于实现变更企业实际控制人的在线股东大会方法、装置
CN111160928A (zh) * 2019-12-16 2020-05-15 深圳前海微众银行股份有限公司 一种验证身份的方法及装置
CN116797971A (zh) * 2019-12-31 2023-09-22 支付宝实验室(新加坡)有限公司 一种视频流识别方法及装置
CN111178287A (zh) * 2019-12-31 2020-05-19 云知声智能科技股份有限公司 一种声像融合的端对端身份识别方法及装置
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
US11403369B2 (en) 2020-01-21 2022-08-02 Disney Enterprises, Inc. Secure content processing pipeline
US11425120B2 (en) 2020-02-11 2022-08-23 Disney Enterprises, Inc. Systems for authenticating digital contents
EP3912063A4 (en) * 2020-03-24 2021-11-24 Rakuten Group, Inc. ACTIVITY DETECTION USING AUDIOVISUAL INCONSISTENCY
CN111667835A (zh) * 2020-06-01 2020-09-15 马上消费金融股份有限公司 语音识别方法、活体检测方法、模型训练方法及装置
CN111881726B (zh) * 2020-06-15 2022-11-25 马上消费金融股份有限公司 一种活体检测方法、装置及存储介质
CN111814732B (zh) * 2020-07-23 2024-02-09 度小满科技(北京)有限公司 一种身份验证方法及装置
CN112102546A (zh) * 2020-08-07 2020-12-18 浙江大华技术股份有限公司 一种人机交互控制方法、对讲呼叫方法及相关装置
GB202014436D0 (en) * 2020-09-14 2020-10-28 Voice Biometrics Limted Multifactor voice and face authentication systems and methods
CN112133311B (zh) * 2020-09-18 2023-01-17 科大讯飞股份有限公司 说话人识别方法、相关设备及可读存储介质
CN112435653A (zh) * 2020-10-14 2021-03-02 北京地平线机器人技术研发有限公司 语音识别方法、装置和电子设备
CN112348527A (zh) * 2020-11-17 2021-02-09 上海桂垚信息科技有限公司 一种基于语音识别在银行交易系统中的身份认证方法
CN112491844A (zh) * 2020-11-18 2021-03-12 西北大学 一种基于可信执行环境的声纹及面部识别验证系统及方法
CN112397072B (zh) * 2021-01-18 2021-04-30 深圳市声扬科技有限公司 语音检测方法、装置、电子设备及存储介质
KR20220138669A (ko) * 2021-04-06 2022-10-13 삼성전자주식회사 개인화 오디오 정보를 제공하기 위한 전자 장치 및 방법
CN113347608B (zh) * 2021-06-11 2023-05-12 焦作大学 一种用于车辆的物联网可信认证方法
CN114677634B (zh) * 2022-05-30 2022-09-27 成都新希望金融信息有限公司 面签识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130267204A1 (en) * 2012-02-28 2013-10-10 Verizon Patent And Licensing Inc. Method and system for multi-factor biometric authentication based on different device capture modalities
RU2543958C2 (ru) * 2013-05-14 2015-03-10 Российская Федерация, от имени которой выступает Федеральная служба по техническому и экспортному контролю (ФСТЭК России) Способ контроля исполнения домашнего ареста с биометрической аутентификацией контролируемого
CN104598796A (zh) * 2015-01-30 2015-05-06 科大讯飞股份有限公司 身份识别方法及系统
US20150199502A1 (en) * 2014-01-15 2015-07-16 Steve Y. Chen Image Authenticity Verification Using Speech
CN105426723A (zh) * 2015-11-20 2016-03-23 北京得意音通技术有限责任公司 基于声纹识别、人脸识别以及同步活体检测的身份认证方法及系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1693801A3 (en) * 2005-02-16 2006-11-29 David Schaufele Biometric-based systems and methods for identity verification
TWI326427B (en) 2005-06-22 2010-06-21 Egis Technology Inc Biometrics signal input device, computer system having the biometrics signal input device, and control method thereof
JP2007156974A (ja) * 2005-12-07 2007-06-21 Kddi Corp 個人認証・識別システム
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
JP2011203992A (ja) * 2010-03-25 2011-10-13 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2011215942A (ja) * 2010-03-31 2011-10-27 Nec Personal Products Co Ltd ユーザ認証装置、ユーザ認証システム、ユーザ認証方法及びプログラム
JP5492274B2 (ja) * 2012-10-25 2014-05-14 エヌ・ティ・ティ・コミュニケーションズ株式会社 認証装置、認証方法及び認証プログラム
US20140143551A1 (en) * 2012-11-21 2014-05-22 Leigh M. Rothschild Encoding biometric identification information into digital files
WO2014139117A1 (en) * 2013-03-14 2014-09-18 Intel Corporation Voice and/or facial recognition based service provision
US9003196B2 (en) * 2013-05-13 2015-04-07 Hoyos Labs Corp. System and method for authorizing access to access-controlled environments
WO2015076828A1 (en) * 2013-11-22 2015-05-28 Intel Corporation Apparatus and method for voice based user enrollment with video assistance
CN103841108B (zh) * 2014-03-12 2018-04-27 北京天诚盛业科技有限公司 用户生物特征的认证方法和系统
CN104361276B (zh) * 2014-11-18 2017-07-18 新开普电子股份有限公司 一种多模态生物特征身份认证方法及系统
US9615224B2 (en) * 2015-02-19 2017-04-04 Cisco Technology, Inc. Zero touch deployment over a wireless wide area network
WO2016139655A1 (en) * 2015-03-01 2016-09-09 I Am Real Ltd. Method and system for preventing uploading of faked photos
CN104834900B (zh) * 2015-04-15 2017-12-19 常州飞寻视讯信息科技有限公司 一种联合声像信号进行活体检测的方法和系统
CN105141619A (zh) * 2015-09-15 2015-12-09 北京云知声信息技术有限公司 一种帐号登录方法及装置
CN107404381A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 一种身份认证方法和装置
US9686238B1 (en) * 2016-07-07 2017-06-20 Oceus Networks Inc. Secure network enrollment
US11868995B2 (en) * 2017-11-27 2024-01-09 Nok Nok Labs, Inc. Extending a secure key storage for transaction confirmation and cryptocurrency

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130267204A1 (en) * 2012-02-28 2013-10-10 Verizon Patent And Licensing Inc. Method and system for multi-factor biometric authentication based on different device capture modalities
RU2543958C2 (ru) * 2013-05-14 2015-03-10 Российская Федерация, от имени которой выступает Федеральная служба по техническому и экспортному контролю (ФСТЭК России) Способ контроля исполнения домашнего ареста с биометрической аутентификацией контролируемого
US20150199502A1 (en) * 2014-01-15 2015-07-16 Steve Y. Chen Image Authenticity Verification Using Speech
CN104598796A (zh) * 2015-01-30 2015-05-06 科大讯飞股份有限公司 身份识别方法及系统
CN105426723A (zh) * 2015-11-20 2016-03-23 北京得意音通技术有限责任公司 基于声纹识别、人脸识别以及同步活体检测的身份认证方法及系统

Also Published As

Publication number Publication date
EP3460697A4 (en) 2019-05-08
BR112018073635A2 (pt) 2019-02-26
RU2018144787A3 (ru) 2020-06-19
MY192351A (en) 2022-08-17
KR20190009361A (ko) 2019-01-28
TWI706268B (zh) 2020-10-01
EP3460697A1 (en) 2019-03-27
CN107404381A (zh) 2017-11-28
TW201741921A (zh) 2017-12-01
JP2019522840A (ja) 2019-08-15
AU2017266971A1 (en) 2018-12-06
CA3024565C (en) 2022-09-06
US10789343B2 (en) 2020-09-29
AU2017266971B2 (en) 2021-05-13
US20190102531A1 (en) 2019-04-04
SG11201810131VA (en) 2018-12-28
MX2018014147A (es) 2019-08-12
JP7109634B2 (ja) 2022-07-29
PH12018502437A1 (en) 2019-05-15
RU2018144787A (ru) 2020-06-19
ZA201807860B (en) 2019-08-28
CA3024565A1 (en) 2017-11-23
JP2021182420A (ja) 2021-11-25
KR102196686B1 (ko) 2020-12-31
EP3460697B1 (en) 2021-12-08
WO2017198014A1 (zh) 2017-11-23

Similar Documents

Publication Publication Date Title
RU2738325C2 (ru) Способ и устройство аутентификации личности
CN104834849B (zh) 基于声纹识别和人脸识别的双因素身份认证方法及系统
WO2017215558A1 (zh) 一种声纹识别方法和装置
CN111611568A (zh) 一种人脸声纹复核终端及其身份认证方法
CN107346568B (zh) 一种门禁系统的认证方法和装置
CN109005104B (zh) 一种即时通信方法、装置、服务器及存储介质
JP7412496B2 (ja) 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法
Štruc et al. Phase congruency features for palm-print verification
CN111611437A (zh) 一种防止人脸声纹验证替换攻击的方法及装置
Shen et al. Secure mobile services by face and speech based personal authentication
Chetty et al. Liveness detection using cross-modal correlations in face-voice person authentication.
Aides et al. Text-Dependent Audiovisual Synchrony Detection for Spoofing Detection in Mobile Person Recognition.
CN116883900A (zh) 一种基于多维生物特征的视频真伪鉴别方法和系统
Shenai et al. Fast biometric authentication system based on audio-visual fusion
Gofman et al. Hidden markov models for feature-level fusion of biometrics on mobile devices
JP2002208011A (ja) 画像照合処理システムおよび画像照合方法
Bredin et al. Making talking-face authentication robust to deliberate imposture
KR100898766B1 (ko) 얼굴 인식 장치, 얼굴 인식 등록 및 인증 방법
Kartik et al. Noise robust multimodal biometric person authentication system using face, speech and signature features
CN111611569A (zh) 一种人脸声纹复核终端及其身份认证方法
Ramya et al. Enhanced Speaker Verification Incorporated with Face Recognition
Dixit et al. SIFRS: Spoof Invariant Facial Recognition System (A Helping Hand for Visual Impaired People)
De Marsico et al. House in the (biometric) cloud: a possible application
Chetty et al. Multimodal feature fusion for video forgery detection
Elmadani Human authentication using fingeriris algorithm based on statistical approach

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20210311

PC41 Official registration of the transfer of exclusive right

Effective date: 20210420