WO2019223102A1 - 身份合法性的校验方法、装置、终端设备及介质 - Google Patents

身份合法性的校验方法、装置、终端设备及介质 Download PDF

Info

Publication number
WO2019223102A1
WO2019223102A1 PCT/CN2018/097449 CN2018097449W WO2019223102A1 WO 2019223102 A1 WO2019223102 A1 WO 2019223102A1 CN 2018097449 W CN2018097449 W CN 2018097449W WO 2019223102 A1 WO2019223102 A1 WO 2019223102A1
Authority
WO
WIPO (PCT)
Prior art keywords
video image
face
feature
lip
preset
Prior art date
Application number
PCT/CN2018/097449
Other languages
English (en)
French (fr)
Inventor
王义文
王健宗
肖京
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019223102A1 publication Critical patent/WO2019223102A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Definitions

  • the present application belongs to the field of information processing technology, and particularly relates to a method, a device, a terminal device, and a medium for verifying the validity of an identity.
  • the banking system may receive a voice signal sent by a user, and compare the voiceprint feature of a pre-stored account with a voiceprint feature extracted from the voice signal, and then determine whether the user is a legitimate user of the account or not based on the comparison result.
  • the embodiments of the present application provide a method, a device, a terminal device, and a medium for verifying identity legitimacy, so as to solve the problem of low recognition accuracy of user identity verification in the prior art.
  • a first aspect of the embodiments of the present application provides a method for verifying identity legitimacy, including:
  • a second aspect of the embodiments of the present application provides a device for verifying identity legitimacy, including:
  • An acquisition unit configured to acquire a video image of a user when a voice signal sent by the user is detected
  • a detection unit configured to perform face detection processing on the video image to determine a face area in the video image
  • a positioning unit configured to locate a lip pixel in the face region
  • a generating unit configured to generate first feature vectors corresponding to the lip pixels at each moment according to the located lip pixels
  • An input unit configured to input each of the first feature vectors into a preset recurrent neural network model to output text information corresponding to each moment; wherein the recurrent neural network model is used to identify the first feature vector matched Text message
  • the determining unit is configured to determine the legitimacy of the identity of the user according to the text information and preset authentication information.
  • a third aspect of the embodiments of the present application provides a terminal device including a memory and a processor.
  • the memory stores computer-readable instructions executable on the processor, and the processor executes the computer-readable instructions. The steps of the method for verifying identity legitimacy as described in the first aspect when the instruction is read.
  • a fourth aspect of the embodiments of the present application provides a computer-readable storage medium, where the computer-readable storage medium stores computer-readable instructions, and the computer-readable instructions are implemented as described in the first aspect when executed by a processor. Steps of a method for verifying identity legitimacy.
  • the neural network model trained in advance can directly output the text information that the user needs to express at each moment.
  • the acquisition of video images will not be disturbed by the noise of the external environment, thereby ensuring that when determining the legitimacy of the user's identity based on the textual information obtained by the video image, the accuracy of identity recognition can be improved and the complexity Difficulty in verifying identity legitimacy in a noisy environment.
  • FIG. 1 is an implementation flowchart of a method for verifying identity legitimacy provided by an embodiment of the present application
  • FIG. 2 is a specific implementation flowchart of a method S102 for verifying identity legitimacy provided by an embodiment of the present application
  • FIG. 3 is a detailed implementation flowchart of an identity validity verification method S103 provided by an embodiment of the present application.
  • FIG. 4 is a schematic diagram of a human face area including a tag value corresponding to a facial feature point according to an embodiment of the present application
  • FIG. 5 is a detailed implementation flowchart of a method S104 for verifying identity legitimacy provided by an embodiment of the present application.
  • FIG. 6 is a detailed implementation flowchart of a method S105 for verifying identity legitimacy provided by an embodiment of the present application.
  • FIG. 7 is a structural block diagram of an identity validity verification device provided by an embodiment of the present application.
  • FIG. 8 is a schematic diagram of a terminal device according to an embodiment of the present application.
  • FIG. 1 shows an implementation flow of a method for verifying identity legitimacy provided by an embodiment of the present application, which is detailed as follows:
  • a voice signal generated by the outside world is detected by a preset voice receiver. If it is detected that the amplitude strength of the voice signal is greater than a preset value, it is determined that the current voice signal is a voice signal sent by a user. At this time, the camera is started to collect a video image of the user through the camera.
  • S102 Perform face detection processing on the video image to determine a face area in the video image.
  • recognition processing is performed on each frame of video images obtained through the preset face detection algorithm.
  • the above-mentioned face detection algorithm may be, for example, an AdaBoost face recognition algorithm and an OPENCV detection algorithm based on face features, which are not limited herein. According to the position points of each face feature obtained through recognition, a face region in a video image can be determined.
  • FIG. 2 shows a specific implementation process of the identity validity verification method S102 provided in the embodiment of the present application, which is detailed as follows:
  • S1021 Obtain first image gradient information in the horizontal axis direction and second image gradient information in the vertical axis direction of each pixel point in the video image.
  • S1022 Quantify each of the first image gradient information and the second image gradient information to construct a second feature vector of the video image.
  • the second feature vector is input to a face detection model to output a marker position of each face feature point in a video image.
  • the following formula is used to calculate the first image gradient G x (x, y) in the x-axis direction and the direction of the y-axis of each pixel in the frame of video image.
  • (x, y) represents the coordinates of the pixel point in the video image
  • H (x, y) is based on the Sobel operator provided by openCV after the pixel value of the pixel point with the coordinate (x, y) is processed The resulting output value.
  • normalizing the video image includes: obtaining separately The gray value of each pixel in the video image on each color channel, and the square root of each gray value is calculated.
  • the video image is compressed, and the recognition errors in subsequent operations caused by local shadow and illumination changes in the video image are effectively reduced.
  • the first image gradient information and the second image gradient information are quantized to construct a second feature vector of a video image.
  • the above second feature vector is input into a face detection model based on the Dlib library.
  • the above-mentioned face detection model of the Dlib library uses a direction gradient histogram (Histogram of Gradient, HOG) to identify each face feature represented by the second feature vector, and then uses a preset vector machine (Support Vector Machine (SVM)) To identify the classification type corresponding to each face feature.
  • the above classification type may refer to a position in a face organ, that is, each classification type matches a position point in a video image. Therefore, after each classification type is determined, each labeled facial feature point can be determined at each coordinate position of the video image.
  • the aforementioned face detection model based on the Dlib library is used to mark 68 facial feature points in a video image.
  • S1024 Determine a face region in the video image according to the marked position of each face feature point.
  • a rectangular detection frame is generated that is circumscribed at the four facial feature points, and the image area surrounded by the rectangular detection frame is the face area in the current video image.
  • the first image gradient information in the horizontal axis direction and the second image gradient information in the vertical axis direction of each pixel point in the video image are obtained based on the first image gradient information and the second image gradient.
  • the information is used to construct the feature vector of the video image, so that the feature vector can be used to describe the content of the partial image in the video image, and the pixel changes within the video image are relatively invariant.
  • the face region includes facial feature points of the human face corresponding to the positions of various organs.
  • the facial feature points adjacent to the lip contour and the lip contour can be extracted to obtain the Each lip pixel.
  • step S1023 further includes: obtaining a label value corresponding to each facial feature point in the video image output by the face detection model; the label value is used to represent A feature category of the facial feature point.
  • FIG. 3 shows a specific implementation process of the identity validity verification method S103 provided in the embodiment of the present application, which is detailed as follows:
  • S1031 Obtain a preset label threshold corresponding to a lip pixel.
  • the face detection model when the face detection model outputs the labeled position of each facial feature point in the video image, it also displays the label value of each facial feature point in the labeled position.
  • Each label value is used to represent a feature category to which a facial feature point indicated by the current marker position belongs.
  • the above label values are displayed in the form of a digital serial number.
  • FIG. 4 is a schematic diagram of a face region in a video image that includes label values corresponding to 68 human face feature points. It can be seen that facial feature points with a label value of 27 to 35 indicate that the feature category to which these facial feature points belong is the nose.
  • a preset label threshold corresponding to a lip pixel point is obtained.
  • the label threshold indicates a label value with the smallest value among the label values corresponding to the lips pixels.
  • the label threshold corresponding to the lip pixels is 48.
  • the tag value corresponding to each face feature point determine whether the tag value is greater than or equal to the above-mentioned tag threshold. If the label value is greater than or equal to the label threshold, the facial feature point is identified as a lip pixel point in the facial area. If the label value is smaller than the label threshold, the facial feature point is identified as a non-lip pixel point. And so on, until each facial feature point in the face area is classified.
  • the face value of each face feature point in the video image is used to output the label value of the face detection model, thereby realizing the recognition of the lip pixels based on the size relationship between the label value and the label threshold, without the need to rely on it.
  • the complex lip precise positioning algorithm is used to process the video image. Therefore, the recognition efficiency and recognition accuracy of the lip pixels are improved.
  • S104 Generate first feature vectors corresponding to the lip pixels at each moment according to the located lip pixels.
  • FIG. 5 shows a specific implementation process of the identity validity verification method S104 provided by an embodiment of the present application, which is detailed as follows:
  • S1042 Generate a weighted gradient direction histogram HOG corresponding to each of the sub-images, where the HOG includes multiple intervals.
  • S1044 Read the third feature vector of each of the sections in the video image according to a preset scanning step, and determine a vector obtained by concatenating each of the third feature vectors as the current time. A first feature vector corresponding to a lip pixel.
  • a video image is divided into a plurality of equally divided sub-images.
  • a weighted gradient direction histogram HOG corresponding to the sub-image is generated, and the HOG is averagely divided into 9 intervals along the gradient direction according to the gradient direction angle.
  • the division interval is 0 ° to 360 °. That is, the HOG is divided into 9 groups along the gradient direction, so that the angle range matched by each group is 40 °.
  • each adjacent four sub-images are used as one image block, and the feature values of each interval corresponding to one image block are combined to obtain a 36-dimensional feature vector.
  • the obtained vector is output as the first feature vector corresponding to the lip pixels in the frame video image.
  • the HOG in the image block is subjected to normalization processing, so that the respective sub-images can be combined into spatially connected image blocks.
  • the normalization operation can compress the lighting, shadows, and edges of the image block, based on the first feature vector obtained by the normalized image block, the text information corresponding to the lip pixels can be identified later. In the process, the recognition accuracy of text information is improved.
  • the first feature vector corresponding to the lip pixel at each time can be obtained in the above manner based on the multiple frames of video images continuously captured within a preset duration.
  • S105 input each of the first feature vectors into a preset recurrent neural network model to output text information corresponding to each moment; wherein the recurrent neural network model is used to identify text information matched by the first feature vector .
  • a recurrent neural network model is used to process a first feature vector corresponding to a lip pixel at each moment.
  • the recurrent neural network model uses a plurality of preset first feature vectors and known text information as training samples.
  • the first feature vector is convolved in space and time, which is equivalent to adding one-dimensional time to space or plane to represent the time series change in space.
  • the convolution kernel used in the recurrent neural network model is a three-dimensional convolution kernel. The results obtained by the convolution in the time dimension are used to characterize the change characteristics of the lip pixels in time.
  • the recurrent neural network model includes three convolutional layers and three pooling layers.
  • the pooling layer is used to extract the main features in the first feature vector to reduce the dimension of the first feature vector, improve the generalization ability of the neural network model, and introduce translation, rotation, and scale invariance.
  • the time dimension of the pooling layer is one.
  • FIG. 6 shows a specific implementation process of the identity validity verification method S105 provided in the embodiment of the present application, which is detailed as follows:
  • S1051 Obtain a preset recurrent neural network model, where the recurrent neural network model includes two bidirectional long-term and short-term memory network LSTM layers.
  • S1052 Pass each of the first feature vectors sequentially through the bidirectional LSTM layer to output the pronunciation phonemes corresponding to each moment.
  • S1053 Construct a phoneme sequence including a mute phoneme and each of the phonemes according to an output order of the phonemes.
  • S1054 Based on the mute phonemes existing in the phoneme sequence, divide the phoneme sequence into a plurality of phoneme groups, and convert each phoneme group into a corresponding text character through a preset algorithm.
  • the recurrent neural network model includes two bidirectional LSTM layers, and the first feature vector corresponding to the lip pixel at each time passes through the two LSTM layers in sequence, and then outputs the associated pronunciation phonemes. And how long each phoneme is pronounced.
  • the pronunciation phonemes may be, for example, pinyin letters such as "a", "o", and "b".
  • a phoneme sequence including each pronunciation phoneme is constructed. Wherein, if it is detected that the time interval between any two pronunciation phonemes is greater than a preset value, a silent phoneme is inserted between the two pronunciation phonemes in the phoneme sequence.
  • the phoneme sequence including the mute phoneme and the pronunciation phoneme is segmented, so that the phoneme sequence can be divided into a plurality of phoneme groups including only the phoneme of the pronunciation phoneme.
  • each phoneme group multiple consecutive pronunciation phonemes are concatenated, and a preset algorithm is used to identify text characters that match the pronunciation phonemes. So far, the text information corresponding to the voice signal during the time period when the user sends out the voice signal is obtained.
  • each phrase is sequentially output.
  • the matching text characters can be "Who am I” and "I am water”. At this time, both "Who am I” and “I am water” are output as text information corresponding to the first feature vector.
  • S106 Determine the legitimacy of the user's identity according to the text information and preset authentication information.
  • identity authentication information customized by a user in advance is obtained.
  • the above authentication information includes, but is not limited to, voice information and text information.
  • the voice information is processed by a voice recognition algorithm to output text information corresponding to the voice information.
  • each obtained text information is compared with the text information in the current identity verification information. If the same text information exists, it is determined that the current user is a legitimate user; if the same text information does not exist, it is determined that the current user is an illegal user.
  • the user's lips and lip shape will dynamically change during the user's speaking process
  • each of them is constructed separately.
  • the feature vectors corresponding to the lip pixels at different times make the neural network model trained in advance can directly output the text information that the user needs to express at each moment. Because the acquisition of video images is not disturbed by the noise of the external environment, it is guaranteed that when determining the legitimacy of the user's identity based on the text information obtained by the video image, the accuracy of identity recognition can be improved and the complexity can be reduced. Difficulty in verifying identity legitimacy in a noisy environment.
  • FIG. 7 shows a structural block diagram of the device for verifying identity legitimacy provided in the embodiment of the present application. For convenience of explanation, only the parts related to this embodiment are shown.
  • the device includes:
  • the collecting unit 71 is configured to collect a video image of the user when a voice signal sent by the user is detected.
  • the detecting unit 72 is configured to perform face detection processing on the video image to determine a face area in the video image.
  • the positioning unit 73 is configured to locate a lip pixel in the face region.
  • a generating unit 74 is configured to generate first feature vectors corresponding to the lip pixels at each moment according to the located lip pixels.
  • the input unit 75 is configured to input each of the first feature vectors into a preset recurrent neural network model to output text information corresponding to each moment; wherein the recurrent neural network model is used to identify the first feature vector. Matching text information.
  • a determining unit 76 is configured to determine the legitimacy of the identity of the user according to the text information and preset authentication information.
  • the detection unit 72 includes:
  • the first obtaining subunit is configured to obtain first image gradient information in a horizontal axis direction and second image gradient information in a vertical axis direction of each pixel point in the video image.
  • a quantization subunit is configured to quantize each of the first image gradient information and the second image gradient information to construct a second feature vector of the video image.
  • An input subunit is configured to input the second feature vector into a face detection model to output a marker position of each face feature point in a video image.
  • a determination subunit is configured to determine a face region in the video image according to the marked positions of the feature points of each face.
  • the input subunit is further configured to:
  • the tag value is used to represent a feature category of the face feature point
  • the positioning unit 73 is further configured to: obtain a preset label threshold corresponding to a lip pixel point; and in each of the facial feature points marked by the face detection model, set the label value to be greater than or equal to The face feature point of the label threshold is determined as a lip pixel point in the face area.
  • the generating unit 74 includes:
  • a segmentation sub-unit is used to divide the video image into multiple sub-images.
  • a generating subunit is configured to separately generate a weighted gradient direction histogram HOG corresponding to each of the sub-images, and the HOG includes multiple intervals.
  • a calculation subunit is configured to calculate, for each of the intervals, a modulus value of a gradient amplitude of each pixel point in the interval, and superimpose each of the modulus values to obtain a third feature vector corresponding to the interval.
  • a reading subunit configured to read the third feature vector of each of the intervals in the video image according to a preset scanning step, and determine a vector obtained by concatenating each of the third feature vectors Is the first feature vector corresponding to the lip pixels at the current moment.
  • the input unit 75 includes:
  • the second acquisition subunit is configured to acquire a preset recurrent neural network model, where the recurrent neural network model includes two bidirectional long-term and short-term memory network LSTM layers.
  • An output subunit is configured to sequentially pass each of the first feature vectors through the bidirectional LSTM layer to output a pronunciation phoneme corresponding to each moment.
  • a construction subunit is configured to construct a phoneme sequence including a silent phoneme and each of the pronunciation phonemes according to an output order of the pronunciation phonemes.
  • a conversion subunit configured to divide the phoneme sequence into multiple phoneme groups based on the mute phonemes existing in the phoneme sequence, and convert each phoneme group into a corresponding text character through a preset algorithm .
  • FIG. 8 is a schematic diagram of a terminal device according to an embodiment of the present application.
  • the terminal device 8 of this embodiment includes a processor 80 and a memory 81.
  • the memory 81 stores computer-readable instructions 82 that can be run on the processor 80, such as identity validity Verification procedures.
  • the processor 80 executes the computer-readable instructions 82, the steps in the embodiment of the method for verifying the validity of each identity are implemented, for example, steps 101 to 106 shown in FIG. 1.
  • the processor 80 executes the computer-readable instructions 82
  • the functions of the modules / units in the foregoing device embodiments are implemented, for example, the functions of the units 71 to 76 shown in FIG. 7.
  • the computer-readable instructions 82 may be divided into one or more modules / units, the one or more modules / units are stored in the memory 81 and executed by the processor 80, To complete this application.
  • the one or more modules / units may be a series of computer-readable instruction segments capable of performing specific functions, and the instruction segments are used to describe the execution process of the computer-readable instructions 82 in the terminal device 8.
  • the terminal device 8 may be a computing device such as a desktop computer, a notebook, a palmtop computer, and a cloud server.
  • the terminal device may include, but is not limited to, a processor 80 and a memory 81.
  • FIG. 8 is only an example of the terminal device 8 and does not constitute a limitation on the terminal device 8. It may include more or fewer components than shown in the figure, or combine some components or different components.
  • the terminal device may further include an input / output device, a network access device, a bus, and the like.
  • the so-called processor 80 may be a central processing unit (CPU), or other general-purpose processors, digital signal processors (DSPs), application specific integrated circuits (ASICs), Ready-made programmable gate array (Field-Programmable Gate Array, FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • a general-purpose processor may be a microprocessor or the processor may be any conventional processor or the like.
  • the memory 81 may be an internal storage unit of the terminal device 8, such as a hard disk or a memory of the terminal device 8.
  • the memory 81 may also be an external storage device of the terminal device 8, such as a plug-in hard disk, a Smart Media Card (SMC), and a Secure Digital (SD) provided on the terminal device 8. Cards, flash cards, etc. Further, the memory 81 may further include both an internal storage unit of the terminal device 8 and an external storage device.
  • the memory 81 is configured to store the computer-readable instructions and other programs and data required by the terminal device.
  • the memory 81 may also be used to temporarily store data that has been output or is to be output.
  • each functional unit in each embodiment of the present application may be integrated into one processing unit, or each of the units may exist separately physically, or two or more units may be integrated into one unit.
  • the above integrated unit may be implemented in the form of hardware or in the form of software functional unit.
  • the integrated unit is implemented in the form of a software functional unit and sold or used as an independent product, it may be stored in a computer-readable storage medium.
  • the technical solution of the present application is essentially a part that contributes to the existing technology or all or part of the technical solution can be embodied in the form of a software product, which is stored in a storage medium , Including a number of instructions to enable a computer device (which may be a personal computer, a server, or a network device, etc.) to perform all or part of the steps of the method described in each embodiment of the present application.
  • the foregoing storage media include: U disks, mobile hard disks, read-only memories (ROMs), random access memories (RAMs), magnetic disks or compact discs and other media that can store program codes .

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

一种身份合法性的校验方法、装置、终端设备及介质,适用于信息处理技术领域,该方法包括:当检测到用户发出的语音信号时,采集用户的视频图像(S101);对视频图像进行人脸检测处理,以确定出视频图像中的人脸区域(S102);定位人脸区域中的唇部像素点(S103);根据定位的唇部像素点,分别生成各个时刻唇部像素点对应的第一特征向量(S104);将各个第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息(S105);根据文本信息以及预设的身份验证信息,确定用户的身份合法性(S106)。视频图像并不会受到外部环境的吵杂声的干扰,保证了基于视频图像所得到的文本信息来确定用户的身份合法性时,能提高身份识别的准确率,降低了身份合法性的校验难度。

Description

身份合法性的校验方法、装置、终端设备及介质
本申请要求于2018年05月22日提交中国专利局、申请号为201810496073.2、发明名称为“身份合法性的校验方法、终端设备及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请属于信息处理技术领域,尤其涉及一种身份合法性的校验方法、装置、终端设备及介质。
背景技术
随着语音识别技术的不断发展,基于用户的声纹特征来验证用户的身份已发展成为了一种新的身份验证技术。例如,银行系统可接收用户发出的语音信号,并通过提取语音信号中的声纹特征,与预先存储的账户合法声纹特征作对比,进而根据对比结果来确定用户是否为账户的合法用户等。
然而,在银行等人数较多的应用场景之下,用户在发出语音信号时,语音信号中往往都夹杂有大量的环境噪声。此时,银行系统基于语音识别技术来对该语音信号来进行识别操作时,也会因环境噪声的存在而导致声纹特征的提取准确率降低,因此,也间接降低了对用户身份验证的识别准确率。
技术问题
有鉴于此,本申请实施例提供了一种身份合法性的校验方法、装置、终端设备及介质,以解决现有技术中用户身份验证的识别准确率较为低下的问题。
技术解决方案
本申请实施例的第一方面提供了一种身份合法性的校验方法,包括:
当检测到用户发出的语音信号时,采集所述用户的视频图像;
对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域;
定位所述人脸区域中的唇部像素点;
根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量;
将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息;
根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
本申请实施例的第二方面提供了一种身份合法性的校验装置,包括:
采集单元,用于当检测到用户发出的语音信号时,采集所述用户的视频图像;
检测单元,用于对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域;
定位单元,用于定位所述人脸区域中的唇部像素点;
生成单元,用于根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量;
输入单元,用于将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息;
确定单元,用于根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
本申请实施例的第三方面提供了一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如第一方面所述的身份合法性的校验方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如第一方面所述的身份合法性的校验方法的步骤。
有益效果
本申请实施例中,由于用户在说话过程中,嘴唇唇形会产生动态变化,因而通过采集用户在发出语音信号过程中的视频图像,并定位出视频图像中的唇部像素点,分别构建各个不同时刻与唇部像素点对应的特征向量,使得预先训练得到的神经网络模型能够直接输出用户在各个时刻所需表达的文本信息。由于视频图像的获取并不会受到外部环境的吵杂声的干扰,由此保证了基于视频图像所得到的文本信息来确定用户的身份合法性时,能够提高身份识别的准确率,降低了复杂噪音环境下身份合法性的校验难度。
附图说明
图1是本申请实施例提供的身份合法性的校验方法的实现流程图;
图2是本申请实施例提供的身份合法性的校验方法S102的具体实现流程图;
图3是本申请实施例提供的身份合法性的校验方法S103的具体实现流程图;
图4是本申请实施例提供的包含人脸特征点所对应的标签值的人脸区域示意图;
图5是本申请实施例提供的身份合法性的校验方法S104的具体实现流程图;
图6是本申请实施例提供的身份合法性的校验方法S105的具体实现流程图;
图7是本申请实施例提供的身份合法性的校验装置的结构框图;
图8是本申请实施例提供的终端设备的示意图。
本发明的实施方式
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本申请实施例提供的身份合法性的校验方法的实现流程,详述如下:
S101:当检测到用户发出的语音信号时,采集所述用户的视频图像。
本申请实施例中,通过预设的语音接收器,检测外界所产生的语音信号。若检测到语音信号的幅值强度大于预设值,则确定当前语音信号为用户发出的语音信号。此时,启动摄像头,以通过该摄像头,采集用户的视频图像。
S102:对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域。
本申请实施例中,通过预设的人脸检测算法,对摄取得到的各帧视频图像进行识别处理。上述人脸检测算法例如可以是AdaBoost人脸识别算法以及基于人脸特征的OPENCV检测算法等,在此不作限定。根据识别得到的各个人脸特征的位置点,可确定出视频图像中的人脸区域。
作为本申请的一个实施例,图2示出了本申请实施例提供的身份合法性的校验方法S102的具体实现流程,详述如下:
S1021:分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息。
S1022:对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化,以构建得到所述视频图像的第二特征向量。
S1023:将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置。
本申请实施例中,对每一帧视频图像,通过以下公式,计算该帧视频图像中每一像素点分别在x轴方向上的第一图像梯度G x(x,y)和在y轴方向上的第二图像梯度G y(x,y):
Figure PCTCN2018097449-appb-000001
其中,(x,y)表示视频图像中像素点的坐标,H(x,y)为基于openCV所提供的Sobel算子对坐标为(x,y)这一像素点的像素值进行运行处理后所得到的输出值。
优选地,在计算视频图像中每一像素点在x轴方向上的第一图像梯度信息以及在y轴方向上的第二图像梯度信息之前,将视频图像进行归一化处理,包括:分别获取视频图像中像素点在各个颜色通道上的灰度值,计算各个灰度值的平方根。由此,实现了对视频图像的压缩,有效地降低了因视频图像局部的阴影和光照变化而带来后续运算过程中的识别误差。
本申请实施例中,对各个第一图像梯度信息以及第二图像梯度信息进行量化,以构建得到视频图像的第二特征向量。将上述第二特征向量输入基于Dlib库的人脸检测模型。上述Dlib库的人脸检测模型通过方向梯度直方图(Histogram Of Gradient,HOG)来识别出第二特征向量所表示出的各个人脸特征,再通过预设的向量机(Support Vector Machine,SVM)来对识别出各人脸特征所分别对应的分类类型。上述分类类型可以是指人脸器官中的一个位置,即,每一分类类型与视频图像中的一个位置点匹配。因此,在确定出各分类类型后,可在视频图像的各个坐标位置,确定已标记的各个人脸特征点。
本申请实施例中,上述基于Dlib库的人脸检测模型用于标记视频图像中的68个人脸特征点。
S1024:根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
在上述得到的68个人脸特征点中,分别检测出纵坐标值最大、纵坐标值最小、横坐标值最大以及横坐标值最小的四个人脸特征点。生成外切于上述四个人脸特征点的矩形检测框,则该矩形检测框所包围的图像区域即为当前视频图像中的人脸区域。
本申请实施例中,通过获取视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息,基于第一图像梯度信息以及第二图像梯度信息来构建视频图像的特征向量,使得该特征向量能够被用于描述视频图像中局部图像的内容,且对该视频图像内的像素变化具有相对不变性。通过将特征向量输入人脸检测模型,以根据输出的人脸特征点的标记位置来确定视频图像中的人脸区域,实现了在识别人脸特征点的同时,准确定位并标记每一人脸特征点的具体位置,因此,提高了人脸区域的识别准确度。
S103:定位所述人脸区域中的唇部像素点。
本申请实施例中,人脸区域包含有人脸对应各个器官位置的人脸特征点。通过预设的唇部特征定位算法,识别出人脸区域中的唇部轮廓后,可将邻近于唇部轮廓以及唇部轮廓中的各个人脸特征点进行提取,以得到人脸区域中的各个唇部像素点。
优选地,在上一实施例的基础之上,步骤S1023还包括:获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值;所述标签值用于表示所述人脸特征点的特征类别。此时,作为本申请的一个实施例,图3示出了本申请实施例提供的身份合法性的校验方法S103的具体实现流程,详述如下:
S1031:获取预先设置的与唇部像素点对应的标签阈值。
本申请实施例中,人脸检测模型在输出视频图像中各个人脸特征点的标记位置时,还在标记位置展示各个人脸特征点的标签值。其中,每一标签值用于表示当前标记位置所指示的人脸特征点所属的一个特征类别。上述标签值以数字序号的形式来进行展示。示例性地, 图4为视频图像中,包含有68个人脸特征点所对应的标签值的人脸区域示意图。可见,标签值为27至35的人脸特征点表示这些人脸特征点所属的特征类别为鼻子。
本申请实施例中,获取预先设置的与唇部像素点对应的标签阈值。标签阈值表示唇部像素点所对应的标签值中,数值最小的一个标签值。例如,唇部像素点所对应的标签阈值为48。
S1032:在所述人脸检测模型所标记的各个所述人脸特征点中,将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
对每一人脸特征点所对应的标签值,判断该标签值是否大于或等于上述标签阈值。若该标签值大于或等于上述标签阈值,则将该人脸特征点识别为人脸区域中的一个唇部像素点。若该标签值小于上述标签阈值,则将该人脸特征点识别为非唇部像素点。如此类推,直至人脸区域中的各个人脸特征点均分类完成。
本申请实施例中,通过人脸检测模型输出视频图像中各个人脸特征点所对应的标签值,实现了基于标签值与标签阈值的大小关系来完成对唇部像素点的识别,无须再依赖于复杂的唇部精确定位算法来对视频图像进行处理,因此,提高了对唇部像素点的识别效率以及识别准确率。
S104:根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量。
图5示出了本申请实施例提供的身份合法性的校验方法S104的具体实现流程,详述如下:
S1041:将所述视频图像划分为多个子图像。
S1042:分别生成每一所述子图像所对应的加权梯度方向直方图HOG,所述HOG包含多个区间。
S1043:对每一所述区间,计算该区间内各个像素点的梯度幅度的模值,并将各个所述模值进行叠加,以得到该区间对应的第三特征向量。
S1044:根据预设的扫描步长,读取所述视频图像的中各个所述区间的所述第三特征向量,并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
根据上述视频图像中每一像素点分别在x方向上的第一图像梯度G x(x,y)和在y方向上的第二图像梯度G y(x,y),计算出视频图像中该像素点的梯度幅值G(x,y)以及梯度方向角β:
Figure PCTCN2018097449-appb-000002
Figure PCTCN2018097449-appb-000003
本申请实施例中,将视频图像划分为多个等分的子图像。对每一子图像,生成该子图像对应的一个加权梯度方向直方图HOG,并根据上述梯度方向角,沿梯度方向将该HOG平均划分为9个区间。其中,划分区间为0°至360°。即,沿梯度方向将HOG分成9组,使得每一组所匹配的角度范围为40°。
对属于同一区间下的各个像素点,读取各个像素点的梯度幅值,并将各个梯度幅值进行叠加后,得到该区间的特征值。
本申请实施例中,将每相邻的4个子图像作为一个图像块,把一个图像块所对应的各个区间的特征值进行联合,得到36维的特征向量。以一个图像块为单位,对当前的视频图像帧进行扫描,扫描步长为一个单位。将所有图像块的特征向量串联起来后,将得到的向量输出为该帧视频图像中与唇部像素点对应的第一特征向量。
优选地,在将每相邻的4个子图像作为一个图像块后,对图像块内的HOG进行归一化处理,以使各个子图像能够组合成空间上连通的图像块。由于归一化操作能够对图像块的光照、阴影以及边缘进行压缩,因此,基于归一化后的图像块所得到的第一特征向量,能够在后续识别唇部像素点所对应的文本信息的过程中,提高文本信息的识别准确率。
由于在不同时刻所捕获的视频图像不同,故根据预设时长内所连续捕获得到的多帧视频图像,可通过上述方式获取得到唇部像素点分别在各个时刻所对应的第一特征向量。
S105:将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息。
本申请实施例中,使用循环神经网络模型对唇部像素点在各个时刻所对应的第一特征向量进行处理。其中,循环神经网络模型以预设的多个第一特征向量以及已知的文本信息来作为训练样本。通过上述循环神经网络模型,在空间和时间上对第一特征向量做卷积,相当于在空间或者平面上加上一维时间,以表征时间序列在空间上变化。循环神经网络模型所使用的卷积核为三维的卷积核,在时间的维度上所卷积得到的结果用于表征唇部像素点在时间上的变化特征。
本申请实施例中,循环神经网络模型包含有三个卷积层和三个池化层。池化层用于提取第一特征向量中的主要特征,以降低第一特征向量的维度,提高神经网络模型的泛化能力,同时引入平移、旋转和尺度不变性。
优选地,为了保持输出文本信息的序列不变,循环神经网络模型中,池化层的时间维度为一。
优选地,作为本申请的一个实施例,图6示出了本申请实施例提供的身份合法性的校验方法S105的具体实现流程,详述如下:
S1051:获取预设的循环神经网络模型,所述循环神经网络模型包含两个双向长短期记忆网络LSTM层。
S1052:将各个所述第一特征向量依序通过所述双向LSTM层,以输出每一时刻所对应的发音音素。
S1053:依照所述发音音素的输出顺序,构建包含静音音素以及包含各个所述发音音素的音素序列。
S1054:基于所述音素序列中所存在的所述静音音素,将所述音素序列分成多个音素组,并通过预设算法,将每一所述音素组转换为对应的文本字符。
本申请实施例中,循环神经网络模型包含有两个双向LSTM层,将唇部像素点分别在各个时刻所对应的第一特征向量依序通过上述两个LSTM层后,输出关联的各个发音音素以及每一发音音素的发音时长。发音音素例如可以是“a”“o”以及“b”等拼音字母。依照各个发音音素的输出顺序,构建包含各个发音音素的音素序列。其中,若检测到任意两个发音音素之间的时长间隔大于预设值,则在音素序列中,在上述两个发音音素之间插入一静音音素。
以静音音素为分隔符,对包含静音音素以及发音音素的音素序列进行切分,使得该音素序列能够被分割为仅包含发音音素的多个音素组。
在每一音素组,将连续出现的多个发音音素进行串接,并通过预设算法,识别出与这些发音音素匹配文本字符。至此,获取得到用户在发出语音信号的时间段内,该语音信号所对应的文本信息。
特别地,若与发音音素匹配的文本字符有多个,则根据各个文本字符所构成词组的使用频率高低,依序输出各个词组。
例如,若音素组中所依序出现的发音音素为“w-o-s-h-i-s-h-u-i”,则匹配的文本字符可以是“我是谁”以及“我是水”等。此时,将“我是谁”以及“我是水”均输出为第一特征向量所对应的文本信息。
S106:根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
本申请实施例中,获取用户所预先自定义的身份验证信息。上述身份验证信息包括但不限于语音信息以及文本信息。其中,当身份验证信息为语音信息时,通过语音识别算法对该语音信息进行处理,以输出该语音信息对应的文本信息。
将上述S105所得到的文本信息与当前身份验证信息中的文本信息进行对比,判断二者 是否相同。若判断结果为是,则确定当前用户为合法用户;若判断结果为否,则确定当前用户为非法用户。
特别地,若上述S105中所得到的文本信息有多个,则分别将得到的各文本信息与当前身份验证信息中的文本信息进行对比。若存在相同的文本信息,则确定当前用户为合法用户;若不存在相同的文本信息,则确定当前用户为非法用户。
本申请实施例中,由于用户在说话过程中,嘴唇唇形会产生动态变化,因而通过采集用户在发出语音信号过程中的视频图像,并定位出视频图像中的唇部像素点,分别构建各个不同时刻与唇部像素点对应的特征向量,使得预先训练得到的神经网络模型能够直接输出用户在各个时刻所需表达的文本信息。由于视频图像的获取并不会受到外部环境的吵杂声的干扰,由此保证了基于视频图像所得到的文本信息来确定用户的身份合法性时,能够提高身份识别的准确率,降低了复杂噪音环境下身份合法性的校验难度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于本申请实施例所提供的身份合法性的校验方法,图7示出了本申请实施例提供的身份合法性的校验装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分。
参照图7,该装置包括:
采集单元71,用于当检测到用户发出的语音信号时,采集所述用户的视频图像。
检测单元72,用于对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域。
定位单元73,用于定位所述人脸区域中的唇部像素点。
生成单元74,用于根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量。
输入单元75,用于将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息。
确定单元76,用于根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
可选地,所述检测单元72包括:
第一获取子单元,用于分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息。
量化子单元,用于对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化, 以构建得到所述视频图像的第二特征向量。
输入子单元,用于将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置。
确定子单元,用于根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
可选地,所述输入子单元还用于:
获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值;所述标签值用于表示所述人脸特征点的特征类别;
所述定位单元73还用于:获取预先设置的与唇部像素点对应的标签阈值;在所述人脸检测模型所标记的各个所述人脸特征点中,将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
可选地,所述生成单元74包括:
分割子单元,用于将所述视频图像划分为多个子图像。
生成子单元,用于分别生成每一所述子图像所对应的加权梯度方向直方图HOG,所述HOG包含多个区间。
计算子单元,用于对每一所述区间,计算该区间内各个像素点的梯度幅度的模值,并将各个所述模值进行叠加,以得到该区间对应的第三特征向量。
读取子单元,用于根据预设的扫描步长,读取所述视频图像的中各个所述区间的所述第三特征向量,并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
可选地,所述输入单元75包括:
第二获取子单元,用于获取预设的循环神经网络模型,所述循环神经网络模型包含两个双向长短期记忆网络LSTM层。
输出子单元,用于将各个所述第一特征向量依序通过所述双向LSTM层,以输出每一时刻所对应的发音音素。
构建子单元,用于依照所述发音音素的输出顺序,构建包含静音音素以及包含各个所述发音音素的音素序列。
转换子单元,用于基于所述音素序列中所存在的所述静音音素,将所述音素序列分成多个音素组,并通过预设算法,将每一所述音素组转换为对应的文本字符。
图8是本申请一实施例提供的终端设备的示意图。如图8所示,该实施例的终端设备8包括:处理器80以及存储器81,所述存储器81中存储有可在所述处理器80上运行的计算 机可读指令82,例如身份合法性的校验程序。所述处理器80执行所述计算机可读指令82时实现上述各个身份合法性的校验方法实施例中的步骤,例如图1所示的步骤101至106。或者,所述处理器80执行所述计算机可读指令82时实现上述各装置实施例中各模块/单元的功能,例如图7所示单元71至76的功能。
示例性的,所述计算机可读指令82可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器81中,并由所述处理器80执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令82在所述终端设备8中的执行过程。
所述终端设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于处理器80和存储器81。本领域技术人员可以理解,图8仅仅是终端设备8的示例,并不构成对终端设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器81可以是所述终端设备8的内部存储单元,例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备,例如所述终端设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来, 该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (20)

  1. 一种身份合法性的校验方法,其特征在于,包括:
    当检测到用户发出的语音信号时,采集所述用户的视频图像;
    对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域;
    定位所述人脸区域中的唇部像素点;
    根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量;
    将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息;
    根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
  2. 如权利要求1所述的身份合法性的校验方法,其特征在于,所述对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域,包括:
    分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息;
    对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化,以构建得到所述视频图像的第二特征向量;
    将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置;
    根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
  3. 如权利要求2所述的身份合法性的校验方法,其特征在于,所述将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置,还包括:
    获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值;所述标签值用于表示所述人脸特征点的特征类别;
    所述定位所述人脸区域中的唇部像素点,包括:
    获取预先设置的与唇部像素点对应的标签阈值;
    在所述人脸检测模型所标记的各个所述人脸特征点中,将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
  4. 如权利要求1所述的身份合法性的校验方法,其特征在于,所述根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量,包括:
    将所述视频图像划分为多个子图像;
    分别生成每一所述子图像所对应的加权梯度方向直方图HOG,所述HOG包含多个区 间;
    对每一所述区间,计算该区间内各个像素点的梯度幅度的模值,并将各个所述模值进行叠加,以得到该区间对应的第三特征向量;
    根据预设的扫描步长,读取所述视频图像的中各个所述区间的所述第三特征向量,并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
  5. 如权利要求1所述的身份合法性的校验方法,其特征在于,所述将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息,包括:
    获取预设的循环神经网络模型,所述循环神经网络模型包含两个双向长短期记忆网络LSTM层;
    将各个所述第一特征向量依序通过所述双向LSTM层,以输出每一时刻所对应的发音音素;
    依照所述发音音素的输出顺序,构建包含静音音素以及包含各个所述发音音素的音素序列;
    基于所述音素序列中所存在的所述静音音素,将所述音素序列分成多个音素组,并通过预设算法,将每一所述音素组转换为对应的文本字符。
  6. 一种身份合法性的校验装置,其特征在于,包括:
    采集单元,用于当检测到用户发出的语音信号时,采集所述用户的视频图像;
    检测单元,用于对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域;
    定位单元,用于定位所述人脸区域中的唇部像素点;
    生成单元,用于根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量;
    输入单元,用于将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息;
    确定单元,用于根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
  7. 根据权利要求6所述的身份合法性的校验装置,其特征在于,所述检测单元包括:
    第一获取子单元,用于分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息;
    量化子单元,用于对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化,以构建得到所述视频图像的第二特征向量;
    输入子单元,用于将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置;
    确定子单元,用于根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
  8. 根据权利要求7所述的身份合法性的校验装置,其特征在于,所述输入子单元还用于:
    获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值;所述标签值用于表示所述人脸特征点的特征类别;
    所述定位单元还用于:
    获取预先设置的与唇部像素点对应的标签阈值;
    在所述人脸检测模型所标记的各个所述人脸特征点中,将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
  9. 根据权利要求6所述的身份合法性的校验装置,其特征在于,所述生成单元包括:
    分割子单元,用于将所述视频图像划分为多个子图像;
    生成子单元,用于分别生成每一所述子图像所对应的加权梯度方向直方图HOG,所述HOG包含多个区间;
    计算子单元,用于对每一所述区间,计算该区间内各个像素点的梯度幅度的模值,并将各个所述模值进行叠加,以得到该区间对应的第三特征向量;
    读取子单元,用于根据预设的扫描步长,读取所述视频图像的中各个所述区间的所述第三特征向量,并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
  10. 根据权利要求6所述的身份合法性的校验装置,其特征在于,所述输入单元包括:
    第二获取子单元,用于获取预设的循环神经网络模型,所述循环神经网络模型包含两个双向长短期记忆网络LSTM层;
    输出子单元,用于将各个所述第一特征向量依序通过所述双向LSTM层,以输出每一时刻所对应的发音音素;
    构建子单元,用于依照所述发音音素的输出顺序,构建包含静音音素以及包含各个所述发音音素的音素序列;
    转换子单元,用于基于所述音素序列中所存在的所述静音音素,将所述音素序列分成 多个音素组,并通过预设算法,将每一所述音素组转换为对应的文本字符。
  11. 一种终端设备,其特征在于,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
    当检测到用户发出的语音信号时,采集所述用户的视频图像;
    对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域;
    定位所述人脸区域中的唇部像素点;
    根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量;
    将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息;
    根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
  12. 根据权利要求11所述的终端设备,其特征在于,所述对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域,包括:
    分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息;
    对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化,以构建得到所述视频图像的第二特征向量;
    将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置;
    根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
  13. 根据权利要求12所述的终端设备,其特征在于,所述将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置,还包括:
    获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值;所述标签值用于表示所述人脸特征点的特征类别;
    所述定位所述人脸区域中的唇部像素点,包括:
    获取预先设置的与唇部像素点对应的标签阈值;
    在所述人脸检测模型所标记的各个所述人脸特征点中,将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
  14. 根据权利要求11所述的终端设备,其特征在于,所述根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量,包括:
    将所述视频图像划分为多个子图像;
    分别生成每一所述子图像所对应的加权梯度方向直方图HOG,所述HOG包含多个区 间;
    对每一所述区间,计算该区间内各个像素点的梯度幅度的模值,并将各个所述模值进行叠加,以得到该区间对应的第三特征向量;
    根据预设的扫描步长,读取所述视频图像的中各个所述区间的所述第三特征向量,并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
  15. 根据权利要求11所述的终端设备,其特征在于,所述将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息,包括:
    获取预设的循环神经网络模型,所述循环神经网络模型包含两个双向长短期记忆网络LSTM层;
    将各个所述第一特征向量依序通过所述双向LSTM层,以输出每一时刻所对应的发音音素;
    依照所述发音音素的输出顺序,构建包含静音音素以及包含各个所述发音音素的音素序列;
    基于所述音素序列中所存在的所述静音音素,将所述音素序列分成多个音素组,并通过预设算法,将每一所述音素组转换为对应的文本字符。
  16. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被至少一个处理器执行时实现如下步骤:
    当检测到用户发出的语音信号时,采集所述用户的视频图像;
    对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域;
    定位所述人脸区域中的唇部像素点;
    根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量;
    将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息;
    根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
  17. 根据权利要求16所述的计算机可读存储介质,其特征在于,所述对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域,包括:
    分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息;
    对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化,以构建得到所述视频图像的第二特征向量;
    将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置;
    根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
  18. 根据权利要求17所述的计算机可读存储介质,其特征在于,所述将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置,还包括:
    获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值;所述标签值用于表示所述人脸特征点的特征类别;
    所述定位所述人脸区域中的唇部像素点,包括:
    获取预先设置的与唇部像素点对应的标签阈值;
    在所述人脸检测模型所标记的各个所述人脸特征点中,将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
  19. 根据权利要求16所述的计算机可读存储介质,其特征在于,所述根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量,包括:
    将所述视频图像划分为多个子图像;
    分别生成每一所述子图像所对应的加权梯度方向直方图HOG,所述HOG包含多个区间;
    对每一所述区间,计算该区间内各个像素点的梯度幅度的模值,并将各个所述模值进行叠加,以得到该区间对应的第三特征向量;
    根据预设的扫描步长,读取所述视频图像的中各个所述区间的所述第三特征向量,并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
  20. 根据权利要求16所述的计算机可读存储介质,其特征在于,所述将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息,包括:
    获取预设的循环神经网络模型,所述循环神经网络模型包含两个双向长短期记忆网络LSTM层;
    将各个所述第一特征向量依序通过所述双向LSTM层,以输出每一时刻所对应的发音音素;
    依照所述发音音素的输出顺序,构建包含静音音素以及包含各个所述发音音素的音素序列;
    基于所述音素序列中所存在的所述静音音素,将所述音素序列分成多个音素组,并通过预设算法,将每一所述音素组转换为对应的文本字符。
PCT/CN2018/097449 2018-05-22 2018-07-27 身份合法性的校验方法、装置、终端设备及介质 WO2019223102A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810496073.2A CN108763897A (zh) 2018-05-22 2018-05-22 身份合法性的校验方法、终端设备及介质
CN201810496073.2 2018-05-22

Publications (1)

Publication Number Publication Date
WO2019223102A1 true WO2019223102A1 (zh) 2019-11-28

Family

ID=64008298

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/097449 WO2019223102A1 (zh) 2018-05-22 2018-07-27 身份合法性的校验方法、装置、终端设备及介质

Country Status (2)

Country Link
CN (1) CN108763897A (zh)
WO (1) WO2019223102A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341320A (zh) * 2020-02-28 2020-06-26 中国工商银行股份有限公司 短语语音的声纹识别方法及装置
CN111626187A (zh) * 2020-05-25 2020-09-04 北京海益同展信息科技有限公司 一种身份标注方法、装置、电子设备及存储介质
CN111901627A (zh) * 2020-05-28 2020-11-06 北京大米科技有限公司 视频处理方法、装置、存储介质及电子设备
CN111916054A (zh) * 2020-07-08 2020-11-10 标贝(北京)科技有限公司 基于唇形的语音生成方法、装置和系统及存储介质
CN112131988A (zh) * 2020-09-14 2020-12-25 北京百度网讯科技有限公司 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
CN113129410A (zh) * 2019-12-31 2021-07-16 深圳云天励飞技术有限公司 素描图像转换方法及相关产品
CN113393834A (zh) * 2020-03-11 2021-09-14 阿里巴巴集团控股有限公司 一种控制方法及装置
CN115880744A (zh) * 2022-08-01 2023-03-31 北京中关村科金技术有限公司 一种基于唇动的视频角色识别方法、装置及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135889A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 智能推荐书单的方法、服务器及存储介质
CN110247898B (zh) * 2019-05-23 2021-11-19 平安普惠企业管理有限公司 身份验证方法、装置、介质及电子设备
CN110415701A (zh) * 2019-06-18 2019-11-05 平安科技(深圳)有限公司 唇语的识别方法及其装置
CN110298394B (zh) * 2019-06-18 2024-04-05 中国平安财产保险股份有限公司 一种图像识别方法和相关装置
CN110796000B (zh) * 2019-09-18 2023-12-22 平安科技(深圳)有限公司 基于双向lstm的唇形样本生成方法、装置和存储介质
CN110648667B (zh) * 2019-09-26 2022-04-08 云南电网有限责任公司电力科学研究院 多人场景人声匹配方法
CN112507311A (zh) * 2020-12-10 2021-03-16 东南大学 一种基于多模态特征融合的高安全性身份验证方法
CN116226821B (zh) * 2023-05-04 2023-07-18 成都致学教育科技有限公司 一种教学数据中台管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778496A (zh) * 2016-11-22 2017-05-31 重庆中科云丛科技有限公司 活体检测方法及装置
US20170243058A1 (en) * 2014-10-28 2017-08-24 Watrix Technology Gait recognition method based on deep learning
CN107633204A (zh) * 2017-08-17 2018-01-26 平安科技(深圳)有限公司 人脸遮挡检测方法、装置及存储介质
CN107633205A (zh) * 2017-08-17 2018-01-26 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质
CN107679447A (zh) * 2017-08-17 2018-02-09 平安科技(深圳)有限公司 面部特征点检测方法、装置及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159321B2 (en) * 2012-02-27 2015-10-13 Hong Kong Baptist University Lip-password based speaker verification system
CN106529379A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 一种活体识别方法及设备
CN106919891B (zh) * 2015-12-26 2019-08-23 腾讯科技(深圳)有限公司 一种图像处理方法及装置
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170243058A1 (en) * 2014-10-28 2017-08-24 Watrix Technology Gait recognition method based on deep learning
CN106778496A (zh) * 2016-11-22 2017-05-31 重庆中科云丛科技有限公司 活体检测方法及装置
CN107633204A (zh) * 2017-08-17 2018-01-26 平安科技(深圳)有限公司 人脸遮挡检测方法、装置及存储介质
CN107633205A (zh) * 2017-08-17 2018-01-26 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质
CN107679447A (zh) * 2017-08-17 2018-02-09 平安科技(深圳)有限公司 面部特征点检测方法、装置及存储介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129410A (zh) * 2019-12-31 2021-07-16 深圳云天励飞技术有限公司 素描图像转换方法及相关产品
CN111341320B (zh) * 2020-02-28 2023-04-14 中国工商银行股份有限公司 短语语音的声纹识别方法及装置
CN111341320A (zh) * 2020-02-28 2020-06-26 中国工商银行股份有限公司 短语语音的声纹识别方法及装置
CN113393834A (zh) * 2020-03-11 2021-09-14 阿里巴巴集团控股有限公司 一种控制方法及装置
CN113393834B (zh) * 2020-03-11 2024-04-16 阿里巴巴集团控股有限公司 一种控制方法及装置
CN111626187A (zh) * 2020-05-25 2020-09-04 北京海益同展信息科技有限公司 一种身份标注方法、装置、电子设备及存储介质
CN111626187B (zh) * 2020-05-25 2023-08-08 京东科技信息技术有限公司 一种身份标注方法、装置、电子设备及存储介质
CN111901627A (zh) * 2020-05-28 2020-11-06 北京大米科技有限公司 视频处理方法、装置、存储介质及电子设备
CN111901627B (zh) * 2020-05-28 2022-12-30 北京大米科技有限公司 视频处理方法、装置、存储介质及电子设备
CN111916054A (zh) * 2020-07-08 2020-11-10 标贝(北京)科技有限公司 基于唇形的语音生成方法、装置和系统及存储介质
CN111916054B (zh) * 2020-07-08 2024-04-26 标贝(青岛)科技有限公司 基于唇形的语音生成方法、装置和系统及存储介质
CN112131988A (zh) * 2020-09-14 2020-12-25 北京百度网讯科技有限公司 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
CN112131988B (zh) * 2020-09-14 2024-03-26 北京百度网讯科技有限公司 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
CN115880744A (zh) * 2022-08-01 2023-03-31 北京中关村科金技术有限公司 一种基于唇动的视频角色识别方法、装置及存储介质
CN115880744B (zh) * 2022-08-01 2023-10-20 北京中关村科金技术有限公司 一种基于唇动的视频角色识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN108763897A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
WO2019223102A1 (zh) 身份合法性的校验方法、装置、终端设备及介质
US10699103B2 (en) Living body detecting method and apparatus, device and storage medium
CN108875732B (zh) 模型训练与实例分割方法、装置和系统及存储介质
CN109166586B (zh) 一种识别说话人的方法及终端
US10902283B2 (en) Method and device for determining handwriting similarity
US7873189B2 (en) Face recognition by dividing an image and evaluating a similarity vector with a support vector machine
US8934679B2 (en) Apparatus for real-time face recognition
WO2019071664A1 (zh) 结合深度信息的人脸识别方法、装置及存储介质
CN110147786A (zh) 用于检测图像中的文本区域的方法、装置、设备以及介质
US10489636B2 (en) Lip movement capturing method and device, and storage medium
WO2019200702A1 (zh) 去网纹系统训练方法、去网纹方法、装置、设备及介质
US11367310B2 (en) Method and apparatus for identity verification, electronic device, computer program, and storage medium
JP6071002B2 (ja) 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
US10043071B1 (en) Automated document classification
WO2020244071A1 (zh) 基于神经网络的手势识别方法、装置、存储介质及设备
US20230056564A1 (en) Image authenticity detection method and apparatus
CN111814717B (zh) 人脸识别方法、装置及电子设备
US10423817B2 (en) Latent fingerprint ridge flow map improvement
CN108875556A (zh) 用于人证核验的方法、装置、系统及计算机存储介质
US20190012561A1 (en) Fast curve matching for tattoo recognition and identification
US9946918B2 (en) Symbol detection for desired image reconstruction
WO2020244076A1 (zh) 人脸识别方法、装置、电子设备及存储介质
CN112200174A (zh) 人脸框检测方法及模块和活体人脸验证方法及系统
CN113468954B (zh) 基于多通道下局部区域特征的人脸伪造检测方法
CN112949518B (zh) 虹膜图像处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18920090

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 19/03/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 18920090

Country of ref document: EP

Kind code of ref document: A1