WO2019196534A1

WO2019196534A1 - 验证码的人机识别方法及装置

Info

Publication number: WO2019196534A1
Application number: PCT/CN2019/072354
Authority: WO
Inventors: 梅鵾; 卢肖; 王明博; 谭炎
Original assignee: 众安信息技术服务有限公司
Priority date: 2018-04-09
Filing date: 2019-01-18
Publication date: 2019-10-17
Also published as: CN108491714A

Abstract

本发明公开了一种验证码的人机识别方法及装置，该方法包括：采集第一用户输入验证码时的实时用户数据；以及根据机器学习模型对实时用户数据进行预测，以确定第一用户的属性，机器学习模型是通过训练样本数据集得到的，样本数据集包括一组或多组训练样本数据以及分别针对每组训练样本数据设定的标签，标签表示第二用户的属性。

Description

验证码的人机识别方法及装置

本申请要求2018年4月9日提交的申请号为No.CN201810309762.8的中国申请的优先权，通过引用将其全部内容并入本文。

技术领域

本公开内容主要涉及机器学习的技术领域，更具体来说，涉及验证码的人机识别方法及装置。

发明背景

人机识别，是用于识别登录者是正常用户还是异常用户，区分计算机与人的安全自动化的公共图灵机测试。异常用户，即计算机或者机器，可以通过不断地访问网站来请求登陆，并模拟正常用户进行验证码的输入来对网站服务进行攻击。因此，通过识别发起登陆请求的是正常用户还是异常用户对大型网站进行防御攻击变得至关重要。

验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写，是一种区分用户是计算机还是正常用户的公共全自动程序，从而能够自动防止恶意用户用特定程序对网站进行不断的登录尝试。

目前一种识别登录者是正常用户或异常用户的方法是利用从服务器日志中获取的数据建立例如隐半马尔科夫模型(Hidden Semi-Markov model，简称HsMM)的用户浏览行为模型来监测用户访问的正常性。这种模型通常属于统计模型，准确性较低并且识别速度较慢。

因此，目前需要本领域技术人员迫切解决的一个技术问题是：如何建立一个准确且鲁棒的用户识别模型，以准确快速识别登录验证的用户是正常用户还是异常用户。

发明内容

鉴于上面提及的现有技术中缺乏准确和鲁棒的模型来识别用户是正常用户还是异常用户的技术问题，本发明提出了一种利用机器学习模型来进行人机识别的方法。机器学习是人工智能的一种，它的主要目的在于利用以往的经验或数据，通过能让计算机自动“学习”的算法，从大量数据中获得一定的规律，从而对未来的数据进行预测或推理。

第一方面，本发明的实施例提供了一种验证码的人机识别方法，包括：采集第一用户输入验证码时的实时用户数据；以及根据机器学习模型对实时用户数据进行预测，以确定第一用户的属性，机器学习模型是通过训练样本数据集得到的，样本数据集包括一组或多组训练样本数据以及分别针对每组训练样本数据设定的标签，标签表示第二用户的属性。

在本发明某些实施例中，训练样本数据包括以下各项中的至少一项：第二用户的行为数据、第二用户的风险数据、第二用户的终端信息数据，实时用户数据包括以下各项中的至少一项：第一用户的行为数据、第一用户的风险数据、第一用户的终端信息数据。

在本发明某些实施例中，验证码为滑块验证码，并且，第二用户的行为数据包括第二用户在拖动滑块验证码前后的鼠标移动轨迹数据，第二用户的风险数据包括第二用户的身份数据和/或征信数据，第二用户的终端信息数据包括用户代理数据、设备指纹和IP地址中的至少一项，第一用户的行为数据包括第一用户在拖动滑块验证码前后的鼠标移动轨迹数据，第一用户的风险数据包括第一用户的身份数据和/或征信数据，第一用户的终端信息数据包括用户代理数据、设备指纹和IP地址中的至少一项。

在本发明某些实施例中，第一用户的属性代表第一用户是正常用户还是异常用户。

在本发明某些实施例中，第一方面的方法还包括：收集样本数据集；使用样本数据集来训练机器学习模型。

在本发明某些实施例中，第一方面的方法还包括：将实时用户数据作为新的训练样本数据来调整机器学习模型。

在本发明某些实施例中，使用样本数据集来训练机器学习模型，包括：对一组或多组训练样本数据中的每组训练样本数据进行特征工程设计，以获得一组或多组样本特征；以及通过一组或多组样本特征以及分别与每组训练样本数据相对应的标签来确定机器学习模型的参数。

在本发明某些实施例中，根据机器学习模型对实时用户数据进行预测，包括：对实时用户数据进行特征工程设计，以获得实时用户特征，使用机器学习模型对实时用户特征进行预测。

在本发明某些实施例中，机器学习模型为XGboost模型。

第二方面，本发明的实施例提供了一种验证码的人机识别装置，包括：采集模块，用于采集第一用户输入验证码时的实时用户数据；以及预测模块，用于根据机器学习模型对实时用户数据进行预测，以确定第一用户的属性，机器学习模型是通过训练样本数据集得到的，样本数据集包括一组或多组训练样本数据以及分别针对每组训练样本数据设定的标签，标签表示第二用户的属性。

在本发明某些实施例中，第二方面的装置还包括：收集模块，用于收集样本数据集；训练模块，用于使用样本数据集来训练机器学习模型。

在本发明某些实施例中，第二方面的装置还包括：调整模块，用于将实时用户数据作为新的训练样本数据来调整机器学习模型。

在本发明某些实施例中，训练模块用于对一组或多组训练样本数据中的每组训练样本数据进行特征工程设计，以获得一组或多组样本特征，以及通过一组或多组样本特征以及分别与每组训练样本数据相对应的标签来确定机器学习模型的参数。

在本发明某些实施例中，预测模块用于对实时用户数据进行特征工程设计，以获得实时用户特征，以及使用机器学习模型对实时用户特征进行预测。

在本发明某些实施例中，机器学习模型为XGboost模型。

第三方面，本发明的实施例提供了一种计算机设备，包括：处理器；存储设备，存储设备包括存储在其上的计算机指令，计算机指令在被处理器执行时，使得处理器执行第一方面所述的验证码的人机识别方法。

第四方面，本发明的实施例提供了一种计算机可读存储介质，包括存储在其上的计算机指令，计算机指令在被处理器执行时，使得处理器执行第一方面所述的验证码的人机识别方法。

本发明实施例提供了一种验证码的人机识别方法及装置，通过利用训练得到的机器学习模型对验证码验证阶段的实时用户数据进行预测，可以准确地识别用户是否是正常用户，从而对异常用户进行拦截。并且，传统使用的统计模型只能处理较小的数据量和较窄的数据属性，而在本发明实施例中，训练机器学习模型时能够处理更大量的样本数据，这使得相较于传统方法增加了预测的可靠性和准确度。

附图简要说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的描述中所需要使用的附图做简单的说明。

图1是根据本发明一实施例提供的验证码的人机识别方法的示意性流程图。

图2是根据本发明另一实施例提供的验证码的人机识别方法的示意性流程图。

图3是根据本发明一实施例提供的训练机器学习模型的方法的示意性流程图。

图4是根据本发明一实施例提供的对实时用户数据进行预测的方法的示意性流程图。

图5是根据本发明一实施例提供的验证码的人机识别装置的结构示意图。

图6是根据本发明一示例性实施例示出的用于验证码的人机识别的计算机装置的框图。

实施本发明的方式

下面将结合本发明实施例的附图来对本发明实施例中的技术方案进行清楚、完整的描述。所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

滑块验证码是验证码的一种，是指在验证码验证阶段，要求用户拖动滑块至某一位置，从而达到验证效果的一类验证码。在验证码为滑块验证码的情况下，在用户拖动滑块验证码的阶段，如何有效地建立精确和鲁棒的模型来识别正常用户还是异常用户，依然没有一个很好的解决方案。

本发明提出一种验证码的人机识别方法，进而能够在验证码验证阶段建立一个准确和鲁棒的用户识别模型。

图1是根据本发明一实施例提供的验证码的人机识别方法的示意性流程图。如图1所示，该方法包括如下内容。

110：采集第一用户输入验证码时的实时用户数据。

120：根据机器学习模型对实时用户数据进行预测，以确定第一用户的属性，机器学习模型是通过训练样本数据集得到的，样本数据集包括一组或多组训练样本数据以及分别针对每组训练样本数据设定的标签，标签表示第二用户的属性。

具体地，第一用户可以是实际使用机器学习模型对第一用户输入的验证码进行识别的用户，第二用户可以是与样本数据集对应的用户。

与每组训练样本数据对应的标签，可以用于表示生成该组训练样本数据的第二用户的属性。在这里，将收集到的一组或多组训练样本数据以及分别与每组训练样本数据对应的标签统称为样本数据集。

本发明实施例提供了一种验证码的人机识别方法，通过利用训练得到的机器学习模型对验证码验证阶段的实时用户数据进行预测，可以准确地识别用户是否是正常用户，从而对异常用户进行拦截。并且，传统使用的统计模型只能处理较小的数据量和较窄的数据属性，而在本发明实施例中，训练机器学习模型时能够处理更大量的样本数据，这使得相较于传统方法增加了预测的可靠性和准确度。

进一步地，本发明实施例中使用的机器学习模型可以利用CPU的多线程并行运行，因此还能够提高预测的速度。

根据本发明一实施例，第二用户的属性代表第二用户是正常用户还是异常用户。

具体地，正常用户可以代表输入验证码的操作对象是人，异常用户可以代表输入验证码的操作对象是计算机等机器。此外，可以将正常用户的训练样本数据作为负样本，标签设为0；同时可以将异常用户的样本数据作为正样本，标签设为1。

与第二用户的属性相对应地，第一用户的属性也可以代表第一用户是正常用户还是异常用户。这样，在利用通过训练样本数据集得到的机器学习模型对第一用户输入的验证码进行识别时，可以确定第一用户的属性，即确定第一用户是正常用户还是异常用户。

当然，在其他实施例中，第一用户的属性/第二用户的属性可以代表根据预测目标而设定的其它含义。

根据本发明一实施例，实时用户数据包括以下各项中的至少一项：第一用户的行为数据、第一用户的风险数据、第一用户的终端信息数据。训练样本数据包括以下各项中的至少一项：第二用户的行为数据、第二用户的风险数据、第二用户的终端信息数据。

具体地，第一用户的行为数据可以包括第一用户操作鼠标的运动轨迹和/或点击行为等；第一用户的风险数据可以包括第一用户的身份信息和/或征信数据等；第一用户的终端信息数据可以包括用户代理(User-agent)数据、设备指纹和客户端IP地址中的至少一项。第二用户的行为数据、第二用户的风险数据以及第二用户的终端信息数据与第一用户的类似，为避免重复，在此不再赘述。

在本实施例中，可以通过数据提供商或者一些共享的信息系统获得潜在异常用户的风险数据和终端信息数据。

根据本发明一实施例，验证码为滑块验证码，并且，第一用户的行为数据包括第一用户在拖动滑块验证码前后的鼠标移动轨迹数据，第二用户的行为数据包括第二用户在拖动滑块验证码前后的鼠标移动轨迹数据。

具体地，鼠标移动轨迹数据包括：鼠标每次移动的横坐标、纵坐标、时间戳以及重试次数。

当然，在其他实施例中，验证码也可以是其他形式的验证码，例如文字或图片验证码，训练样本数据也可以是其他数据，例如第二用户的身份信息、征信数据等风险数据。

根据本发明一实施例，该方法还包括：收集样本数据集；使用样本数据集来训练机器学习模型。

具体地，每组训练样本数据是指计算机针对每个第二用户登录时获得的所有相关数据。在构建机器学习模型时，可以通过日志服务器收集一组或多组正常用户和/或异常用户在拖动滑块验证码前后的鼠标移动轨迹数据和第二用户的终端信息数据，其中，模型构建者可以模拟正常用户和/或异常用户登录网站拖动滑块验证码，从而使得计算机获得鼠标移动轨迹数据。

根据本发明一实施例，使用样本数据集来训练机器学习模型，包括：对一组或多组训练样本数据中的每组训练样本数据进行特征工程设计，以获得一组或多组样本特征；以及通过一组或多组样本特征以及分别与每组训练样本数据相对应的标签来确定机器学习模型的参数。

具体地，数据是机器学习最重要的依据，所谓特征工程设计是指最大限度地从收集到的原始数据中提取特征，获得对原始数据更全面、更充分、多方位的表达，以供模型使用。特征工程可以包括根据目标选择相关性高的特征、对数据进行降维或升维处理、对原始数据进行数值计算等数据加工处理。当然，在其它实施例中，也可以省略特征工程设计的步骤。

在一个实施例中，如上面所述的，通过日志服务器收集一组或多组正常用户和/或异常用户在拖动滑块验证码前后的鼠标移动轨迹数据和第二用户的终端信息数据。根据所采集到的鼠标每次移动的横坐标、纵坐标、时间戳以及重试次数等鼠标移动轨迹数据，计算提取出如下特征：鼠标移动所经历的时间，横向移动的距离、最大距离、平均速度、最大速度和速度方差、纵向移动的距离、最大距离、平均速度、最大速度和速度方差、滑动尝试次数、开始滑动前的时间间隔。根据所采集到的终端信息数据，计算提取出如下特征：用户代理数据、设备指纹数据、IP地址。这里，用户代理数据可以包括：操作系统及版本、CPU类型、浏览器及版本、浏览器语言、浏览器插件等浏览器相关属性。设备指纹数据可以包括：设备的硬件ID、手机的IMEI、网卡的Mac地址、字体设置等标识该设备的特征信息。在这个实施例中，除了第二用户的行为数据还采集了终端信息数据，提高了机器学习模型对风险终端的预测准确性。

在本实施例中，使用经特征化的样本数据，即使用一组或多组样本特征，以及分别与每组训练样本数据相对应的标签(在一个实施例中，标签为“0”或“1”) 来确定机器学习模型的参数。

根据本发明一实施例，使用的机器学习模型是基于树的集成学习模型XGboost(eXtreme Gradient Boosting)。在该实施例中，对于给定的数据集D＝{(x _i，y _i)}，XGboost模型函数形式如下：

在上式中，K表示要学习的树的数目，x _i为输入，

表示预测结果。F是假设空间，f(x)是分类回归树CART(Classification and Regression Tree)：

F＝{f(x)＝w _q(x)}(q:R ^m→T，w∈R ^T)

其中，q(x)表示将样本x分到了某个叶子节点上，w是叶子节点的分数，因此w _q(x)表示回归树对样本的预测值。从上述XGboost模型函数可以看到，模型使用K棵回归树中每棵回归树的预测结果进行迭代计算，来获得最终的预测结果

并且，每棵回归树的输入样本都与前面的回归树的训练和预测相关。

在一个实施例中，如上面所述的，对一组或多组训练样本数据分别进行特征工程设计，获得一组或多组样本特征。接着，将一组或多组样本特征作为数据集D中的x _i，将与每组训练样本数据相对应的标签作为数据集D中的y _i，来学习XGboost模型中K棵回归树的参数，也就是说，确定每棵回归树的输入x _i与其输出

的映射关系，其中x _i可以是n维的向量或数组。即，通过输入已知的训练样本数据x _i，将上述模型的预测结果

与训练样本数据的实际映射的标签y _i进行比较，不断调整模型参数，直到达到预期的准确率，确定模型参数，从而建立预测模型。

在其它实施例中，也可以使用除了XGboost模型以外的其它基于树的提升(boost)模型，或者也可以使用其它类型的机器学习模型，例如随机森林模型。

当已经根据训练样本数据和其对应的标签建立模型之后，保存所生成的模型。

在训练好机器学习模型之后，就可以使用该模型对实时用户进行预测，即可以执行110和120。在110中，通过被部署到网站的登录界面的数据采集代码进行数据埋点，来捕获第一用户的行为数据。在一个实施例中，验证码为滑块验证码，则针对每个正在进行登陆操作的用户采集拖动滑块验证码的鼠标移动轨迹数据和用户的终端信息数据。这些数据的种类和上面所描述的训练样本数据相同，因此在此不再赘述。接下来，在120中，使用训练好的机器学习模型来对所采集的实时用户数据进行预测，以确定第一用户的属性。

在一个实施例中，120可以包括：对实时用户数据进行特征工程设计；使用先前训练好的机器学习模型来对第一用户进行预测，确定第一用户的属性。

具体地，特征工程设计的方法和所获得的特征类型与上面所描述的对训练样本数据的特征工程设计的方法和类型类似，因此在此不再赘述。在机器学习模型为XGboost模型的一个实施例中，使用以下模型函数确定第一用户的属性：

该模型函数的参数已经在上面的步骤中被确定，因此，将特征化后的实时用户数据作为输入x _i，可以获得针对该输入的预测结果

其中，输入x _i可以是n维的向量或数组。在一个实施例中，预测结果

以“0”或“1”的方式呈现。这是因为在学习模型的参数时，所使用的标签进行了这样的定义：“0”表示正常用户，“1”表示异常用户。当然，也可以对结果/标签采用其它的定义方式，只要能够区分正常用户/异常用户即可，或者也可以定义表示其它用户属性的结果/标签。在确定第一用户的属性之后，可以输出预测结果。

如果预测结果为“1”，表示当前进行登录操作的为异常用户，也就是机器或计算机程序进行登录，则阻止该用户登录；如果预测结果为“0”，表示当前进行登录操作的为正常用户，则允许用户登录。具体地，可以将预测结果反馈给网页前端服务器，从而实现异常用户的拦截。

根据本发明一实施例，该方法还包括：将实时用户数据作为新的训练样本数据来调整机器学习模型。

具体地，将实时用户数据作为新的训练样本数据反馈给机器学习模型，训练更新该模型，进一步调整模型参数，进而提高模型的预测准确率。在一个实施例中，以T+1的周期训练更新模型，其中T表示自然日，即，将每个自然日(T)的所有用户登陆的相关数据在该自然日后的第二个自然日(T+1)作为新的训练样本数据进行模型的更新训练，以调整模型参数。在其它实施例中，也可以以任意的时间间隔周期来训练更新模型，例如，可以实时地训练更新，可以每小时训练更新，等等。

本发明实施例提供的验证码的人机识别方法，可以在验证码验证阶段建立一个准确且鲁棒的用户识别模型，进而快速而准确地识别用户类型。在使用XGboost的机器学习模型的实施例中，可以达到95％的预测准确率。

图2是根据本发明另一实施例提供的验证码的人机识别方法的示意性流程图。如图2所示，该方法包括如下内容。

210：收集样本数据集。

具体地，样本数据集包括一组或多组训练样本数据以及分别针对每组训练样本数据设定的标签，标签表示与样本数据集对应的第二用户的属性，即第二用户是正常用户还是异常用户。

220：使用样本数据集来训练机器学习模型。

230：采集第一用户输入验证码时的实时用户数据。

具体地，有关实时用户数据和训练样本数据的详细内容，可以参见上述图1中的描述，在此不再赘述。

240：根据机器学习模型对实时用户数据进行预测，以确定第一用户的属性。

250：判断第一用户的属性是否是正常用户，若是正常用户，则执行260，若不是正常用户，即是异常用户，则执行270。

260：允许第一用户登录。

270：阻止第一用户登录。

280：将实时用户数据作为新的训练样本数据来调整机器学习模型。

具体地，280可以在240之后执行，也可以在260和270之后执行，本发明对此不做限制。

根据本发明一实施例，如图3所示，220可以进一步包括如下内容。

221：针对一组或多组训练样本数据中的每组训练样本数据设定对应的标签。

具体地，标签的设定过程可以参见图1中的描述，在此不再赘述。

在一个实施例中，221也可以在220之前执行。

222：对一组或多组训练样本数据中的每组训练样本数据进行特征工程设计，以获得一组或多组样本特征。

具体地，样本特征的获取过程可以参见图1中的描述，在此不再赘述。

223：通过一组或多组样本特征以及分别与每组训练样本数据相对应的标签来确定机器学习模型的参数。

具体地，模型参数的确定过程可以参见图1中的描述，在此不再赘述。

在本实施例中，222可以在221之前执行，也可以在221之后执行。在机器学习模型建立好以后，保存该机器学习模型，即可执行230以及230之后的步骤。

根据本发明一实施例，如图4所示，240可以进一步包括如下内容。

241：对实时用户数据进行特征工程设计。

242：使用先前训练好的机器学习模型来对第一用户进行预测，确定第一用户的属性。

具体地，特征工程设计的方法和所获得的特征类型，以及第一用户的属性的确定过程，可以参见图1中的描述，在此不再赘述。

图5是根据本发明一实施例提供的验证码的人机识别装置500的结构示意图。如图5所示，该装置500包括：采集模块510，用于采集第一用户输入验证码时的实时用户数据；以及预测模块520，用于根据机器学习模型对实时用户数据进行预测，以确定第一用户的属性，机器学习模型是通过训练样本数据集得到的，样本数据集包括一组或多组训练样本数据以及分别针对每组训练样本数据设定的标签，标签表示第二用户的属性。

本发明实施例提供了一种验证码的人机识别装置，通过利用训练得到的机器学习模型对验证码验证阶段的实时用户数据进行预测，可以准确地识别用户是否是正常用户，从而对异常用户进行拦截。并且，传统使用的统计模型只能处理较小的数据量和较窄的数据属性，而在本发明实施例中，训练机器学习模型时能够处理更大量的样本数据，这使得相较于传统方法增加了预测的可靠性和准确度。

根据本发明一实施例，训练样本数据包括以下各项中的至少一项：第二用户的行为数据、第二用户的风险数据、第二用户的终端信息数据，实时用户数据包括以下各项中的至少一项：第一用户的行为数据、第一用户的风险数据、第一用户的终端信息数据。

根据本发明一实施例，验证码为滑块验证码，并且，第二用户的行为数据包括第二用户在拖动滑块验证码前后的鼠标移动轨迹数据，第二用户的风险数据包括第二用户的身份数据和/或征信数据，第二用户的终端信息数据包括用户代理数据、设备指纹和IP地址中的至少一项，第一用户的行为数据包括第一用户在拖动滑块验证码前后的鼠标移动轨迹数据，第一用户的风险数据包括第一用户的身份数据和/或征信数据，第一用户的终端信息数据包括用户代理数据、设备指纹和IP地址中的至少一项。

根据本发明一实施例，第一用户的属性代表第一用户是正常用户还是异常用户。

根据本发明一实施例，装置500还包括：收集模块530，用于收集样本数据集；训练模块540，用于使用样本数据集来训练机器学习模型。

根据本发明一实施例，装置500还包括：调整模块550，用于将实时用户数据作为新的训练样本数据来调整机器学习模型。

根据本发明一实施例，训练模块540用于对一组或多组训练样本数据中的每组训练样本数据进行特征工程设计，以获得一组或多组样本特征，以及通过一组或多组样本特征以及分别与每组训练样本数据相对应的标签来确定机器学习模型的参数。

根据本发明一实施例，预测模块520用于对实时用户数据进行特征工程设计，以获得实时用户特征，以及使用机器学习模型对实时用户特征进行预测。

根据本发明一实施例，机器学习模型为XGboost模型。

图6是根据本发明一示例性实施例示出的用于验证码的人机识别的计算机装置600的框图。

参照图6，装置600包括处理组件610，其进一步包括一个或多个处理器，以及由存储器620所代表的存储器资源，用于存储可由处理组件610的执行的指令，例如应用程序。存储器620中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件610被配置为执行指令，以执行上述验证码的人机识别方法。

装置600还可以包括一个电源组件被配置为执行装置600的电源管理，一个有线或无线网络接口被配置为将装置600连接到网络，和一个输入输出(I/O)接口。装置600可以操作基于存储在存储器620的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

一种非临时性计算机可读存储介质，当存储介质中的指令由上述装置600的处理器执行时，使得上述装置600能够执行一种验证码的人机识别方法，包括：采集第一用户输入验证码时的实时用户数据；以及根据机器学习模型对实时用户数据进行预测，以确定第一用户的属性，机器学习模型是通过训练样本数据集得到的，样本数据集包括一组或多组训练样本数据以及分别针对每组训练样本数据设定的标签，标签表示第二用户的属性。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序校验码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种验证码的人机识别方法，包括：

采集第一用户输入验证码时的实时用户数据；以及

根据机器学习模型对所述实时用户数据进行预测，以确定所述第一用户的属性，所述机器学习模型是通过训练样本数据集得到的，所述样本数据集包括一组或多组训练样本数据以及分别针对每组训练样本数据设定的标签，所述标签表示第二用户的属性。
根据权利要求1所述的方法，其中，所述训练样本数据包括以下各项中的至少一项：所述第二用户的行为数据、所述第二用户的风险数据、所述第二用户的终端信息数据，所述实时用户数据包括以下各项中的至少一项：所述第一用户的行为数据、所述第一用户的风险数据、所述第一用户的终端信息数据。
根据权利要求2所述的方法，其中，所述验证码为滑块验证码，并且，所述第二用户的行为数据包括所述第二用户在拖动所述滑块验证码前后的鼠标移动轨迹数据，所述第二用户的风险数据包括所述第二用户的身份数据和/或征信数据，所述第二用户的终端信息数据包括用户代理数据、设备指纹和IP地址中的至少一项，所述第一用户的行为数据包括所述第一用户在拖动所述滑块验证码前后的鼠标移动轨迹数据，所述第一用户的风险数据包括所述第一用户的身份数据和/或征信数据，所述第一用户的终端信息数据包括用户代理数据、设备指纹和IP地址中的至少一项。
根据权利要求1至3中任一项所述的方法，其中，所述第一用户的属性代表所述第一用户是正常用户还是异常用户。
根据权利要求1至4中任一项所述的方法，还包括：

收集所述样本数据集；

使用所述样本数据集来训练所述机器学习模型。
根据权利要求5所述的方法，还包括：

将所述实时用户数据作为新的训练样本数据来调整所述机器学习模型。
根据权利要求5所述的方法，其中，所述使用所述样本数据集来训练所述机器学习模型，包括：

对所述一组或多组训练样本数据中的每组训练样本数据进行特征工程设计，以获得一组或多组样本特征；以及

通过所述一组或多组样本特征以及分别与每组训练样本数据相对应的所述标签来确定所述机器学习模型的参数。
根据权利要求1至7中任一项所述的方法，其中，所述根据所述机器学习模型对所述实时用户数据进行预测，包括：

对所述实时用户数据进行特征工程设计，以获得实时用户特征，使用所述机器学习模型对所述实时用户特征进行预测。
根据权利要求1至8中任一项所述的方法，其中，所述机器学习模型为XGboost模型。
一种验证码的人机识别装置，包括：

采集模块，用于采集第一用户输入验证码时的实时用户数据；以及

预测模块，用于根据机器学习模型对所述实时用户数据进行预测，以确定所述第一用户的属性，所述机器学习模型是通过训练样本数据集得到的，所述样本数据集包括一组或多组训练样本数据以及分别针对每组训练样本数据设定的标签，所述标签表示第二用户的属性。
根据权利要求10所述的装置，其中，所述训练样本数据包括以下各项中的至少一项：所述第二用户的行为数据、所述第二用户的风险数据、所述第二用户的终端信息数据，所述实时用户数据包括以下各项中的至少一项：所述第一用户的行为数据、所述第一用户的风险数据、所述第一用户的终端信息数据。
根据权利要求11所述的装置，其中，所述验证码为滑块验证码，并且，所述第二用户的行为数据包括所述第二用户在拖动所述滑块验证码前后的鼠标移动轨迹数据，所述第二用户的风险数据包括所述第二用户的身份数据和/或征信数据，所述第二用户的终端信息数据包括用户代理数据、设备指纹和IP地址中的至少一项，所述第一用户的行为数据包括所述第一用户在拖动所述滑块验证码前后的鼠标移动轨迹数据，所述第一用户的风险数据包括所述第一用户的身份数据和/或征信数据，所述第一用户的终端信息数据包括用户代理数据、设备指纹和IP地址中的至少一项。
根据权利要求10至12中任一项所述的装置，其中，所述第一用户的属性代表所述第一用户是正常用户还是异常用户。
根据权利要求10至13中任一项所述的装置，还包括：

收集模块，用于收集所述样本数据集；

训练模块，用于使用所述样本数据集来训练所述机器学习模型。
根据权利要求14所述的装置，还包括：

调整模块，用于将所述实时用户数据作为新的训练样本数据来调整所述机器学习模型。
根据权利要求14所述的装置，其中，所述训练模块用于对所述一组或多组训练样本数据中的每组训练样本数据进行特征工程设计，以获得一组或多组样本特征，以及通过所述一组或多组样本特征以及分别与每组训练样本数据相对应的所述标签来确定所述机器学习模型的参数。
根据权利要求10至16中任一项所述的装置，其中，所述预测模块用于对所述实时用户数据进行特征工程设计，以获得实时用户特征，以及使用所述机器学习模型对所述实时用户特征进行预测。
根据权利要求10至17中任一项所述的装置，其中，所述机器学习模型为XGboost模型。
一种计算机设备，包括：

处理器；

存储设备，所述存储设备包括存储在其上的计算机指令，所述计算机指令在被所述处理器执行时，使得所述处理器执行权利要求1至9中任一项所述的验证码的人机识别方法。
一种计算机可读存储介质，包括存储在其上的计算机指令，所述计算机指令在被处理器执行时，使得所述处理器执行权利要求1至9中任一项所述的验证码的人机识别方法。