WO2018157808A1 - 互联网征信评估方法和系统 - Google Patents
互联网征信评估方法和系统 Download PDFInfo
- Publication number
- WO2018157808A1 WO2018157808A1 PCT/CN2018/077498 CN2018077498W WO2018157808A1 WO 2018157808 A1 WO2018157808 A1 WO 2018157808A1 CN 2018077498 W CN2018077498 W CN 2018077498W WO 2018157808 A1 WO2018157808 A1 WO 2018157808A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- training
- loss function
- evaluation model
- data set
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
- G06Q10/06375—Prediction of business process outcome or impact based on a proposed change
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请实施例公开了一种互联网征信评估方法和系统。所述互联网征信评估方法包括:获取多个用户在网络上产生的用户数据;根据所述用户数据,确定所述多个用户在所述网络上的用户收益;根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;基于所述训练后评估模型对用户的互联网征信进行评估。
Description
本申请要求于2017年03月01日提交中国专利局、申请号为201710117748.3、发明名称为“一种互联网征信评估方法和系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及通信技术领域,具体涉及一种互联网征信评估方法和系统。
随着大数据时代的来临,互联网征信的应用也越来越为广泛,其除了可以应用于互联网金融之外,还可以覆盖到其他的生活场景,比如打车、租车或酒店预订等,因此,如何保证互联网征信评估的准确和公平,也逐渐成为人们所关注的问题。
发明内容
本申请实施例提供一种互联网征信评估方法和系统,可以提高评估的合理性和准确性,改善应用效果。
本申请实施例提供一种互联网征信评估方法,包括:
获取多个用户在网络上产生的用户数据,所述用户数据包括用户的属性数据、行为数据和信用记录中的一种或多种;
根据所述用户数据,确定所述多个用户在所述网络上的用户收益;
根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;
按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;
采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;
基于所述训练后评估模型对用户的互联网征信进行评估。
本申请实施例还提供一种互联网征信评估系统,包括:处理器和存储器, 所述存储器上存储有计算机可读指令,所述计算机可读指令由所述处理器执行以完成以下操作:
获取多个用户在网络上产生的用户数据,所述用户数据包括用户的属性数据、行为数据和信用记录中的一种或多种;
根据所述用户数据,确定所述多个用户在所述网络上的用户收益;
根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;
按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;
采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;
基于所述训练后评估模型对用户的互联网征信进行评估。
本申请实施例提供一种互联网征信评估方法,用于服务器上,所述服务器包括处理器和存储器,所述方法包括步骤:
获取多个用户在网络上产生的用户数据,所述用户数据包括用户的属性数据、行为数据和信用记录中的一种或多种;
根据所述用户数据,确定所述多个用户在所述网络上的用户收益;
根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;
按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;
采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;
基于所述训练后评估模型对用户的互联网征信进行评估。
一种非易失性存储介质,其中存储有计算机可读指令,所述计算机可读指令可以由处理器执行以完成如下操作:
获取多个用户在网络上产生的用户数据,所述用户数据包括用户的属性数据、行为数据和信用记录中的一种或多种;
根据所述用户数据,确定所述多个用户在所述网络上的用户收益;
根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;
按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重 的训练数据集;
采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;
基于所述训练后评估模型对用户的互联网征信进行评估。
附图简要说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的互联网征信评估系统的应用环境示意图;
图2a是本申请实施例提供的互联网征信评估方法的框架图;
图2b是本申请实施例提供的互联网征信评估方法的流程图;
图3是本申请实施例提供的互联网征信评估方法的另一流程图;
图4a是本申请实施例提供的互联网征信评估系统的结构示意图;
图4b是本申请实施例提供的互联网征信评估系统的另一结构示意图;
图5是本申请实施例提供的服务器的结构示意图。
实施本发明的方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
互联网征信是互联网金融的重要基础。各大互联网企业,在长期的平台运营过程中,积累了丰富的用户社交、交易、基于位置的服务(LBS)等行为数据。在获取了大量的用户行为数据的基础上,结合用户的基础属性信息(年龄、性别、职业等),以大数据和云计算、机器学习等技术手段为基础,对用户建立信用评分模型。在一些互联网征信评估技术中,通过收集用户在训练期的行为数据作为训练数据集,然后,从中提取用户特征,利用决策树、以及逻辑回归等机器学习算法,来建立信用评分模型,并基于该信用评分模型对用户的信用进 行评估。其中,训练数据集由违约用户和非违约用户组成,并切分成训练集和验证集。训练集用于训练模型,验证集用于对得到的模型进行评估,而评估的标准就是在验证集上的预测误差尽量小,该预测误差主要是预测违约情况(即预测用户是否违约)与真实违约情况的差异。
图1为本申请实施例提供的一种互联网征信评估系统的应用环境示意图。如图1所示,在该应用环境中可以包括终端设备10及服务器20。终端设备10和服务器20之间通过网络进行通信。用户通过使用终端设备10登录服务器20提供的网络平台中产生各种用户数据。例如,服务器20提供一个社交网络平台,用户可以在该社交网络平台上进行登录、点击感兴趣的内容、发消息、购物、支付、贷款、阅读新闻等行为。服务器20中包括互联网征信评估系统22,用于获取用户在网络上产生的用户数据21,所述用户数据21例如包括用户的属性数据、行为数据和信用记录等;根据所述用户数据,确定所述多个用户在所述网络上的用户收益;根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;按照预设策略为各个训练样本设置权重,得到带权重的训练样本;采用带权重的训练样本对预设评估模型进行训练,得到训练后评估模型;基于所述训练后评估模型对用户的互联网征信进行评估。本申请实施例中的终端设备10可以是台式终端或移动终端,移动终端具体可以为手机、平板电脑、笔记本电脑、可穿戴设备等中的至少一种。服务器20具体可以是独立的物理服务器,也可以是物理服务器集群。
本申请实施例提供一种互联网征信评估方法和系统。
其中,该互联网征信评估系统具体可以集成在服务器等设备中。
例如,参见图2a,该互联网征信评估系统可以获取多个用户在网络上产生的用户数据,用户数据例如包括用户的属性数据、行为数据和信用记录等。然后,该互联网征信评估系统可以根据所述用户数据,确定所述多个用户在所述网络上的用户收益,并根据所述用户收益,从所述用户数据中选择训练样本,并按照预设策略为各个训练样本设置权重。比如,该互联网征信评估系统可以对各个训练样本的收益进行分析,基于分析结果为其设置权重,使得不同训练样本所对应用户的违约对总体收益的影响可以得到区分,等等。此后,该互联网征信评估系统便可以采用这些带权重的训练样本对预设评估模型进行训练, 并基于训练后评估模型对用户的互联网征信进行评估,从而提高评估的合理性和准确性。
其中,该预设评估模型可以根据实际应用的需求进行建立。比如,该评估模型可以包括用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数,即本申请实施例所说的第一损失函数和第二损失函数,等等。
以下分别进行详细说明。
本申请实施例将从互联网征信评估系统的角度进行描述,该互联网征信评估系统具体可以集成在服务器,比如评估服务器等设备中。
一种互联网征信评估方法,包括:获取多个用户在网络上产生的用户数据;根据所述用户数据,确定所述多个用户在所述网络上的用户收益;根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;按照预设策略为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;基于该训练后评估模型对用户的互联网征信进行评估。
如图2b所示,该互联网征信评估方法的具体流程可以如下:
101、获取多个用户在网络上产生的用户数据。
其中,服务器获取多个用户在网络上产生的用户数据。用户数据可以包括用户的属性数据、行为数据和信用记录等数据。其中,用户的属性数据可以包括用户在服务器提供的网络平台注册的用户信息或者服务器从其他渠道获取的用户信息。用户的属性数据例如包括用户的性别、年龄、地域、和/或学历等人口属性信息。用户的行为数据可以包括用户在服务器提供的网络平台登录、点击、发消息、购物、支付、贷款和/或阅读等行为所产生的数据。用户的信用记录可以包括用户在所述网络平台上的违约记录,例如还款违约记录等信息。所述网络平台例如为即时通信应用平台、社交网络平台、网络购物平台、网络借贷服务平台等。上述用户数据可以是在一个周期时间段,例如半年或三个月获得的。
102、根据所述用户数据,确定所述多个用户在所述网络上的用户收益,并根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集。
其中,服务器选择训练样本的方式可以有多种,比如,可以随机进行选择,或者,也可以根据用户的收益分布来进行选择,等等。以根据用户的收益分布来进行选择为例,则步骤“根据所述用户数据,确定所述多个用户在所述网络上的用户收益,并根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集”,具体可以如下:
(1)根据用户数据分析用户收益。
比如,以用户在所述网络平台上进行贷款为例,某个用户的用户收益指的是资方(即贷款提供方,比如银行等机构)通过所述网络平台提供贷款给该用户后,该用户为资方带来的利益收入,一般可以包括贷款利息收益和逾期罚息收益。因此,可以通过分析贷款利息收益和逾期罚息收益来计算用户的用户收益,即步骤“根据用户数据分析用户收益”具体可以包括:
服务器根据用户的用户数据确定用户的贷款利息收益,以及根据用户的用户数据确定用户的逾期罚息收益,然后,计算该贷款利息收益和逾期罚息收益的和,得到用户的用户收益,用公式表示即为:
用户收益=贷款利息收益+逾期罚息收益。
其中,贷款利息收益的计算方法可以根据实际应用的需求而定,例如,可以根据本金和贷款利率来计算该贷款利息收益,等等,具体可以如下:
贷款利息收益=r
1*M。
r
1为贷款利率,M为本金。需说明的是,该贷款利率的单位可以根据实际应用的需求来进行设置,比如,可以设定为贷款日利率、贷款月利率或贷款年利率,等等。为了描述方便,在本申请实施例中,将均以r
1为贷款月利率为例进行说明。此外,该贷款利率的具体取值也可以根据实际应用的需求进行设置,在此不再赘述。
其中,逾期罚息是用户由于逾期还款导致的罚款收益。但是,需说明的是,用户的逾期罚息越大,并不代表逾期罚息收益越大。因为用户如果逾期越久,该用户就越危险(即信用越差),很可能会因为还不上款而导致资方产生更大的损失。因此,在本申请实施例中,将逾期罚息收益定义成一个随着时间变化的变量,当逾期时间未超出预设阈值时,逾期罚息为正向收益,否则,当逾期时间超出预设阈值时,则变成负向收益。即,在一个示例中,步骤“根据用户的 用户数据确定用户的逾期罚息收益”具体可以如下:
服务器根据用户数据确定用户的本金、逾期罚款利率以及逾期时间;
若服务器判断该逾期时间未超过预设阈值,则将该逾期时间、逾期罚款利率、以及本金的乘积,作为逾期罚息收益,用公式表示即为:逾期罚息收益=k*r
2*M;
若服务器判断该逾期时间超过预设阈值,则计算该逾期时间与预设阈值的差,将该差、该贷款利息收益和逾期罚息收益的逾期罚款利率、以及本金的乘积的相反数,作为逾期罚息收益,用公式表示即为:逾期罚息收益=-(k-m)*r
2*M。
其中,r
2为逾期罚款利率,M为本金,k为逾期时间,m为预设阈值。需说明的是,逾期时间与逾期罚款利率的单位可以根据实际应用的需求进行设置,比如,若逾期罚款利率为日利率,则可以将逾期时间的单位设定为“天数”,若逾期罚款利率为月利率,则可以将逾期时间的单位设定为“月数”,以此类推,等等。
若用Reward来表示用户收益,则根据上面的描述可知,用户收益的计算公式可以如下:
若没有逾期:Reward=r
1*M+0=r
1*M;
若逾期时间未超过预设阈值m:Reward=r
1*M+k*r
2*M;
若逾期时间超过预设阈值m:Reward=r
1*M+(-(k-m)*r
2*M)=r
1*M-(k-m)*r
2*M。
其中,该预设阈值m可以根据实际应用的需求进行设置,在此不再赘述。
上文以在所述网络平台进行贷款为例,进行了说明。在其他类似应用中可以基于本申请实施例的原理进行变化。例如,对于在网络平台中进行投保的应用情况下,保险公司从用户得到的用户收益,也即保险收益=投保金额-赔付率*赔付金额。
(2)根据用户收益从所述用户数据中选择训练样本,使得所选择的训练样本的用户收益的分布与所述用户数据的用户收益的分布一致,得到训练数据集。
服务器在选择训练样本时,可以根据用户收益将用户划分为“好用户”和“坏用户”。比如,可以将没有逾期或逾期次数小于预设次数(比如3次)的用户,确定为“好用户”,否则,若逾期次数大于预设次数,则确定为“坏用户”。 可以按照一定抽样比例从“好用户”和“坏用户”中抽取相应的用户,将这些用户的用户数据作为训练样本,并添加至训练数据集中。
其中,所谓“所选择的训练样本的用户收益的分布与所述用户数据的用户收益的分布一致”指的是,所选择的训练样本中“好用户”与“坏用户”的比例,与获取到的所有用户数据中“好用户”与“坏用户”的比例一致。比如,若获取到的所有用户数据中“好用户”与“坏用户”的比例为3:2,如果需要从中选取1000个训练样本,则此时,可以从“好用户”中选择600个训练样本,以及从“坏用户”中选择400个训练样本,这样,所选择的训练样本中“好用户”和“坏用户”的比例即为:600:400=3:2,与获取到的所有用户数据中“好用户”与“坏用户”的比例一致。所以,可以认为,此时所选择的训练样本的用户收益的分布与所述用户数据的用户收益的分布一致,依次类推,在此不再赘述。
103、按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。
其中,设置权重的方式可以有多种,比如,服务器可以根据用户收益的大小来进行设置,具体可以如下:
根据用户收益的大小为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。
比如,还是用Reward(x)来表示用户x所对应的用户收益,假设有N个训练样本,则每个训练样本x(即用户x)的权重Weight(x)可以为:
Weight(x)=(Reward(x)-Min(Reward))/(Max(Reward)-Min(Reward));
其中,Min(Reward)为所有训练样本的用户收益中的最小值(即最小用户收益值),Max(Reward)为所有训练样本的用户收益中的最大值(即最大用户收益值)。
也就是说,服务器可以计算当前训练样本的用户收益与最小用户收益值的差,得到第一值,以及计算最大用户收益值与最小用户收益值的差,得到第二值,将第一值和第二值的商,作为该当前训练样本的权重。
或者,除了可以根据用户收益大小来设置训练样本的权重之外,服务器还可以将其他的因素,比如用户的信用记录也作为设定权重的考量因素之一,即步骤“按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权 重的训练数据集”具体可以如下:
根据用户收益的大小、以及用户的信用记录为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。
其中,具体的设置方法可以根据实际应用的需求而定,比如,可以分别为用户收益与信用记录设置一定的比重,然后基于该比重,按照预设的算法来计算该训练样本的权重,等等,在此不再赘述。
104、采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型。
其中,该评估模型可以根据实际应用的需求预先进行定义并进行存储,在需要时,服务器直接从存储位置直接读取即可。或者,该评估模型也可以由服务器系统直接进行建立,即在步骤“采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型”之前,可以包括评估模型建立步骤。具体地,该互联网征信评估方法还可以包括:
设置第一损失函数和第二损失函数,该第一损失函数为用于预测用户违约情况的损失函数,该第二损失函数为用于预测用户收益情况的损失函数,根据该第一损失函数和第二损失函数建立评估模型。
其中,第一损失函数和第二损失函数可以根据实际应用的需求进行设定。例如,服务器可以从用户数据中挖掘用户特征、以及获取用户标签,然后,基于用户特征和用户标签来建立一逻辑回归模型,计算用户的违约概率,如下:
y(θ,x)=h
θ(x)=θ
0+θ
1x
1+θ
2x
2+……+θ
nx
n;
其中,y为用户标签,表示用户是否违约,如果违约,则为1,否则为0,y是因变量;x
i(i=1,2……n)表示用户特征,为自变量;θ
j(j=0,1,2……n)表示自变量(用户特征x
i)的权重,为参数向量,h
θ(x)表示用逻辑回归模型预测的用户违约概率值。y和h
θ(x)是等价的描述,使用h
θ(x)是为了下文描述方便。
对该逻辑回归模型进行训练,训练过程主要是优化目标函数J(θ),使得目标函数J(θ)逐步向最大或者最小的方向变化。因为预测的是用户是否违约,所以目标函数J(θ)可以定义为预测的损失函数,可以用最小均方误差的方式来定义,如下:
其中,h
θ(x
(i))为第i个训练样本预测的值,y
(i)表示第i个训练样本的真实值,训练目标是使得该损失函数最小化,即h
θ(x
(i))=y
(i)。
可见,J(θ)即为可以预测用户违约情况的损失函数。因此,可以将J(θ)作为第一损失函数,而第二损失函数可以定义为第一损失函数与每个训练样本的权重Weight(x)的乘积。以N个训练样本为例,若用公式表示的话,第一损失函数和第二损失函数分别可以如下:
根据上述第一损失函数和第二损失函数定义一结构化的目标函数“loss”,该目标函数所对应的模型即为该评估模型。
比如,可以将第一损失函数和第二损失函数的和作为该目标函数,等等。
在一个示例中,为了可以更加灵活地控制两种损失函数(即第一损失函数和第二损失函数)之间的关系,还可以设置一常数项,作为第一损失函数和第二损失函数的平衡系数,用于控制第一损失函数和第二损失函数的比重关系;即在步骤“根据该用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数建立评估模型”之前,该互联网征信评估方法还可以包括:
设置平衡系数,该平衡系数用于控制第一损失函数和第二损失函数的比重关系。
则此时,步骤“根据该第一损失函数和第二损失函数建立评估模型”,包括:根据该第一损失函数、第二损失函数、以及平衡系数建立评估模型。
例如,可以计算平衡系数与第二损失函数的乘积,将该乘积与第一损失函数的和作为该目标函数“loss”,用公式表示即可如下:
其中,γ为平衡系数,为一个常数项,具体取值可以根据实际应用的需求,比如根据产品和/或行业等因素的变化,来灵活地进行设定,以达到调整评分策略的目的。
在目标函数loss中,第一项是预测损失函数;第二项是预测的收益损失。当预测正确,也就是h
θ(x
(i))=y
(i),则没有收益损失。因为如果预测正确为好用户,则可认为贷款没风险;如果预测为坏用户,则不会给他贷款,也不会给发贷方带来损失。只有在预测错误的情况下,才会存在收益损失。
在得到该目标函数loss,即评估模型之后,便可以采用带权重的训练数据集对该评估模型进行训练,以得到训练后评估模型。其中,训练过程可以采用开源的机器学习工具,比如决策树或逻辑回归等机器来进行训练,也可以是随机梯度下降(stochastic gradient descent,SGD)训练方法。每次输入一个批量的训练样本,计算loss值,更新模型参数θ,迭代训练。当目标函数达到一定阈值后终止训练过程,训练的目标为使该目标函数loss最小化。在目标函数loss最小的情况下,违约损失最小(第一损失函数),以及收益损失(第二损失函数)最小。
通过本申请实施例的上述loss函数,训练过程中,对于带来正面收益的用户样本,可以根据收益的大小,赋予不同的正权重;而带来负面收益的样本,则赋予负的权重。目的是使得训练出来的评分模型,拥有更加强的发现“优质”用户的能力,也就是倾向于给优质用户更高的信用评分。另外,在通过loss函数,重新定义目标函数,增加收益项,训练目标由预测违约用户的损失函数,变成加上收益损失的结构化损失函数,可以更好地进行用户信用的评价。
需说明的是,除了可以采用均方误差来定义上述损失函数(第一损失函数和第二损失函数)之外,还可以采用其他的方式,比如采用0-1损失函数、或者对数损失函数,等等,在此不再赘述。
另外,需说明的是,本申请实施例所说的用户特征可以包括基础特征,比如人口属性特征和基础行为特征等,属性特征用来作为征信评分模型的特征,例如性别特征(1表示男性,0表示女性;年龄特征则通过划分不同的年龄段,把用户划分到不同的年龄段)。另外,用户特征还可以包括一些衍生特征,比如周/月度行为特征和/或行为序列特征等,其中,基础行为特征可以包括用户点击、阅读、转发、支付、购物和/或收藏等行为;周/月度行为特征可以根据用户点击、 阅读、和/或转发等行为统计而得到,行为序列特征可以根据用户支付、购物和/或收藏等行为统计而得到,在此不再赘述。
105、基于该训练后评估模型对用户的互联网征信进行评估。例如,具体可以如下:
服务器接收互联网征信评估请求,其中该互联网征信评估请求指示需要进行评估的目标用户,服务器获取该目标用户的用户数据,根据该目标用户的用户数据,通过该训练后评估模型对目标用户的互联网征信进行评估。所述互联网征信评估请求例如为是用户从终端设备发出的。
例如,服务器具体可以利用该训练后评估模型对目标用户的用户数据进行计算,并将计算结果转换为评分,以供参考;即步骤“根据该目标用户的用户数据,通过该训练后评估模型对目标用户的互联网征信进行评估”可以包括:
利用该训练后评估模型对该目标用户的用户数据进行计算,得到评估概率值,按照预设算法将该评估概率值转换为预设格式的分值,得到目标用户的互联网征信评分。
其中,该预设算法可以根据实际应用的需求进行设置,比如,以将评估概率值转换为大于400小于900的整数为例,则该预设算法具体可以如下:
Score=400+500P;
其中,Score为互联网征信评分,P为评估概率值,P的取值区间为[0,1]。
由上可知,本申请实施例在得到训练数据集后,可以按照预设策略为该训练数据集中的各个训练样本设置权重,然后,采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型,并基于该训练后评估模型对用户的互联网征信进行评估;由于该方案可以按照预设策略为各个训练样本设置权重,再据此进行模型训练,因此,有利于对不同训练样本的违约影响进行区分,相对于现有只考虑训练样本是否违约的评估方案而言,可以大大提高评估的合理性和准确性,改善应用效果。
根据前述实施例所描述的方法,以下将举例作进一步详细说明。
在本申请实施例中,将以该互联网征信评估系统具体集成在评估服务器中、且以均方误差来定义损失函数为例进行说明。
如图3所示,一种互联网征信评估方法,具体流程可以如下:
201、评估服务器获取多个用户在网络上产生的用户数据。
例如,评估服务器具体可以从互联网或其他的途径采集多个用户的用户数据,然后保存在评估服务器本地或其他存储设备上,在需要时,由评估服务器从本地或该其他存储设备上进行读取;或者,还可以由评估服务器直接从互联网或其他的渠道对该用户数据进行采集,等等。
其中,该用户数据可以包括用户的属性数据、行为数据和信用记录等数据。
用户的属性数据可以包括用户在网络平台注册的用户信息或者评估服务器从其他渠道获取的用户信息。用户的属性数据例如包括用户的性别、年龄、地域、和/或学历等人口属性信息。
用户的行为数据可以包括用户在网络平台登录、点击、发消息、购物、支付、贷款和/或阅读等行为所产生的数据。用户的信用记录可以包括用户在所述网络平台上的违约记录,例如还款违约记录等信息。所述网络平台例如为即时通信应用平台、社交网络平台、网络购物平台、网络借贷服务平台等。上述用户数据可以是在一个周期时间段,例如半年或三个月获得的。
202、评估服务器根据所述用户数据,确定所述多个用户在所述网络上的用户收益。
其中,该用户收益的计算方法可以根据实际应用的需求而定。例如,以用户在所述网络平台上进行贷款为例,某个用户的用户收益指的是资方通过所述网络平台提供贷款给该用户后,该用户为资方带来的利益收入,一般可以包括贷款利息收益和逾期罚息收益。因此,可以根据用户的用户数据确定用户的贷款利息收益和逾期罚息收益,然后,计算该贷款利息收益和逾期罚息收益的和,来得到用户的用户收益,用公式表示即为:
用户收益=贷款利息收益+逾期罚息收益。
其中,贷款利息收益取决于本金和贷款利率,而逾期罚息则指的是由于用户逾期还款所导致的罚款收益,该逾期罚息为一个随着时间变化的变量,当逾期时间未超出预设阈值时,逾期罚息为正向收益,否则,当逾期时间超出预设阈值时,则变成负向收益。
比如,以本金为M,贷款利率为r
1,逾期罚款利率为r
2,k为逾期时间,m为 逾期时间的预设阈值为例,则用户收益Reward为:
若没有逾期:Reward=r
1*M+0=r
1*M;
若逾期时间未超过预设阈值m(即k<m):Reward=r
1*M+k*r
2*M;
若逾期时间超过预设阈值m(即k≥m):Reward=r
1*M+(-(k-m)*r
2*M)=r
1*M-(k-m)*r
2*M。
其中,该预设阈值m可以根据实际应用的需求进行设置,等等。
需说明的是,该贷款利率r
1的单位和取值可以根据实际应用的需求来进行设置,比如,可以将贷款利率r
1设定为贷款日利率、贷款月利率或贷款年利率,等等;同理,逾期罚款利率为r
2和逾期时间k的单位和取值也可以根据实际应用的需求来进行相应设置,比如,若将逾期罚款利率r
2为日利率,则可以将逾期时间k的单位设定为“天数”,若逾期罚款利率r
2为月利率,则可以将逾期时间k的单位设定为“月数”,以此类推,等等。
例如,以贷款利率r
1为贷款月利率,逾期罚款利率r
2为日利率,逾期时间k为天数,且逾期时间的预设阈值m为10天为例,若用户甲的本金为“10000”元,贷款利率r
1为每月0.01%,逾期罚款利率r
2为每日0.01%,则在不同的场景下,用户甲所对应的用户收益Reward(即贷款给用户给资方带来的收益)分别可以如下:
(1)若用户甲没有逾期,则:
Reward=r
1*M+0=r
1*M=0.01%*10000=1元。
即若用户甲没有逾期时间还款,则该用户甲所对应的用户收益为正向收益1元,即“赚1元”。
(2)若用户甲的逾期时间未超过10天,比如逾期时间为8天,则:
Reward=r
1*M+k*r
2*M=0.01%*10000+8*0.01%*10000=9元。
即若用户甲的逾期时间为8天,则该用户甲所对应的用户收益为正向收益9元,即“赚9元”。
(3)若用户甲的逾期时间已超过10天,比如20天,则:
Reward=r
1*M+(-(k-m)*r
2*M)=r
1*M-(k-m)*r
2*M=0.01%*10000-(20-10)*0.01%*10000=-9元。
即若用户甲的逾期时间为20天,则该用户甲所对应的用户收益为负向收益9 元,即“亏损9元”。
203、评估服务器根据用户收益,从所述用户数据中选择训练样本,使得所选择的训练样本的用户收益的分布与所述用户数据的用户收益的分布一致,得到训练数据集。
评估服务器在选择训练样本时,可以根据用户收益将用户划分为“好用户”和“坏用户”。比如,可以将没有逾期或逾期次数小于预设次数(比如3次)的用户,确定为“好用户”,否则,若逾期次数大于预设次数,则确定为“坏用户”。可以按照一定抽样比例从“好用户”和“坏用户”中抽取相应的用户,将这些用户的用户数据作为训练样本,并添加至训练数据集中。
其中,所选择的训练样本中“好用户”与“坏用户”的比例,与该获取到的所有用户数据中“好用户”与“坏用户”的比例尽可能一致(允许存在一定范围的误差),以便使得所选择的训练样本的用户收益的分布与所述用户数据的用户收益的分布可以保持一致。
例如,以获取到的所有用户数据中“好用户”与“坏用户”的比例为7:3为例,若需要从中选取1000个训练样本,则此时,可以从“好用户”中选择700个训练样本,以及从“坏用户”中选择300个训练样本,这样,所选择的训练样本中“好用户”和“坏用户”的比例即为:700:300=7:3,与获取到的所有用户数据中“好用户”与“坏用户”的比例一致,依次类推,等等。
204、评估服务器根据用户收益的大小,为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。
例如,评估服务器具体可以计算当前训练样本的用户收益与最小用户收益值的差,得到第一值,以及计算最大用户收益值与最小用户收益值的差,得到第二值,将第一值和第二值的商,作为该当前训练样本的权重。用公式表示即为:
Weight(x)=(Reward(x)-Min(Reward))/(Max(Reward)-Min(Reward));
其中,Weight(x)为用户x的权重,Reward(x)表示用户x所对应的用户收益,Min(Reward)为所有训练样本的用户收益中的最小值(即最小用户收益值),Max(Reward)为所有训练样本的用户收益中的最大值(即最大用户收益值)。
比如,还是以用户甲为例,若用户甲所对应的用户收益为1元,而最小用户收益值为-15元,最大用户收益值为10元,则用户甲的权重为:
Weight(x)=(1-(-15))/(10-(-15))=16/25=0.64。
在一个示例中,除了可以根据用户收益大小来设置训练样本的权重之外,评估服务器还可以将其他的因素,比如用户的信用记录也作为设定权重的考量因素之一,在此不再赘述。
205、评估服务器设置第一损失函数、第二损失函数和平衡系数。
其中,该第一损失函数为用于预测用户违约情况的损失函数,该第二损失函数为用于预测用户收益情况的损失函数,该平衡系数用于控制第一损失函数和第二损失函数的比重关系。
其中,第一损失函数和第二损失函数可以根据实际应用的需求进行设定,例如,可以如下:
其中,x
(i)表示第i个训练样本的用户特征,h
θ(x
(i))为第i个训练样本预测的值,y
(i)表示第i个训练样本的真实值,Weight(x
(i))表示第i个训练样本的权重。
206、评估服务器根据该第一损失函数、第二损失函数、以及平衡系数建立评估模型。
例如,评估服务器可以计算平衡系数与第二损失函数的乘积,将该乘积与第一损失函数的和作为该目标函数“loss”,用公式表示即可如下:
其中,γ为平衡系数,为一个常数项,具体取值可以根据实际应用的需求,比如根据产品和/或行业等因素的变化,来灵活地进行设定,以达到调整评分策略的目的。
在得到该目标函数,即评估模型之后,便可以采用带权重的训练数据集对预设评估模型进行训练,以得到训练后评估模型。其中,训练过程可以采用开源的机器学习工具,比如决策树或逻辑回归等机器来进行训练,当目标函数达到一定阈值后终止训练过程,训练的目标为该目标函数最小化。
基于上述目标函数(评估模型)可知,当预测正确,也就是“h
θ(x
(i))=y
(i)”时,则没有收益损失。比如,还是以贷款为例,如果预测为“好用户”,则认为贷款给该用户没有风险,因为预测正确,所以事实上贷款给该用户也不会有风险,所以,不会带来损失;而如果预测为“坏用户”,则不会贷款给该用户,所以也不会带来损失。
需说明的是,在本申请实施例中,仅仅以采用均方误差来定义上述损失函数(第一损失函数和第二损失函数)为例进行说明,应当理解的是,除了可以采用均方误差来定义上述损失函数之外,还可以采用其他的方式,比如采用0-1损失函数、或者对数损失函数,等等,在此不再赘述。
207、评估服务器接收互联网征信评估请求,该互联网征信评估请求指示需要进行评估的目标用户。
例如,评估服务器具体可以接收其他设备,比如终端设备发送的互联网征信评估请求,其中,该互联网征信评估请求中携带需要进行评估的目标用户的用户标识,比如用户名称和/或帐号等信息。
208、评估服务器获取该目标用户的用户数据,根据该目标用户的用户数据,通过该训练后评估模型对目标用户的互联网征信进行评估;例如,具体可以如下:
评估服务器利用该训练后评估模型对该目标用户的用户数据进行计算,得到评估概率值,按照预设算法将该评估概率值转换为预设格式的分值,得到目标用户的互联网征信评分。
其中,该预设算法可以根据实际应用的需求进行设置,比如,以评估概率值的取值区间为[0,1],需要将评估概率值转换为大于400小于900的整数为例,则该预设算法具体可以如下:
Score=400+500P;
其中,Score为互联网征信评分,P为评估概率值。
比如,若P为0.2,则Score=400+500*0.2=500分。
又比如,若P为0.8,则Score=400+500*0.8=800分,以此类推,等等。
在得到互联网征信评分之后,评估服务器便可以根据该互联网征信评分确定该目标用户的信用如何,从而对该目标用户采取相应的流程,比如,提供贷款给该用户,或者,不提供贷款给该用户,或者,允许该用户执行某些权利,或者,不允许该用户执行某些权利,等等,具体的流程可根据实际应用的需求而定,在此不再赘述。
由上可知,本申请实施例在得到训练数据集后,可以按照预设策略为该训练数据集中的各个训练样本设置权重,然后,采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型,并基于该训练后评估模型对用户的互联网征信进行评估;由于该方案可以按照预设策略为各个训练样本设置权重,再据此进行模型训练,因此,有利于对不同训练样本的违约影响进行区分,相对于现有只考虑训练样本是否违约的评估方案而言,其评估更为合理和准确。
此外,由于该预设评估模型可以包括用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数,即本申请实施例所说的第一损失函数和第二损失函数,所以,可以使得训练结果可以保证在违约概率最小的前提下,获得总体收益最大,使不同训练样本的违约对总体收益的影响可以得到区分,不仅可以大大提高评估的合理性和准确性,改善应用效果,而且,还可以提高其灵活性和可操作性。
为了更好地实施上述方法,本申请实施例还提供一种互联网征信评估系统,该互联网征信评估系统具体可以集成在服务器,比如评估服务器等设备中。
如图4a所示,该互联网征信评估系统包括获取单元301、选择单元302、设置单元303、训练单元304和评估单元305,如下:
(1)获取单元301;
获取单元301,用于获取多个用户在网络上产生的用户数据,该用户数据可以包括用户的属性数据、行为数据和信用记录等数据。
其中,用户的属性数据可以包括用户在网络平台注册的用户信息或者从其他渠道获取的用户信息。用户的属性数据例如包括用户的性别、年龄、地域、 和/或学历等人口属性信息。用户的行为数据可以包括用户在网络平台登录、点击、发消息、购物、支付、贷款和/或阅读等行为所产生的数据。用户的信用记录可以包括用户在所述网络平台上的违约记录,例如还款违约记录等信息。所述网络平台例如为即时通信应用平台、社交网络平台、网络购物平台、网络借贷服务平台等。上述用户数据可以是在一个周期时间段,例如半年或三个月获得的。
(2)选择单元302;
选择单元302,用于根据所述用户数据,确定所述多个用户在所述网络上的用户收益,并根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集。
其中,选择训练样本的方式可以有多种,比如,可以根据用户的收益分布来进行选择,等等,即该选择单元302可以包括分析子单元和选择子单元,如下:
该分析子单元,用于根据用户数据,确定所述多个用户在所述网络上的用户收益。
该选择子单元,用于根据用户收益从所述用户数据中选择训练样本,使得所选择的训练样本的用户收益的分布与所述用户数据的用户收益的分布一致,得到训练数据集。
例如,以用户在所述网络平台上进行贷款为例,某个用户的用户收益指的是资方(即贷款提供方,比如银行等机构)通过所述网络平台提供贷款给该用户后,该用户为资方带来的利益收入,一般可以包括贷款利息收益和逾期罚息收益。因此,可以通过分析贷款利息收益和逾期罚息收益来计算用户的用户收益,即:
该分析子单元,具体可以用于根据用户的用户数据确定用户的贷款利息收益,根据用户的用户数据确定用户的逾期罚息收益,计算该贷款利息收益和逾期罚息收益的和,得到用户的用户收益。用公式表示即为:
用户收益=贷款利息收益+逾期罚息收益。
其中,贷款利息收益的计算方法可以根据实际应用的需求而定,例如,可以根据本金和贷款利率来计算该贷款利息收益,等等。而逾期罚息是用户由于逾期还款导致的罚款收益,具体可以根据用户的本金、逾期罚款利率以及逾期 时间来计算,即:
该分析子单元,具体可以用于根据该用户数据确定用户的本金、逾期罚款利率以及逾期时间;若该逾期时间未超过预设阈值,则将该逾期时间、逾期罚款利率、以及本金的乘积,作为逾期罚息收益;若该逾期时间超过预设阈值,则计算该逾期时间与预设阈值的差,将该差、该贷款利息收益和逾期罚息收益的逾期罚款利率、以及本金的乘积的相反数,作为逾期罚息收益,具体可参见前面的方法实施例,在此不再赘述。
其中,该预设阈值可以根据实际应用的需求进行设置。
(3)设置单元303;
设置单元303,用于按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。
其中,设置权重的方式可以有多种,比如,服务器可以根据用户收益的大小来进行设置,具体可以如下:
该设置单元303,具体可以用于根据用户收益的大小为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。
比如,该设置单元303,具体可以计算当前训练样本的用户收益与最小用户收益值的差,得到第一值,以及计算最大用户收益值与最小用户收益值的差,得到第二值,将第一值和第二值的商,作为该当前训练样本的权重。
其中,最小用户收益值为该训练数据集中所有训练样本的用户收益中的最小值;最大用户收益值为该训练数据集中所有训练样本的用户收益中的最大值。
在一个示例中,除了可以根据用户收益大小来设置这些训练样本的权重之外,还可以将其他的因素,比如用户的信用记录等也作为设定权重的考量因素之一,即:
该设置单元303,具体可以用于根据用户收益的大小、以及用户的信用记录为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。
(4)训练单元304;
训练单元304,用于采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型。
其中,该评估模型可以根据实际应用的需求预先进行定义并进行存储,在 需要时,直接从存储位置直接读取即可,或者,该评估模型也可以由系统直接进行建立,即如图4b所示,该互联网征信评估系统还可以包括设定单元306和建立单元307,如下:
设定单元306,可以用于设置第一损失函数和第二损失函数。
其中,该第一损失函数为用于预测用户违约情况的损失函数,该第二损失函数为用于预测用户收益情况的损失函数;该第一损失函数和第二损失函数可以根据实际应用的需求进行设定,例如,以N个训练样本为例,可以如下:
其中,x
(i)表示第i个训练样本的用户特征,h
θ(x
(i))为第i个训练样本预测的值,y
(i)表示第i个训练样本的真实值,Weight(x
(i))表示第i个训练样本的权重。
建立单元307,可以用于根据该第一损失函数和第二损失函数建立评估模型。
比如,建立单元307具体可以将第一损失函数和第二损失函数作为该评估模型的目标函数,等等。
在一个示例中,为了可以更加灵活地调整这两种损失函数(即第一损失函数和第二损失函数)之间的关系,还可以设置一系数,比如设置一常数项,作为第一损失函数和第二损失函数的平衡系数,用于控制第一损失函数和第二损失函数的比重关系,即:
该设定单元306,还可以用于设置平衡系数。
则此时,该建立单元307,具体可以用于根据该第一损失函数、第二损失函数、以及平衡系数建立评估模型。
例如,建立单元307可以计算平衡系数与第二损失函数的乘积,将该乘积与第一损失函数的和作为该目标函数,用公式表示即可如下:
其中,“loss”为目标函数,γ为平衡系数,为一个常数项,具体取值可以根据实际应用的需求,比如根据产品和/或行业等因素的变化,来灵活地进行设定,以达到调整评分策略的目的。
在建立单元307得到该目标函数,即评估模型之后,训练单元304便可以采用带权重的训练数据集对预设评估模型进行训练,以得到训练后评估模型。其中,训练过程可以采用开源的机器学习工具,比如决策树或逻辑回归等机器来进行训练,当目标函数达到一定阈值后终止训练过程,训练的目标为该目标函数最小化。
需说明的是,除了可以采用均方误差来定义上述损失函数(第一损失函数和第二损失函数)之外,还可以采用其他的方式,比如采用0-1损失函数、或者对数损失函数,等等,在此不再赘述。
(5)评估单元305;
评估单元305,用于基于该训练后评估模型对用户的互联网征信进行评估。
例如,该评估单元可以包括接收子单元、数据获取子单元和评估子单元,如下:
该接收子单元,用于接收互联网征信评估请求,该互联网征信评估请求指示需要进行评估的目标用户。
数据获取子单元,用于获取该目标用户的用户数据。具体地,数据获取子单元根据所述互联网征信评估请求得到要进行评估的目标用户,再根据该目标用户获取目标用户的用户数据。
评估子单元,用于根据该目标用户的用户数据,通过该训练后评估模型对目标用户的互联网征信进行评估。
比如,该评估子单元,具体可以用于利用该训练后评估模型对该目标用户的用户数据进行计算,得到评估概率值,按照预设算法将该评估概率值转换为预设格式的分值,得到目标用户的互联网征信评分。
其中,该预设算法可以根据实际应用的需求进行设置,比如,以将评估概率值转换为大于400小于900的整数为例,则该预设算法具体可以如下:
Score=400+500P;
其中,Score为互联网征信评分,P为评估概率值,P的取值区间为[0,1]。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本申请实施例在得到训练数据集后,可以由设置单元303按照预设策略为该训练数据集中的各个训练样本设置权重,然后,由训练单元304采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型,并由评估单元305基于该训练后评估模型对用户的互联网征信进行评估;由于该方案可以按照预设策略为各个训练样本设置权重,再据此进行模型训练,因此,有利于对不同训练样本的违约影响进行区分,相对于现有只考虑训练样本是否违约的评估方案而言,可以使得评估结果更为合理和准确。
此外,由于该预设评估模型可以包括用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数,所以,可以使得训练结果可以保证在违约概率最小的前提下,获得总体收益最大,使不同训练样本的违约对总体收益的影响可以得到区分,不仅可以大大提高评估的合理性和准确性,改善应用效果,而且,还可以提高其灵活性和可操作性。
本申请实施例还提供一种服务器,可以作为本申请实施例的评估服务器。如图5所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。图5中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。在一个示例中,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本申请实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取多个用户在网络上产生的用户数据;根据所述用户数据,确定所述多个用户在所述网络上的用户收益,并根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;基于该训练后评估模型对用户的互联网征信进行评估。
例如,具体可以根据用户数据分析用户收益,根据用户收益从所述用户数据中选择训练样本,使得所选择的训练样本的用户收益的分布与所述用户数据的用户收益的分布一致,得到训练数据集,然后,根据用户收益的大小为该训 练数据集中的各个训练样本设置权重,得到带权重的训练数据集,等等。
其中,该评估模型可以根据实际应用的需求预先进行定义并进行存储,在需要时,直接从存储位置直接读取,即该存储器402中的应用程序,还可以实现如下功能:
设置第一损失函数和第二损失函数,根据该第一损失函数和第二损失函数建立评估模型。
其中,该第一损失函数为用于预测用户违约情况的损失函数,该第二损失函数为用于预测用户收益情况的损失函数。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本申请实施例的服务器在得到训练数据集后,可以按照预设策略为该训练数据集中的各个训练样本设置权重,然后,采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型,并基于该训练后评估模型对用户的互联网征信进行评估;由于该方案可以按照预设策略为各个训练样本设置权重,再据此进行模型训练,因此,有利于对不同训练样本的违约影响进行区分;而且,由于该预设评估模型可以包括用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数,所以,可以使得训练结果可以保证在违约概率最小的前提下,获得总体收益最大;因此,整体上而言,该方案相对于现有方案而言,不仅可以大大提高评估的合理性和准确性,改善应用效果,而且,还可以提高其灵活性和可操作性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
以上对本申请实施例所提供的一种互联网征信评估方法和系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (28)
- 一种互联网征信评估方法,包括:获取多个用户在网络上产生的用户数据,所述用户数据包括用户的属性数据、行为数据和信用记录中的一种或多种;根据所述用户数据,确定所述多个用户在所述网络上的用户收益;根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;基于所述训练后评估模型对用户的互联网征信进行评估。
- 根据权利要求1所述的方法,其中,所述根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集,包括:根据用户收益从所述用户数据中选择训练样本,使得所选择的训练样本的用户收益的分布与所述用户数据的用户收益的分布一致,得到训练数据集。
- 根据权利要求2所述的方法,其中,所述根据所述用户数据,确定所述多个用户在所述网络上的用户收益,包括:根据所述用户数据确定用户在所述网络上的贷款利息收益;根据所述用户数据确定用户在所述网络上的逾期罚息收益;计算所述贷款利息收益和逾期罚息收益的和,得到用户在所述网络上的用户收益。
- 根据权利要求3所述的方法,其中,所述根据所述用户数据确定用户在所述网络上的逾期罚息收益,包括:根据所述用户数据确定用户在所述网络上贷款的本金、逾期罚款利率以及逾期时间;若所述逾期时间未超过预设阈值,则将所述逾期时间、逾期罚款利率、以及本金的乘积,作为逾期罚息收益;若所述逾期时间超过预设阈值,则计算所述逾期时间与预设阈值的差,将所述差、所述贷款利息收益和逾期罚息收益的逾期罚款利率、以及本金的乘积的相反数,作为逾期罚息收益。
- 根据权利要求2所述的方法,其中,所述按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集,包括:根据用户收益的大小为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;或者,根据用户收益的大小、以及用户的信用记录为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。
- 根据权利要求1至5任一项所述的方法,其中,在所述采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型之前,还包括:设置第一损失函数和第二损失函数,所述第一损失函数为用于预测用户违约情况的损失函数,所述第二损失函数为用于预测用户收益情况的损失函数;根据所述第一损失函数和第二损失函数建立评估模型。
- 根据权利要求6所述的方法,其中,所述根据所述用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数建立评估模型之前,还包括:设置平衡系数,所述平衡系数用于控制第一损失函数和第二损失函数的比重关系;所述根据所述第一损失函数和第二损失函数建立评估模型,包括:根据所述第一损失函数、第二损失函数、以及平衡系数建立评估模型。
- 根据权利要求1至5任一项所述的方法,其中,所述基于所述训练后评估模型对用户的互联网征信进行评估,包括:接收互联网征信评估请求,所述互联网征信评估请求指示需要进行评估的目标用户;获取所述目标用户的用户数据;根据所述目标用户的用户数据,通过所述训练后评估模型对目标用户的互联网征信进行评估。
- 根据权利要求8所述的方法,其中,所述根据所述目标用户的用户数据,通过所述训练后评估模型对目标用户的互联网征信进行评估,包括:利用所述训练后评估模型对所述目标用户的用户数据进行计算,得到评估概率值;按照预设算法将所述评估概率值转换为预设格式的分值,得到目标用户的互联网征信评分。
- 一种互联网征信评估系统,包括:处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令由所述处理器执行以完成以下操作:获取多个用户在网络上产生的用户数据,所述用户数据包括用户的属性数据、行为数据和信用记录中的一种或多种;根据所述用户数据,确定所述多个用户在所述网络上的用户收益;根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;基于所述训练后评估模型对用户的互联网征信进行评估。
- 根据权利要求10所述的系统,其中,所述根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集,包括:根据用户收益从所述用户数据中选择训练样本,使得所选择的训练样本的用户收益的分布与所述用户数据的用户收益的分布一致,得到训练数据集。
- 根据权利要求11所述的系统,其中,所述根据所述用户数据,确定所述多个用户在所述网络上的用户收益,包括:根据所述用户数据确定用户在所述网络上的贷款利息收益;根据所述用户数据确定用户在所述网络上的逾期罚息收益;计算所述贷款利息收益和逾期罚息收益的和,得到用户在所述网络上的用户收益。
- 根据权利要求12所述的系统,其中,所述根据所述用户数据确定用户在所述网络上的逾期罚息收益,包括:根据所述用户数据确定用户在所述网络上贷款的本金、逾期罚款利率以及逾期时间;若所述逾期时间未超过预设阈值,则将所述逾期时间、逾期罚款利率、以及本金的乘积,作为逾期罚息收益;若所述逾期时间超过预设阈值,则计算所述逾期时间与预设阈值的差,将 所述差、所述贷款利息收益和逾期罚息收益的逾期罚款利率、以及本金的乘积的相反数,作为逾期罚息收益。
- 根据权利要求11所述的系统,其中,所述按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集,包括:根据用户收益的大小为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;或者,根据用户收益的大小、以及用户的信用记录为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。
- 根据权利要求10至14任一项所述的系统,其中,在所述采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型之前,所述计算机可读指令由所述处理器执行以进一步完成以下操作:设置第一损失函数和第二损失函数,所述第一损失函数为用于预测用户违约情况的损失函数,所述第二损失函数为用于预测用户收益情况的损失函数;根据所述第一损失函数和第二损失函数建立评估模型。
- 根据权利要求15所述的系统,其中,在所述根据所述用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数建立评估模型之前,所述计算机可读指令由所述处理器执行以进一步完成以下操作:设置平衡系数,所述平衡系数用于控制第一损失函数和第二损失函数的比重关系;所述根据所述第一损失函数和第二损失函数建立评估模型,包括:根据所述第一损失函数、第二损失函数、以及平衡系数建立评估模型。
- 根据权利要求10至14任一项所述的系统,其中,所述基于所述训练后评估模型对用户的互联网征信进行评估,包括:接收互联网征信评估请求,所述互联网征信评估请求指示需要进行评估的目标用户;获取所述目标用户的用户数据;根据所述目标用户的用户数据,通过所述训练后评估模型对目标用户的互联网征信进行评估。
- 根据权利要求17所述的系统,其中,所述根据所述目标用户的用户数 据,通过所述训练后评估模型对目标用户的互联网征信进行评估,包括:利用所述训练后评估模型对所述目标用户的用户数据进行计算,得到评估概率值;按照预设算法将所述评估概率值转换为预设格式的分值,得到目标用户的互联网征信评分。
- 一种互联网征信评估方法,用于服务器上,所述服务器包括处理器和存储器,所述方法包括步骤:获取多个用户在网络上产生的用户数据,所述用户数据包括用户的属性数据、行为数据和信用记录中的一种或多种;根据所述用户数据,确定所述多个用户在所述网络上的用户收益;根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;基于所述训练后评估模型对用户的互联网征信进行评估。
- 根据权利要求19所述的方法,其中,所述根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集,包括:根据用户收益从所述用户数据中选择训练样本,使得所选择的训练样本的用户收益的分布与所述用户数据的用户收益的分布一致,得到训练数据集。
- 根据权利要求20所述的方法,其中,所述根据所述用户数据,确定所述多个用户在所述网络上的用户收益,包括:根据所述用户数据确定用户在所述网络上的贷款利息收益;根据所述用户数据确定用户在所述网络上的逾期罚息收益;计算所述贷款利息收益和逾期罚息收益的和,得到用户在所述网络上的用户收益。
- 根据权利要求21所述的方法,其中,所述根据所述用户数据确定用户在所述网络上的逾期罚息收益,包括:根据所述用户数据确定用户在所述网络上贷款的本金、逾期罚款利率以及逾期时间;若所述逾期时间未超过预设阈值,则将所述逾期时间、逾期罚款利率、以及本金的乘积,作为逾期罚息收益;若所述逾期时间超过预设阈值,则计算所述逾期时间与预设阈值的差,将所述差、所述贷款利息收益和逾期罚息收益的逾期罚款利率、以及本金的乘积的相反数,作为逾期罚息收益。
- 根据权利要求20所述的方法,其中,所述按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集,包括:根据用户收益的大小为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;或者,根据用户收益的大小、以及用户的信用记录为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。
- 根据权利要求19至23任一项所述的方法,其中,在所述采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型之前,还包括:设置第一损失函数和第二损失函数,所述第一损失函数为用于预测用户违约情况的损失函数,所述第二损失函数为用于预测用户收益情况的损失函数;根据所述第一损失函数和第二损失函数建立评估模型。
- 根据权利要求24所述的方法,其中,所述根据所述用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数建立评估模型之前,还包括:设置平衡系数,所述平衡系数用于控制第一损失函数和第二损失函数的比重关系;所述根据所述第一损失函数和第二损失函数建立评估模型,包括:根据所述第一损失函数、第二损失函数、以及平衡系数建立评估模型。
- 根据权利要求19至23任一项所述的方法,其中,所述基于所述训练后评估模型对用户的互联网征信进行评估,包括:接收互联网征信评估请求,所述互联网征信评估请求指示需要进行评估的目标用户;获取所述目标用户的用户数据;根据所述目标用户的用户数据,通过所述训练后评估模型对目标用户的互 联网征信进行评估。
- 根据权利要求26所述的方法,其中,所述根据所述目标用户的用户数据,通过所述训练后评估模型对目标用户的互联网征信进行评估,包括:利用所述训练后评估模型对所述目标用户的用户数据进行计算,得到评估概率值;按照预设算法将所述评估概率值转换为预设格式的分值,得到目标用户的互联网征信评分。
- 一种非易失性存储介质,其中存储有计算机可读指令,所述计算机可读指令可以由处理器执行以完成如下操作:获取多个用户在网络上产生的用户数据,所述用户数据包括用户的属性数据、行为数据和信用记录中的一种或多种;根据所述用户数据,确定所述多个用户在所述网络上的用户收益;根据所述用户收益,从所述用户数据中选择训练样本,作为训练数据集;按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;基于所述训练后评估模型对用户的互联网征信进行评估。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710117748.3 | 2017-03-01 | ||
CN201710117748.3A CN108537397A (zh) | 2017-03-01 | 2017-03-01 | 一种互联网征信评估方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2018157808A1 true WO2018157808A1 (zh) | 2018-09-07 |
Family
ID=63369946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2018/077498 WO2018157808A1 (zh) | 2017-03-01 | 2018-02-28 | 互联网征信评估方法和系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108537397A (zh) |
WO (1) | WO2018157808A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767312A (zh) * | 2018-12-10 | 2019-05-17 | 江西师范大学 | 一种信用评估模型训练、评估方法与装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008984B (zh) * | 2019-01-22 | 2023-07-25 | 创新先进技术有限公司 | 一种基于多任务样本的目标欺诈交易模型训练方法和装置 |
CN112930545A (zh) * | 2019-02-19 | 2021-06-08 | 算话智能科技有限公司 | 信用评估的系统和方法 |
CN110610415B (zh) * | 2019-09-26 | 2022-06-17 | 北京明略软件系统有限公司 | 一种模型更新的方法和装置 |
CN111080338A (zh) * | 2019-11-11 | 2020-04-28 | 中国建设银行股份有限公司 | 用户数据的处理方法、装置、电子设备及存储介质 |
CN113034260A (zh) * | 2019-12-09 | 2021-06-25 | 中国移动通信有限公司研究院 | 一种信用评估方法、模型构建方法、显示方法及相关设备 |
CN111104979B (zh) * | 2019-12-18 | 2023-08-01 | 北京思维造物信息科技股份有限公司 | 一种用户行为价值评估模型的生成方法、装置及设备 |
CN111967543A (zh) * | 2020-10-23 | 2020-11-20 | 北京淇瑀信息科技有限公司 | 用户资源配额确定方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160019668A1 (en) * | 2009-11-17 | 2016-01-21 | Identrix, Llc | Radial data visualization system |
CN105528465A (zh) * | 2016-02-03 | 2016-04-27 | 天弘基金管理有限公司 | 信用状况评估方法及装置 |
CN105550930A (zh) * | 2015-12-08 | 2016-05-04 | 安徽融信金模信息技术有限公司 | 一种基于网络数据的企业信用评估方法 |
CN105701693A (zh) * | 2015-12-31 | 2016-06-22 | 浙江图讯科技股份有限公司 | 一种基于深度学习的企业信用评价方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184494A (zh) * | 2015-09-11 | 2015-12-23 | 江苏大泰信息技术有限公司 | 一种安全互联网金融贷款权质风险评估方法 |
CN106204246A (zh) * | 2016-08-18 | 2016-12-07 | 易联众信息技术股份有限公司 | 一种基于主成分分析法的bp神经网络信用评估方法 |
CN106408411A (zh) * | 2016-08-31 | 2017-02-15 | 北京城市网邻信息技术有限公司 | 信用评估方法及装置 |
-
2017
- 2017-03-01 CN CN201710117748.3A patent/CN108537397A/zh active Pending
-
2018
- 2018-02-28 WO PCT/CN2018/077498 patent/WO2018157808A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160019668A1 (en) * | 2009-11-17 | 2016-01-21 | Identrix, Llc | Radial data visualization system |
CN105550930A (zh) * | 2015-12-08 | 2016-05-04 | 安徽融信金模信息技术有限公司 | 一种基于网络数据的企业信用评估方法 |
CN105701693A (zh) * | 2015-12-31 | 2016-06-22 | 浙江图讯科技股份有限公司 | 一种基于深度学习的企业信用评价方法 |
CN105528465A (zh) * | 2016-02-03 | 2016-04-27 | 天弘基金管理有限公司 | 信用状况评估方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767312A (zh) * | 2018-12-10 | 2019-05-17 | 江西师范大学 | 一种信用评估模型训练、评估方法与装置 |
CN109767312B (zh) * | 2018-12-10 | 2023-05-09 | 江西师范大学 | 一种信用评估模型训练、评估方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108537397A (zh) | 2018-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018157808A1 (zh) | 互联网征信评估方法和系统 | |
CN108364195B (zh) | 用户留存概率预测方法、装置、预测服务器及存储介质 | |
CN110197315B (zh) | 风险评估方法、装置及其存储介质 | |
JP6546180B2 (ja) | ネットワークサブジェクトの社会的関係タイプの取得 | |
US20140122188A1 (en) | Predicting future performance of multiple workers on crowdsourcing tasks and selecting repeated crowdsourcing workers | |
CN112633962B (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN110070430A (zh) | 评估还款风险的方法及装置、存储介质、电子设备 | |
CN111915156B (zh) | 基于用户价值的业务推送方法、电子设备及存储介质 | |
CN112508580A (zh) | 基于拒绝推断方法的模型构建方法、装置和电子设备 | |
CN111967954A (zh) | 一种资源归还增比确定方法、装置和电子设备 | |
CN112017042A (zh) | 基于tweedie分布的资源配额确定方法、装置和电子设备 | |
CN110599240A (zh) | 应用的偏好值确定方法、装置和设备及存储介质 | |
CN108428001B (zh) | 信用分值预测方法及装置 | |
CN113407854A (zh) | 一种应用推荐方法、装置、设备及计算机可读存储介质 | |
CN116883154A (zh) | 信贷风险识别方法、装置、电子设备及可读存储介质 | |
CN111179055A (zh) | 授信额度调整方法、装置和电子设备 | |
CN111382909A (zh) | 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备 | |
CN111695988A (zh) | 信息处理方法、装置、电子设备和介质 | |
CN108961037B (zh) | 一种基于对车辆使用情况评估算法的车辆贷款风控方法及装置 | |
CN111510473A (zh) | 访问请求处理方法、装置、电子设备和计算机可读介质 | |
CN115238588A (zh) | 图数据处理方法、风险预测模型训练方法及装置 | |
CN114298825A (zh) | 还款积极度评估方法及装置 | |
CN114240599A (zh) | 贷款测算方法、装置、计算机设备和存储介质 | |
CN113849731A (zh) | 基于自然语言处理的信息推送方法、装置、设备及介质 | |
CN113657724A (zh) | 基于多源异构数据的资源分配方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18761776 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18761776 Country of ref document: EP Kind code of ref document: A1 |