WO2017067153A1

WO2017067153A1 - 基于文本分析的信用风险评估方法及装置、存储介质

Info

Publication number: WO2017067153A1
Application number: PCT/CN2016/081998
Authority: WO
Inventors: 刘宏志; 蒋杰; 王巨宏; 管刚; 吴中海; 张兴
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2015-10-22
Filing date: 2016-05-13
Publication date: 2017-04-27
Also published as: US20180032870A1; US11164075B2; CN106611375A

Abstract

一种基于文本分析的信用风险评估方法及装置、存储介质，其中，所述方法还包括：获取借款人的文本（S101）；对所述文本进行分析，得到基本语言特征，所述基本语言特征用于预测借款人是否会违约（S102）；将所述基本语言特征输入到预设的信用风险评估模型，得到从所述信用风险评估模型输出的所述借款人的信用风险值（S103）；输出所述借款人的信用风险值（S104）。

Description

基于文本分析的信用风险评估方法及装置、存储介质

本专利申请要求2015年10月22日提交的中国专利申请号为201510695316.1，申请人为腾讯科技(深圳)有限公司，发明名称为“一种基于文本分析的信用风险评估方法及装置”的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本发明涉及互联网金融领域，尤其涉及一种基于文本分析的信用风险评估方法及装置、存储介质。

背景技术

计算机和网络跟随着时代的发展而得到快速普及，互联网在不知不觉中已经和人们的生活中各个方面有着极其密切的关系。近年来，互联网的影响也逐步扩散到金融领域，互联网金融也就逐渐的进入了大众视野。理论上任意和金融有关联的使用网络在线上办理的业务都算是互联网金融。一般有以下6种常见的分类，它们分别是是大数据金融、第三方支付、P2P(Peer-to-Peer，点到点)网贷、众筹、信息化金融机构和互联网金融门户。

作为互联网金融行业的一个新兴领域——P2P网贷，正在以惊人的速度增长并受到广泛关注，机遇与挑战也随之同时出现。由于我国特殊的历史背景，P2P网贷在我国的发展速度尤为迅速，规模也比较大。中国的金融领域在一定程度上存在着金融管制，大量中小企业和个人越来越多样的金融需求已经不满足于现有金融服务，便促成了P2P网贷的快速发展。正因为如此，P2P网贷创新太快，监管缺失等问题很容易出现以金额和期限错配，非法集资以及流动性陷阱等为代表的系统性风险，在支付方面仍然还没有完善的认证体系制度，资金缺少监管等问题，面临着交易欺诈，隐私泄露等风险；在融资方面，信用风险问题也随着提高社会资金运用效率的提升而突显出来。

发明内容

有鉴于此，本发明实施例为解决现有技术中存在的至少一个问题而提供一种基于文本分析的信用风险评估方法及装置、存储介质，能够有效地对借款人的信用风险进行评估，从而为投资人在投资时提供重要的决策依据。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种基于文本分析的信用风险评估方法，所述方法包括：

获取借款人的文本；

对所述文本进行分析，得到基本语言特征，所述基本语言特征用于预测借款人是否会违约；

将所述基本语言特征输入到预设的信用风险评估模型，得到从所述信用风险评估模型输出的所述借款人的信用风险值；

输出所述借款人的信用风险值。

第二方面，本发明实施例提供一种基于文本分析的信用风险评估装置，所述装置包括第一获取单元、分析单元、处理单元和输出单元，其中：

所述第一获取单元，配置为获取借款人的文本；

所述分析单元，配置为对所述文本进行分析，得到基本语言特征，所述基本语言特征用于预测借款人是否违约；

所述处理单元，配置为将所述基本语言特征输入到预设的信用风险评估模型，得到从所述信用风险评估模型输出的所述借款人的信用风险值；

所述输出单元，配置为输出所述借款人的信用风险值。

第三方面，本发明实施例一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行本发明第一方面实施例提供的基于文本分析的信用风险评估方法。

本发明实施例提供一种基于文本分析的信用风险评估方法及装置、存储介质，其中，获取借款人的文本；对所述文本进行分析，得到基本语言特征，所述基本语言特征用于预测借款人是否会违约；将所述基本语言特征输入到预设的信用风险评估模型，得到从所述信用风险评估模型输出的所述借款人的信用风险值；输出所述借款人的信用风险值；如此，能够有效地对借款人的信用风险进行评估，从而为投资人在投资时提供重要的决策依据。

附图说明

图1为本发明实施例一基于文本分析的信用风险评估方法的实现流程示意图；

图2为本发明实施例中抽象文本特征与基本语言特征之间的关系示意图；

图3为本发明实施例描述特征选择的一般流程示意图；

图4-1为本发明实施例财务特征与文本特征的信用评估效果对比结果示意图；

图4-2为本发明实施例财务特征与财务+文本特征的信用效果对比结果示意图；

图4-3为本发明实施例中不同文本特征对信用评估的影响的示意图；

图5-1为本发明实施例中基于多个分类器的信用风险评估系统的架构示意图；

图5-2为本发明实施例中结合不同数量的分类器的性能对比图；

图6为本发明实施例六基于文本分析的信用风险评估装置的组成结构示意图。

具体实施方式

P2P网贷的一般流程通常是P2P网贷公司作为一个展现双方借贷信息的中间展示平台存在，投资人和借款人通过自由竞价进行网上交易，从而公司在交易成功时赚取相应的服务费用。P2P网贷的一般流程也可以简单描述为，在网络上通过个人对个人这样的一种方式进行的贷款交易，借入人到期需要偿还本金同时需要支付给借出人利息，而借出人在获取收益的同时需要承担本金偿还不到位的风险。

信用是个体、团体以及商品之间在交易中产生的一种双方互相信任的生产及社会关系，它是社会经济发展的必然产物，是市场经济中不可缺少的一环。在P2P网贷中，无论是中小企业还是个人，其信用水平都是投资人考虑是否对其投资的重要决策。

信用评估也叫做资信评级，作为信用体系构建中的重要角色，是按照一定的指标和方法对企业或者个人进行全面了解，从收集的信息中科学、客观地对其信用水平做出全面的评估，主要出发点即为了得到受考察借款人具有多大的违约概率，判断其能否按时完成约定好的事情，在P2P借贷中即为按时还清借到的款项。信用评估从根本上将是数据挖掘中的分类问题，它是将属于同种类别的总体按照不同的特征分成两个或者若干个不同的子集。一般情况下，在借贷信用评估中，将贷款者分类为可信的“好”用户和存在信用风险的“坏”用户，也即分类中的正例和负例。通过历史的信用数据对这两种类别进行分类，以帮助投资人了解此次投资的潜在风险。

征信数据，进行信用评估的过程中会使用到各种各样的数据来帮助进行定性定量分析或者训练模型，这类数据被称为征信数据。根据数据的不同可以分为结构化数据和非结构化数据，比如社交网络的评论，用户上传的音视频//用户填写的申请，这些数据以文本、图片、音频、视频等数据格式存在，都是非结构化数据。以是否容易被感知和接受为依据，将金融领域中的数据划成软信息和硬信息两种。硬信息是指精准的，符合逻辑并具有可追溯性的信息，也即可以被直接证实的信息，它们可以量化并记录在文档中，能够准确的进行传递，如财务报表、工资水平等。而相反软信息则是指由信息供给者主观给出且无法直接被其他人证实的信息。

在本发明实施例中，使用从20060101至20081231之间Prosper平台生成的28853条贷款记录作为训练数据。当借款人通过P2P贷平台进行借款申请时，借款人需要填写贷款申请描述。申请描述作为一种由借款人主观编写的文本信息，与借款人的财务信息一起作为训练数据，可以研究其影响信用的特征有哪些并且通过调整由这些特征训练的模型，进行形成一个有效的信用风险评估系统。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

在本发明实施例中，将通过借款人的文本特征来评估贷款的信用风险。例如，从全球最大的P2P网贷平台上获取相关的数据(借款人的文本描述)，然后利用机器学习方法和统计方法从借款人的文本描述中提取借款人的六大抽象文本特征，接着利用这六大抽象文本特征来评估借款人的还款意愿和还款能力，其中这六大特征包括主观性、欺骗性、文本的可读性、情感、用户的个性特点和思维方式。

P2P网贷的信用风险评估由还款意愿和还款能力两个因素决定，其中还款能力作为一个主要因素，是指借款人是否能够按时还款，其中按时还款取决于借款人的经济状态。而作为从属因素的还款意愿，取决于借款人的想法和观念。

实施例一

本发明实施例提供一种基于文本分析的信用风险评估方法，该方法应用于计算设备，在实施的过程中，所述计算设备可以为个人计算机、服务器、工控机、笔记本电脑等具有信息处理能力的电子设备。该方法所实现的功能可以通过计算设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算设备至少包括处理器和存储介质。

图1为本发明实施例一基于文本分析的信用风险评估方法的实现流程示意图，如图1所示，该方法包括：

步骤S101，获取借款人的文本；

这里，所述文本可以为借款人写的有关借款事项的任何文字，例如借款人对贷款人写的申请书等都可以作为本发明实施例中借款人的文本。

步骤S102，对所述文本进行分析，得到基本语言特征，所述基本语言特征用于预测借款人是否违约；

这里，在实施的过程中，可以采用自然语言处理的相关方法从所述文本中抽取基本语言特征，所述自然语言处理的相关方法，例如话题模型方法，其中自然语言处理的相关方法即是以自动化机器作为工具，通过可计算的方法从词语、句子、段落、文档等不同的粒度进行识别、传输、储存、理解等加工的方法和理论。它可以对文本进行词语切分，词性标注，结构分析甚至意义理解等处理，从而从不同方面获取更多的可以表示文本的特征。

这里，所述基本语言特征至少包括文本的统计特征、词性特征、情感特征、实体特征和时态特征；其中所述统计特征包括句子特征、单词特征和标点特征，其中：所述句子特征至少包括：句子总数、平均句长、最大句长、疑问句数量比例；所述单词特征至少包括：平均词长、最长词单词种类数量、单词总数、单词平均出现次数和单词出现最大次数；所述标点特征至少包括：问号数量比例和感叹号数量比例。

步骤S103，将所述基本语言特征输入到预设的信用风险评估模型，得到从所述信用风险评估模型输出的所述借款人的信用风险值；

这里，所述信用风险评估模型是预先建立好的，下面对信用风险评估模块的建立过程进行描述。在本发明实施例中，所述信用风险评估模型可以为一个简单的分类器，也可以为多个分类器组成的信用风险评估系统，其中，一个分类器可以看作是某一个领域或方面的专家系统，而由多个分类器组成的信用风险评估系统又可以看作是混合专家系统。

步骤S104，输出所述借款人的信用风险值。

本发明实施例中，所述方法还包括：步骤S100，建立所述信用风险评估模型，包括：

步骤S111，获取训练数据；

这里，所述训练数据是关于借款人进行借款的文本。

步骤S112，对所述训练数据进行分析，得到所述训练数据的基本语言特征；

这里，所述步骤S112与上述的步骤S102相似，本发明将在以下的实施例中进行说明。

步骤S113，将所述基本语言特征作为参数，采用机器学习方法建立不同的抽象文本特征对应的分类器；

这里，所述抽象文本特征包括欺骗性、主观性、情感、文本的可读性、个性特点和思维方式。所述机器学习方法包括：人工神经网络方法、支持向量机方法、决策树方法、贝叶斯方法、随机森林方法、逻辑回归方法。在实施的过程中，还可以采用不同的机器学习方法建立同一所述抽象文本特征对应的分类器；例如，以欺骗性为例，可以建立人工神经网络方法的分类器，建立贝叶斯方法的分类器，建立随机森林方法的分类；然后将准确率最高的分类器作为所述抽象文本特征所对应的分类器。

这里，所述将所述基本语言特征作为参数，包括：根据所述基本语言特征与所述抽象文本特征之间的关系，将所述基本语言特征输入到每一所述抽象文本特征对应的分类器。这里，所述关系可以参见图2所示，主观性对应于词性特征和情感特征，欺骗性对应于词性特征、情感特征、实体特征和时态特征；可读性对应于统计特征、情感对应于情感特征，个性特点对应于统计特征、词性特征、情感特征、实体特征和时态特征；思维方式对应于词性特征和实体特征。

步骤S114，将所述分类器作为基础分类器，使用决策树算法进行决策融合形成信用风险评估模型。

这里，将所述抽象文本特征对应的分类器作为基础分类器，使用决策树算法进行决策融合形成信用风险评估模型。

本发明实施例中，所述建立所述信用风险评估模型，还包括：根据断句的标点符号对所述训练数据进行分割，对分割后的训练数据进行统计得到统计特征。

这里，所述断句的标点符号至少包括句号、问号、叹号。

本发明实施例提供一种基于文本分析的信用风险评估方法及装置，其中，获取借款人的文本；对所述文本进行分析，得到基本语言特征，所述基本语言特征用于预测借款人是否违约；将所述基本语言特征输入到预设的信用风险评估模型，得到从所述信用风险评估模型输出的所述借款人的信用风险值；输出所述借款人的信用风险值；如此，能够有效地对借款人的信用风险进行评估，从而为投资人在投资时提供重要的决策依据。

实施例二

本实施例介绍一下实施例一中的抽象文本特征与基本语言特征，图2为本发明实施例中抽象文本特征与基本语言特征之间的关系示意图，如图2所示，为了从借款人的文本信息中挖掘有用信息，首先从文本信息中识别各种抽象文本特征，其中所述抽象文本特征用于描述借款人的各个方面；然后根据所述抽象文本特征构建和组合基本语言特征。

2.1.抽象文本特征

抽象文本特征是根据心理学和语言学等知识，从文本描述中识别出用于信用风险评估的六大抽象文本特征，这六大抽象文本特征包括欺骗性、主观性、情感、文本的可读性、个性特点和思维方式。

1)欺骗性

欺骗性用于识别欺骗者与诚实者，本实施例中从四个维度来定义欺骗性，分别是认知负荷、内部想象力、分解性以及消极情绪。欺骗者不仅仅伪造不存在的事实还需要避免被揭露，因此他们常常不得不花费更多的认知资源，产生较高的认知负荷来阐述简单的故事。通常使用具体性和凝聚性来度量认知负荷的大小。其中具体性可以由Coh-Metrix program从MRC Psycholinguistic Database获得，而凝聚性往往与连接词的数量有着密切关系。研究证明，存在欺骗的描述文本具有高的具体性和很低的凝聚性。

内部想象力与实体词和时态词的使用有关。一般来说，从实践经验的事件描述包含更多的信息，如时间(如“今天”、“昨天”和“本月”)和地点(如“这里”、“有”和“大街”)，这些都不是内部想象力。

分解性与人称代词的使用有关，为了使分解假故事，欺骗者总是使用更多的词汇的第三人(像“她”和“他”)来描述故事。

消极情绪和情绪词的使用相关，因为内疚的增加引起的撒谎，欺骗者总是使用比诚实者更多的消极词汇。

2)主观性

主观性是文本挖掘的一种，它用来评估文本的主客观情况或者倾向，是关于客观世界的信息多还是侧重于个人的感觉。研究证明，包含客观信息多的文本更容易违约拖欠。贷款者在提供一系列关于借贷情况的客观信息后，信用高的借款者在文本描述中更加侧重于解释借款的用途，从而涉及到更多的主观信息，而存在违约风险的借款者不愿意更多的涉及不愉快的事实，在描述时则使用大量客观信息。因此，主观性与词汇的主观性等情感特征以及反映人思想见解的实体特征，情态动词的使用，数词、形容词以及副词的使用情况等都有很密切的联系。

3)情感

情感也即对借款者文本描述的情感方向进行一个方向性的把握，通过对文本进行处理，判断借款者是积极还是消极，友好与否等，从深层次了解借款者的观点、情绪以及态度。通过对情感基本特征的组合分析，从而形成一个对于文本更加全面立体的情感方面的认知。借款者对待生活越积极乐观越拥有更高的信用度，反之亦然。

4)个性特点

人与人之间最基本的不同就是他们各自的性格特点，性格特点包括行为、气质、情绪以及内在的精神。性格特征的培养是一个长期、稳定的过程，影响着个体行为的很多不同方面，比如乐于分享、积极向上的性格的人比吝啬、悲观的人违约风险更低。而在性格上越重要的差别越容易体现在单个词中，在文本中语言学特征也会如实反映出个体性格的特点。

性格特点可以从五个维度来定义，也就是被人们熟知的Big Five。第一个就是外向性，外向的人更愿意与人沟通，倾向于使用短句子词汇种类少，文本中多用动词、代词、副词以及感叹词等，文本的情感也多是积极乐观，包含更多的社会词汇等等。在众多内外向性格特点的影响因素中，可以采用formality的度量方式挑选最重要的维度进行计算：

F＝(noun freq+adjective freq+preposition freq+article fre-pronoun freq-verb freq-adverb freq-interjection freq+100)/2

研究发现每个维度与语言学特征都存在着微小但是重要的联系。神经质的群体喜欢使用更多的第一人称单数来表达，他们的文本中有更多的消极词汇和少量的积极词汇。而相反，情绪稳定的人积极词汇使用更多，也更常用冠词。具有严谨性的人尽量避免使用否定词、消极词汇和情态动词。从开放性的人的文本中可以找到更多的长词和不确定词，他们更不习惯于使用第一人称单数和过去时态来表述。最后，宜人性描述了人们是否易于相处的方面，发誓咒骂词汇、消极词汇和愤怒词汇更多的人往往更难以相处。

可见，性格特点与语言学特征有着密切的联系，它不仅与词的本身特征有关(如词长、词的种类)，还可以体现在词的情感倾向(积极、消极)、词性(形容词、动词)、时态(第三人称、过去式)以及词的具体含义(社会词汇)等方面。

5)思维方式

在文本信息中，除了包含了内容词汇，也即有着明确含义的用来表述文本思想的词汇外，还存在大量的功能词汇。功能词汇反映了作者沟通的方式而非描述的实际内容，它与作者的所处的社会环境与心理真实世界更加吻合，随着事情的发展与作者认知的变化，使用的功能词汇也会发生相应的变化。

首先感知复杂性描述了在论证时的丰富度，也即相互矛盾的方案间的差异度以及不同解决方法间的整合性，通常用排除词汇和连词表示。喜欢讲真实故事的人更倾向于使用排除词。描述复杂具体信息的时候，多数人会增加介词、感知词以及长词的使用。原因词汇和见解词汇这两种感知机制经常出现在描述过去的事件当中，能够反映出对已经发生过的事情的思考。如果一个人对所描述的事情不确定，那么更喜欢使用不确定词汇和补充词来进行缓冲，过多使用不确定性词汇表明故事的真实性存在着质疑。因此，思维方式与词性和描述原因、见解等感知实体词有着一定的联系，可以从这两种基本特征中组合抽象出作者的思维方式，来更加形象的反映出作者在写描述文本时的真实意图。

6)文本的可读性

文本的可读性是一项衡量文本的比较传统的指标，反映着作者的教育程度、社会地位等，已经用在了商品反馈、购买意图、社会媒体信息评论等领域中，它的写作方式影响着读者理解文本的难易程度。从三个维度上来衡量文本的的可读性，分别是词汇种类、词汇易读性和词汇复杂性。

首先介绍词汇种类，如果一个文本使用了更少的词汇种类，那么它应该更容易阅读。通常使用公式(1)，一个不依赖于文本长度的对于词汇丰富度的测量公式。

公式(1)中，N是文本的长度，V(i,N)表示某类词出现了i次，词汇易读性和词汇复杂性也与文本句子的长度，词汇长度以及词汇种类等有着密切关系。

研究证明，文本的可读性较高的文本所对应的贷款不会违约的概率更大。如果一个人接受过良好的教育并且有着稳定的高收入，他所写的借款描述会更加清晰可读，对应的信用度也就越好。

2.2.基本语言特征

抽象文本特征可以从实际抽象意义角度反映作者违约意图以及信用习惯，但是却没有办法从文本特征中直接抽取。因此，根据抽象文本特征的意义以及影响抽象文本特征的文本特征因素，统计概括为5种基本语言特征，这些特征可以通过机器学习方法和统计方法直接从文本中得到，从而使用这些特征表示抽象文本特征，最终得到与还款意愿的内在关系，作为预测是否违约的特征。

1)统计特征

文本特征从直观上来讲，最容易从中抽取到的部分是可以经过统计直接得到的，比如文本中出现的句子数量、单词数量、单词长度等等，这些特征容易统计计算，并且可以从不同程度上反映出写作者的写作态度，甚至生活态度。比如句子的长度可以从一定程度上反映出文本的可读性，在文本中存在的句子越长，越不容易被阅读，表达的意思也越晦涩。此外，对于同一个统计对象，比如单词、数量和种类也代表着不同的含义，单词数量表示文本的长度，而单词种类表示的是文本中使用的词汇量，反映了单词使用的多样化。

抽取这些特征的方法有很多，本发明实施例采用统计方法，该方法具有简单、易行的特点。首先，如果要统计文本中有关句子的特征，那么一定要对文本进行分句。根据英文中常见的用于断句的标点符号来进行分割识别，比如句号、问号、叹号等，其中重点处理引号和括号的问题。其次，每个句子进行分词，统计有关单词的特征。目前，抽取了17个简单统计特征，这两个特征粒度分别表示句子特征和单词特征；在表2-1中列出了每个特征的意思。

表2-1文本简单统计特征

2)词性特征

在本发明实施例中，采用最大熵模型对单词进行词性标注，也即给每个词分配一个词性类别，例如副词、连词等等。最大熵模型的关键问题在于特征选择，选取的特征直接影响着标注的准确性。在文本中相邻位置单词间的词性都相互影响，词性也与单词本身的后缀、相邻词有关。因此，综合选择文本中单词的上下文特征和单词本身的特征，形成最大熵特征模板，如表2-2所示：

表2-2最大熵模型训练特征模板

特征编号	特征类型	特征模板
1	General	wi＝X&ti＝T
2	General	ti-1＝T1&ti＝T
3	General	ti-1＝T1&ti-2＝T2&ti＝T
4	General	wi+1＝X1&ti＝T
5	Rare	wi的后缀S，\|S\|<5&ti＝T
6	Rare	wi的前缀P，1<\|P\|<5&ti＝T
7	Rare	wi包含数字&ti＝T
8	Rare	wi包含大写字母&ti＝T
9	Rare	wi包含连字符&ti＝T

其中，wi、wi+1、ti、ti-1、ti-2分别表示为当前词、前一个词、当前词性、前词词性、前前词词性。一般(General)特征适用于每个词，只有当单词与稀有(rare)特征类型描述的模板相吻合时，才加入rare特征。

最大熵模型训练语料来自于Penn Treebank，并且参照其提供的词性标注结果标签。在本实施例中使用到的词性特征主要对象为单词级别，因此得到单词级别的词性特征一共有36种。由于得到的词性分类太过详细，比如名词单数与名词复数属于不同类，形容词的比较级和形容词也属于两个不同类等等，将这些词性类别整理合并成了12个词性大类，并且计算了每一类的数量与具体包含种类，如表2-3、表2-4所示。

表2-3经过组合形成的文本词性特征

表2-4无组合的文本词性特征

3)情感特征

除了文本本身直观统计的特征和词性特征外，由于最终目的是考察文本对于信用评估的作用，也即写作者是否存在违约风险，因此还需要抽取有关于写作者情感倾向的特征，这些特征会直接反映出写作者的人生态度和价值观念，也在很大程度上能够反映出违约的风险。考虑到机器学习的方法进行训练积极/消极等情感需要大量标注和训练成本，并且标注时需要对语言词性分类知识的专业了解和掌握，因此本发明实施例中采用情感词典的方法抽取情感特征，选用General Inquirer分类词典，根据分类词典中不同类别下对应的单词与实验文本单词的对应来统计情感极性词语的个数及种类。General Inquirer词典中的分类信息来源于the Harvard IV-4dictionary、the Lasswell value dictionary等四个方面，一共156个。根据是否与写作者的态度观念有关，最终选择了15个特征，如表2-5所示：

表2-5文本情感特征

4)实体特征

实体特征一般具有着某些实际意义，比如时间、空间以及因果目标等。研究表明，对于真实事件的描述文本比凭借想象力随意捏造的事件描述包含着更多的空间和时间信息。在判断是否违约的时候，可以通过判断包含实体信息的情况来辨别真实与伪造的文本描述的区别。同样使用的是General Inquirer分类词典，根据分类词典中不同类别下对应的单词与实验文本单词的对应来统计实体词语的个数及种类。最终，得到9个实体特征，如表2-6所示：

表2-6文本实体特征

5)时态特征

时态特征从两方面进行提取。由于Penn Treebank标注语料同样标注了动词的过去式、现在式以及将来时等时态属性，因此可以使用最大熵模型对文本进行训练，得到时态特征。另一方面，使用常用的英语中表示过去、现在以及未来等时间的短语词典，查找句子中与之对应的词，判断句子当前描述的事件发生的时间。最终，结合句子的动词以及时间状语得到句子的时态特征。

实施例三

本发明实施例介绍实施例一中的自然语言处理方法和机器学习方法。

3.1、自然语言处理方法

在P2P平台借贷过程中，借款人提交的借款理由描述等文本信息对信用评估的影响。这些用户文本信息通常是由自然语言组成，也即人们日常使用的口头语或者书面语。自然语言与计算机语言和数字有着明显的不同，它不能被计算机直接表示和理解，也不能直接用于计算，但是自然语言由语法，词语，句子等多种元素组成因而又包含着大量信息，能够反映出一个人的性格，感情以及其他复杂情绪。因此，需要采用简单统计方法或者自然语言处理方法对文本进行处理分析，从文本中抽取可以代表其某个维度的信息并且可以量化表示的特征，从而使得计算机可以使用这些特征进行计算，再进行下一步的处理。

在对文本的处理中，除了简单的对单词句子等进行统计外，自然语言处理方法被使用的越来越广泛。自然语言处理方法即是以自动化机器作为工具，通过可计算的方法从词语、句子、段落、文档等不同的粒度进行识别、传输、储存、理解等加工的方法和理论。它可以对文本进行词语切分，词性标注，结构分析甚至意义理解等处理，从而从不同方面获取更多的可以表示文本的特征。

1)词性标注

词性也叫做词类，指词汇基本的语法属性，通常根据词的形态、功能以及包含的语法意义进行划分。词性标注是给某种语言的词标注上其所属的词类，是一项在自然语言处理方法中基础并且重要的工作之一，方法通常分为基于规则的方法和基于统计的方法，基于规则的词性标注需要先通过查字典给句中各词标记所有可能的词类标记，再应用规则逐步删除错误的标记，最终得到正确的结果。词性标注的例子如下：

例句：The lead paint is unsafe.

标注结果：The/Det lead/N paint/N is/V unsafe/Adj.

熵描述了变量取值的不确定性，熵值与这种不确定性呈正相关，取值越大，该随机变量也就越接近均匀分布。在没有获得分布的全部信息时，根据最大熵原则，应该选取在满足现有分布的前提下取值越大的分布，也就是平均分布。根据最大熵原则进行统计建模，是在对分布不了解的情况下能够做出的最佳的选择，因为任意非最大熵原则进行的选择都代表主观加入了非分布信息。

最大熵原则由E.T.Jaynes在1957年提出，在许多领域有着广泛的应用。最大熵方法通过特征表示样本数据中的已知知识，通过增加其他条件使特征的模型期望与观察期望保持一致，从而就变成了最值问题。在构造最大熵模型时，关注于选择哪些有用的特征即可，无需考虑怎样使用。最大熵方法的一般陈述如下：

存在样本数据O，o＝{(m₁，n₁)，(m₂，n₂)，...，(m_l，m_l)}，其中m_i∈M，n_i∈N，求解模型分布p(m，n)，使得该分布满足一下两个条件：

(1)p(m，n)能使熵H(p)最大化，即p^*＝argmaxH(p)；

(2)p(m，n)服从样本数据中已知的统计数据；

求解最大熵模型也就等价于求解下列约束最优化问题：

p^*＝argmaxH(p)

其中，1≤j≤k

∑_x，yp(x，y)＝1，

等式两边分别为模型期望和观察期望最大熵模型对特征的相关性没有要求并且不存在过拟合的问题。从实现的简单性和分类的效果综合考虑，本实施例采用最大熵模型对文本进行词性标注。

2)情感

人们在评论、写文章、提交申请时所写的文本内容包含着大量关于作者的感情色彩和倾向性，能够从一定程度上反映出作者的性格特点和生活态度。比如积极、消极，又比如认可或者否定等等。情感简单来讲，就是从人们文字性的非结构化数据中判断出隐含在其中的感情倾向。

文本作为一种非结构化数据，是很难被自动理解和处理的。因此在进行情感时，通常会把词句、段落、文档等单独抽取出来从不同层面进行分析，将文本转换为结构化数据。根据其挖掘内容又可以分为意见抽取、意见挖掘、情感挖掘和主观分析。本实施例主要关注于挖掘文本中的情感倾向，抽取其中的情感词汇，判断文本作者的情感态度。

在进行情感时，一方面可以利用较为流行并且成熟的开放的情感词典资源，它们通常会根据词性或者感情色彩等不同依据将词语划分为不同情感类别，从而给每个词从不同角度标上标签，进行全面的描述，同时也能够反映出不同类别的情感词规律。另一面，作为一种分类问题，能够使用机器学习中的分类算法进行处理，从而得到文本的态度倾向。

3.2.机器学习

机器学习从字面上理解即为让机器向人一样理解学习，它能够从数据集中受到启发，彰显数据背后的真实意义。本实施例研究的内容是文本对于信用评估的作用，需要从文本中挖掘的特征集合中判断借款人的信用水平，很难从这些原始文本数据，甚至特征集合中直观的获取所需信息，因此需要借助机器学习算法处理这些无序的数据，将其变成能够被计算机识别处理的量化特征，通过构造某种模型，将使用这些特征表示的文本作为输入数据，从而得到借款人的信用水平最可能所属的类别。机器学习的主要任务就是分类和回归，与本实施例的任务正好一致。分类就是根据特征信息对某一实例进行判断其归属的类别。回归则是通过给定的数据点形成一个最优拟合曲线。它们都属于有监督的学习，必须知道预测什么，即目标变量的分类信息，数据常常分为训练集和测试集。

实施例四

在P2P平台借款人提交的文本信息中的语言特征能否提高信用评估的准确性，能否利用这些语言特征预测出可用值是研究的重要内容。文本包含大量丰富的关于写作者自身的信息，除了语义内容，写作方式、写作习惯等也可以反映出写作者的性格特征，甚至信用水平。但是通常来讲，文本中包含的语法、语义以及情感倾向是不能直接被计算机表示和处理的，因此需要识别出这些特征，并且将这些特征进行量化，从而在文本分析中使用。

为了对借贷文本中的语言特征有一个全面综合的理解，提出了解释和预测互相补充的两个步骤，一方面，通过对相关语言学和心理学文献的总结以及计量经济学模型的应用，研究不同语言信息在预示潜在风险中的作用，选择合适的特征以进行预测；另一方面，采用了常见的几种机器学习的方法使用这些语言特征对信用进行评估，并且分析结果，发掘揭露这些语言信息的预测能力。

基于前述对抽象文本特征以及基本语言特征的介绍，本发明实施例介绍一下实验过程及实验结果。

4.1实验过程

财务相关特征分为两种，一种是基本财务特征，用户在注册和贷款申请时需要填写的财务相关信息，另一种是信用特征，需要根据用户的历史信贷记录或者向专门的机构进行购买的信用特征。将实验数据进行处理得到财务特征数据和上述提到的文本特征数据，财务特征作为对照标准，文本特征数据加上基本财务特征以及文本特征与财务特征合并后的数据进行实验，观察信用评估模型的效果，研究文本特征对信用评估的作用。本实施例采用了机器学习常见的五种基本分类学习算法，分别是决策树、朴素贝叶斯、逻辑回归、神经网络以及随机森林，通过使用不同机器学习模型探索在信用评估中使用文本特征的分类效果。

1)实验数据，本实施例中的实验数据可以参见数据描述。

2)数据预处理和归一化。

由于抽取的文本不能直接利用，因此需要首先对文本进行预处理。从数据库中下载的Listing数据不能直接使用，它不是纯文本格式，而需要从xml格式中抽出。其他两个文本中同样包含了xml标签，因此在抽取特征之前，将标签等与文本无关内容过滤掉。

借贷记录中的每一个条目的取值范围大不相同，比如贷款收入比在0到1之间，贷款数目又在几千之上，统计的词性、词汇特征等数目也是在几个到几百个之间浮动，这些特征值得差异太大容易造成权重失衡，因此在抽取特征后，将每种特征数据变换到同一个范围中，也即归一化。本实验使用简单的最大最小处理方法，也即离差标准化，对原始数据进行线性变换，使结果值都映射到0和1之间。转换函数如下：

其中，max表示最大，min表示最小，x为需要计算的实际数据。

3)特征选择

当训练机器学习模型时输入的特征过于多，不仅会延长训练模型的事件，还常常会出现分类效果反而下降的情况。这是由于在输入的大量特征中，可能存在不相关的特征或者特征间存在依赖关系，也就是所谓的引入噪声。当引入的噪声大于增加特征带来的提升效果时，分类结果的正确率反而出现下降。

特征选择的提出就是解决这类问题，是指从当前抽取的M个特征集合中剔除不相关特征或者冗余特征，只保留对分类具有帮助的特征子集，以降低数据集维度。图3为本发明实施例描述特征选择的一般流程示意图，如图3所示，首先需要设定初始的子集。其次，使用搜索算法确定特征子集。本实验主要采用完全搜索类的最优优先搜索方法。特征子集的个数从1开始，使用穷举法，计算每次新加入一个特征后的子集分类效果，然后使用评价函数来对该子集的分类效果进行判断。本实验采用封装器的评价方法，它会根据分类器的不同而选出不同的特征子集，也即对样本进行试分类，用分类器的错误率作为衡量指标，因此分类效果较好。

4)模型训练

使用机器学习算法训练数据并且使用模型预测，通常遵循以下的步骤。1)准备输入数据。也即本实施例前面提到的抽取文本特征和loan特征，当然训练数据也需要包含已经分好类的目标变量。2)训练算法。机器学习算法从这一步才开始真正学习，将处理后得到的格式化数据输入到算法中，从中抽取知识或者信息，形成可以用来预测的模型，也即得到相应的模型参数。3)测试算法。在使用模型之前，必须测试算法工作的效果。本实施例使用的机器学习算法均属于监督学习，使用已知的用于评估的目标变量值与预测值的关系来进行评测，如果输出结果不满意，再对模型进行改正加以测试。

本实施例采用了五种常见的机器学习分类器。1)决策树分类器，采用信息增益比的度量方式，每次选择信息增益比最高的特征进行划分数据。置信因数设置为0.005对决策树进行裁剪。2)逻辑回归分类器，使用Sigmoid函数，并且使用随机梯度上升法来确定最佳回归系数。3)神经网络分类器，实验采用反向传播神经网络，激活函数为Sigmoid函数。4)随机森林分类器，选择100棵树作为分类器构成。5)朴素贝叶斯分类器。

5)交叉验证

训练好机器学习模型后还要对模型的正确率进行验证，本实施例实验中采用的是五折交叉验证。交叉验证是一种在数据量不够大的情况下随机将数据样本切割成较小子集的实用方法。首先在把其中一个子集作为训练样本来训练分类器，其他子集作为测试集来验证此分类器的正确率等指标。五折交叉验证即将数据集划分为五份，每次选取一份作为测试集，剩下的四份作为训练集，从而进行五次实验，将这些实验所得的正确率进行平均作为对算法准确性的估计。

6)评价指标

本实施例对于文本对信用评估的影响主要采用正确率的评价方式，正确率即表示为在已经有还款违约记录的测试数据上，本实施例使用算法进行分类的结果与原违约记录结果相同的个数占整个实验数据数量的百分比。

4.2实验结果

在前面介绍了实验抽取的文本特征和实验过程后，下面将介绍从不同方面做过的多次实验及相应的实验结果，并对最终的实验结果做了比较和分析。

1)文本特征对信用评估分类效果的影响

为了研究文本特征对信用评估分类效果的影响，本实施例使用财务特征数据、文本特征数据以及财务和文本特征结合的数据分别作为输入数据训练模型并测试，以财务特征数据作为控制变量进行对照。采用了上述提到的五种分类器，计算分类器模型对信用风险评估的准确率。由于增加特征会带来噪声问题，因此考虑到特征数量过多会引起特征过载，从而导致分类效果降低的问题，在进行模型训练之前对特征数据进行了特征选择。再与财务特征分类的结果进行对比。三种特征数据在五种分类器模型上的最终预测结果表6-2所示。

首先将单独使用文本特征进行预测的分类结果与单独使用财务特征预测的分类结果进行比较，从数据中发现，对于大多数的分类器模型而言，使用文本特征预测的正确率虽然比使用财务特征预测的正确率有所降低，但是数值比较接近，相差不大。特别地，经过特征选择后使用随机森林预测的正确率为67.42％，比财务特征的预测正确率还要高0.1％左右；使用神经网络的预测结果为67.83％，与财务特征预测的结果68.37％的差值相差在0.5％以内。另一方面，财务和文本特征的预测结果均比单独使用财务特征的预测结果有了不同程度的提升。

在当前时期的P2P网贷中，一些与借款人相关的信用评级和历史数据、资产数据等与借款相关的客观性可量化数据都没有完全公开，甚至有些数据需要进行购买才可以获得。另一方面，现有的个人信用评估体系还尚未完善，很多借款人不存在足够的财务特征数据来进行信用评估。因此，财务特征获取存在成本高，来源少的问题。相比于财务特征，文本特征的获取就容易的多。在借款人申请贷款的时候，使用对借款的申请描述作为研究对象抽取文本特征，从而对借款人进行信用评估，在成本较低和获取容易的情况下，文本特征可以代替财务特征进行信用风险评估，并且能够得到差别不大的在可接受范围内的评估效果。分类结果数据的对比情况可以直观的表示为图4-1。

此外，将在财务特征中加入文本特征的分类结果与只使用财务特征进行分类的结果进行对比如图4-2所示：不难发现，在五种分类器模型中对于所有分类器模型而言，加入文本特征后的分类正确率都有不同程度的提升。也即说明，本实施例提取的文本特征不但可以用来代替财务特征作为一种准确率稍差但是成本低的信用评估方式，而且在财务特征中加入文本特征后，信用风险的预测准确率也有一定的提升。其中，加入文本特征后，分类正确率最高能够到70.6％，并且使用随机森林分类器能够提升3％。除了使用单分类器进行分类预测之外，本实施例又引入了多分类器集成的概念，探索通过集成进一步提升分类的正确率。

2)文本特征的数量以及种类对信用评估分类效果的影响

根据前面的实验结果，文本特征在信用评估中可以在某种程度上替代财务特征，并且加入文本特征后能够提升信用评估的效果。因此进一步探索文本特征的数量以及不同种类的文本特征对信用评估分类效果是否有影响。使用logistic分类器和随机森林分类器分别对listing借款描述文本的不同特征进行训练，并且与单纯使用控制变量财务贷款本身特征的分类结果进行对比。如图4-3所示，实验结果数据分析显示，对于逻辑回归分类器来讲，虽然加入统计特征简单统计文本特征后逻辑回归分类器的正确率会有稍微降低，但是加入情感特征和词性特征后，正确率都会有所增加，其中加入情感特征后效果提升最好，而加入所有文本特征后，分类的正确率有着明显提升，提高了0.5个百分点。而对于随机森林分类器，加入文本特征后准确率有了显著提升，最高提升了约为3％，同样证明了文本特征可以提高信用评估分类的准确率，但是加入全部特征后的结果比单独加入文本统计特征、情感特征和词性特征后的结果稍微降低了一些。特征数量增加后准确率没有如预期的提高，有可能是在增加数量的同时，噪声也随之增多，使得分类效果有所降低。因此，从数据中可以看出文本特征能够提高信用评估的准确率，并且文本特征越多对信用评估越有帮助。

实施例五

基于多个分类器集成设计一个信用风险评估系统，如图5-1所示。首先，建立七个基本分类器，这七个基本分类器包括六个文本分析的分类器，这六个文本分析的分类器对应于六个抽象文本特征，而这个六个抽象文本特征用于表征借款人的各个不同方面，例如，主观性、欺骗性、文本的可读性、情感、用户的个性特点和思维方式。每一个分类器将输入作为基本语言特征，而且能够预测借款人是否会不履行还款，然后采用融合系统集成七个分类器的输出。

逻辑回归用于欺骗性分类器、主观性分类器和个性特点分类器；随机森林用于可读性分类器、情感分类器和基本的贷款分类器；多层感知器是用于思维方式分类器；决策树用于融合的结果不同的分类器。

5.1实验数据

本实施例中的实验数据来源于Prosper网站，Prosper网站拥有大量的用户，是非常著名的P2P在线服务平台。在Prosper网站提供的数据中，提取了2006年到2008年的借贷记录，因为在这一时期的借贷行为到目前为止都已经有了最终还款结果，无论是违约或者按时还款。经过统计，这三年内一共有可用的结果明确的借贷记录28853条。

Prosper对于还款记录状态分为current、late、paid、charge-off、defaulted、repurchased以及cancelled七个状态，由于实验数据均为已经完成的记录，所以不存在current和late两个状态。然后将数据划分为违约和未违约两类，其中违约包括charge-off和defaulted两类，一共是9937条，则未违约的包含余下几类，一共18916条，违约与未违约记录之比大约为1:1.92。

首先，从Prosper的数据库的借款记录中抽取了描述贷款的8个基本loan特征，这些特征是可以量化的结构化特征，比如贷款收入比、网站评级、借款数目等。由于loan本身的特征都是由数值直接进行描述的，大多与借款人的还款能力、财富水平相关，因此将这些特征作为实验的控制变量，描述了还款的能力。这些特征分别如表5-1所示：

表5-1财务贷款特征

其次，在借款人申请时，有三种文本申请描述可以被使用。一个是借款人提交的描述自身情况和借款原因的listing表中的description项，它是借款人亲自填写的对于此次贷款的一个详细描述。剩下两个是在注册用户表Member中的description和endorsement，它们分别描述了借款人自身情况和关于借款人的推荐书。本实施例中使用listing表中的description文本，主要关注于借款人自身对于借款的描述，从而挖掘出借款人的信用状况。

从文本中根据上述的特征选择和抽取方法，抽取了70个底层特征和组合形成了6个抽象文本特征，则最终输入到模型的特征构成一个特征网络，上层特征由底层特征表示，并代表着底层特征的抽象含义，逐步表达借款者的信用水平。

5.2分类器

下面介绍一下本发明实施例所涉及的机器学习分类器。1)决策树分类器，采用信息增益比的度量方式，每次选择信息增益比最高的特征进行划分数据，置信因数设置为0.005对决策树进行裁剪；2)逻辑回归分类器，使用Sigmoid函数，并且使用随机梯度上升法来确定最佳回归系数；3)神经网络分类器，实验采用反向传播神经网络，激活函数为sigmoid函数；4)随机森林分类器，选择100棵树作为分类器构成；5)朴素贝叶斯分类器。

5.3、实验1

文本特征对信用评估分类效果的影响。

为了研究文本特征对信用评估分类效果的影响，本实施例中使用财务特征数据、文本特征数据以及财务和文本特征结合的数据分别作为输入数据训练模型并测试，以财务特征数据作为控制变量进行对照。采用了上述提到的五种分类器，计算分类器模型对信用风险评估的准确率。由于增加特征会带来噪声问题，因此考虑到特征数量过多会引起特征过载，从而导致分类效果降低的问题，在进行模型训练之前对特征数据进行了特征选择。再与loan特征分类的结果进行对比。三种特征数据在五种分类器模型上的最终预测结果表5-2所示。

首先，将单独使用文本特征进行预测的分类结果与单独使用财务特征预测的分类结果进行比较，从数据中可以发现，对于大多数的分类器模型而言，使用文本特征预测的正确率虽然比使用财务特征预测的正确率有所降低，但是数值比较接近，相差不大。特别地，经过特征选择后使用随机森林预测的正确率为67.42％，比财务特征的预测正确率还要高0.1％左右；使用神经网络的预测结果为67.83％，与财务特征预测的结果68.37％的差值相差在0.5％以内。另一方面，财务和文本特征的预测结果均比单独使用财务特征的预测结果有了不同程度的提升。

表5-2使用单分类器在不同特征数据上的结果

	Bayes	Logistic	决策树	神经网络	随机森林
财务特征	69.26％	70.19％	69.85％	68.37％	67.3％
文本特征	67.3％	67.60％	68.7％	67.83％	67.42％
财务+文本	69.69％	70.6％	70.54％	69.2％	70.22％

5.4、实验2

在本实验中，评估通过结合多个分类器的性能，在每个分类器只考虑一个方面的知识。除了基于基本贷款功能的分类器，有六种文本分类器，使用的文本特性来描述借款人的不同方面，包括文本的可读性、欺骗性、主体性、情绪、个性特点和思维方式。

图5-2为本发明实施例中结合不同数量的分类器的性能对比图，如图5-2所示，将六种单独使用文本特征的分类器和使用财务特征的分类器分别使用逻辑回归、随机森林和神经网络三种分类器对数据独立进行训练得到分类结果，选择每种分类器的某一个分类结果当作第二层分类器的输入，最终通过上层分类器的训练得到最终分类效果。

最终得到当上层分类器使用决策树，并且七个分类器底层分别采用相应分类器(欺骗性：逻辑回归；文本的可读性：随机森林；情感：随机森林；思维方式：神经网络；主观性：逻辑回归；个性特点：逻辑回归；财务分析：随机森林)时，分类效果，正确率为71.35％，相比于财务分析最高的正确率70.19提升了高于1％，相比于单分类器最高正确率70.6％提升了0.75％。同时还可以看到，随着加入文本分类器数目的增多，正确率也在上升，并且都比财务分析和单分类器在listing上的效果好。

通过以上对每种多分类器集成方法效果的分析得出：经过多分类器集成后预测效果相比于单个分类器的预测效果能够有一定的提升。最后，选择每个多分类器集成算法中可以得到的最高的准确率作为算法的结果，与原始的财务特征数据的效果进行对比，可以得到不同多分类器集成算法的对比结果数据。

在上述的多分类器集成算法中，可以看到，使用不同的多分类器集成算法会带来不同幅度的分类正确率的提升。Boosting和bagging是基于相同分类器的决策融合，它们的分类效果比使用不同分类器的决策融合效果稍微差一些，但是从方差可以看出来，分类效果更加稳定。使用不同的分类器作为基分类器，也就是决策融合的决策提供者各不相同，可以使最终的结果考虑到不同的方面，在不同的情形下都适用，得到的最终结果也越正确。也即正确的结果可以经过不同算法的检验，使用的算法类型越多，错误的结果被识别出得几率越大。数据显示，基于加权和简单投票的多分类器集成算法的分类准确率相比于其他几种决策融合的提升是比较高的。这种使用不同基分类器的并行集成算法考虑到不同基分类器的分类能力，赋予它们不同的权重，从而得到更加准确的预测的结果。混合分类器从不同解决问题的角度出发，经过最后决策融合后多样性的体现更加明显，效果也是在本实施例中实现的多分类器集成方法中最好。

综合以上所有实验结果可以分析得到，使用财务+文本特征单个分类器能达到的最高准确率为使用逻辑回归预测，为70.6％，使用财务特征单独预测能达到的最高正确率为使用神经网络分类器，预测结果为70.19％。而经过多分类器集成后，不管采用哪一种算法，相比较使用财务特征的预测效果都有显著提升，混合分类器的提升幅度超过1个百分点，相比较于单分类器使用文本+财务特征的预测效果也有一定的提升，并且由于多分类器集成是综合了多个分类器的结果而做出的决策融合，因此多分类器集成的结果也具有更高的可靠性和稳定性。因此，多分类器集成方法在信用评估的信用分类中，有着重要的作用。

5.5、讨论

实验1的结果表明，不同分类器在文本特性的性能接近传统贷款特征，传统贷款特征包括FICO分数和DTI(债务收入比率)。收集和验证成本FICO分数和DTI是相对高。此外，包括在线P2P贷款的一个目标是提供服务的人没有商业信用记录，即没有FICO分数。

在这些情况下，它是一个很好的选择使用文本分析来评估信用风险。实验1和实验2的结果表明，添加文本特性可以提高整个信用风险评估系统的性能。直接基于随机森林的文本特性添加到现有的系统可能会增加其精度，从67％至70％。通过结合多个文本分类器和基本贷款分类器可以进一步提高精度为71％。所有这些表明，文本信息是对传统财务信息来源一个很好的互补信息来源。金融特征如DTI关注评估借款人的还款能力，文本特征关注评估借款人的还款意愿。

5.6、结论

在本实施例中采用文本分析和整体学习评估网络P2P贷款的信用风险。首先，设计一个包括六个抽象文本特性的概念模型，其中六个抽象文本特性用于从不同方面的探索借款人的思想。

然后，设计一个基于七个分类器的整体信用风险评价体系，这七个分类器中包括对应于6个抽象文本功能的6个文本分析的分类器和一个传统的信用分析的分类器。实验结果表明，不同分类器的表现在文本功能接近那些传统的金融特征包括FICO分数和DTI。

因此，当传统的金融信息在逐渐消失的时候文本信息是一个很好的选择。此外，添加文本特性可以提高整个信用风险评估系统的性能，这意味着文本信息是对传统财务信息来源的一个很好的互补信息来源，当文本信息与传统信息相结合时，能够提升信用风险评估的性能。

实施例六

基于前述的实施例，本发明实施例再提供一种基于文本分析的信用风险评估装置，该装置包括的第一获取单元、分析单元、处理单元、输出单元和建立单元，以及各单元所包括的各模块，都可以通过计算设备中的处理器来实现；当然也可通过逻辑电路实现；在实施例的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图6为本发明实施例六基于文本分析的信用风险评估装置的组成结构示意图，如图6所示，该装置600包括第一获取单元601、分析单元602、处理单元603和输出单元604，其中：

所述第一获取单元601，配置为获取借款人的文本；

所述分析单元602，配置为对所述文本进行分析，得到基本语言特征，所述基本语言特征用于预测借款人是否违约；

所述处理单元603，配置为将所述基本语言特征输入到预设的信用风险评估模型，得到从所述信用风险评估模型输出的所述借款人的信用风险值；

所述输出单元604，配置为输出所述借款人的信用风险值。

本发明实施例中，所述装置还包括：建立单元，配置为建立所述信用风险评估模型，所述建立单元进一步包括获取模块、分析模块、建立模块和融合模块，其中：

所述获取模块，配置为获取训练数据；

所述分析模块，配置为对所述训练数据进行分析，得到所述训练数据的基本语言特征；

所述第一建立模块，配置为将所述基本语言特征作为参数，采用机器学习方法建立不同的抽象文本特征对应的分类器；

所述融合模块，配置为将所述分类器作为基础分类器，使用决策树算法进行决策融合形成信用风险评估模型。

本发明实施例中，所述建立模块中的将所述基本语言特征作为参数，包括：根据所述基本语言特征与所述抽象文本特征之间的关系，将所述基本语言特征输入到每一所述抽象文本特征对应的分类器。

本发明实施例中，所述建立单元，还包括分割模块和统计模块，其中所述分割模块，配置为根据断句的标点符号对所述训练数据进行分割，所述统计模块，配置为对分割后的训练数据进行统计得到统计特征。

本发明实施例中，所述建立单元，还包括第二建立模块和确定模块，其中：

所述第二建立模块，配置为采用不同的机器学习方法建立同一所述抽象文本特征对应的分类器；

所述确定模块，配置为将准确率最高的分类器确定为所述抽象文本特征所对应的分类器。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，本发明实施例中，如果以软件功能模块的形式实现上述的基于文本分析的信用风险评估方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

相应地，本发明实施例再提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行本发明实施例中的基于文本分析的信用风险评估方法。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

工业实用性

本发明实施例中，获取借款人的文本；对所述文本进行分析，得到基本语言特征，所述基本语言特征用于预测借款人是否会违约；将所述基本语言特征输入到预设的信用风险评估模型，得到从所述信用风险评估模型输出的所述借款人的信用风险值；输出所述借款人的信用风险值；如此，能够有效地对借款人的信用风险进行评估，从而为投资人在投资时提供重要的决策依据。

Claims

一种基于文本分析的信用风险评估方法，所述方法包括：

获取借款人的文本；

对所述文本进行分析，得到基本语言特征，所述基本语言特征用于预测借款人是否会违约；

将所述基本语言特征输入到预设的信用风险评估模型，得到从所述信用风险评估模型输出的所述借款人的信用风险值；

输出所述借款人的信用风险值。
根据权利要求1所述的方法，其中，建立所述信用风险评估模型，包括：

获取训练数据；

对所述训练数据进行分析，得到所述训练数据的基本语言特征；

将所述基本语言特征作为参数，采用机器学习方法建立不同的抽象文本特征对应的分类器；

将所述抽象文本特征对应的分类器作为基础分类器，使用决策树算法进行决策融合形成信用风险评估模型。
根据权利要求2所述的方法，其中，所述基本语言特征至少包括文本的统计特征、词性特征、情感特征、实体特征和时态特征；其中所述统计特征包括句子特征、单词特征和标点特征，其中：所述句子特征至少包括：句子总数、平均句长、最大句长、疑问句数量比例；所述单词特征至少包括：平均词长、最长词单词种类数量、单词总数、单词平均出现次数和单词出现最大次数；所述标点特征至少包括：问号数量比例和感叹号数量比例。
根据权利要求2所述的方法，其中，所述抽象文本特征包括欺骗性、主观性、情感、可读性、个性特点和思维方式。
根据权利要求2所述的方法，其中，所述将所述基本语言特征作为参数，包括：

根据所述基本语言特征与所述抽象文本特征之间的关系，将所述基本语言特征输入到每一所述抽象文本特征对应的分类器。
根据权利要求2所述的方法，其中，所述建立所述信用风险评估模型，还包括：根据断句的标点符号对所述训练数据进行分割，对分割后的训练数据进行统计得到统计特征。
根据权利要求6所述的方法，其中，所述断句的标点符号至少包括句号、问号、叹号。
根据权利要求2至7任一项所述的方法，其中，所述建立所述信用风险评估模型，还包括：

采用不同的机器学习方法建立同一所述抽象文本特征对应的分类器；

将准确率最高的分类器作为所述抽象文本特征所对应的分类器。
根据权利要求8所述的方法，其中，所述机器学习方法包括：人工神经网络方法、支持向量机方法、决策树方法、贝叶斯方法、随机森林方法、逻辑回归方法。
根据权利要求9所述的方法，其中，所述将所述分类器作为基础分类器，包括：将逻辑回归方法对应的分类器作为基础分类器。
一种基于文本分析的信用风险评估装置，所述装置包括第一获取单元、分析单元、处理单元和输出单元，其中：

所述第一获取单元，配置为获取借款人的文本；

所述分析单元，配置为对所述文本进行分析，得到基本语言特征，所述基本语言特征用于预测借款人是否会违约；

所述处理单元，配置为将所述基本语言特征输入到预设的信用风险评估模型，得到从所述信用风险评估模型输出的所述借款人的信用风险值；

所述输出单元，配置为输出所述借款人的信用风险值。
根据权利要求11所述的装置，其中，所述装置还包括：建立单元，配置为建立所述信用风险评估模型，所述建立单元进一步包括获取模块、分析模块、建立模块和融合模块，其中：

所述获取模块，配置为获取训练数据；

所述分析模块，配置为对所述训练数据进行分析，得到所述训练数据的基本语言特征；

所述第一建立模块，配置为将所述基本语言特征作为参数，采用机器学习方法建立不同的抽象文本特征对应的分类器；

所述融合模块，配置为将所述分类器作为基础分类器，使用决策树算法进行决策融合形成信用风险评估模型。
根据权利要求12所述的装置，其中，所述建立模块中的将所述基本语言特征作为参数，包括：根据所述基本语言特征与所述抽象文本特征之间的关系，将所述基本语言特征输入到每一所述抽象文本特征对应的分类器。
根据权利要求12所述的装置，其中，所述建立单元，还包括分割模块和统计模块，其中所述分割模块，配置为根据断句的标点符号对所述训练数据进行分割，所述统计模块，配置为对分割后的训练数据进行统计得到统计特征。
根据权利要求12至14任一项所述的装置，其中，所述建立单元，还包括第二建立模块和确定模块，其中：

所述第二建立模块，配置为采用不同的机器学习方法建立同一所述抽象文本特征对应的分类器；

所述确定模块，配置为将准确率最高的分类器确定为所述抽象文本特征所对应的分类器。
一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行权利要求1至10任一项所述的基于文本分析的信用风险评估方法。