WO2021037280A2

WO2021037280A2 - 基于rnn的反洗钱模型的训练方法、装置、设备及介质

Info

Publication number: WO2021037280A2
Application number: PCT/CN2020/117207
Authority: WO
Inventors: 兰冲; 郭天佑; 汪亚男; 肖和兵; 李元; 夏尔科
Original assignee: 深圳前海微众银行股份有限公司; 香港科技大学
Priority date: 2020-06-30
Filing date: 2020-09-23
Publication date: 2021-03-04
Also published as: CN111915437A; WO2021037280A3; CN111915437B

Abstract

本申请公开了一种基于RNN的反洗钱模型的训练方法、装置、设备及介质。该方法包括：获取训练样本集，训练样本集包括样本客户的第一交易特征序列数据、第一客户属性特征数据和标注标签；将第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；将第一客户属性特征数据输入至预设反洗钱模型的全连接神经网络层中，得到第二特征表达；对第一特征表达与第二特征表达进行拼接，得到拼接特征数据；通过拼接特征数据、标注标签和预设损失函数对预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。

Description

基于RNN的反洗钱模型的训练方法、装置、设备及介质

相关申请的交叉引用

本申请要求于2020年8月7日提交中国专利局、申请号为202010794245.1、申请名称为“基于RNN的反洗钱模型的训练方法、装置、设备及介质”的中国专利申请的优先权，以及于2020年6月30日提交中国专利局、申请号为202010618231.4、申请名称为“反洗钱模型的训练方法、装置、设备及计算机存储介质”，这两个专利申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及金融科技(Fintech)技术领域，尤其涉及一种基于RNN的反洗钱模型的训练方法、装置、设备及介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

反洗钱主要是指预防通过各种方式隐瞒、掩饰犯罪所得和收益来源或收益性质的洗钱行为。随着金融市场逐渐成熟，国家对反洗钱监管愈加重视，现有的金融机构均建立反洗钱机制来识别金融交易过程中的反洗钱风险。目前采取的方式通常为：在金融监控系统上设置大量的反洗钱模型来识别每笔交易数据是否存在一定的洗钱风险，如果存在则进行风险提醒。现有的反洗钱模型的训练过程，往往依赖于人工整理的特征，并且在整理特征时，只是采用常规的特征选择方法如IV(Information Value，信息价值)值筛选方法，以筛选得到用于模型训练的特征，进而输入至预设类型的模型中进行训练。然而，由于金融交易的复杂性，各个特征之间实际上是存在关联的，而上述方式无法考虑到各特征之间的联系，从而导致模型训练的准确性较差，进而影响后续反洗钱客户检测结果的准确性。

发明内容

本申请的主要目的在于提供一种基于RNN的反洗钱模型的训练方法、装置、设备及介质，旨在解决现有反洗钱模型训练的准确性较差的问题。

为实现上述目的，本申请提供一种基于RNN的反洗钱模型的训练方法，所述基于循环神经网络RNN的反洗钱模型的训练方法包括：

获取训练样本集，所述训练样本集包括样本客户的第一交易特征序列数据、第一客户属性特征数据和标注标签；

将所述第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；

将所述第一客户属性特征数据输入至所述预设反洗钱模型的全连接神经网络层中，得到第二特征表达；

对所述第一特征表达与所述第二特征表达进行拼接，得到拼接特征数据；

通过所述拼接特征数据、所述标注标签和预设损失函数对所述预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。

在一实施例中，所述将所述第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达的步骤之前，还包括：

根据所述第一交易特征序列数据获取各样本客户的交易次数；

根据所述各样本客户的交易次数检测是否存在交易次数大于预设次数的样本客户；

若存在，则根据检测结果对所述第一交易特征序列数据和所述第一客户属性特征数据进行数据增强处理；

所述将所述第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达的步骤包括：

将经数据增强处理的第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；

所述将所述第一客户属性特征数据输入至所述预设反洗钱模型的全连接神经网络层中，得到第二特征表达的步骤包括：

将经数据增强处理的第一客户属性特征数据输入至所述预设反洗钱模型的全连接神经网络层中，得到第二特征表达。

在一实施例中，所述根据检测结果对所述第一交易特征序列数据和所述第一客户属性特征数据进行数据增强处理的步骤包括：

根据检测结果获取目标正例样本客户和目标负例样本客户，并获取所述目标正例样本客户的第二交易特征序列数据和第二客户属性特征数据、及所述目标负例样本客户的第三交易特征序列数据和第三客户属性特征数据；

根据预设采样次数公式和第一预设平衡参数确定所述目标正例样本客户的第一采样次数，并根据所述预设采样次数公式和第二预设平衡参数确定所述目标负例样本客户的第二采样次数；

根据所述第一采样次数对所述第二交易特征序列数据进行采样，根据第一采样结果对所述第二交易特征序列数据进行扩充，得到第四交易特征序列数据，并根据所述第一采样结果对所述第二客户属性特征数据进行扩充，得到第四客户属性特征数据；

根据所述第二采样次数对所述第三交易特征序列数据进行采样，根据第二采样结果对所述第三交易特征序列数据进行扩充，得到第五交易特征序列数据，并根据所述第二采样结果对所述第三客户属性特征数据进行扩充，得到第五客户属性特征数据；

根据所述第四交易特征序列数据和所述第五交易特征序列数据确定最大交易次数；

根据所述最大交易次数对所述第四交易特征序列数据、所述第五交易特征序列数据、及除所述目标正例样本客户和所述目标负例样本客户之外的样本客户的交易特征序列数据进行填充处理，并根据填充处理结果得到经数据增强处理的第一交易特征序列数据；

根据所述第四客户属性特征数据、所述第五客户属性特征数据和所述第一客户属性特征数据，得到经数据增强处理的第一客户属性特征数据。

在一实施例中，所述基于RNN的反洗钱模型的训练方法还包括：

在经过数据增强处理后，获取当前训练样本集中正例样本客户的比例；

根据所述比例调整所述预设损失函数的权重系数；

所述通过所述拼接特征数据、所述标注标签和预设损失函数对所述预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型的步骤包括：

通过所述拼接特征数据、所述标注标签和调整权重系数后的预设损失函数对所述预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。

在一实施例中，所述通过所述拼接特征数据、所述标注标签和预设损失函数对所述预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型的步骤之后，还包括：

获取测试样本集；

通过所述测试样本集对所述初始反洗钱模型进行测试，得到测试结果，所述测试结果包括召回率和精度；

检测所述召回率和所述精度是否满足预设条件；

若不满足预设条件，则对所述初始反洗钱模型再次进行训练，得到最终的反洗钱模型。

在一实施例中，所述对所述初始反洗钱模型再次进行训练，得到最终的反洗钱模型的步骤包括：

将所述训练样本集输入至所述初始反洗钱模型，得到分类标签；

根据所述分类标签从所述训练样本集中筛选得到目标训练样本子集；

根据所述目标训练样本子集和所述预设损失函数对所述初始反洗钱模型再次进行迭代训练，得到最终的反洗钱模型。

获取目标特征数据及其对应的目标标注标签，所述目标特征数据包括所述第一客户属性特征数据、所述第一特征表达、所述拼接特征数据对应的第一输出特征向量；

对所述第一输出特征向量进行降维处理，并根据预设显示方式和所述标注标签对降维处理后的第一输出特征向量进行分类展示。

对所述第一交易特征序列数据和所述第一客户属性特征数据进行拆分，得到各样本客户的交易特征数据集和客户属性特征；

对所述交易特征数据集和所述客户属性特征进行组合，得到各样本客户的特征数据组序列，所述特征数据组序列按交易时间排序；

将所述特征数据组序列中的各特征数据组按顺序输入至所述初始反洗钱模型中，并获取各特征数据组经所述初始反洗钱模型的特征融合层输出的第二输出特征向量；

对所述第二输出特征向量进行降维处理，并对降维处理后的第二输出特征向量进行展示。

在接收到客户类型匹配请求时，根据所述客户类型匹配请求获取待匹配客户的第六交易特征序列数据和第六客户属性特征数据；

将所述第六交易特征序列数据和所述第六客户属性特征数据输入至所述初始反洗钱模型，并获取对应的经所述初始反洗钱模型的特征融合层输出的第三输出特征向量；

获取训练样本集经所述初始反洗钱模型的特征融合层输出的第四输出特征向量；

计算所述第三输出特征向量和所述第四输出特征之间的相似度，并根据计算结果确定匹配类型。

此外，为实现上述目的，本申请还提供一种基于RNN的反洗钱模型的训练装置，所述基于RNN的反洗钱模型的训练装置包括：

第一获取模块，用于获取训练样本集，所述训练样本集包括样本客户的第一交易特征序列数据、第一客户属性特征数据和标注标签；

第一输入模块，用于将所述第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；

第二输入模块，用于将所述第一客户属性特征数据输入至预设反洗钱模型的全连接神经网络层中，得到第二特征表达；

特征拼接模块，用于对所述第一特征表达与所述第二特征表达进行拼接，得到拼接特征数据；

模型训练模块，用于通过所述拼接特征数据、所述标注标签和预设损失函数对预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。

此外，为实现上述目的，本申请还提供一种基于RNN的反洗钱模型的训练设备，所述基于RNN的反洗钱模型的训练设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型训练程序，所述模型训练程序被所述处理器执行时实现如上所述的基于RNN的反洗钱模型的训练方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机存储介质，所述计算机可读存储介质上存储有模型训练程序，所述模型训练程序被处理器执行时实现如上所述的基于RNN的反洗钱模型的训练方法的步骤。

本申请提供一种基于RNN的反洗钱模型的训练方法、装置、设备及介质，获取训练样本集，训练样本集包括样本客户的第一交易特征序列数据、第一客户属性特征数据和标注标签；将第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达，并将第一客户属性特征数据输入至预设反洗钱模型的全连接神经网络层中，得到第二特征表达；然后，对第一特征表达与第二特征表达进行拼接，得到拼接特征数据；通过拼接特征数据、标注标签和预设损失函数对预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。本申请中，将样本客户的一系列交易特征序列数据与客户属性特征作为模型的输入，同时根据输入特征的类型搭建预设反洗钱模型，分别通过适当的网络层对各类特征进行处理，通过上述方式，可将客户的交易行为与客户的属性特征相结合，从而可提高反洗钱模型训练的准确性，进而提高反洗钱模型对反洗钱客户进行检测时、检测结果的准确性。

附图说明

图1为本申请实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本申请基于RNN的反洗钱模型的训练方法第一实施例的流程示意图；

图3为本申请基于RNN的反洗钱模型的训练方法第二实施例的流程示意图；

图4为本申请反洗钱模型涉及的预设反洗钱模型的一结构示意图；

图5为本申请反洗钱模型涉及的分类效果的一可视化展示示意图；

图6为本申请反洗钱模型涉及的模型状态的一可视化展示示意图；

图7为本申请基于RNN的反洗钱模型的训练装置第一实施例的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请实施例基于RNN的反洗钱模型的训练设备可以是智能手机，也可以是PC(Personal Computer，个人计算机)、平板电脑、便携计算机等终端设备。

如图1所示，该基于RNN的反洗钱模型的训练设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的基于RNN的反洗钱模型的训练设备结构并不构成对基于RNN的反洗钱模型的训练设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及模型训练程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的模型训练程序，并执行以下基于RNN的反洗钱模型的训练方法的各个步骤。

基于上述硬件结构，提出本申请基于RNN的反洗钱模型的训练方法的各实施例。

本申请提供一种基于RNN的反洗钱模型的训练方法。

参照图2，图2为本申请基于RNN的反洗钱模型的训练方法第一实施例的流程示意图。

在本实施例中，该基于RNN的反洗钱模型的训练方法包括：

步骤S10，获取训练样本集，所述训练样本集包括样本客户的第一交易特征序列数据、第一客户属性特征数据和标注标签；

现有的反洗钱模型的训练过程，往往依赖于人工整理的特征，并且在整理特征时，只是采用常规的特征选择方法如IV(Information Value，信息价值)值筛选方法，以筛选得到用于模型训练的特征，进而输入至预设类型的模型中进行训练。然而，由于金融交易的复杂性，各个特征之间实际上是存在关联的，而上述方式无法考虑到各特征之间的联系，同时，模型部分通常仅仅采用通用的深度学习模型，并没有根据反洗钱领域的特殊情况，做模型架构上的优化处理。因此，现有的反洗钱模型训练的准确性较差，后续反洗钱客户检测结果的准确性自然也较差。

对此，本申请实施例中，经过分析实验，确定反洗钱行为往往由一系列前后关联的交易行为组成，因此，将样本客户的一系列交易特征序列数据与客户属性特征(包括客户特征和账户特征)作为模型的输入，从而将交易行为与客户的特征、账户的特征结合，有利于更准确地分析出客户的行为是否可疑。同时，对模型进行了优化处理，针对特征的种类，结合了循环神经网络和多层神经网络分别对不同类型的特征进行处理，其中，循环神经网络用于对交易序列进行建模，多层神经网络用于对客户属性特征进行建模，也用于最终的特征融合层。通过上述方式，将样本客户的一系列交易特征序列数据与客户属性特征作为模型的输入，同时根据特征的类型搭建预设反洗钱模型，以分别通过适当的网络层对各类特征进行处理，可将客户的交易行为与客户的属性特征相结合，从而可提高反洗钱模型训练的准确性，进而提高反洗钱模型对反洗钱客户进行检测时、检测结果的准确性。

本实施例的基于RNN(Recurrent Neural Network，循环神经网络)的反洗钱模型的训练方法是由基于RNN的反洗钱模型的训练设备实现的，该设备以服务器为例进行说明。

在本实施例中，先获取训练样本集，训练样本集包括样本客户的第一交易特征序列数据、第一客户属性特征数据和标注标签。

其中，第一交易特征序列数据是一个三维的矩阵，其中，第一维是客户，模型需要处理多个客户的数据；第二维是交易，针对每个客户，一般会有多笔交易；第三维是交易的特征，每笔交易会有一个或多个特征，如交易时间、交易金额等。第一交易特征序列数据又称为时变特征，因为第三维客户的交易特征，在一段时间内每笔交易的特征都不同。第一客户属性特征数据是一个二维的矩阵，其中，第一维是客户，与第一交易特征序列数据的第一维中的客户一一对应；第二维是客户的属性特征，每个客户会有多个属性特征，如职业、年龄等。第一客户属性特征数据又称为时不变特征，因为其加工的维度是每个客户，如客户的职业、年龄等，这些特征在模型训练和测试时每个客户只有一个值。标注标签，可以包括正例标签(洗钱客户)和负例标签(正常交易客户)，此时，对应训练得到的反洗钱模型为一个二分类模型；标注标签，还可以包括多类，不同类型的正例标签(代表不同类型的洗钱客户)和负例标签(正常交易客户)，此时，对应训练得到的反洗钱模型为一个多分类模型。

步骤S20，将所述第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；

然后，将第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达。

其中，循环神经网络层的类型在一实施例中为LSTM(Long-short term memory，长短期记忆网络)、或GRU(Gated Recurrent Unit，LSTM的一种变体)神经网络，当然，在具体实施时，还可以选用其他可处理序列化数据、并能改进传统循环神经网络的梯度消失和梯度爆炸问题的模型。本实施例中，以循环神经网络层为LSTM进行说明。此处，需要说明的是，第一交易特征序列数据具有时序动态特性，因此，选取具有短期记忆优势的循环神经网络对其进行处理，而相比于其他传统的循环神经网络，长短期记忆网络因其特殊的门机制，可以有效减缓传统循环神经网络在训练过程中梯度消失与梯度爆炸的学习问题。

如图4所示的预设反洗钱模型的结构示意图，可通过输入层1(input_1)将第一交易特征序列数据输入至循环神经网络层(LSTM)中。该层将客户的第一交易特征序列数据依次输入，将最后一次输入得到的结果作为该层的输出，因此输出的第一特征表达是二维的。

此外，需要说明的是，如图4所示，可在输入层1(input_1)与循环神经网络层LSTM之间设置masking层(过滤层，用于训练时过滤掉输入中的默认值)和dropout层(丢弃层，用于训练时随机丢弃一些输入特征)，其中，masking层主要是针对input_1的额外处理层，用于过滤掉数据增强处理过程中填充得到的一些交易数据，不再输入网络的下一层；dropout层，则可以一定地概率丢掉输入的某些特征，从而使某些神经元暂时失效，可提高模型的鲁棒性。

步骤S30，将所述第一客户属性特征数据输入至所述预设反洗钱模型的全连接神经网络层中，得到第二特征表达；

将第一客户属性特征数据输入至预设反洗钱模型的全连接神经网络层中，得到第二特征表达。第二特征表达也是二维矩阵。

如图4所示，可通过输入层2(input_2)将第一客户属性特征数据输入至全连接神经网络层dense_1，得到第二特征表达。此外，可在输入层2(input_2)与全连接神经网络层dense_1之间设置dropout层(如图4的dropout_3)，以在一实施例中提高模型的鲁棒性。

需要说明的是，步骤S20和步骤S30的执行顺序不分先后。

步骤S40，对所述第一特征表达与所述第二特征表达进行拼接，得到拼接特征数据；

在通过不同类型的神经网络层得到交易特征对应的第一特征表达和客户属性特征对应的第二特征表达之后，对第一特征表达与第二特征表达进行拼接，得到拼接特征数据。如图4所示，可通过Concatenate(连接)层进行特征拼接。

需要说明的是，由于第一特征表达和第二特征表达都是二维矩阵，第一维是客户，第二维是多个高维特征的数据，因此，拼接得到的拼接特征数据也是二维矩阵，拼接后第二维的特征数量增加了。

步骤S50，通过所述拼接特征数据、所述标注标签和预设损失函数对所述预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。

最后，通过拼接特征数据、标注标签和预设损失函数对预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。本实施例中，以反洗钱模型为二分类模型进行说明，对应的，预设损失函数可选为二元交叉熵损失函数，该预设损失函数中包括正例和负例的权重系数，可根据需要进行调整，例如初始可均设为1。在模型训练过程中，整个反洗钱模型的权值参数可以通过梯度反向传播算法根据定义的损失函数进行训练。

如图4所示，将Concatenate层的输出——拼接特征数据输入至特征融合层(由多层全连接神经网络MLP实现)。具体的，将拼接特征数据输入至dropout_4层后，经过一层dense_2层，随后输入Batch Normalization(一种神经网络的处理模块，用于对输入数据做批量的标准化)进行批量标准化；Batch Normalization对每一维的特征数据进行标准化，进而与后面dense_3的sigmoid函数(一种S型函数)结合，能提高模型的训练效果。

需要说明的是，上述dense_3这一连接层中设置神经元个数为1，表示经过这一层训练后输出的特征数变成1，取值为sigmoid激活函数的结果，作为当前客户的异常分数。在具体实施时，若想进一步区分洗钱行为的类别，也可以将最后一层的神经网络替换成softmax(分类器)多分类输出层。例如，如果样本中的标注标签能区分多个洗钱类型，如类型1，类型2，...，类型q，则将softmax的输出神经元个数变成q，softmax层将输出q个概率值，取最大概率对应的类别为分类结果，q个概率相加为1。

在一实施例中，还需要说明的是，在模型训练的过程中，可在模型的学习初期设置比较大的学习率(比如0.01)，随后每隔一定的迭代周期对学习率进行梯度衰减，从而通过多阶段学习率衰减来有效地训练反洗钱模型，提高模型训练效果。

本申请实施例提供一种基于RNN的反洗钱模型的训练方法，获取训练样本集，训练样本集包括样本客户的第一交易特征序列数据、第一客户属性特征数据和标注标签；将第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达，并将第一客户属性特征数据输入至预设反洗钱模型的全连接神经网络层中，得到第二特征表达；然后，对第一特征表达与第二特征表达进行拼接，得到拼接特征数据；通过拼接特征数据、标注标签和预设损失函数对预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。本实施例中，将样本客户的一系列交易特征序列数据与客户属性特征作为模型的输入，同时根据输入特征的类型搭建预设反洗钱模型，分别通过适当的网络层对各类特征进行处理，通过上述方式，可将客户的交易行为与客户的属性特征相结合，从而可提高反洗钱模型训练的准确性，进而提高反洗钱模型对反洗钱客户进行检测时、检测结果的准确性。

在一实施例中，现有技术中，仅仅只是简单地将样本数据输入常规的机器学习模型、深度学习模型、或多分类模型中进行训练，得到反洗钱模型。然而，由于实际情况中，在反洗钱建模领域，正例客户(可疑交易客户)往往较少，大部分是负例的客户(正常交易客户)，即反洗钱正负样本比例悬殊，如果不对这种数据类别不平衡问题进行处理，模型的效果往往得不到提升。

对此，基于上述第一实施例，提出本申请基于RNN的反洗钱模型的训练方法的第二实施例。参照图3，图3为本申请基于RNN的反洗钱模型的训练方法第二实施例的流程示意图。

在本实施例中，在上述步骤S20之前，该基于RNN的反洗钱模型的训练方法还包括：

步骤S60，根据所述第一交易特征序列数据获取各样本客户的交易次数；

在本实施例中，在获取到训练样本集后，先根据第一交易特征序列数据获取各样本客户的交易次数。其中，第一交易特征序列数据是一个三维矩阵的数据，其中，第一维是客户，第二维是客户的交易，第三维是每笔交易的特征。获取第三维的各个样本客户的特征数量，即为各样本客户的交易次数。

步骤S70，根据所述各样本客户的交易次数检测是否存在交易次数大于预设次数的样本客户；

然后，根据各样本客户的交易次数检测是否存在交易次数大于预设次数的样本客户，得到检测结果。检测的目的在于，通常情况下，反洗钱客户的交易次数较多，因此通过上述检测，可识别出交易次数较多的正例样本客户。当然，也可能检测出少数的交易次数较多的负例样本客户。

此处，需要说明的是，在具体实施时，可以仅检测正例样本客户的交易次数中是否存在交易次数大于预设次数的正例样本客户。

步骤S80，若存在，则根据检测结果对所述第一交易特征序列数据和所述第一客户属性特征数据进行数据增强处理；

若检测到存在交易次数大于预设次数的样本客户，则根据检测结果对第一交易特征序列数据和第一客户属性特征数据进行数据增强处理。其中，检测结果即为样本客户中交易次数大于预设次数的客户。

数据增强处理的目的，在于对正例样本客户的交易特征序列数据进行扩增，以降低数据类别非平衡的影响，提高反洗钱模型的训练效果及准确性。具体的数据增强处理过程可参照下述第三实施例，此处不作赘述。

在一实施例中，若检测到不存在交易次数大于预设次数的样本客户，则根据第一交易特征序列数据确定最大交易次数，然后根据确定得到的最大交易次数对第一交易特征序列数据进行填充处理，即在第三维的交易特征序列末尾填充特征为0的交易数据，使得各个样本客户的交易特征序列的长度一致(即对应的交易次数一致)，进而将经过填充处理的第一交易特征序列输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达，并执行后续步骤。

此时，步骤S20包括：

步骤S21，将经数据增强处理的第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；

步骤S30包括：

步骤S31，将经数据增强处理的第一客户属性特征数据输入至所述预设反洗钱模型的全连接神经网络层中，得到第二特征表达。

在对第一交易特征序列数据和第一客户属性特征数据进行数据增强处理之后，将经数据增强处理的第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；同时，将经数据增强处理的第一客户属性特征数据输入至预设反洗钱模型的全连接神经网络层中，得到第二特征表达，进而执行后续步骤，具体的执行过程可参照上述第一实施例，此处不作赘述。

在反洗钱建模领域，由于正例客户(即反洗钱客户)往往较少，而反洗钱客户的交易次数通常较多，因此，本实施例中，通过对客户的交易次数进行检测，识别出反洗钱客户，进而对其的交易特征序列数据和客户属性特征数据进行数据增强处理，以增加训练样本集中正例样本的数量，平衡正负例样本的比例，减缓数据类别非平衡对模型训练的影响，从而可以提高反洗钱模型的训练效果。

在一实施例中，基于上述第二实施例，提出本申请基于RNN的反洗钱模型的训练方法的第三实施例。

在本实施例中，步骤S80包括：

步骤a81，根据检测结果获取目标正例样本客户和目标负例样本客户，并获取所述目标正例样本客户的第二交易特征序列数据和第二客户属性特征数据、及所述目标负例样本客户的第三交易特征序列数据和第三客户属性特征数据；

在本实施例中，数据增强处理的过程如下：

先根据检测结果获取目标正例样本客户和目标负例样本客户，其中，检测结果即为样本客户中交易次数大于预设次数的客户，包括目标正例样本客户和目标负例样本客户，目标正例样本客户即为交易次数大于预设次数、且标注标签为正例的样本客户，对应的，目标负例样本客户即为交易次数大于预设次数、且标注标签为负例的样本客户。然后，获取目标正例样本客户对应的交易特征序列(记为第二交易特征序列数据)和客户属性特征数据(记为第二客户属性特征数据)、及目标负例样本客户对应的交易特征序列(记为第三交易特征序列数据)和客户属性特征数据(记为第三客户属性特征数据)。

步骤a82，根据预设采样次数公式和第一预设平衡参数确定所述目标正例样本客户的第一采样次数，并根据所述预设采样次数公式和第二预设平衡参数确定所述目标负例样本客户的第二采样次数；

然后，根据预设采样次数公式和第一预设平衡参数确定目标正例样本客户的第一采样次数，并根据预设采样次数公式和第二预设平衡参数确定目标负例样本客户的第二采样次数。可以理解，由于数据扩增主要是针对正例客户进行扩增，因此，第二预设平衡参数小于第一预设平衡参数，可根据实际需要灵活设定。

其中，预设采样次数公式如下：

其中，N _sampling为采样次数，α为增强调节参数，越大则采样越多；L _seq为客户的交易序列长度，L _aug为增强阈值参数(即每段采样的数据段基础大小)，R_trans[Condition]表示交易数据中满足方括号中Condition(条件)的交易样本比例。R_party[Condition]中表示满足方括号中Condition的客户比例。条件[classn∩(L _{cust_trans}>L _{aug_threshold})]表示全部交易数据中，属于类型n的客户且客户交易记录长度超过预设次数L _{aug_threshold}的交易样本比例。条件Ratio[L _{cust_trans}>L _{aug_threshold}]表示全部交易数据中，客户交易记录长度超过预设次数的交易样本比例。条件[class n]表示全部客户中，属于类型n的交易比例。γ _balancemax为非平衡采样的平衡参数，越大则采样越多。其中class n分别class 1和class 0，其中，class 1表示正例客户和class 0表示负例客户。

在确定第一采样次数时，class n为class 1，获取预设采样公式中对应的参数(记为第一参数)，并将获取到的第一参数和第一预设平衡参数代入上述预设采样公式中，即可计算得到目标正例样本客户的第一采样次数。类似地，在确定第二采样次数时，class n为class 0，获取预设采样公式中对应的(记为第二参数)，并将获取到的第二参数和第二预设平衡参数代入上述预设采样公式中，即可计算得到目标负例样本客户的第二采样次数。

例如，假设R _{party[class1]}＝0.1，即样本中正例样本的比例为10％，为了减少正负样本失衡的影响，则希望对正例样本进行多次采样，采样次数就是N _sampling；同时假设R_trans class1∩(L _{cust_trans}>L _{aug_threshold})]与R_trans[L _{cust_trans}>L _{aug_threshold}]相等，即交易次数超过预设次数的客户比例，在正例中和全部客户中的比例一致。

为最大采样次数，假设为5，则会对正例会进行min(1/0.1,5)＝5次采样，来平衡正负样本数量。这个次数还取决于客户交易序列的大小，若最小采样长度是100，而用户的交易序列大小为300，则

则综合前面的5倍，一共将对该客户随机采样5*3＝15次，即第一采样次数为15。

步骤a83，根据所述第一采样次数对所述第二交易特征序列数据进行采样，根据第一采样结果对所述第二交易特征序列数据进行扩充，得到第四交易特征序列数据，并根据所述第一采样结果对所述第二客户属性特征数据进行扩充，得到第四客户属性特征数据；

在确定正例客户对应的第一采样次数后，根据第一采样次数对第二交易特征序列数据进行采样，根据第一采样结果对第二交易特征序列数据进行扩充，得到第四交易特征序列数据。在采样时，可采用随机采样的方式。例如，上例中，第一采样次数为15，对于某1个交易次数超过预设次数的正例客户，需采样15次，从而可由该个样本，扩充得到15个样本。若第二交易特征序列数据对应n个客户，则得到的第四客户属性特征数据包括15n组。

此外，需要说明的是，在采样时，可采用随机采样的方式，限定最小采样长度L _aug和可变采样长度L _{aug_var}。即针对交易记录长度(交易次数)超过L _{aug_threshold}(预设次数)的数据进行长度为[L _aug，L _{aug_var}]的随机子采样，其中，最小采样长度L _aug可等于预设次数L _{aug_threshold}，L _{aug_var}为一范围，其范围最小值大于预设次数L _{aug_threshold}。例如，可设为(L _{aug_threshold}，L _{aug_threshold}+n)，n为正整数。

通过上述方式，可大大增加训练样本集中正例样本的数量，以降低数据类别非平衡的影响，提高反洗钱模型的训练效果及准确性。

对应的，根据第一采样结果对第二客户属性特征数据进行扩充，得到第四客户属性特征数据。即，在第二客户属性特征数据中，获取对应采样客户的客户属性数据，并进行复制，得到与扩充后的第一交易特征序列数据客户数量相同的第四客户属性特征数据。

步骤a84，根据所述第二采样次数对所述第三交易特征序列数据进行采样，根据第二采样结果对所述第三交易特征序列数据进行扩充，得到第五交易特征序列数据，并根据所述第二采样结果对所述第三客户属性特征数据进行扩充，得到第五客户属性特征数据；

根据第二采样次数对第三交易特征序列数据进行采样，根据第二采样结果对第三交易特征序列数据进行扩充，得到第五交易特征序列数据，并根据第二采样结果对第三客户属性特征数据进行扩充，得到第五客户属性特征数据。对负例样本进行数据扩充的过程与上述正例样本的数据扩充过程相一致，此次不作赘述。

此外，需要说明的是，步骤a84与a85的执行顺序不分先后。

步骤a85，根据所述第四交易特征序列数据和所述第五交易特征序列数据确定最大交易次数；

步骤a86，根据所述最大交易次数对所述第四交易特征序列数据、所述第五交易特征序列数据、及除所述目标正例样本客户和所述目标负例样本客户之外的样本客户的交易特征序列数据进行填充处理，并根据填充处理结果得到经数据增强处理的第一交易特征序列数据；

在经过数据扩充处理之后，每个客户对应的交易次数不一样，即交易特征序列数据中的交易数量不一致，此时，则需对客户的交易次数对齐。

具体的，先根据第四交易特征序列数据和第五交易特征序列数据确定最大交易次数。然后，根据最大交易次数对第四交易特征序列数据、第五交易特征序列数据、及除目标正例样本客户和目标负例样本客户之外的样本客户的交易特征序列数据进行填充处理，即在第三维的交易特征序列末尾填充特征为0的交易数据，使得各个客户的交易特征序列的长度一致(即对应的交易次数一致)，进而，根据填充处理结果得到经数据增强处理的第一交易特征序列数据，通过填充处理，可以满足矩阵对齐输入要求。

经过前面的增强步骤，每个客户的交易次数L _{cust_trans}′在[L _aug,L _{aug_var}]范围内，取最大的交易次数L _max′＝max(L _{cust_trans}′)，并对交易小于L _max′的客户，在交易序列末尾填充特征为0的交易数据，填充次数为L _max′-L _{cust_trans}′，填充之后客户的交易次数都对齐为L _max′。

步骤a87，根据所述第四客户属性特征数据、所述第五客户属性特征数据和所述第一客户属性特征数据，得到经数据增强处理的第一客户属性特征数据。

最后，根据第四客户属性特征数据、第五客户属性特征数据和第一客户属性特征数据，得到经数据增强处理的第一客户属性特征数据。即，将四客户属性特征数据、第五客户属性特征数据替换掉第一客户属性特征数据中对应客户的客户数据特征数据，以得到经数据增强处理的第一客户属性特征数据。

本实施例中，通过随机采样的方式对检测到的交易次数较多的客户(大多为反洗钱客户)的交易数据进行增强处理，以增加训练样本集中正例样本的数量，平衡正负例样本的比例，减缓数据类别非平衡对模型训练的影响，从而可以提高反洗钱模型的训练效果。

在一实施例中，基于上述第二实施例，提出本申请基于RNN的反洗钱模型的训练方法的第四实施例。

在本实施例中，在上述步骤S80之后，该基于RNN的反洗钱模型的训练方法还包括：

步骤A，在经过数据增强处理后，获取当前训练样本集中正例样本客户的比例；

在本实施例中，在经过数据增强处理后，获取当前训练样本集中正例样本客户的比例。

步骤B，根据所述比例调整所述预设损失函数的权重系数；

然后，根据该比例(记为a)调整预设损失函数的权重系数。具体的，将1作为预设损失函数中的负例的权重系数，然后，将1/a作为预设损失函数中的正例的权重系数。例如，若经过扩增处理之后，正例样本客户的比例变成20％，则调整预设损失函数中的正例的权重系数设置为5，负例的权重系数保持为1。

此时，步骤S50包括：

最后，通过拼接特征数据、标注标签和调整权重系数后的预设损失函数对预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。具体的执行过程可参照上述第一实施例，此处不作赘述。

本实施例中，根据扩增后的正例样本客户的比例调整损失函数中正负例客户的权重系数，可在模型优化的过程中更偏向于学习识别正例样本，通过上述方式，可进一步减缓数据类别非平衡对模型训练的影响，提高反洗钱模型的训练效果。

在一实施例中，需要说明的是，在模型训练的过程中，在模型的最后会输出异常分数，而根据异常分数来判定结果是否异常需要依赖于异常阈值的确定，在确定异常阈值时，可通过如下方式确定：

由于模型的输出异常分数值范围为[0,1]，可以以0.01为步长，0为起点，1为终点遍历候选阈值。然后，通过在验证集上达到最好的F2(F2-Score，指召回率比准确率重要一倍)值来选择最优的划分阈值。

在一实施例中，基于上述第一至第四实施例，提出本申请基于RNN的反洗钱模型的训练方法的第五实施例。

在本实施例中，在上述步骤S50之后，该基于RNN的反洗钱模型的训练方法还包括：

步骤C，获取测试样本集；

步骤D，通过所述测试样本集对所述初始反洗钱模型进行测试，得到测试结果，所述测试结果包括召回率和精度；

在本实施例中，在训练得到初始反洗钱模型后，可通过测试集对其进行测试，以对最终学习得到的函数进行性能评估。具体的，先获取测试样本集，然后，通过测试样本集对初始反洗钱模型进行测试，得到测试结果，测试结果包括召回率和精度。

步骤E，检测所述召回率和所述精度是否满足预设条件；

若不满足预设条件，则执行步骤F：对所述初始反洗钱模型再次进行训练，得到最终的反洗钱模型。

然后，检测召回率和精度是否满足预设条件，若不满足预设条件，则说明未达到预设要求，此时，则对初始反洗钱模型再次进行训练，得到最终的反洗钱模型。

在一实施例中，步骤F包括：

步骤F1，将所述训练样本集输入至所述初始反洗钱模型，得到分类标签；

步骤F2，根据所述分类标签从所述训练样本集中筛选得到目标训练样本子集；

步骤F3，根据所述目标训练样本子集和所述预设损失函数对所述初始反洗钱模型再次进行迭代训练，得到最终的反洗钱模型。

模型再次训练的过程如下：

先将训练样本集输入至初始反洗钱模型，得到分类标签。在将训练样本集输入初始反洗钱模型时，是不带标注标签的。然后，根据分类标签从训练样本集中筛选得到目标训练样本子集，其中，目标训练样本子集为分类标签为正例的样本客户的交易特征序列数据和客户属性特征数据的集合。

最后，根据目标训练样本子集和预设损失函数对初始反洗钱模型再次进行迭代训练，得到最终的反洗钱模型。其中，预设损失函数的正例的权重系数可设置为1，负例的权重系数设置为1。具体的训练过程与上述第一实施例中初始基于RNN的反洗钱模型的训练过程相一致，此处不作赘述。

需要说明的是，在模型再次训练的过程中，将正负例的权重系数均设置为1，这是因为筛选得到的分类标签为正例的客户中，真的正例样本往往会多于假正例样本，所以不用再去过多的侧重正例的权重了。

在一实施例中，需要说明的是，在模型再次训练的过程中，可通过如下方式确定异常阈值：

通过对目标训练样本子集各样本的异常分数进行排序，利用相邻的两个样本异常值的中间值作为异常阈值候选值，通过在验证集上达到最好的F2值来选择最优的划分阈值。

本实施例中，通过对初始反洗钱模型进行测试，当根据测试结果确定不符合预设条件时，对初始反洗钱模型进行再次训练，得到最终反洗钱模型。通过上述方式，可在一实施例中提高模型的准确性。在应用该模型进行反洗钱客户的检测时，可提高检测结果的准确性。

在一实施例中，现有的模型训练过程中，模型就像是一个黑盒，通过训练样本集对模型进行迭代训练，调整模型的参数，最终得到一个训练好的模型。而工作人员无法感知其训练过程。

对此，基于上述第一至第四实施例，提出本申请基于RNN的反洗钱模型的训练方法的第六实施例。

在本实施例中，该基于RNN的反洗钱模型的训练方法还包括：

步骤G，获取目标特征数据及其对应的目标标注标签，所述目标特征数据包括所述第一客户属性特征数据、所述第一特征表达、所述拼接特征数据对应的第一输出特征向量；

在本实施例中，在模型训练过程中，获取目标特征数据及其对应的目标标注标签，其中，标注标签分为正例客户标签和负例客户标签，目标特征数据包括第一客户属性特征数据、第一特征表达、拼接特征数据对应的第一输出特征向量(即，将拼接特征数据输入预设反洗钱模型的特征融合层dense_2后输出的高维特征)。

步骤H，对所述第一输出特征向量进行降维处理，并根据预设显示方式和所述标注标签对降维处理后的第一输出特征向量进行分类展示。

然后，对上述第一输出特征向量进行降维处理，将高维特征降至3维或2维，得到降维处理后的目标特征数据，降维处理后的目标特征数据对应的包括降维后的第一客户属性特征数据、降维后的第一特征表达、降维后的第一输出特征向量。其中，降维处理方法包括但不限于tSNE(t-distributed Stochastic Neighbor Embedding，T分布和随机近邻嵌入)、PCA(Principal Component Analysis，主成分分析)等高维数据降维的方法。

进而，根据预设显示方式和标注标签对降维处理后的第一输出特征向量进行分类展示。其中，预设显示方式为不同类型标注标签的显示方式，例如，以不同颜色表示不同标注标签，或以不同的形状表示不同标注标签，从而便于用户区分不同类型的客户。如图5所示，为一分类效果的展示图，降维后的特征是2维的。其中，左边的图形是降维后的第一客户属性特征数据，包括正例样本和负例样本的点。中间的图形是降维后的第一特征表达，显然，可以看出经过循环神经网络层的学习得到的高维特征已经具备了一定的分类区分能力，分为2类，正例和负例客户，但是仍有一点重合。右边的图形是降维后的第一输出特征向量，已进一步将正例样本和负例样本区别开来。

本实施例中，通过降维处理技术，对模型训练过程中的高维特征进行降维，从而通过降维后的特征，实现可视化功能，在一个立体空间和平面上展示各个数据点，显示各个阶段的客户属性特征层面、模型特征表示层面的分布情况，从而便于工作人员分析特征数据之间的关系，同时也能直观地看出模型的分类效果。

在一实施例中，模型的可解释性，也一直是个难题。对于模型的分类判断过程，现有方案也没有提供相关的解决思路。

对此，基于上述第一至第四实施例，提出本申请基于RNN的反洗钱模型的训练方法的第七实施例。

在本实施例中，该基于RNN的反洗钱模型的训练方法还包括：

步骤I，对所述第一交易特征序列数据和所述第一客户属性特征数据进行拆分，得到各样本客户的交易特征数据集和客户属性特征；

本实施例中，对第一交易特征序列数据和第一客户属性特征数据进行拆分，得到各样本客户的交易特征数据集和客户属性特征。在拆分时，是按客户的维度进行拆分。其中，交易特征数据集包括各次交易的交易特征数据的集合。

步骤J，对所述交易特征数据集和所述客户属性特征进行组合，得到各样本客户的特征数据组序列，所述特征数据组序列按交易时间排序；

然后，对交易特征数据集和客户属性特征进行组合，得到各样本客户的特征数据组序列，特征数据组序列按交易时间排序。在组合时，将交易特征数据集中每一次交易的交易特征数据分别与客户属性特征进行组合，得到多个特征数据组，进而按交易时间对特征数据组进行排序，得到特征数据组序列。

例如，对于客户A而言，其发生了m次交易，其交易特征数据按交易时间依次记为 t ₁、t ₂、……、t _m，客户属性特征记为s，则可以组合得到特征数据组序列[t ₁，s]、[t ₂，s]、……、[t _m，s]。

步骤K，将所述特征数据组序列中的各特征数据组按顺序输入至所述初始反洗钱模型中，并获取各特征数据组经所述初始反洗钱模型的特征融合层输出的第二输出特征向量；

步骤L，对所述第二输出特征向量进行降维处理，并对降维处理后的第二输出特征向量进行展示。

接着，将特征数据组序列中的各特征数据组按顺序输入至初始反洗钱模型中，并获取各特征数据组经初始反洗钱模型的特征融合层(如图4中的dense_2)输出的第二输出特征向量，记为out ₁、out ₂、……、out _m。然后，对第二输出特征向量进行降维处理，并对降维处理后的第二输出特征向量进行展示。

如图6所示，随着客户交易序列的输入，模型的状态会随着序列的输入变化而变化，图中显示了一种例子，对于正常客户，从交易1到交易m，并没有形成明显的类别；但对于可疑客户，却可以显示明显的状态转移过程。

本实施例中，通过依次输入客户的交易特征和客户属性特征，进而根据输出的特征向量，可展示出模型判断结果的转移过程，便于用户直观地了解到模型的分类判断过程。

在一实施例中，基于上述第一至第四实施例，提出本申请基于RNN的反洗钱模型的训练方法的第八实施例。

在本实施例中，该基于RNN的反洗钱模型的训练方法还包括：

步骤M，在接收到客户类型匹配请求时，根据所述客户类型匹配请求获取待匹配客户的第六交易特征序列数据和第六客户属性特征数据；

除上述采用可视化的方式解释模型的分类能力外，本申请实施例中进一步采用近邻分析的方法，抽取训练样本集和待匹配客户的特征数据在特征融合层学到的高维特征向量，并通过计算向量之间的相似度的方法得到样本的近邻信息，从中可以分析得到模型判断的依据，同时还可以确定出客户与哪一类样本比较匹配。

具体的，在接收到客户类型匹配请求时，根据该客户类型匹配请求获取待匹配客户的第六交易特征序列数据和第六客户属性特征数据。

步骤N，将所述第六交易特征序列数据和所述第六客户属性特征数据输入至所述初始反洗钱模型，并获取对应的经所述初始反洗钱模型的特征融合层输出的第三输出特征向量；

步骤O，获取训练样本集经所述初始反洗钱模型的特征融合层输出的第四输出特征向量；

然后，将第六交易特征序列数据和第六客户属性特征数据输入至初始反洗钱模型，并获取第六交易特征序列数据和第六客户属性特征数据经初始反洗钱模型的处理，在特征融合层(即图4中的dense_2层)输出的第三输出特征向量。同时，获取训练样本集经初始反洗钱模型的特征融合层输出的第四输出特征向量。

步骤P，计算所述第三输出特征向量和所述第四输出特征之间的相似度，并根据计算结果确定匹配类型。

进而，计算第三输出特征向量和第四输出特征之间的相似度，并根据计算结果确定匹配类型。其中，相似度的计算方式可采用余弦相似度、欧式距离、皮尔逊相关系数等。

本实施例中，通过上述方式，可以计算出客户与训练样本集中哪些样本客户比较像，并据此分析客户是否洗钱，与哪一种洗钱类型的客户比较类似等，得到其对应的洗钱类型。

本申请还提供一种基于RNN的反洗钱模型的训练装置。

参照图7，图7为本申请基于RNN的反洗钱模型的训练装置第一实施例的功能模块示意图。

如图7所示，所述基于RNN的反洗钱模型的训练装置包括：

第一获取模块10，用于获取训练样本集，所述训练样本集包括样本客户的第一交易特征序列数据、第一客户属性特征数据和标注标签；

第一输入模块20，用于将所述第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；

第二输入模块30，用于将所述第一客户属性特征数据输入至预设反洗钱模型的全连接神经网络层中，得到第二特征表达；

特征拼接模块40，用于对所述第一特征表达与所述第二特征表达进行拼接，得到拼接特征数据；

模型训练模块50，用于通过所述拼接特征数据、所述标注标签和预设损失函数对预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。

在一实施例中，所述基于RNN的反洗钱模型的训练装置还包括：

第二获取模块，用于根据所述第一交易特征序列数据获取各样本客户的交易次数；

第一检测模块，用于根据所述各样本客户的交易次数检测是否存在交易次数大于预设次数的样本客户；

数据处理模块，用于若存在交易次数大于预设次数的样本客户，则根据检测结果对所述第一交易特征序列数据和所述第一客户属性特征数据进行数据增强处理；

所述第一输入模块20具体用于：将经数据增强处理的第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；

所述第二输入模块30具体用于：将经数据增强处理的第一客户属性特征数据输入至所述预设反洗钱模型的全连接神经网络层中，得到第二特征表达。

在一实施例中，所述第一检测模块具体用于：

第三获取模块，用于在经过数据增强处理后，获取当前训练样本集中正例样本客户的比例；

系数调整模块，用于根据所述比例调整所述预设损失函数的权重系数；

所述模型训练模块50还用于：通过所述拼接特征数据、所述标注标签和调整权重系数后的预设损失函数对所述预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。

第三获取模块，用于获取测试样本集；

模型测试模块，用于通过所述测试样本集对所述初始反洗钱模型进行测试，得到测试结果，所述测试结果包括召回率和精度；

第二检测模块，用于检测所述召回率和所述精度是否满足预设条件；

再次训练模块，用于若不满足预设条件，则对所述初始反洗钱模型再次进行训练，得到最终的反洗钱模型。

在一实施例中，所述再次训练模块具体用于：

第四获取模块，用于获取目标特征数据及其对应的目标标注标签，所述目标特征数据包括所述第一客户属性特征数据、所述第一特征表达、所述拼接特征数据对应的第一输出特征向量；

第一展示模块，用于对所述第一输出特征向量进行降维处理，并根据预设显示方式和所述标注标签对降维处理后的第一输出特征向量进行分类展示。

特征拆分模块，用于对所述第一交易特征序列数据和所述第一客户属性特征数据进行拆分，得到各样本客户的交易特征数据集和客户属性特征；

特征组合模块，用于对所述交易特征数据集和所述客户属性特征进行组合，得到各样本客户的特征数据组序列，所述特征数据组序列按交易时间排序；

第五获取模块，用于将所述特征数据组序列中的各特征数据组按顺序输入至所述初始反洗钱模型中，并获取各特征数据组经所述初始反洗钱模型的特征融合层输出的第二输出特征向量；

第二展示模块，用于对所述第二输出特征向量进行降维处理，并对降维处理后的第二输出特征向量进行展示。

请求接收模块，用于在接收到客户类型匹配请求时，根据所述客户类型匹配请求获取待匹配客户的第六交易特征序列数据和第六客户属性特征数据；

第六获取模块，用于将所述第六交易特征序列数据和所述第六客户属性特征数据输入至所述初始反洗钱模型，并获取对应的经所述初始反洗钱模型的特征融合层输出的第三输出特征向量；

第七获取模块，用于获取训练样本集经所述初始反洗钱模型的特征融合层输出的第四输出特征向量；

类型匹配模块，用于计算所述第三输出特征向量和所述第四输出特征之间的相似度，并根据计算结果确定匹配类型。

其中，上述基于RNN的反洗钱模型的训练装置中各个模块的功能实现与上述基于RNN的反洗钱模型的训练方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质上存储有模型训练程序，所述模型训练程序被处理器执行时实现如以上任一项实施例所述的基于RNN的反洗钱模型的训练方法的步骤。

本申请计算机可读存储介质的具体实施例与上述基于RNN的反洗钱模型的训练方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于RNN的反洗钱模型的训练方法，其中，所述基于循环神经网络RNN的反洗钱模型的训练方法包括：

获取训练样本集，所述训练样本集包括样本客户的第一交易特征序列数据、第一客户属性特征数据和标注标签；

将所述第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；

将所述第一客户属性特征数据输入至所述预设反洗钱模型的全连接神经网络层中，得到第二特征表达；

对所述第一特征表达与所述第二特征表达进行拼接，得到拼接特征数据；

通过所述拼接特征数据、所述标注标签和预设损失函数对所述预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。
如权利要求1所述的基于RNN的反洗钱模型的训练方法，其中，所述将所述第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达的步骤之前，还包括：

根据所述第一交易特征序列数据获取各样本客户的交易次数；

根据所述各样本客户的交易次数检测是否存在交易次数大于预设次数的样本客户；

若存在，则根据检测结果对所述第一交易特征序列数据和所述第一客户属性特征数据进行数据增强处理；

所述将所述第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达的步骤包括：

将经数据增强处理的第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；

所述将所述第一客户属性特征数据输入至所述预设反洗钱模型的全连接神经网络层中，得到第二特征表达的步骤包括：

将经数据增强处理的第一客户属性特征数据输入至所述预设反洗钱模型的全连接神经网络层中，得到第二特征表达。
如权利要求2所述的基于RNN的反洗钱模型的训练方法，其中，所述根据检测结果对所述第一交易特征序列数据和所述第一客户属性特征数据进行数据增强处理的步骤包括：

根据检测结果获取目标正例样本客户和目标负例样本客户，并获取所述目标正例样本客户的第二交易特征序列数据和第二客户属性特征数据、及所述目标负例样本客户的第三交易特征序列数据和第三客户属性特征数据；

根据预设采样次数公式和第一预设平衡参数确定所述目标正例样本客户的第一采样次数，并根据所述预设采样次数公式和第二预设平衡参数确定所述目标负例样本客户的第二采样次数；

根据所述第一采样次数对所述第二交易特征序列数据进行采样，根据第一采样结果对所述第二交易特征序列数据进行扩充，得到第四交易特征序列数据，并根据所述第一采样结果对所述第二客户属性特征数据进行扩充，得到第四客户属性特征数据；

根据所述第二采样次数对所述第三交易特征序列数据进行采样，根据第二采样结果对所述第三交易特征序列数据进行扩充，得到第五交易特征序列数据，并根据所述第二采样结果对所述第三客户属性特征数据进行扩充，得到第五客户属性特征数据；

根据所述第四交易特征序列数据和所述第五交易特征序列数据确定最大交易次数；

根据所述最大交易次数对所述第四交易特征序列数据、所述第五交易特征序列数据、及除所述目标正例样本客户和所述目标负例样本客户之外的样本客户的交易特征序列数据进行填充处理，并根据填充处理结果得到经数据增强处理的第一交易特征序列数据；

根据所述第四客户属性特征数据、所述第五客户属性特征数据和所述第一客户属性特征数据，得到经数据增强处理的第一客户属性特征数据。
如权利要求2所述的基于RNN的反洗钱模型的训练方法，其中，所述基于RNN的反洗钱模型的训练方法还包括：

在经过数据增强处理后，获取当前训练样本集中正例样本客户的比例；

根据所述比例调整所述预设损失函数的权重系数；

所述通过所述拼接特征数据、所述标注标签和预设损失函数对所述预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型的步骤包括：

通过所述拼接特征数据、所述标注标签和调整权重系数后的预设损失函数对所述预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。
如权利要求1至4中任一项所述的基于RNN的反洗钱模型的训练方法，其中，所述通过所述拼接特征数据、所述标注标签和预设损失函数对所述预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型的步骤之后，还包括：

获取测试样本集；

通过所述测试样本集对所述初始反洗钱模型进行测试，得到测试结果，所述测试结果包括召回率和精度；

检测所述召回率和所述精度是否满足预设条件；

若不满足预设条件，则对所述初始反洗钱模型再次进行训练，得到最终的反洗钱模型。
如权利要求5所述的基于RNN的反洗钱模型的训练方法，其中，所述对所述初始反洗钱模型再次进行训练，得到最终的反洗钱模型的步骤包括：

将所述训练样本集输入至所述初始反洗钱模型，得到分类标签；

根据所述分类标签从所述训练样本集中筛选得到目标训练样本子集；

根据所述目标训练样本子集和所述预设损失函数对所述初始反洗钱模型再次进行迭代训练，得到最终的反洗钱模型。
如权利要求1至4中任一项所述的基于RNN的反洗钱模型的训练方法，其中，所述基于RNN的反洗钱模型的训练方法还包括：

获取目标特征数据及其对应的目标标注标签，所述目标特征数据包括所述第一客户属性特征数据、所述第一特征表达、所述拼接特征数据对应的第一输出特征向量；

对所述第一输出特征向量进行降维处理，并根据预设显示方式和所述标注标签对降维处理后的第一输出特征向量进行分类展示。
如权利要求1至4中任一项所述的基于RNN的反洗钱模型的训练方法，其中，所述基于RNN的反洗钱模型的训练方法还包括：

对所述第一交易特征序列数据和所述第一客户属性特征数据进行拆分，得到各样本客户的交易特征数据集和客户属性特征；

对所述交易特征数据集和所述客户属性特征进行组合，得到各样本客户的特征数据组序列，所述特征数据组序列按交易时间排序；

将所述特征数据组序列中的各特征数据组按顺序输入至所述初始反洗钱模型中，并获取各特征数据组经所述初始反洗钱模型的特征融合层输出的第二输出特征向量；

对所述第二输出特征向量进行降维处理，并对降维处理后的第二输出特征向量进行展示。
如权利要求1至4中任一项所述的基于RNN的反洗钱模型的训练方法，其中，所述基于RNN的反洗钱模型的训练方法还包括：

在接收到客户类型匹配请求时，根据所述客户类型匹配请求获取待匹配客户的第六交易特征序列数据和第六客户属性特征数据；

将所述第六交易特征序列数据和所述第六客户属性特征数据输入至所述初始反洗钱模型，并获取对应的经所述初始反洗钱模型的特征融合层输出的第三输出特征向量；

获取训练样本集经所述初始反洗钱模型的特征融合层输出的第四输出特征向量；

计算所述第三输出特征向量和所述第四输出特征之间的相似度，并根据计算结果确定匹配类型。
一种基于RNN的反洗钱模型的训练装置，其中，所述基于RNN的反洗钱模型的训练装置包括：

第一获取模块，用于获取训练样本集，所述训练样本集包括样本客户的第一交易特征序列数据、第一客户属性特征数据和标注标签；

第一输入模块，用于将所述第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；

第二输入模块，用于将所述第一客户属性特征数据输入至预设反洗钱模型的全连接神经网络层中，得到第二特征表达；

特征拼接模块，用于对所述第一特征表达与所述第二特征表达进行拼接，得到拼接特征数据；

模型训练模块，用于通过所述拼接特征数据、所述标注标签和预设损失函数对预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。
一种基于RNN的反洗钱模型的训练设备，其中，所述基于RNN的反洗钱模型的训练设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型训练程序，所述模型训练程序被所述处理器执行时实现如权利要求1至9中任一项所述的基于RNN的反洗钱模型的训练方法的步骤。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有模型训练程序，所述模型训练程序被处理器执行时实现如权利要求1至9中任一项所述的基于RNN的反洗钱模型的训练方法的步骤。