WO2020062702A1

WO2020062702A1 - 短信发送的方法、装置、计算机设备和存储介质

Info

Publication number: WO2020062702A1
Application number: PCT/CN2019/070119
Authority: WO
Inventors: 夏良超
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2018-09-26
Filing date: 2019-01-02
Publication date: 2020-04-02
Also published as: CN109299259A; WO2020062702A9; WO2020062702A8

Abstract

一种企业发票数据监测方法，包括：获取待监测的实时发票数据，将实时发票数据输入预先训练的聚类模型，检测聚类模型的聚类中心的偏移量，当聚类中心的偏移量超过阈值范围时，获取聚类模型中与实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本，根据最近邻算法以及样本所属的识别标签，得到实时发票数据的监测结果。

Description

短信发送的方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2018年9月26日提交中国专利局，申请号为201811122776.5，申请名称为“企业发票数据监测方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种企业发票数据监测方法、装置、计算机设备和存储介质。

背景技术

目前，企业需要贷款时，会给放贷方提供各项企业资料和各个平台的资料获取权限，放贷方根据各项资料分析企业的贷款资质，为企业提供贷款。然而贷款是个长期合作的过程，如果企业的经营状况不佳，可能导致企业的偿还能力降低，考虑到风险问题，放贷方会降低企业的贷款额度或者停止给企业放款。发票数据一定程度反映企业的经营状况，通过对企业发票数据进行分析，可以得到企业的经营状况。

然而，发明人意识到，发票数据中内容繁多，发票数据量大，在人工分析发票数据时，对于异常开票、虚假开票的发票数据的识别精度低，从而无法准确的识别异常开票、虚假开票的发票数据的异常类型。

发明内容

根据本申请公开的各种实施例，提供一种企业发票数据监测方法、装置、计算机设备和存储介质。

一种企业发票数据监测方法包括：

获取待监测的实时发票数据；

将所述实时发票数据输入预先训练的聚类模型，检测所述聚类模型的聚类中心的偏移量；

当所述聚类中心的偏移量超过阈值范围时，获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本；及

根据所述最近邻算法以及所述样本所属的识别标签，得到所述实时发票数据的监测结果。

一种企业发票数据监测装置包括：

数据采集模块，用于获取待监测的实时发票数据；

偏移计算模块，用于将所述实时发票数据输入预先训练的聚类模型，检测所述聚类模型的聚类中心的偏移量；

样本选择模块，用于当所述聚类中心的偏移量超过阈值范围时，获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本；及

监测模块，用于根据所述最近邻算法以及所述样本所属的识别标签，得到所述实时发票数据的监测结果。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待监测的实时发票数据；

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

获取待监测的实时发票数据；

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中企业发票数据监测方法的应用场景图。

图2为根据一个或多个实施例中企业发票数据监测方法的流程示意图。

图3为根据一个或多个实施例中训练聚类模型步骤的流程示意图。

图4为根据一个或多个实施例中检测偏移量步骤的流程示意图。

图5为另一个实施例中最近邻算法中样本分布的示意图。

图6为根据一个或多个实施例中企业发票数据监测装置的结构框图。

图7为根据一个或多个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的企业发票数据监测方法，可以应用于如图1所示的应用环境中。其中，发票服务器102通过网络与服务器104通过网络进行通信。其中，发票服务器102和服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

发票服务器102中存储企业的发票数据，或者发票服务器102具有获取企业的发票数据的权限，发票服务器102和服务器104进行通讯时，发票服务器102将企业的发票数据发送给服务器104。

服务器104中预先训练了聚类模型，聚类模型是根据发票数据训练得到的，针对不同类型的发票数据，需要训练不同的聚类模型，以此，在接收到发票数据时，才能利用对应的聚类模型进行发票数据的检测。

服务器104从发票服务器102获取发票数据后，将发票数据输入聚类模型中，聚类模型进行迭代训练，稳定后，会形成新的聚类中心，从而存在偏移量。服务器104计算该偏移量，并检测该偏移量是否超过阈值范围，超过阈值范围时，然后从而聚类模型中选择最近邻算法的样本，通过样本的识别标签确定发票数据的监测结果。

在其中一个实施例中，如图2所示，提供了一种企业发票数据监测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取待监测的实时发票数据。

发票数据指的是企业在从事销售活动时，开具的业务凭证。发票数据中主要记录了发票代码、发票号码、发票明细序号、商品名称、规格型号、计量单位、商品数量、商品单价、单价含税标志、金额、税率、税额等信息。发票分为电子发票和普通发票，对与电子发票，可以通过识别电子发票相应的位置，得到发票数据；对于普通发票，可以通过将普通发票的图像信息，然后识别图片中普通发票的相应位置，得到发票数据。

在其中一个实施例中，根据电子发票或者普通发票可以建立发票数据的表单，服务器接收发票数据的表单，从而解析表单得到发票数据。

实时发票数据表示在监测周期中，当前获取的发票数据。实时发票数据是针对已完成监测的历史发票数据而言的。

步骤204，将实时发票数据输入预先训练的聚类模型，检测聚类模型的聚类中心的偏移量。

聚类模型是一种分类模型，可以将大量发票数据进行分类。训练好的聚类模型中的发票数据被分成多个簇，每个簇内均包括一个聚类中心。在将实时发票数据输入训练好的聚类模型中时，聚类模型会实时发票数据进行分类，即将实时发票数据划分至其中的一个簇内，对聚类模型进行迭代运算，通过评价函数评估是否迭代到最佳聚类，在迭代到最佳聚类时，聚类中心可能会发生偏移，此时，检测聚类中心的偏移量。

步骤206，当聚类中心的偏移量超过阈值范围时，获取聚类模型中与实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本。

在聚类中心发生偏移时，可能聚类模型中所有的聚类中心均发生偏移，也可能只是其中一个聚类中心发生偏移，因此在计算偏移量时，可以选择所有聚类中心偏移量的总和。

在训练得到聚类模型时，可以根据输入多个处于临界值的正常发票数据，从而分析得到阈值范围。阈值范围内的偏移量的发票数据可以确定是正常的发票数据，超过阈值范围的偏移量的发票数据需要进一步对发票数据进行识别。

另外，最近邻算法是一种分类算法，可以根据距离最近的多个样本对实时发票数据进行分类检测。在确定距离最近时，可以计算实时发票数据与聚类模型中历史发票数据的欧式距离，然后对所有欧式距离进行排序，选择欧式距离最近的历史发票数据直至达到最近邻算法的样本大小。

步骤208，根据最近邻算法以及样本所属的识别标签，得到实时发票数据的监测结果。

识别标签为一种服务器可以识别的标签，不同的识别标签表示发票数据所属于的不同簇，服务器通过对识别标签进行识别，可以得到发票数据对应簇。由于样本是从聚类模型中选择的，因此每个样本均被识别标签进行标记，通过最近邻算法统计不同识别标签的数量，然后判断实时发票数据所属的是识别标签，从而确定发票数据的异常类型。

上述企业发票数据监测方法中，通过获取待监测的实时发票数据，将实时发票数据输入预先训练的聚类模型，检测聚类模型的聚类中心的偏移量，当聚类中心的偏移量超过阈值范围时，获取聚类模型中与实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本，根据最近邻算法以及样本所属的识别标签，得到实时发票数据的监测结果。本申请实施例，通过预先训练的聚类模型，能够精确的识别发票数据中异常开票、虚假开票的情况，然后通过最近邻算法确定异常发票的异常类型，从而在接收到待监测的实时发票数据时，能够提高识别实时发票数据中异常发票数据的异常类型的准确性。

在其中一个实施例中，针对不同类型的发票数据，需要设置不同的聚类模型，即服务器中预先设置企业多个不同类型的发票数据对应的聚类模型。在服务器接收到企业的待监测实时发票数据时，首先确定发票数据的类型，然后选择对应的聚类模型进行发票监测。

在其中一个实施例中，企业1对外销售的商品包括商品A、商品B以及商品C，服务器获取到企业1商品A、商品B以及商品C的历史发票数据后，首先对发票数据进行分类，分类出商品A、商品B以及商品C对应的发票数据然后分别训练得到商品A、商品B以及商品C对应的聚类模型，在对发票数据进行监测时，若接收到商品A的发票数据，服务器将商品A的发票数据对应输入商品A对应的聚类模型中。

在另一些实施例中，将聚类模型进行封装后，存储在服务器中，服务器中存储多个企业的多个封装后的聚类模型，在进行发票数据监测时，只需要通过索引调用需要的聚类模型。封装后的聚类模型实质不参与聚类的运算，即服务器在进行发票数据监测时，调用封装的聚类模型，然后拷贝一个与聚类模型一致的虚拟聚类模型，通过将发票数据输入虚拟聚类模型进行迭代计算，从而判断发票数据是否异常。

在其中一个实施例中，封装后的聚类模型包括固定的簇以及簇内发票数据的识别标签，在进行拷贝时，同时需要拷贝发票数据的识别标签。封装后的聚类模型可以定时进行更新，也可以通过触发条件进行更新，触发条件可以是商品价格调整等。

本申请实施例中，通过将聚类模型进行封装，可以在每次使用聚类模型时，保证聚类模型不被修改，从而保证始终采用同一个聚类模型对发票数据进行监测，从而有效保证发票数据监测的准确性。

在其中一个实施例中，如图3所示，提供一实施例中训练聚类模型步骤的流程示意图，具体步骤如下：

步骤302，获取用于训练聚类模型的历史发票数据。

历史发票数据可以是历史时间段内的发票数据，发票数据需要是同类商品的发票数据。另外，历史发票数据均为正常发票数据，因此可以选择人工分析后的发票数据作为历史发票数据。

步骤304，提取历史发票数据中的第一特征参数点，选择多个第一特征参数点作为初始聚类中心。

发票数据中包括大量的信息，可以选择两种信息的组合，得到第一特征参数点，例如，可以采用税额和单价组合得到第一特征参数点，其他信息的组合也可以得到第一特征参数点。

初始聚类中心可以根据第一特征参数点的分布情况进行选择，也可以根据对发票数据的分类情况进行预测，然后选择符合每种分类中的一个第一特征参数点作为初始聚类中心。一般而言，发票数据存在多种分类，因此需要选择多个第一特征参数点作为初始聚类中心。

步骤306，根据初始聚类中心以及第一特征参数点进行聚类训练，得到聚类模型。

本申请实施例中，聚类训练的过程即将第一特征参数点进行分组的过程，在确定初始聚类中心时，根据初始聚类中心到第一特征参数点的距离，将第一特征参数点分类到各个初始聚类中心中，然后通过迭代不断的更新聚类中心直至聚类中心稳定，得到聚类模型。

在一实施例中，聚类模型的具体实现如下：

S1，在历史发票数据中选择K个作为初始聚类中心。

S2，选定距离量度，例如：欧式距离，计算每个历史发票数据与初始聚类中心的欧式距离，按照欧式距离的排序将每个历史发票数据指派给初始聚类中心形成簇。欧式距离的表达式为：

其中d ₁₂表示历史发票数据与初始聚类中心的欧式距离，(x ₁，y ₁)为第一特征参数点转化到预设坐标系中的坐标，(x ₂，y ₂)为初始聚类中心转化到预设坐标系中的坐标。

S3，在每个簇内重新选择聚类中心。

S4，选定评价函数，评价函数可以选择误差平方和，根据评价函数计算每次迭代的评价值，评价值越小表示聚类越精确，同时需要设定目标值，当评价值达到目标值时，停止迭代，即得到聚类模型。误差平方和的表达式为：

()表示欧式距离函数。

在另一些实施例中，如图4所示，提供一实施例中检测偏移量步骤的流程示意图，具体步骤如下：

步骤402，提取实时发票数据中的第二特征参数点，将第二特征参数点输入聚类模型。

第二特征参数点的提取可以参考第一特征参数点的提取，即服务器在接收到实时发票数据时，选择对应的聚类模型，然后检测聚类模型中第一特征参数点的提取规则，然后提取第二特征参数点。也可以预先设置第一特征参数点和第二特征参数点保持一致的提取规则。

步骤404，根据第二特征参数点、聚类模型的聚类中心和第一特征参数点进行聚类训练，得到偏移聚类模型。

偏移聚类模型是指聚类模型中输入第二特征参数点后，再次迭代稳定得到的聚类模型。

步骤406，获取偏移聚类模型的偏移聚类中心，根据偏移聚类中心和聚类中心位置的偏移距离，得到所述聚类模型的聚类中心的偏移量。

通过聚类模型训练得到偏移聚类模型的过程中，聚类中心可能改变，即偏移聚类中心与聚类中心的偏移距离为偏移量。

对于步骤404，在其中一个实施例中，服务器选择聚类模型后，对聚类模型进行拷贝，得到虚拟聚类模型，然后将第二特征参数点输入虚拟聚类模型，对虚拟聚类模型进行迭代得到偏移聚类模型。

在另一些实施例中，可以通过以下方式获取最近邻算法的样本：计算聚类模型中第一特征参数点与第二特征参数点的距离，获取距离最近的多个历史发票数据作为最近邻算法的样本。

在其中一个实施例中，首先计算第二特征参数点与第一特征参数点的欧式距离，然后确定最近邻算法的样本大小，例如样本大小为K，则选择所有欧式距离中最小的第一特征参数点作为样本，重复这个过程K次得到K个第一特征参数点的样本。

在其中一个实施例中，训练聚类模型需要大量的第一特征参数点，才能保证聚类模型的精确度。因此在获取到历史发票数据时，需要对历史发票数据进行分类，具体可以获取历史发票数据中商品名称字段和规格型号字段值，从而筛选出相同商品的商品历史发票数据。然后提取出商品历史发票数据中合计金额字段值和商品单价字段值，根据合计金额字段值和商品单价字段值得到第一特征参数点。本申请实施例中，合计金额和商品单价可以反映企业该商品的销售情况，商品价格过高或者过低均可能是虚假开票导致，异常的销售合计金额也可能是虚假开票或者异常开票导致的，因此，利用合计金额和商品单价作为第一特征参数点可以准确的反映发票数据是否异常。

在另一些实施例中，识别标签包括：价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签。因此，在训练聚类模型时，可以选择4个初始聚类中心，然后得到4个簇，对4个簇内的历史发票数据分别采用识别标签进行标记。最近邻算法选择的样本均被上述识别标签标记，然后分别统计样本中价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签的数目，通过最近邻算法确定实时发票数据的标签标记，从而输出监测到实时发票数据的异常分类。值得说明的是，可以根据发票数据的实际情况选择识别标签的种类，而不限于是4种。

本申请实施例中，簇内被识别标签标记的历史发票数据均为正常发票数据，根据预先分析各种异常发票数据的类型以及异常发票数据的分布情况，对簇内历史发票数据进行标记。对于已训练好的聚类模型，可以监测到发票数据是否异常，但是无法监测到发票数据的异常类型，通过最近邻算法以及设置的识别标签，可以对异常发票数据的异常类型进行预测，从而使服务器在检测到异常发票数据时可以输出异常发票数据的异常类型，从而完成实时发票数据的监测。

在其中一个实施例中，图5为最近邻算法中样本分布的示意图，在图5中，样本包括价格虚高标签和总额虚高标签对应的历史发票数据，统计可知价格虚高标签多于总额虚高标签，因此可以输出价格虚高的监测结果。

在其中一个实施例中，由于聚类模型训练好之后即封装，为了保证监测发票数据的准确性，可以在对实时发票进行预测时，进行聚类模型的更新，具体操作如下：当聚类中心的偏移量在阈值范围内时，获取实时发票数据在偏移聚类模型对应的簇，统计簇内历史发票数据的数目。当数目小于其他簇内历史发票数据的数目的均值时，删除历史税务数据数量最多的簇中的一个历史税务数据，根据实时发票数据更新聚类模型。

本申请实施例中，训练好的聚类模型包括多个簇，由于训练时历史发票数据的随机性，每个簇内的历史发票数据分配不均，可能导致监测不准确的问题，因此，在监测到正常的发票数据时，需要判断是否可以根据正常的发票数据对聚类模型进行更新。判断的条件设置为实时发票数据的簇内的历史发票数据是否小于其他簇内历史发票数据的均值，其他簇内历史发票数据的均值指的是其他簇内历史发票数据求和后再根据其他簇的个数取均值。为了保证聚类模型中历史发票数据个数的不变，可以将历史发票数据最多的簇中选择删除一个历史发票数据，从而在进行监测时，不改变计算的复杂程度。

在一些具体实施例中，服务器中预先训练多个企业多个商品的聚类模型，建立企业-商品名称-商品型号的索引，在接收到待监测发票数据时，读取发票数据中的纳税人字段、商品名称字段和商品型号字段检索到对应的聚类模型，提取发票数据中的特征参数点，然后拷贝一个虚拟聚类模型，将特征参数点输入虚拟聚类模型中，然后进行迭代计算，当虚拟聚类模型稳定后，检测当前的聚类中心，获取当前的聚类中心和聚类模型的聚类中心的偏移量，当偏移量超过阈值时，选定最近邻算法进行发票数据类型的判断，确定最近邻算法的样本大小，从而虚拟聚类模型中选择对应数目的历史发票数据的特征参数点作为样本，从而通过样本所属的识别标签输出对待监测发票数据的监测结果。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图6所示，提供了一种企业发票数据监测装置，包括：数据采集模块602、偏移计算模块604、样本选择模块606和监测模块608，其中：

数据采集模块602，用于获取待监测的实时发票数据。

偏移计算模块604，用于将实时发票数据输入预先训练的聚类模型，检测聚类模型的聚类中心的偏移量。

样本选择模块606，用于当聚类中心的偏移量超过阈值范围时，获取聚类模型中与实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本。

监测模块608，用于根据最近邻算法以及样本所属的识别标签，得到实时发票数据的监测结果。

上述企业发票数据监测装置中，通过数据采集模块602获取待监测的实时发票数据，偏移计算模块604将实时发票数据输入预先训练的聚类模型，检测聚类模型的聚类中心的偏移量，当聚类中心的偏移量超过阈值范围时，样本选择模块606获取聚类模型中与实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本，监测模块608根据最近邻算法以及样本所属的识别标签，得到实时发票数据的监测结果。本申请实施例，通过预先训练的聚类模型，能够精确的识别发票数据中异常开票、虚假开票的情况，然后通过最近邻算法确定异常发票的异常类型，从而在接收到待监测的实时发票数据时，能够提高识别异常发票数据的异常类型的准确性。

在其中一个实施例中，还包括模型训练模块，用于获取用于训练聚类模型的历史发票数据，提取历史发票数据中的第一特征参数点，选择多个第一特征参数点作为初始聚类中心，根据初始聚类中心以及第一特征参数点进行聚类训练，得到聚类模型。

在其中一个实施例中，偏移计算模块604用于提取实时发票数据中的第二特征参数点，将第二特征参数点输入聚类模型，根据第二特征参数点、聚类模型的聚类中心和第一特征参数点进行聚类训练，得到偏移聚类模型，获取偏移聚类模型的偏移聚类中心，根据偏移聚类中心和聚类中心位置的偏移距离，得到聚类模型的聚类中心的偏移量。

在其中一个实施例中，样本选择模块606还用于计算聚类模型中第一特征参数点与第二特征参数点的距离，获取距离最近的多个历史发票数据作为最近邻算法的样本。

在其中一个实施例中，模型训练模块，还用于获取历史发票数据中商品名称字段值以及规格型号字段值均相同的商品历史发票数据，提取商品历史发票数据中的合计金额字段值以及商品单价字段值，根据合计金额字段值以及商品单价字段值，得到第一特征参数点。

在其中一个实施例中，识别标签包括：价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签，监测模块608还用于统计样本的识别标签中价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签的数量，确定价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签中数量最多的样本的识别标签为实时发票数据的监测结果。

在其中一个实施例中，还包括更新模块，用于当聚类中心的偏移量在阈值范围内时，获取实时发票数据在偏移聚类模型对应的簇，统计簇内历史发票数据的数目；当数目小于其他簇内历史发票数据的数目的均值时，删除历史发票数据数量最多的簇中的一个历史发票数据，根据实时发票数据更新所述聚类模型。

关于企业发票数据监测装置的具体限定可以参见上文中对于企业发票数据监测方法的限定，在此不再赘述。上述企业发票数据监测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性计算机可读存储介质、内存储器。该非易失性计算机可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性计算机可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储企业发票数据监测的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种企业发票数据监测方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：

获取待监测的实时发票数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种企业发票数据监测方法，所述方法包括：

获取待监测的实时发票数据；

将所述实时发票数据输入预先训练的聚类模型，检测所述聚类模型的聚类中心的偏移量；

当所述聚类中心的偏移量超过阈值范围时，获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本；及

根据所述最近邻算法以及所述样本所属的识别标签，得到所述实时发票数据的监测结果。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用于训练聚类模型的历史发票数据；

提取历史发票数据中的第一特征参数点，选择多个第一特征参数点作为初始聚类中心；及

根据所述初始聚类中心以及所述第一特征参数点进行聚类训练，得到聚类模型。
根据权利要求2所述的方法，其特征在于，将所述实时发票数据输入预先训练的聚类模型，检测所述聚类模型的聚类中心的偏移量，包括：

提取所述实时发票数据中的第二特征参数点，将所述第二特征参数点输入所述聚类模型；

根据所述第二特征参数点、所述聚类模型的聚类中心和所述第一特征参数点进行聚类训练，得到偏移聚类模型；及

获取所述偏移聚类模型的偏移聚类中心，根据所述偏移聚类中心和所述聚类中心位置的偏移距离，得到所述聚类模型的聚类中心的偏移量。
根据权利要求3所述的方法，其特征在于，获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本，包括：

计算所述聚类模型中第一特征参数点与所述第二特征参数点的距离；及

获取距离最近的多个历史发票数据作为最近邻算法的样本。
根据权利要求2至4任一项所述的方法，其特征在于，所述提取历史发票数据中的第一特征参数点，包括：

获取历史发票数据中商品名称字段值以及规格型号字段值均相同的商品历史发票数据；及

提取商品历史发票数据中的合计金额字段值以及商品单价字段值，根据所述合计金额字段值以及所述商品单价字段值，得到第一特征参数点。
根据权利要求1至4任一项所述的方法，其特征在于，所述识别标签包括：价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签；

根据所述最近邻算法以及所述样本所属的识别标签，得到所述实时发票数据的监测结果，包括：

统计所述样本的识别标签中价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签的数量，确定价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签中数量最多的样本的识别标签为所述实时发票数据的监测结果。
根据权利要求1至4任一项所述的方法，其特征在于，还包括：

当聚类中心的偏移量在阈值范围内时，获取所述实时发票数据在所述偏移聚类模型对应的簇，统计簇内历史发票数据的数目；及

当所述数目小于其他簇内历史发票数据的数目的均值时，删除历史发票数据数量最多的簇中的一个历史发票数据，根据所述实时发票数据更新所述聚类模型。
一种企业发票数据监测装置，其特征在于，所述装置包括：

数据采集模块，用于获取待监测的实时发票数据；

偏移计算模块，用于将所述实时发票数据输入预先训练的聚类模型，检测所述聚类模型的聚类中心的偏移量；

样本选择模块，用于当所述聚类中心的偏移量超过阈值范围时，获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本；及

监测模块，用于根据所述最近邻算法以及所述样本所属的识别标签，得到所述实时发票数据的监测结果。
根据权利要求8所述的装置，其特征在于，还包括：模型训练模块；

所述模型训练模块，用于获取用于训练聚类模型的历史发票数据；

提取历史发票数据中的第一特征参数点，选择多个第一特征参数点作为初始聚类中心；及

根据所述初始聚类中心以及所述第一特征参数点进行聚类训练，得到聚类模型。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待监测的实时发票数据；

将所述实时发票数据输入预先训练的聚类模型，检测所述聚类模型的聚类中心的偏移量；

当所述聚类中心的偏移量超过阈值范围时，获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本；及

根据所述最近邻算法以及所述样本所属的识别标签，得到所述实时发票数据的监测结果。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取用于训练聚类模型的历史发票数据；

提取历史发票数据中的第一特征参数点，选择多个第一特征参数点作为初始聚类中心；及

根据所述初始聚类中心以及所述第一特征参数点进行聚类训练，得到聚类模型。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

提取所述实时发票数据中的第二特征参数点，将所述第二特征参数点输入所述聚类模型；

根据所述第二特征参数点、所述聚类模型的聚类中心和所述第一特征参数点进行聚类训练，得到偏移聚类模型；及

获取所述偏移聚类模型的偏移聚类中心，根据所述偏移聚类中心和所述聚类中心位置的偏移距离，得到所述聚类模型的聚类中心的偏移量。
根据权利要求12所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

计算所述聚类模型中第一特征参数点与所述第二特征参数点的距离；及

获取距离最近的多个历史发票数据作为最近邻算法的样本。
根据权利要求11至13任一项所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取历史发票数据中商品名称字段值以及规格型号字段值均相同的商品历史发票数据；及

提取商品历史发票数据中的合计金额字段值以及商品单价字段值，根据所述合计金额字段值以及所述商品单价字段值，得到第一特征参数点。
根据权利要求10至13任一项所述的计算机设备，其特征在于，所述识别标签包括：价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签；

所述处理器执行所述计算机可读指令时还执行以下步骤：

统计所述样本的识别标签中价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签的数量，确定价格虚高标签、价格偏低标签、总额虚高标签以及总额偏低标签中数量最多的样本的识别标签为所述实时发票数据的监测结果。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待监测的实时发票数据；

将所述实时发票数据输入预先训练的聚类模型，检测所述聚类模型的聚类中心的偏移量；

当所述聚类中心的偏移量超过阈值范围时，获取所述聚类模型中与所述实时发票数据距离最近的多个历史发票数据作为最近邻算法的样本；及

根据所述最近邻算法以及所述样本所属的识别标签，得到所述实时发票数据的监测结果。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

获取用于训练聚类模型的历史发票数据；

提取历史发票数据中的第一特征参数点，选择多个第一特征参数点作为初始聚类中心；及

根据所述初始聚类中心以及所述第一特征参数点进行聚类训练，得到聚类模型。
根据权利要求17所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

提取所述实时发票数据中的第二特征参数点，将所述第二特征参数点输入所述聚类模型；

根据所述第二特征参数点、所述聚类模型的聚类中心和所述第一特征参数点进行聚类训练，得到偏移聚类模型；及

获取所述偏移聚类模型的偏移聚类中心，根据所述偏移聚类中心和所述聚类中心位置的偏移距离，得到所述聚类模型的聚类中心的偏移量。
根据权利要求18所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

计算所述聚类模型中第一特征参数点与所述第二特征参数点的距离；及

获取距离最近的多个历史发票数据作为最近邻算法的样本。
根据权利要求17至19任一项所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

获取历史发票数据中商品名称字段值以及规格型号字段值均相同的商品历史发票数据；及

提取商品历史发票数据中的合计金额字段值以及商品单价字段值，根据所述合计金额字段值以及所述商品单价字段值，得到第一特征参数点。