WO2017097118A1

WO2017097118A1 - 文本分类的处理方法及装置

Info

Publication number: WO2017097118A1
Application number: PCT/CN2016/107313
Authority: WO
Inventors: 何鑫
Original assignee: 北京国双科技有限公司
Priority date: 2015-12-11
Filing date: 2016-11-25
Publication date: 2017-06-15
Also published as: CN106874291A

Abstract

本申请公开了一种文本分类的处理方法及装置。该方法包括：采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率；根据第一从属概率和第一历史从属概率计算第一目标概率；判断第一目标概率是否高于预设阈值；以及当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。通过本申请，解决了相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。

Description

文本分类的处理方法及装置

技术领域

本申请涉及文本处理领域，具体而言，涉及一种文本分类的处理方法及装置。

背景技术

文本分类是自然语言处理的重要任务之一，类似于文章的行业分类，情感分析等许多自然语言处理任务其实质都是文本的分类。目前，无论是基于规则还是基于机器学习，处理文本分类问题的方法都有很多。通常，采用一种分类方法对文本进行分类处理，得到分类结果，输出分类处理结果。然后仅采用一种分类方法对文本进行分类处理的准确性较低。为了提升对文本进行分类的准确性，相关技术中采用了一系列分类方法，旨在使用多个不太精准的分类方法对文本进行分类处理，得到多个分类处理结果。然后再对每一个分类处理结果进行投票，选出最高票的分类处理结果作为输出。这种方法在很大程度上弥补了仅仅使用一个分类方法的不足，然而无论是否有必要，该方法对于每一个输入的文本都需要采用多个分类方法，造成对文本处理性能的下降。

针对相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种文本分类的处理方法及装置，以解决相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种文本分类的处理方法。该方法包括：采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率；根据第一从属概率和第一历史从属概率计算第一目标概率，其中，第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率；判断第一目标概率是否高于预设阈值；以及当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。

进一步地，在采用第一分类方法对待处理文本进行分类处理之前，该方法还包括：确定对待处理文本进行分类处理的多种分类方法；以及获取多种分类方法组成的分类方法集合，其中，分类方法集合包括第一分类方法。

进一步地，根据第一从属概率和第一历史从属概率计算第一目标概率包括：将第一从属概率和第一历史从属概率相乘，得到第一目标从属概率；将第一非从属概率和第一历史非从属概率相乘，得到第一目标非从属概率，其中，第一非从属概率为根据第一分类方法判定待处理文本不属于第一待确认文本类别的概率，第一历史非从属概率为预设数据库中存储的待处理文本不属于第一待确认文本类别的概率；将第一目标从属概率与第一目标非从属概率相加，得到第一目标子概率；以及将第一目标从属概率与第一目标子概率相除，得到第一目标概率。

进一步地，在将最终得到的待确认文本类别作为目标文本类别之后，该方法还包括：以最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率。

进一步地，在将最终得到的待确认文本类别作为目标文本类别之后，该方法还包括：输出目标文本类别至目标地址。

为了实现上述目的，根据本申请的另一方面，提供了一种文本分类的处理装置。该装置包括：处理单元，用于采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率；计算单元，用于根据第一从属概率和第一历史从属概率计算第一目标概率，其中，第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率；判断单元，用于判断第一目标概率是否高于预设阈值；以及第一确定单元，用于当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。

进一步地，该装置还包括：第二确定单元，用于确定对待处理文本进行分类处理的多种分类方法；以及获取单元，用于获取多种分类方法组成的分类方法集合，其中，分类方法集合包括第一分类方法。

进一步地，计算单元包括：第一计算模块，用于将第一从属概率和第一历史从属概率相乘，得到第一目标从属概率；第二计算模块，用于将第一非从属概率和第一历史非从属概率相乘，得到第一目标非从属概率，其中，第一非从属概率为根据第一分类方法判定待处理文本不属于第一待确认文本类别的概率，第一历史非从属概率为预设数据库中存储的待处理文本不属于第一待确认文本类别的概率；第三计算模块，用于将第一目标从属概率与第一目标非从属概率相加，得到第一目标子概率；以及第四计算模块，用于将第一目标从属概率与第一目标子概率相除，得到第一目标概率。

进一步地，该装置还包括：更新单元，用于以最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率。

进一步地，该装置还包括：输出单元，用于输出目标文本类别至目标地址。

通过本申请，采用以下步骤：采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率；根据第一从属概率和第一历史从属概率计算第一目标概率，其中，第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率；判断第一目标概率是否高于预设阈值；以及当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别，解决了相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。通过引入目标概率，根据目标概率确定待处理文本对应的目标文本类型，弥补仅使用一种分类方法处理确定目标文本类型和有效的减少了通过不必要多次分类处理方法去确定目标文本类型，进而达到了在提升对文本分类的准确性同时也提升了对文本分类的处理效率的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的文本分类的处理方法的流程图；以及

图2是根据本申请实施例的文本分类的处理装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二” 等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请的实施例，提供了一种文本分类的处理方法。

图1是根据本申请实施例的文本分类的处理方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率。

可选地，在本申请实施例提供的文本分类的处理方法中，在采用第一分类方法对待处理文本进行分类处理之前，该方法还包括：确定对待处理文本进行分类处理的多种分类方法；以及获取多种分类方法组成的分类方法集合，其中，分类方法集合包括第一分类方法。

在自然语言处理中，对于文本分类的处理方法有很多种方法，例如利用语言学规则，利用机器学习的各种分类方法，逻辑回归、朴素贝叶斯、支持向量机、随机森林等等多种分类方法，多种分类方法组成分类方法集合。例如，选取分类方法集合中的逻辑回归分类方法作为第一分类方法对待处理文本进行分类，得到第一待确认文本类别。例如，第一待确认文本类别可以为待处理文本所属的文本类型为情感类别。系统会判定采用第一分类方法对待处理文本进行分类处理得到的待处理文本所属的文本类型为正确率的概率(即第一从属概率)。

步骤S102，根据第一从属概率和第一历史从属概率计算第一目标概率，其中，第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率。

可选地，在本申请实施例提供的文本分类的处理方法中，根据第一从属概率和第一历史从属概率计算第一目标概率包括：将第一从属概率和第一历史从属概率相乘，得到第一目标从属概率；将第一非从属概率和第一历史非从属概率相乘，得到第一目标非从属概率，其中，第一非从属概率为根据第一分类方法判定待处理文本不属于第一待确认文本类别的概率，第一历史非从属概率为预设数据库中存储的待处理文本不属于第一待确认文本类别的概率；将第一目标从属概率与第一目标非从属概率相加，得到第一目标子概率；以及将第一目标从属概率与第一目标子概率相除，得到第一目标概率。

第一目标概率为计算出的待处理文本属于第一待确认文本类别的概率。第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率；第一从属概率为系统中根据第一分类方法判定待处理文本属于第一待确认文本类别的概率。因此两个条件下均认为该待处理文本属于第一待确认文本类别的概率为第一历史从属概率与第一从属概率的乘积。

例如，预设数据库中存储的待处理文本属于第一待确认文本类别的概率为0.6(第一历史从属概率)，即判定待处理文本不属于第一待确认文本类别的概率为0.4(第一历史非从属概率)；系统中根据第一分类方法判定待处理文本属于第一待确认文本类别的概率为0.8(第一从属概率)，即系统判定待处理文本不属于第一待确认文本类别的概率为0.2(第一非从属概率)；根据以上数据计算出第一目标概率(待处理文本属于第一待确认文本类别的概率)＝(0.6*0.8)/(0.6*0.8+0.4*0.2)＝0.857，计算出待处理文本不属于第一待确认文本类别的概率＝(0.4*0.2)/(0.6*0.8+0.4*0.2)＝0.143。

步骤S103，判断第一目标概率是否高于预设阈值。

预设阈值可以是用户或者需求方根据对分类功能的满意程度而设定的值。例如预设阈值为0.8。

步骤S104，当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。

具体地，当第一目标概率低于预设阈值时，采用第二分类方法对待处理文本进行分类处理，例如，可以采用朴素贝叶斯分类方法，得到第二待确认文本类别和第二从属概率，其中，第二从属概率为根据第二分类方法判定待处理文本属于第二待确认文本类别的概率；根据第二从属概率和第二历史从属概率计算第二目标概率，其中，第二历史从属概率为预设数据库中存储的待处理文本属于第二待确认文本类别的概率；判断第二目标概率是否高于预设阈值，若判断为是，则将第二待确认文本类别作为目标文本类别，若判断为否，则继续采用非第一分类方法和第二分类方法的其他分类方法按照上面得过程对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。

例如，预设阈值为0.9，上述计算出的第一目标概率为0.857，判断出第一目标概率低于预设阈值，则系统则会认为当前第一待确认文本类别中的第一待确认文本类别不是目标文本类型，相应地，系统会采用第二分类方法(如：朴素贝叶斯分类方法)对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。

如果预设阈值为0.8，上述计算出的第一目标概率为0.857，判断出第一目标概率高于预设阈值，则确定第一待确认文本类别为待处理文本所属的目标文本类别。例如，确定出待处理文本所属的文本类型为情感类。

可选地，在本申请实施例提供的文本分类的处理方法中，在将最终得到的待确认文本类别作为目标文本类别之后，该方法还包括：输出目标文本类别至目标地址。

将待处理文本所属的文本类型输出至目标地址，在目标地址上显示或者用户对其进行分析处理。

可选地，在本申请实施例提供的文本分类的处理方法中，在将最终得到的待确认文本类别作为目标文本类别之后，该方法还包括：以最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率。

通过将最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率，保证了预设数据库中存储的历史从属概率的准确性。

在本申请中，通过以上步骤引入了目标概率，根据目标概率确定待处理文本对应的目标文本类型，弥补仅使用一种分类方法处理确定目标文本类型和有效的减少了通过不必要多次分类处理方法去确定目标文本类型，进而达到了在提升对文本分类的准确性同时也提升了对文本分类的处理效率的效果。

本申请实施例提供的文本分类的处理方法，通过采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率；根据第一从属概率和第一历史从属概率计算第一目标概率，其中，第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率；判断第一目标概率是否高于预设阈值；以及当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别，解决了相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。通过引入目标概率，根据目标概率确定待处理文本对应的目标文本类型，弥补仅使用一种分类方法处理确定目标文本类型和有效的减少了通过不必要多次分类处理方法去确定目标文本类型，进而达到了在提升对文本分类的准确性同时也提升了对文本分类的处理效率的效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种文本分类的处理装置，需要说明的是，本申请实施例的文本分类的处理装置可以用于执行本申请实施例所提供的用于文本分类的处理方法。以下对本申请实施例提供的文本分类的处理装置进行介绍。

图2是根据本申请实施例的文本分类的处理装置的示意图。如图2所示，该装置包括：处理单元10、计算单元20、判断单元30和第一确定单元40。

处理单元10，用于采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率。

计算单元20，用于根据第一从属概率和第一历史从属概率计算第一目标概率，其中，第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率。

判断单元30，用于判断第一目标概率是否高于预设阈值。

第一确定单元40，用于当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。

此处需要说明的是，上述处理单元10、计算单元20、判断单元30和第一确定单元40可以作为装置的一部分运行在计算机终端中，可以通过计算机终端中的处理器来执行上述模块实现的功能，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。

本申请实施例提供的文本分类的处理装置，通过处理单元10采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率；计算单元20根据第一从属概率和第一历史从属概率计算第一目标概率，其中，第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率；判断单元30判断第一目标概率是否高于预设阈值；以及第一确定单元40当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别，解决了相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题，通过引入目标概率，根据目标概率确定待处理文本对应的目标文本类型，弥补仅使用一种分类方法处理确定目标文本类型和有效的减少了通过不必要多次分类处理方法去确定目标文本类型，进而达到了在提升对文本分类的准确性同时也提升了对文本分类的处理效率的效果。

可选地，在本申请实施例提供的文本分类的处理装置中，该装置还包括：第二确定单元，用于确定对待处理文本进行分类处理的多种分类方法；以及获取单元，用于获取多种分类方法组成的分类方法集合，其中，分类方法集合包括第一分类方法。

可选地，在本申请实施例提供的文本分类的处理装置中，计算单元20包括：第一计算模块，用于将第一从属概率和第一历史从属概率相乘，得到第一目标从属概率；第二计算模块，用于将第一非从属概率和第一历史非从属概率相乘，得到第一目标非从属概率，其中，第一非从属概率为根据第一分类方法判定待处理文本不属于第一待确认文本类别的概率，第一历史非从属概率为预设数据库中存储的待处理文本不属于第一待确认文本类别的概率；第三计算模块，用于将第一目标从属概率与第一目标非从属概率相加，得到第一目标子概率；以及第四计算模块，用于将第一目标从属概率与第一目标子概率相除，得到第一目标概率。

可选地，在本申请实施例提供的文本分类的处理装置中，该装置还包括：更新单元，用于以最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率。

可选地，在本申请实施例提供的文本分类的处理装置中，该装置还包括：输出单元，用于输出目标文本类别至目标地址。

本申请实施例所提供的各个功能单元可以在移动终端、计算机终端或者类似的运算装置中运行，也可以作为存储介质的一部分进行存储。

由此，本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行文本分类的处理方法中以下步骤的程序代码：采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率；根据第一从属概率和第一历史从属概率计算第一目标概率；判断第一目标概率是否高于预设阈值；以及当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。

可选地，该计算机终端可以包括：一个或多个处理器、存储器、以及传输装置。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的文本分类的处理方法及装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本分类的处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器用于存储预设动作条件和预设权限用户的信息、以及应用程序。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行上述方法实施例中的各个可选或优选实施例的方法步骤的程序代码。

本领域普通技术人员可以理解，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述方法实施例和装置实施例所提供的文本分类的处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率；根据第一从属概率和第一历史从属概率计算第一目标概率；判断第一目标概率是否高于预设阈值；以及当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。

可选地，在本实施例中，存储介质还可以被设置为存储文本分类的处理方法提供的各种优选地或可选的方法步骤的程序代码。

如上参照附图以示例的方式描述了根据本发明的文本分类的处理方法及装置。但是，本领域技术人员应当理解，对于上述本发明所提出的文本分类的处理方法及装置，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

所述文本分类的处理装置包括处理器和存储器，上述处理单元、计算单元、判断单元和第一确定单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设阈值、预设数据库都可以存储在存储器中。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数处理文本分类。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率；根据第一从属概率和第一历史从属概率计算第一目标概率，其中，第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率；判断第一目标概率是否高于预设阈值；以及当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种文本分类的处理方法，其特征在于，包括：

采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，所述第一从属概率为根据所述第一分类方法判定所述待处理文本属于所述第一待确认文本类别的概率；

根据所述第一从属概率和第一历史从属概率计算第一目标概率，其中，所述第一历史从属概率为预设数据库中存储的所述待处理文本属于所述第一待确认文本类别的概率；

判断所述第一目标概率是否高于预设阈值；以及

当所述第一目标概率低于所述预设阈值时，依次采用与所述第一分类方法不同的至少一种分类方法对所述待处理文本进行所述分类处理，直到计算出的目标概率高于或等于所述预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。
根据权利要求1所述的方法，其特征在于，在采用第一分类方法对所述待处理文本进行分类处理之前，所述方法还包括：

确定对所述待处理文本进行分类处理的多种分类方法；以及

获取所述多种分类方法组成的分类方法集合，其中，所述分类方法集合包括所述第一分类方法。
根据权利要求1所述的方法，其特征在于，根据所述第一从属概率和第一历史从属概率计算第一目标概率包括：

将所述第一从属概率和所述第一历史从属概率相乘，得到第一目标从属概率；

将第一非从属概率和第一历史非从属概率相乘，得到第一目标非从属概率，其中，所述第一非从属概率为根据所述第一分类方法判定所述待处理文本不属于所述第一待确认文本类别的概率，所述第一历史非从属概率为所述预设数据库中存储的所述待处理文本不属于所述第一待确认文本类别的概率；

将所述第一目标从属概率与所述第一目标非从属概率相加，得到第一目标子概率；以及

将所述第一目标从属概率与所述第一目标子概率相除，得到所述第一目标概率。
根据权利要求1所述的方法，其特征在于，在所述将最终得到的待确认文本类别作为目标文本类别之后，所述方法还包括：

以最终计算出的目标概率更新所述预设数据库中存储的与最终采用的分类方法对应的历史从属概率。
根据权利要求1所述的方法，其特征在于，在所述将最终得到的待确认文本类别作为目标文本类别之后，所述方法还包括：

输出所述目标文本类别至目标地址。
一种文本分类的处理装置，其特征在于，包括：

处理单元，用于采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，所述第一从属概率为根据所述第一分类方法判定所述待处理文本属于所述第一待确认文本类别的概率；

计算单元，用于根据所述第一从属概率和第一历史从属概率计算第一目标概率，其中，所述第一历史从属概率为预设数据库中存储的所述待处理文本属于所述第一待确认文本类别的概率；

判断单元，用于判断所述第一目标概率是否高于预设阈值；以及

第一确定单元，用于当所述第一目标概率低于所述预设阈值时，依次采用与所述第一分类方法不同的至少一种分类方法对所述待处理文本进行所述分类处理，直到计算出的目标概率高于或等于所述预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。
根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二确定单元，用于确定对所述待处理文本进行分类处理的多种分类方法；以及

获取单元，用于获取所述多种分类方法组成的分类方法集合，其中，所述分类方法集合包括所述第一分类方法。
根据权利要求6所述的装置，其特征在于，所述计算单元包括：

第一计算模块，用于将所述第一从属概率和所述第一历史从属概率相乘，得到第一目标从属概率；

第二计算模块，用于将第一非从属概率和第一历史非从属概率相乘，得到第一目标非从属概率，其中，所述第一非从属概率为根据所述第一分类方法判定所述待处理文本不属于所述第一待确认文本类别的概率，所述第一历史非从属概率为所述预设数据库中存储的所述待处理文本不属于所述第一待确认文本类别的概率；

第三计算模块，用于将所述第一目标从属概率与所述第一目标非从属概率相加，得到第一目标子概率；以及

第四计算模块，用于将所述第一目标从属概率与所述第一目标子概率相除，得到所述第一目标概率。
根据权利要求6所述的装置，其特征在于，所述装置还包括：更新单元，用于以最终计算出的目标概率更新所述预设数据库中存储的与最终采用的分类方法对应的历史从属概率。
根据权利要求6所述的装置，其特征在于，所述装置还包括：输出单元，用于输出所述目标文本类别至目标地址。