WO2022089613A1

WO2022089613A1 - 应用机器学习的文本分类方法、装置和电子设备

Info

Publication number: WO2022089613A1
Application number: PCT/CN2021/127675
Authority: WO
Inventors: 陶冶; 陈伟
Original assignee: 第四范式（北京）技术有限公司
Priority date: 2020-10-30
Filing date: 2021-10-29
Publication date: 2022-05-05
Also published as: CN114443831A

Abstract

一种应用机器学习的文本分类方法、装置、电子设备和存储介质。方法包括：响应于文本分类任务的文本分类应用创建指令，获取文本分类应用配置信息和文本标注数据（601）；基于文本分类应用配置信息，创建文本分类应用，文本分类应用至少被配置为基于文本分类应用配置信息和文本标注数据进行模型方案探索，得到模型方案（602）；响应于启动文本分类应用的指令，将文本分类应用部署上线，并生成文本分类服务地址，以使文本分类应用基于文本分类服务地址，提供针对文本分类任务的在线预估服务（603）。可见，对于不具有机器学习专业知识的人员，能够通过指定文本分类场景、文本分类任务和文本分类应用配置信息，自动创建文本分类应用，降低文本分类能力落地成本。

Description

应用机器学习的文本分类方法、装置和电子设备

本公开要求于2020年10月30日提交中国专利局、申请号为202011196878.9、发明名称为“应用机器学习的文本分类方法、装置和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开实施例涉及机器学习技术领域，具体涉及一种应用机器学习的文本分类方法、装置、电子设备和非暂态计算机可读存储介质。

背景技术

自然语言处理(Natural Language Processing，NLP)文本分类在各行各业的应用越来越多，但是NLP文本分类还是一个需要很强专业技能的领域。在很多场景中，除了对中文文本进行分类，也有很多对英文文本进行分类的需求，对同时满足中文与英文分类的能力的产品有很高的诉求。

目前，NLP文本分类模型的构建主要是由专业建模人员通过手动编写代码或者使用图形化界面(如DAG，Directed Acyclic Graph，有向无环图)的方式来实现，然而，这两种实现方式均需要投入很高的人力成本和时间成本，才能得到一个比较满意的模型，不利于模型的大规模探索和应用。另外，不仅是软件成本，对于很多小型场景来说，服务器的图形处理器(Graphics Processing Unit，GPU)采购也是一批很大的费用。因此，有必要提供一种应用机器学习的文本分类方案。

发明内容

本公开实施例的一个目的是提供一种应用机器学习的文本分类的新方案。

第一方面，本公开实施例提出一种应用机器学习的文本分类方法，包括：

响应于文本分类任务的文本分类应用创建指令，获取文本分类应用配置信息和文本标注数据；所述文本标注数据包括一个文本列和一个标签列；

基于所述文本分类应用配置信息，创建文本分类应用；其中，所述文本分类应用为第一服务程序实例，被配置为基于所述文本分类应用配置信息和所述文本标注数据进行模型方案探索，得到模型方案；

响应于启动所述文本分类应用的指令，将所述文本分类应用部署上线，并生成文本分类服务地址，以使所述文本分类应用基于所述文本分类服务地址，提供针对所述文本分类任务的在线预估服务；其中，所述在线预估服务基于所述文本分类任务的线上相关数据进行。

在一些实施例中，所述文本列中每一行文本对应一个或多个标签。

在一些实施例中，所述文本分类应用还被配置为基于所述线上相关数据和所述模型方案，进行模型自学习，得到在线文本分类模型。

在一些实施例中，所述方法还包括：

将所述线上相关数据回流到第一数据库中；

将所述模型方案基于所述线上相关数据生成的带标签的中间数据回流到所述第一数据库中；

提供回流数据标注接口，以获取回流标注数据，并将所述回流标注数据再次回流到所述第一数据库中，其中，所述回流标注数据为针对回流到所述第一数据库中的数据进行标注得到；

相应地，所述文本分类应用基于所述线上相关数据、所述带标签的中间数据、所述回流标注数据和所述模型方案，进行模型自学习，得到在线文本分类模型。

在一些实施例中，所述方法还包括：将所述在线文本分类模型部署上线，以提供针对所述文本分类任务的批量预估服务。

在一些实施例中，所述批量预估服务包括：提供一个批量预估服务接口，在线文本分类模型基于所述批量预估服务接口获取所述文本分类任务的待批量预估的数据集，并基于所述待批量预估的数据集输出批量预估结果。

在一些实施例中，所述待批量预估的数据集包括多个数据列，所述多个数据列包括一个文本列；

所述基于所述待批量预估的数据集输出批量预估结果包括：

基于所述待批量预估的数据集中的文本列进行批量预估，得到一个预估标签列；

将所述预估标签列与所述待批量预估的数据集进行拼接，得到批量预估结果并输出。

在一些实施例中，所述将所述在线文本分类模型部署上线包括：将所述在线文本分类模型替换已部署上线的机器学习模型。

在一些实施例中，所述响应于文本分类任务的文本分类应用创建指令之前，所述方法还包括：

提供用户界面，基于所述用户界面接收用户输入的文本分类场景和文本分类任务，以及基于所述用户界面接收用户触发的文本分类应用创建指令，所述文本分类应用创建指令与用户输入的文本分类场景和文本分类任务相对应。

在一些实施例中，所述基于所述文本分类应用配置信息，创建文本分类应用包括：

将所述文本分类应用配置信息、第二服务程序实例和第三服务程序实例打包为文本分类应用；

其中，所述第二服务程序实例被配置为基于所述文本分类应用配置信息和所述文本标注数据进行模型方案探索，得到模型方案；

其中，所述第三服务程序实例被配置为基于所述线上相关数据和所述模型方案，进行模型自学习，得到在线文本分类模型。

在一些实施例中，所述文本分类应用配置信息包括如下中的一种或多种：

模型自学习的频率；

模型自学习的评价指标；

数据集语言；

使用GPU加速；

模型的评估数据占比。

在一些实施例中，所述文本分类应用，被配置为基于所述第一数据库中的数据、所述文本分类应用配置信息和所述文本标注数据进行模型方案探索，得到模型方案；其中，所述模型方案包括以下方案子项：特征工程方案、模型算法和模型的超参数；

相应地，所述将所述文本分类应用部署上线包括：将探索得到的模型方案部署上线。

在一些实施例中，所述在线文本分类模型通过训练离线模型得到；其中，所述离线模型为所述模型方案探索的过程中产生的模型，且将探索得到的模型方案部署上线时，还将所述离线模型部署上线。

在一些实施例中，所述在线文本分类模型为基于所述模型方案中的模型算法和模型的超参数生成的模型；且将探索得到的模型方案部署上线时，没有将离线模型部署上线。

第二方面，本公开实施例还提出一种应用机器学习的文本分类装置，包括：

文本分类应用创建模块，被配置为响应于文本分类任务的文本分类应用创建指令，获取文本分类应用配置信息和文本标注数据；所述文本标注数据包括一个文本列和一个标签列；基于所述文本分类应用配置信息，创建文本分类应用；其中，所述文本分类应用为第一服务程序实例，被配置为基于所述文本分类应用配置信息和所述文本标注数据进行模型方案探索，得到模型方案；

文本分类应用启动模块，被配置为响应于启动所述文本分类应用的指令，将所述文本分类应用部署上线，并生成文本分类服务地址，以使所述文本分类应用基于所述文本分类服务地址，提供针对所述文本分类任务的在线预估服务；其中，所述在线预估服务基于所述文本分类任务的线上相关数据进行。

在一些实施例中，所述文本分类应用还被配置为将所述线上相关数据回流到第一数据库中，将所述模型方案基于所述线上相关数据生成的带标签的中间数据回流到所述第一数据库中；

所述应用机器学习的文本分类装置还包括标注接口模块，所述标注接口模块被配置为提供回流数据标注接口，以获取回流标注数据，并将所述回流标注数据再次回流到所述第一数据库中，其中，所述回流标注数据为针对回流到所述第一数据库中的数据进行标注得到；

在一些实施例中，所述文本分类应用启动模块还被配置为将所述在线文本分类模型部署上线，以提供针对所述文本分类任务的批量预估服务。

在一些实施例中，所述文本分类应用启动模块还被配置为提供一个批量预估服务接口，在线文本分类模型基于所述批量预估服务接口获取所述文本分类任务的待批量预估的数据集，并基于所述待批量预估的数据集输出批量预估结果。

所述在线文本分类模型基于所述待批量预估的数据集输出批量预估结果包括：基于所述待批量预估的数据集中的文本列进行批量预估，得到一个预估标签列，将所述预估标签列与所述待批量预估的数据集进行拼接，得到批量预估结果并输出。

在一些实施例中，所述文本分类应用启动模块将所述在线文本分类模型部署上线包括：将所述在线文本分类模型替换已部署上线的机器学习模型。

在一些实施例中，所述文本分类应用创建模块还被配置为：

响应于文本分类任务的文本分类应用创建指令之前，提供用户界面，基于所述用户界面接收用户输入的文本分类场景和文本分类任务，以及基于所述用户界面接收用户触发的文本分类应用创建指令，所述文本分类应用创建指令与用户输入的文本分类场景和文本分类任务相对应。

在一些实施例中，所述文本分类应用创建模块基于所述文本分类应用配置信息，创建文本分类应用包括：

模型自学习的频率；

模型自学习的评价指标；

数据集语言；

使用GPU加速；

模型的评估数据占比。

相应地，所述文本分类应用启动模块将所述文本分类应用部署上线包括：将探索得到的模型方案部署上线。

第三方面，本公开实施例还提出一种电子设备，包括：处理器和存储器；所述处理器通过调用所述存储器存储的程序或指令，被配置为执行如第一方面任一实施例的方法步骤。

第四方面，本公开实施例还提出一种非暂态计算机可读存储介质，被配置为存储程序或指令，所述程序或指令使计算机执行如第一方面任一实施例的方法步骤。

可见，本公开的至少一个实施例中，对于不具有机器学习专业知识的人员，能够通过指定文本分类场景、文本分类任务和文本分类应用配置信息，创建文本分类应用，降低NLP文本分类能力落地成本。

在一些实施例中，可基于线上相关数据和模型方案，进行模型自学习，得到在线文本分类模型，实现模型自动构建，降低模型构建成本。

在一些实施例中，通过对文本分类场景的数据进行管理(包括但不限于场景拼接等)，得到能够复用的用于模型构建的数据。

在一些实施例中，通过将构建的模型部署上线，可提供针对文本分类任务的批量预估服务。另外，利用获取的线上数据、探索得到的模型方案和批量预估服务产生的中间数据，可进行模型自学习，实现模型自动迭代更新。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种应用机器学习的文本分类的示例性应用场景图；

图2为本公开实施例提供的一种场景模块的示例性框图；

图3为本公开实施例提供的一种应用机器学习的文本分类装置的示例性框图；

图4为本公开实施例提供的一种文本分类应用提供在线预估服务或批量预估服务的示例性架构图；

图5为本公开实施例提供的一种电子设备的示例性框图；

图6为本公开实施例提供的一种应用机器学习的文本分类方法的示例性流程图；

图7至图15为本公开实施例提供的应用机器学习的文本分类过程相关的界面示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。基于所描述的本公开的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

由于目前NLP文本分类模型的构建主要是由专业建模人员来完成，而专业建模人员的培养成本较大，导致专业建模人员的缺口在短期内无法得到快速弥补，不利于NLP文本分类模型的大规模探索和应用。

另外，NLP文本分类模型上线一段时间后，NLP文本分类模型的预估效果会衰减，因此又需要专业建模人员进行重新建模调优，即每隔一段时间周期就需要重复的人员投入，使得建模越多，人员成本越高。因此，如何实现模型自动迭代更新，以确模型保预估效果，也是亟需解决的问题。

为此，本公开实施例提供一种应用机器学习的文本分类的方案，能将NLP文本分类应用从问题定义，到建模，再到模型上线服务，离线批量预测以及之后反馈的收集和模型的迭代更新形成学习闭环。通过自动进行NLP文本分类模型训练和自动进行NLP文本分类应用上线，从根本上解决了NLP文本分类能力落地困难、成本高的难题。使没有NLP相关经验的人员，也可以完成文本分类场景落地的全流程。同时支持CPU与GPU两种模式，没有GPU的小型场景也可以完成文本分类的探索。同时支持中文文本与英文文本的分类，进一步扩大了场景覆盖的范围。

在一些实施例中，非专业建模人员或没有NLP相关经验的人员可以指定文本分类场景、文本分类任务、文本分类应用配置信息和文本标注数据，进而应用机器学习的文本分类的方案可基于文本分类应用配置信息自动创建文本分类应用，其中，文本分类应用可以基于文本分类应用配置信息和文本标注数据进行模型方案探索，得到模型方案；进而可将创建的文本分类应用部署上线，并生成文本分类服务地址，以使文本分类应用基于文本分类服务地址，提供针对文本分类任务的在线预估服务；其中，在线预估服务基于文本分类任务的线上相关数据进行。可见，本公开实施例中，创建的文本分类应用可以自动探索模型方案，实现模型构建过程全自动化，进而降低建模成本。

在一些实施例中，创建的文本分类应用还可以基于获取的所述文本分类任务的线上相关数据和探索得到的模型方案，进行模型自学习，得到在线文本分类模型。可见，本公开实施例中，创建的文本分类应用可以进行模型自学习，实现模型自动迭代更新，确保模型预估效果。在没有专业建模人员和机器学习知识储备的情况下，也能低门槛地构建出模型和应用。

图1为本公开实施例提供的一种应用机器学习的文本分类的示例性应用场景图。如图1所示，场景模块11和应用机器学习的文本分类装置12可与文本分类场景对接。文本分类场景可由用户指定，更进一步地，用户还可指定在该文本分类场景下的文本分类任务，文本分类任务可以有多个，针对每个文本分类任务，应用机器学习的文本分类装置12可以创建对应的文本分类应用，例如，一个任务创建一个文本分类应用；不同任务创建不同的文本分类应用。文本分类应用被配置为处理对应的文本分类任务，例如实时预估任务或批量预估任务。其中，实时预估是接收到一个预估请求(即文本分类请求)就进行预估(即文本分类)；而批量预估是非实时预估，通过定时或事件触发地以批量的方式进行预估，例如，在满足预设的批量预估条件时，才对多个预估请求进行批量预估，例如，当预估请求积累预设条数，才进行批量预估。

场景模块11，被配置为实现文本分类场景定义。在一些实施例中，文本分类场景定义可由用户完成，例如，用户可以定义新闻分类场景。相应地，场景模块11接收用户输入的场景定义信息。在一些实施例中，场景模块11可提供用户界面，用户通过用户界面输入场景定义信息，以指定文本分类场景和文本分类任务。在一些实施例中，场景定义信息可包括但不限于以下一个或多个：场景名称、任务名称、任务ID、任务的相关数据定义等。不同任务的相关数据定义不同。在一些实施例中，相关数据定义可以为数据表模式(Schema)定义。在一些实施例中，Schema定义包括但不限于以下一个或多个：一个或多个数据表的名称、每个数据表包括的字段、多个数据表之间的数据关系。

在一些实施例中，场景模块11，还被配置为数据接入。例如，场景模块11基于文本分类场景的文本分类任务，获取文本分类任务的相关数据。在一些实施例中，相关数据可包括但不限于：请求数据、曝光数据和反馈数据。

场景定义信息可包括但不限于：

1)场景的名称、备注等基本信息。用于识别和区分场景。

2)定义相关数据。相关数据包括但不限于：请求数据、曝光数据、反馈数据和业务数据。请求数据是指发送给文本分类应用的信息，例如有一万条新闻，结合其他信息想要通过文本分类应用来进行分类，这一万条新闻就是请求数据；经由文本分类应用预估后，实际看新闻时不会一万条新闻都看，业务方(或客户)只会选择感兴趣的新闻去看，可能只看了100条，这100条就是曝光数据；最后，实际看到的新闻属于什么类别则是反馈数据。除了请求数据、曝光数据和反馈数据外，场景中可能还包含业务数据，业务数据是其他可能有助于提升文本分类应用预估效果的信息，例如客户的基本信息、客户的备注信息等BO(Business Object)数据。其中，业务数据可能没有，也可能有多个。

a)定义各个相关数据流(请求数据流、曝光数据流、反馈数据流和业务数据流)的Schema，例如，每个数据流中都包含哪些字段，具体需要配置的信息包括字段名、字段类型和字段备注(可选填)等。

b)需要指出的是，在获取请求数据和曝光数据后，会根据请求数据和曝光数据以内连接(inner join)的方式构造出行为数据，行为数据可用于后续模型方案探索和模型自学习。

3)定义数据描述信息和各个数据表之间的关系。具体地：

a)定义行为数据的时间字段。在行为数据中选择一个时间类型字段作为主时间字段，这个时间字段应为行为的实际发生时间。

b)定义反馈数据的反馈字段(label)及类型。在反馈数据中选出其中的label字段，对于二分类场景来说label就是表示正负样本的1或0，在回归场景中label是一个表示实际情况的连续值，比如PM2.5的数值。在选出label字段后还需要选择label属于什么类型，是二分类还是回归，或者是多分类。

c)定义行为数据和反馈数据的拼接字段。定义行为数据和反馈数据各自以什么字段为关联key来进行拼接，其中拼接key还能支持多组key，即在多个字段均相等的情况下才认为某条行为数据是和某条反馈数据相对应。

d)定义各个数据中字段的标记类型和是否使用。对于某种字段类型，为了自动建模能够正确识别业务含义以取得更好的效果，需要用户来指定具体的标记类型，比如对于int类型字段，是连续类型还是离散类型，这会决定自动建模算法对于该列数据做怎样的数据变化策略。另外，还需要标记每一列数据是否在模型方案探索中使用，因为文本分类场景中，可能会存在某些字段是无意义的字段，可以不纳入学习，或者某些字段与label是存在强相关，不应纳入学习，所以需要在使用过程中进行标注。

e)定义数据表之间的关系。需要定义行为数据与业务数据之间是怎样的数据关系，方便自动建模时能够完成多表的自动建模。关系类型包含但不限于1：1、1：N，其中，在1：N的关系类型中，还需要指定副表(假设表A和表B，表B的数据会被拼到表A中去，那么表B称之为表A的副表)的表类型，是事件表还是切片表。数据表拼接不仅支持行为表与业务数据表连接，也支持业务数据表与业务数据表之间直接进行连接。

完成以上定义后，可以正式创建一个文本分类场景。文本分类场景创建后，场景模块11会自动启动一个数据拼接任务，用以将请求数据和曝光数据拼接出行为数据，以备后续模型方案探索和模型自学习使用。

应用机器学习的文本分类装置12，被配置为实现文本分类应用配置。在一些实施例中，文本分类应用配置可由用户完成，例如，使用哪些业务数据参与模型方案探索和模型自学习，又例如，模型自学习所使用的数据范围。相应地，应用机器学习的文本分类装置12可接收用户输入的文本分类应用配置信息和文本标注数据，文本标注数据用于进行模型方案探索，其中，文本标注数据至少包括一个文本列和一个标签列，文本列中存储文本数据，标签列中存储标注数据，文本列中每一行文本对应一个或多个标签。在一些实施例中，应用机器学习的文本分类装置12可提供用户界面，用户通过用户界面输入文本分类应用配置信息，并且上传文本标注数据。

在一些实施例中，从用户角度来看，用户在进行场景定义后，会想要创建对应的文本分类应用，因此，应用机器学习的文本分类装置12可提供用户界面，基于用户界面接收用户触发的文本分类应用创建指令，文本分类应用创建指令与用户输入的文本分类场景和文本分类任务相对应。在用户触发了文本分类应用创建的指令后，例如，用户点击了“文本分类应用创建”按钮，那么应用机器学习的文本分类装置12可响应于文本分类应用创建指令，显示用户界面，以通过该用户界面获取用户输入的文本分类应用配置信息和文本标注数据。

在一些实施例中，文本分类应用配置信息可包括但不限于以下一种或多种：

模型自学习的频率；

模型自学习的评价指标；

数据集语言；

使用GPU加速；

模型的评估数据占比。

其中，模型自学习的频率可以配置为每次有新数据到来时触发学习或每次新增“N”条数据后再触发学习。

其中，模型自学习的评价指标包括：P(精确率)、R(召回率)、F1、ACC(准确率)四种指标中的一种或多种。

其中，数据集语言包括中文、英文两种语言模型，根据用户选择的语言类型不同，自动匹配不同的模型进行训练。

其中，使用GPU加速(开关)：开启后将使用GPU进行模型的训练，若没有GPU资源，可以关闭该开关，使用CPU资源也可以进行模型的训练。

其中，模型的评估数据占比：每次学习时，使用多少比例的数据量进行模型评估。本实施例中，默认值为8％。

在一些实施例中，文本分类应用配置信息还可包括但不限于以下一种或多种：

模型方案探索和模型自学习所使用的业务数据；

模型方案探索和模型自学习所使用的数据范围；

模型方案探索和模型自学习的算力等级；

模型的评估数据范围；

模型是否自动上线；

是否使用模型方案探索得到的离线模型。

其中，算力等级可以理解为模型方案探索和模型自学习的复杂度。算力等级越高，模型方案探索和模型自学习会在更宽阔的搜索空间进行搜索，模型自学习得到的模型的预估效果越好。

其中，模型的评估数据范围指定了用于评估模型自学习产出的模型的数据范围。

其中，模型是否自动上线，指定了模型自学习不断迭代更新产生的模型是否自动上线。若设置模型自动上线，则模型自学习产生的模型效果优于已部署上线的模型时，会将模型自学习产生的模型自动上线。若设置模型不自动上线，则只能通过手动方式上线模型自学习产出的模型。

其中，是否使用模型方案探索得到的离线模型，指定了是否将离线模型上线，若不使用离线模型，只将模型方案上线后，模型方案不会输出预估结果，向文本分类场景输出的是一个默认预估结果(例如，默认预测值)，默认预测值例如为0.5，需要等待模型自学习产出模型并上线后，才能由模型输出预估结果。若使用离线模型，也即将模型方案上线的同时，还将离线模型上线，离线模型可以输出预估结果，但是由于模型方案探索使用的数据可能与线上数据存在差异，因此，离线模型的预估效果可能较差。

在一些实施例中，应用机器学习的文本分类装置12，还被配置为创建文本分类应用。例如，应用机器学习的文本分类装置12基于文本分类应用配置信息，创建文本分类应用；其中，文本分类应用为第一服务程序实例，被配置为基于文本分类应用配置信息和用户上传的文本标注数据进行模型方案探索，得到模型方案。模型方案是用于建模的多种策略的集合，例如包括但不限于：如何筛选数据、如何构建特征，如何调优模型超参数、如何选择模型、如何训练模型等策略。在一些实施例中，应用机器学习的文本分类装置12创建文本分类应用后，可显示用户界面，以提示用户文本分类应用创建完成，用户可以触发文本分类应用启动的指令，例如，用户可点击用户界面上的“文本分类应用启动”按钮。

在一些实施例中，应用机器学习的文本分类装置12，还被配置为部署文本分类应用上线。例如，应用机器学习的文本分类装置12可响应于启动文本分类应用的指令，将文本分类应用部署上线，并生成文本分类服务地址，以使文本分类应用基于文本分类服务地址，提供针对文本分类任务的在线预估服务；其中，在线预估服务基于文本分类任务的线上相关数据进行。其中，文本分类应用还被配置为基于线上相关数据和探索得到的模型方案，进行模型自学习，得到在线文本分类模型。其中，模型自学习可以定时或事件触发地使用线上相关数据进行模型自动学习，使得最新的数据信息和业务变化也能被模型学习到，确保自学习模型效果持续良好。

在一些实施例中，场景模块11的功能可集成到应用机器学习的文本分类装置12中。

图2为本公开实施例提供的一种场景模块20的示例性框图。在一些实施例中，场景模块20可以实现为图1中的场景模块11或者场景模块11的一部分。

如图2所示，场景模块20可划分为多个单元，例如包括但不限于：数据接入单元21、场景拼接单元22和数据管理单元23。

数据接入单元21，被配置为与文本分类场景进行数据对接。在一些实施例中，数据接入单元21可基于文本分类场景的文本分类任务，获取文本分类任务的相关数据。在一些实施例中，数据接入单元21可获取文本分类任务的相关数据定义，进而基于相关数据定义与文本分类场景进行数据对接，获取文本分类任务的相关数据。

在一些实施例中，数据接入单元21可基于文本分类任务的相关数据定义，创建相关数据定义对应的数据接口，进而通过数据接口获取文本分类任务的相关数据。其中，数据接口以动态数据表或数据组为接口，或，数据接口为封装接口，封装接口是将动态数据表和数据组封装得到的统一接口。

在一些实施例中，数据接口以动态数据表或数据组为接口。数据接入单元21以动态数据表或数据组作为数据存储载体，动态数据表是指在数据表创建完成后仍然可以往其中增加数据(append)的数据表，数据组是指一系列同构(数据字段相同)数据切片的组合，新增数据时通过往数据组中新增数据切片的形式来实现数据的append。本实施例中，用户需要使用更多的数据来进行训练或预估时，是以对应的动态数据表或数据组为接口，导入数据，例如文本标注数据。导入数据的方式包括但不限于单次导入、定时导入和流式导入的一种或多种。其中，流式导入例如为Kafka(分布式发布订阅消息系统)导入等。从数据源上，支持本地导入、数据库导入、FTP(File Transfer Protocol，文件传输协议)导入、HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)导入、hive(基于Hadoop的数据仓库工具)导入等多种方式，满足不同文本分类场景的数据导入需求。

在一些实施例中，数据接口为封装接口，封装接口是将动态数据表和数据组封装得到的统一接口。本实施例中，通过将动态数据表和数据组封装为统一的数据接口，不对用户暴露底层数据存储实现，提高用户的使用体验。例如，通过封装接口，对用户只需暴露请求(Request)数据、曝光(Impression)数据、反馈数据和业务数据四类数据接口，用户只需要感知这四个数据接口，不用再感知里面具体对应的数据组是什么。

场景拼接单元22，被配置为将相关数据中的请求数据和曝光数据进行拼接，得到行为数据，例如文本分类行为。在一些实施例中，场景拼接单元22根据请求数据和曝光数据以内连接(inner join)的方式构造出行为数据(也可以称为样本数据)。

在一些实施例中，场景拼接单元22可使用过滤器(filter)进行处理和压平(flatten)处理请求数据和曝光数据，构造出行为数据。

例如，场景拼接单元22可使用过滤器(filter)基于曝光数据对请求数据进行过滤，得到交集数据；进而通过压平(flatten)处理交集数据得到行为数据。例如，曝光数据有10条数据，请求数据有12条数据，曝光数据和请求数据有10条相同数据，场景拼接单元22通过filter过滤，得到这10条相同数据即为交集数据，把不同数据滤除掉，进而通过压平(flatten)处理交集数据(这10条相同数据)得到行为数据。

数据管理单元23，被配置为管理第一数据库中的数据和第二数据库中的数据。在一些实施例中，第一数据库为离线数据库。例如，离线数据库可以为分布式文件存储系统(HDFS，Hadoop Distributed File System)，还可以为其他离线数据库。在一些实施例中，第二数据库为在线数据库，例如实时特征存储引擎(RtiDB)，也可以为其他在线数据库。

在一些实施例中，数据管理单元23可将数据接入单元21获取的文本分类任务的线上相关数据积累到第一数据库。在一些实施例中，数据管理单元23可将场景拼接单元22得到的行为数据积累到第一数据库中。在一些实施例中，数据管理单元23可将线上相关数据存储到第二数据库中。

在一些实施例中，场景模块20中各单元的划分仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如数据接入单元21、场景拼接单元22和数据管理单元23中的至少两个单元可以实现为一个单元；数据接入单元21、场景拼接单元22或数据管理单元23也可以划分为多个子单元。可以理解的是，各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

图3为本公开实施例提供的一种应用机器学习的文本分类装置30的示例性框图。在一些实施例中，应用机器学习的文本分类装置30可以实现为图1中的应用机器学习的文本分类装置12或者其一部分。

如图3所示，应用机器学习的文本分类装置30可划分为多个单元，例如包括但不限于：文本分类应用创建模块31和文本分类应用启动模块32。

文本分类应用创建模块31，被配置为实现文本分类应用配置并创建文本分类应用。在一些实施例中，文本分类应用创建模块31响应于文本分类任务的文本分类应用创建指令，获取文本分类应用配置信息和文本标注数据。在一些实施例中，文本分类应用创建模块31提供用户界面，以用户界面接收用户触发的文本分类应用创建指令，当用户触发了文本分类应用创建指令后，文本分类应用创建模块31响应于文本分类任务的文本分类应用创建指令，显示用户界面，以通过该用户界面获取用户输入的文本分类应用配置信息和文本标注数据。

在一些实施例中，文本分类应用创建模块31基于文本分类应用配置信息，创建文本分类应用；其中，文本分类应用为第一服务程序实例，被配置为基于所述文本分类应用配置信息和所述文本标注数据进行模型方案探索，得到模型方案。

在一些实施例中，文本分类应用可基于第一数据库中的数据(例如请求数据、样本数据、反馈数据、业务数据、曝光数据中一个或多个)和文本标注数据进行模型方案探索，得到模型方案。模型方案包括以下方案子项：特征工程方案、模型算法和模型的超参数。特征工程方案至少具有拼表功能。特征工程方案还可以具有其他功能，例如从数据中提取特征以供模型算法或模型使用。模型算法可以为目前常用的机器学习算法，例如有监督学习算法，包括但不限于：LR(Logistic Regression，逻辑回归)、GBDT(Gradient Boosting Decision Tree，梯度提升迭代决策树)、DeepNN(Deep Neural Network，深度神经网络)等。模型的超参数是在机器学习之前预先设置的用于辅助模型训练的参数，例如聚类算法中的类别个数、梯度下降法的步长、神经网络的层数、训练神经网络的学习速率等。

在一些实施例中，文本分类应用在探索模型方案时，可生成至少两个模型方案，其中，不同模型方案之间至少有一个方案子项不同。在一些实施例中，文本分类应用基于第一数据库中的数据分别采用至少两个模型方案进行模型训练，可得到模型本身的参数，其中模型本身的参数例如：神经网络中的权重、支持向量机中的支持向量、线性回归或逻辑回归中的系数等。在一些实施例中，文本分类应用可基于机器学习模型评价指标，对至少两个模型方案所分别训练出的模型进行评价，进而基于评价结果从至少两个模型方案中进行选择，得到探索到的模型方案。其中机器学习模型评价指标例如为AUC(Area Under Curve)值等。

在一些实施例中，文本分类应用可将文本分类任务的线上相关数据回流到第一数据库中，将模型方案基于线上相关数据生成的带标签的中间数据回流到所述第一数据库中。其中，中间数据可以为预估样本(可以理解为行为数据)的宽表特征数据。在一些实施例中，应用机器学习的文本分类装置30提供回流数据标注接口，以获取回流标注数据，并将回流标注数据再次回流到第一数据库中，其中，回流标注数据为针对回流到第一数据库中的数据进行标注得到。在一些实施例中，回流数据标注接口可由专门的标注平台提供，标注平台可以根据时间与数据量的维度从回流到第一数据库中的数据进行数据调用，进行标注，标注好的数据会再次回流到第一数据库中，进一步提升模型自学习效果。

在一些实施例中，文本分类应用基于线上相关数据、带标签的中间数据、回流标注数据和模型方案，进行模型自学习，得到在线文本分类模型。

在一些实施例中，文本分类应用创建模块31可将文本分类应用配置信息、第二服务程序实例和第三服务程序实例打包为文本分类应用。其中，第二服务程序实例被配置为基于文本分类应用配置信息和文本标注数据进行模型方案探索，得到模型方案。其中，第三服务程序实例被配置为基于文本分类任务的线上相关数据和探索得到的模型方案，进行模型自学习，得到在线文本分类模型。

文本分类应用启动模块32，被配置为部署文本分类应用上线。在一些实施例中，文本分类应用启动模块32响应于启动文本分类应用的指令，将文本分类应用部署上线，并生成文本分类服务地址，以使文本分类应用基于文本分类服务地址，提供针对文本分类任务的在线预估服务；其中，在线预估服务基于文本分类任务的线上相关数据进行。

在一些实施例中，文本分类应用启动模块32可将文本分类应用的第二服务程序实例探索得到的模型方案部署上线。相应地，部署上线的模型方案可基于文本分类任务的线上相关数据生成的带标签的中间数据。在一些实施例中，文本分类应用的第三服务程序实例可基于文本分类任务的线上相关数据、第二服务程序实例探索得到的模型方案和模型方案生成的中间数据，进行模型自学习，得到在线文本分类模型。

在一些实施例中，文本分类应用启动模块32将模型方案部署上线时，还将模型方案探索过程中得到的离线模型部署上线，离线模型是基于第一数据库(即离线数据库)中积累的文本分类任务的相关数据和文本标注数据训练得到，并且离线模型部署上线后可对文本分类场景的相关数据进行预估服务，因此，虽然线上线下特征计算得到的数据可能不一致，但仍实现了线上线下数据同源。

在一些实施例中，文本分类应用的第三服务程序实例通过训练离线模型得到在线文本分类模型；其中，离线模型为文本分类应用的第二服务程序实例探索模型方案的过程中产生的模型，且文本分类应用启动模块32将模型方案部署上线时，还将离线模型部署上线。在一些实施例中，文本分类应用的第三服务程序实例通过模型方案中的模型算法和模型的超参数训练离线模型，更新离线模型本身的参数取值，得到在线文本分类模型。

在一些实施例中，文本分类应用启动模块32仅将模型方案部署上线，而没有将模型方案探索过程中得到的离线模型部署上线，可避免离线模型直接部署上线后由于线上特征计算和线下特征计算得到的数据存在不一致，导致部署上线的离线模型的预估效果较差的问题。另外，由于仅将模型方案部署上线，没有将离线模型部署上线，因此在并不会生成预估结果，当接收到请求数据时，向文本分类场景输出的是默认的预估结果，文本分类场景接收到默认的预估结果后不予理会。

在一些实施例中，文本分类应用的第三服务程序实例可基于文本分类任务的线上相关数据、基于第二服务程序实例探索得到的模型方案中的模型算法和模型的超参数、以及模型方案生成的中间数据，进行模型自学习，生成在线文本分类模型；且文本分类应用启动模块32将模型方案部署上线时，没有将离线模型部署上线。

在一些实施例中，文本分类应用启动模块32可将在线文本分类模型部署上线，以使在线文本分类模型提供针对文本分类任务的批量预估服务。在一些实施例中，文本分类应用启动模块32可提供一个批量预估服务接口，该批量预估服务接口被配置为获取文本分类任务的待批量预估的数据集。相应地，部署上线的在线文本分类模型可通过该批量预估服务接口获取待批量预估的数据集，并基于待批量预估的数据集输出批量预估结果。

在一些实施例中，待批量预估的数据集包括多个数据列，多个数据列包括一个文本列，还可包括其他列，例如ID列和备注列等。在线文本分类模型基于待批量预估的数据集输出批量预估结果包括：基于待批量预估的数据集中的文本列进行批量预估，得到一个预估标签列，将预估标签列与待批量预估的数据集进行拼接，得到批量预估结果并输出。

在一些实施例中，以一条请求数据为例，在线文本分类模型接收到一条请求数据时，基于部署上线的模型方案中的特征工程方案，利用第二数据库中的数据和接收的请求数据进行线上实时特征计算，得到预估样本的特征数据。在一些实施例中，在线文本分类模型接收到请求数据时，基于部署上线的模型方案中的特征工程方案，对第二数据库中的数据和接收的请求数据进行拼表和线上实时特征计算得到宽表特征数据，得到的预估样本的特征数据为宽表特征数据。

在一些实施例中，在线文本分类模型可基于部署上线的模型方案得到预估样本的特征数据(或宽表特征数据)，拼接特征数据和反馈数据生成带特征和反馈的样本数据，样本数据还可包括其他数据，例如时间戳数据等。在一些实施例中，在线文本分类模型拼接特征数据和反馈数据之前，拼接特征数据和曝光数据，得到带曝光数据的特征数据；进而拼接带曝光数据的特征数据和反馈数据，生成带曝光、特征和反馈的样本数据。在一些实施例中，在线文本分类模型将带特征和反馈的样本数据回流到第一数据库中，以便进行模型自学习，模型自学习得到的在线文本分类模型可部署上线，保证模型自学习用到的数据和特征工程方案分别与模型在线预估服务用到的数据和特征工程方案是一致的，实现模型自学习效果和模型预估效果一致性。

在一些实施例中，文本分类应用的第三服务程序实例进行模型自学习的过程为：基于带特征和反馈的样本数据，通过模型方案中的模型算法和模型的超参数进行训练，得到在线文本分类模型。

在一些实施例中，文本分类应用将探索得到的模型方案部署上线包括：将探索得到的模型方案替换已部署上线的模型方案。

在一些实施例中，文本分类应用启动模块32可将在线文本分类模型替换已部署上线的机器学习模型；或，将在线文本分类模型部署上线，并与已部署上线的机器学习模型共同提供针对文本分类任务的批量预估服务。

在一些实施例中，应用机器学习的文本分类装置30中各单元的划分仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如文本分类应用创建模块31和文本分类应用启动模块32可以实现为一个单元；文本分类应用创建模块31或文本分类应用启动模块32也可以划分为多个子单元。可以理解的是，各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

图4为本公开实施例提供的一种文本分类应用提供在线预估服务或批量预估服务的示例性架构图。如图4所示，文本分类应用至少具有两个功能：模型方案探索和模型自学习。在一些实施例中，文本分类应用可以为图1中应用机器学习的文本分类装置12创建的文本分类应用，且在部署文本分类应用上线后，将文本分类应用探索得到的模型方案也部署上线，并将文本分类应用通过模型自学习得到的在线文本分类模型也部署上线。

结合图4，文本分类应用提供在线预估服务或批量预估服务的过程描述如下：

在定义文本分类场景后，可与文本分类场景进行数据对接，实现数据管理，数据管理例如为图2所示的数据管理单元23的功能。当文本分类应用上线后，文本分类应用的第二服务程序实例可基于文本分类应用配置信息和文本标注数据进行模型方案探索，得到模型方案，进而可将模型方案部署上线提供在线预估服务或批量预估服务(实质上不会输出预估结果，输出的是默认预估结果，因此图中用虚线表示)，模型方案会将中间数据回流。文本分类应用的第三服务程序实例可基于回流的中间数据和模型方案，进行模型自学习，产出在线文本分类模型，进而可将在线文本分类模型部署上线提供在线预估服务或批量预估服务。

可将，图4中，数据管理、模型自学习、在线预估服务(或批量预估服务)构成小闭环；数据管理、模型方案探索、在线预估服务(或批量预估服务)构成大闭环。其中，小闭环保证模型自学习用到的数据和特征工程方案分别与批量预估服务用到的数据和特征工程方案相同，实现模型自学习效果和模型预估效果一致性。大闭环保证模型方案探索用到的数据(简称线下数据)和批量预估服务用到的数据(简称线上数据)是同源的，实现了线下线上的数据同源。

图5是本公开实施例提供的一种电子设备的结构示意图。在一些实施例中，图1中应用机器学习的文本分类装置可以设置于电子设备中或实现为电子设备。

如图5所示，电子设备包括：至少一个处理器51、至少一个存储器52和至少一个通信接口53。电子设备中的各个组件通过总线系统54耦合在一起。通信接口53，被配置为与外部设备之间的信息传输。可理解地，总线系统54被配置为实现这些组件之间的连接通信。总线系统54除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统54。

可以理解，本实施例中的存储器52可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器52存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，被配置为实现各种基础任务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，被配置为实现各种应用任务。实现本公开实施例提供的应用机器学习的文本分类方法的程序可以包含在应用程序中。

在本公开实施例中，处理器51通过调用存储器52存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器51被配置为执行本公开实施例提供的应用机器学习的文本分类方法各实施例的步骤。

本公开实施例提供的应用机器学习的文本分类方法可以应用于处理器51中，或者由处理器51实现。处理器51可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开实施例提供的应用机器学习的文本分类方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器52，处理器51读取存储器52中的信息，结合其硬件完成方法的步骤。

图6为本公开实施例提供的一种应用机器学习的文本分类方法的示例性流程图。该方法的执行主体为电子设备，为便于描述，以下实施例中以电子设备为执行主体说明应用机器学习的文本分类方法的流程。

如图6所示，在步骤601中，响应于文本分类任务的文本分类应用创建指令，获取文本分类应用配置信息和文本标注数据；其中，文本标注数据包括一个文本列和一个标签列。在一些实施例中，文本列中每一行文本对应一个或多个标签。

在步骤602中，基于文本分类应用配置信息，创建文本分类应用；其中，文本分类应用为第一服务程序实例，被配置为基于文本分类应用配置信息和文本标注数据进行模型方案探索，得到模型方案。

在步骤603中，响应于启动文本分类应用的指令，将文本分类应用部署上线，并生成文本分类服务地址，以使文本分类应用基于文本分类服务地址，提供针对文本分类任务的在线预估服务；其中，在线预估服务基于文本分类任务的线上相关数据进行。在一些实施例中，文本分类应用还被配置为基于线上相关数据和模型方案，进行模型自学习，得到在线文本分类模型。

在一些实施例中，所述方法还包括：

将线上相关数据回流到第一数据库中；

将模型方案基于线上相关数据生成的带标签的中间数据回流到第一数据库中；

提供回流数据标注接口，以获取回流标注数据，并将回流标注数据再次回流到第一数据库中，其中，回流标注数据为针对回流到第一数据库中的数据进行标注得到；

相应地，文本分类应用基于线上相关数据、带标签的中间数据、回流标注数据和模型方案，进行模型自学习，得到在线文本分类模型。

在一些实施例中，所述方法还包括：将在线文本分类模型部署上线，以提供针对文本分类任务的批量预估服务。

在一些实施例中，批量预估服务包括：提供一个批量预估服务接口，在线文本分类模型基于批量预估服务接口获取文本分类任务的待批量预估的数据集，并基于待批量预估的数据集输出批量预估结果。

在一些实施例中，待批量预估的数据集包括多个数据列，多个数据列包括一个文本列；

在线文本分类模型基于所述待批量预估的数据集输出批量预估结果包括：

基于待批量预估的数据集中的文本列进行批量预估，得到一个预估标签列；将预估标签列与待批量预估的数据集进行拼接，得到批量预估结果并输出。

在一些实施例中，将在线文本分类模型部署上线包括：将在线文本分类模型替换已部署上线的机器学习模型。

在一些实施例中，响应于文本分类任务的文本分类应用创建指令之前，所述方法还包括：

提供用户界面，基于用户界面接收用户输入的文本分类场景和文本分类任务，以及基于用户界面接收用户触发的文本分类应用创建指令，其中，文本分类应用创建指令与用户输入的文本分类场景和文本分类任务相对应。

在一些实施例中，基于文本分类应用配置信息，创建文本分类应用包括：

将文本分类应用配置信息、第二服务程序实例和第三服务程序实例打包为文本分类应用；

其中，第二服务程序实例被配置为基于文本分类应用配置信息和文本标注数据进行模型方案探索，得到模型方案；

其中，第三服务程序实例被配置为基于线上相关数据和模型方案，进行模型自学习，得到在线文本分类模型。

在一些实施例中，文本分类应用配置信息包括如下中的一种或多种：

模型自学习的频率；

模型自学习的评价指标；

数据集语言；

使用GPU加速；

模型的评估数据占比。

在一些实施例中，文本分类应用，被配置为基于第一数据库中的数据、文本分类应用配置信息和文本标注数据进行模型方案探索，得到模型方案；其中，模型方案包括以下方案子项：特征工程方案、模型算法和模型的超参数；相应地，将文本分类应用部署上线包括：将探索得到的模型方案部署上线。

文本分类应用进行探索模型方案，不仅可以生成模型方案，而且还可以生成该模型方案对应的离线模型。

在一些实施例中，若将探索得到的模型方案部署上线时，还将离线模型部署上线，则在进行模型自学习时，在线文本分类模型通过训练离线模型得到，也即文本分类应用通过训练离线模型得到在线文本模型；其中，离线模型为文本分类应用探索模型方案的过程中产生的模型。

在一些实施例中，若将探索得到的模型方案部署上线时，没有将离线模型部署上线，则文本分类应用可以基于模型方案中的模型算法和模型的超参数进行模型自学习，生成在线文本分类模型。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员能够理解，本公开实施例并不受所描述的动作顺序的限制，因为依据本公开实施例，某些步骤可以采用其他顺序或者同时进行。另外，本领域技术人员能够理解，说明书中所描述的实施例均属于可选实施例。

本公开实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如应用机器学习的文本分类各实施例的步骤，为避免重复描述，在此不再赘述。

在一些实施例中，文本分类应用可以看作是“学习圈”，“学习圈”部署上线提供在线预估服务，可以理解为在线应用；“学习圈”自学习得到的在线文本分类模型部署上线提供批量预估服务，可以理解为批量应用，用户只需要上传需要预估的数据集，同时指出需要预估的文本列即可，批量应用会自动将预估结果写入数据集后面的predict label列中。图7至图15为应用机器学习的文本分类过程相关的界面示意图，不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本公开的实施方式，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

工业实用性

本公开的至少一个实施例中，对于不具有机器学习专业知识的人员，能够通过指定文本分类场景、文本分类任务和文本分类应用配置信息，创建文本分类应用，降低NLP文本分类能力落地成本。在一些实施例中，可基于线上相关数据和模型方案，进行模型自学习，得到在线文本分类模型，实现模型自动构建，降低模型构建成本。在一些实施例中，通过对文本分类场景的数据进行管理(包括但不限于场景拼接等)，得到能够复用的被配置为模型构建的数据。在一些实施例中，通过将构建的模型部署上线，可提供针对文本分类任务的批量预估服务。另外，利用获取的线上数据、探索得到的模型方案和批量预估服务产生的中间数据，可进行模型自学习，实现模型自动迭代更新。

Claims

一种应用机器学习的文本分类方法，包括：

响应于文本分类任务的文本分类应用创建指令，获取文本分类应用配置信息和文本标注数据；所述文本标注数据包括一个文本列和一个标签列；

基于所述文本分类应用配置信息，创建文本分类应用；其中，所述文本分类应用为第一服务程序实例，至少被配置为基于所述文本分类应用配置信息和所述文本标注数据进行模型方案探索，得到模型方案；

响应于启动所述文本分类应用的指令，将所述文本分类应用部署上线，并生成文本分类服务地址，以使所述文本分类应用基于所述文本分类服务地址，提供针对所述文本分类任务的在线预估服务；其中，所述在线预估服务基于所述文本分类任务的线上相关数据进行。
根据权利要求1所述的方法，其中，所述文本列中每一行文本对应一个或多个标签。
根据权利要求1或2所述的方法，其中，所述文本分类应用还被配置为基于所述线上相关数据和所述模型方案，进行模型自学习，得到在线文本分类模型。
根据权利要求1至3任一项所述的方法，其中，所述方法还包括：

将所述线上相关数据回流到第一数据库中；

将所述模型方案基于所述线上相关数据生成的带标签的中间数据回流到所述第一数据库中；

提供回流数据标注接口，以获取回流标注数据，并将所述回流标注数据再次回流到所述第一数据库中，其中，所述回流标注数据为针对回流到所述第一数据库中的数据进行标注得到；

相应地，所述文本分类应用基于所述线上相关数据、所述带标签的中间数据、所述回流标注数据和所述模型方案，进行模型自学习，得到在线文本分类模型。
根据权利要求3或4所述的方法，其中，所述方法还包括：将所述在线文本分类模型部署上线，以提供针对所述文本分类任务的批量预估服务。
根据权利要求5所述的方法，其中，所述批量预估服务包括：提供一个批量预估服务接口，在线文本分类模型基于所述批量预估服务接口获取所述文本分类任务的待批量预估的数据集，并基于所述待批量预估的数据集输出批量预估结果。
根据权利要求6所述的方法，其中，所述待批量预估的数据集包括多个数据列，所述多个数据列包括一个文本列；

所述基于所述待批量预估的数据集输出批量预估结果包括：

基于所述待批量预估的数据集中的文本列进行批量预估，得到一个预估标签列；

将所述预估标签列与所述待批量预估的数据集进行拼接，得到批量预估结果并输出。
根据权利要求5至7任一项所述的方法，其中，所述将所述在线文本分类模型部署上线包括：将所述在线文本分类模型替换已部署上线的机器学习模型。
根据权利要求1至8任一项所述的方法，其中，所述响应于文本分类任务的文本分类应用创建指令之前，所述方法还包括：

提供用户界面，基于所述用户界面接收用户输入的文本分类场景和文本分类任务，以及基于所述用户界面接收用户触发的文本分类应用创建指令，所述文本分类应用创建指令与用户输入的文本分类场景和文本分类任务相对应。
根据权利要求3至9任一项所述的方法，其中，所述基于所述文本分类应用配置信息，创建文本分类应用包括：

将所述文本分类应用配置信息、第二服务程序实例和第三服务程序实例打包为文本分类应用；

其中，所述第二服务程序实例被配置为基于所述文本分类应用配置信息和所述文本标注数据进行模型方案探索，得到模型方案；

其中，所述第三服务程序实例被配置为基于所述线上相关数据和所述模型方案，进行模型自学习，得到在线文本分类模型。
根据权利要求3至10任一项所述的方法，其中，所述文本分类应用配置信息包括如下中的一种或多种：

模型自学习的频率；

模型自学习的评价指标；

数据集语言；

使用GPU加速；

模型的评估数据占比。
根据权利要求4至11任一项所述的方法，其中，所述文本分类应用，被配置为基于所述第一数据库中的数据、所述文本分类应用配置信息和所述文本标注数据进行模型方案探索，得到模型方案；其中，所述模型方案包括以下方案子项：特征工程方案、模型算法和模型的超参数；

相应地，所述将所述文本分类应用部署上线包括：将探索得到的模型方案部署上线。
根据权利要求12所述的方法，其中，所述在线文本分类模型通过训练离线模型得到；其中，所述离线模型为所述模型方案探索的过程中产生的模型，且将探索得到的模型方案部署上线时，还将所述离线模型部署上线。
根据权利要求12所述的方法，其中，所述在线文本分类模型为基于所述模型方案中的模型算法和模型的超参数生成的模型；且将探索得到的模型方案部署上线时，没有将离线模型部署上线。
一种应用机器学习的文本分类装置，包括：

文本分类应用创建模块，被配置为响应于文本分类任务的文本分类应用创建指令，获取文本分类应用配置信息和文本标注数据；所述文本标注数据包括一个文本列和一个标签列；基于所述文本分类应用配置信息，创建文本分类应用；其中，所述文本分类应用为第一服务程序实例，被配置为基于所述文本分类应用配置信息和所述文本标注数据进行模型方案探索，得到模型方案；

文本分类应用启动模块，被配置为响应于启动所述文本分类应用的指令，将所述文本分类应用部署上线，并生成文本分类服务地址，以使所述文本分类应用基于所述文本分类服务地址，提供针对所述文本分类任务的在线预估服务；其中，所述在线预估服务基于所述文本分类任务的线上相关数据进行。
根据权利要求15所述的装置，其中，所述文本列中每一行文本对应一个或多个标签。
根据权利要求15或16所述的装置，其中，所述文本分类应用还被配置为基于所述线上相关数据和所述模型方案，进行模型自学习，得到在线文本分类模型。
根据权利要求15至17任一项所述的装置，其中，所述文本分类应用还被配置为将所述线上相关数据回流到第一数据库中，将所述模型方案基于所述线上相关数据生成的带标签的中间数据回流到所述第一数据库中；

所述应用机器学习的文本分类装置还包括标注接口模块，所述标注接口模块被配置为提供回流数据标注接口，以获取回流标注数据，并将所述回流标注数据再次回流到所述第一数据库中，其中，所述回流标注数据为针对回流到所述第一数据库中的数据进行标注得到；

相应地，所述文本分类应用基于所述线上相关数据、所述带标签的中间数据、所述回流标注数据和所述模型方案，进行模型自学习，得到在线文本分类模型。
根据权利要求17或18所述的装置，其中，所述文本分类应用启动模块还被配置为将所述在线文本分类模型部署上线，以提供针对所述文本分类任务的批量预估服务。
根据权利要求19所述的装置，其中，所述文本分类应用启动模块还被配置为提供一个批量预估服务接口，在线文本分类模型基于所述批量预估服务接口获取所述文本分类任务的待批量预估的数据集，并基于所述待批量预估的数据集输出批量预估结果。
根据权利要求20所述的装置，其中，所述待批量预估的数据集包括多个数据列，所述多个数据列包括一个文本列；

所述在线文本分类模型基于所述待批量预估的数据集输出批量预估结果包括：基于所述待批量预估的数据集中的文本列进行批量预估，得到一个预估标签列，将所述预估标签列与所述待批量预估的数据集进行拼接，得到批量预估结果并输出。
根据权利要求19至21任一项所述的装置，其中，所述文本分类应用启动模块将所述在线文本分类模型部署上线包括：将所述在线文本分类模型替换已部署上线的机器学习模型。
根据权利要求15至22任一项所述的装置，其中，所述文本分类应用创建模块还被配置为：

响应于文本分类任务的文本分类应用创建指令之前，提供用户界面，基于所述用户界面接收用户输入的文本分类场景和文本分类任务，以及基于所述用户界面接收用户触发的文本分类应用创建指令，所述文本分类应用创建指令与用户输入的文本分类场景和文本分类任务相对应。
根据权利要求17至23任一项所述的装置，其中，所述文本分类应用创建模块基于所述文本分类应用配置信息，创建文本分类应用包括：

将所述文本分类应用配置信息、第二服务程序实例和第三服务程序实例打包为文本分类应用；

其中，所述第二服务程序实例被配置为基于所述文本分类应用配置信息和所述文本标注数据进行模型方案探索，得到模型方案；

其中，所述第三服务程序实例被配置为基于所述线上相关数据和所述模型方案，进行模型自学习，得到在线文本分类模型。
根据权利要求17至24任一项所述的装置，其中，所述文本分类应用配置信息包括如下中的一种或多种：

模型自学习的频率；

模型自学习的评价指标；

数据集语言；

使用GPU加速；

模型的评估数据占比。
根据权利要求18至25任一项所述的装置，其中，所述文本分类应用，被配置为基于所述第一数据库中的数据、所述文本分类应用配置信息和所述文本标注数据进行模型方案探索，得到模型方案；其中，所述模型方案包括以下方案子项：特征工程方案、模型算法和模型的超参数；

相应地，所述文本分类应用启动模块将所述文本分类应用部署上线包括：将探索得到的模型方案部署上线。
根据权利要求26所述的装置，其中，所述在线文本分类模型通过训练离线模型得到；其中，所述离线模型为所述模型方案探索的过程中产生的模型，且将探索得到的模型方案部署上线时，还将所述离线模型部署上线。
根据权利要求26所述的装置，其中，所述在线文本分类模型为基于所述模型方案中的模型算法和模型的超参数生成的模型；且将探索得到的模型方案部署上线时，没有将离线模型部署上线。
一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，被配置为执行如权利要求1至14任一项所述方法的步骤。
一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至14任一项所述方法的步骤。