WO2023040545A1

WO2023040545A1 - 一种数据处理方法、装置、设备、存储介质和程序产品

Info

Publication number: WO2023040545A1
Application number: PCT/CN2022/112643
Authority: WO
Inventors: 凡子威; 占吉清; 余健; 王砚峰; 朱运; 赵昂
Original assignee: 北京搜狗科技发展有限公司
Priority date: 2021-09-17
Filing date: 2022-08-16
Publication date: 2023-03-23
Also published as: CN113807540A

Abstract

本申请公开了一种数据处理方法，应用于人工智能、自然语言处理等领域。基于获取的业务数据，输入预训练模型和初始业务模型，得到所述预训练模型的第一全连接层输出以及所述初始业务模型的第二全连接层输出。由于预训练模型和初始业务模型通过不同粒度构建了建模单元，将预训练模型的第一建模单元与初始业务模型的第二建模单元进行匹配，第二建模单元的全连接层输出与所匹配目标第一建模单元的全连接层输出具有相同的序列长度，由此达成进行知识蒸馏的基础，从而可以在预训练模型的协助下，通过初始业务模型得到目标业务模型，实现了对包括不同粒度的建模单元的模型进行知识蒸馏，从而扩展了知识蒸馏的适用范围，有效提升了业务模型的业务性能。

Description

一种数据处理方法、装置、设备、存储介质和程序产品

本申请要求于2021年09月17日提交中国专利局、申请号为202111094328.0、申请名称为“一种数据处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习领域，特别是涉及数据处理。

背景技术

目前，预训练模型发展突飞猛进。预训练可以通过自监督学习从大规模数据中获得预训练模型。并且，预训练模型可以将从大规模数据中学习到的知识迁移到其他小规模模型中，以实现与预训练模型的具体任务无关的其他任务。

也就是说，通过预训练模型可以优化业务模型，使得业务模型可以更好的在其他任务进行服务。

但是，在一些场景下，并不能使用预训练模型对业务模型进行优化，从而使得业务模型的效果无法得到提升。

发明内容

有鉴于此，本申请实施例提供一种数据处理方法、装置、设备、存储介质和程序产品，扩展了知识蒸馏的适用范围，有效提升了业务模型的业务性能。

为实现上述目的，本申请实施例提供如下技术方案：

一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

获取业务数据；

将业务数据输入预训练模型和初始业务模型，得到所述预训练模型的第一全连接层输出以及所述初始业务模型的第二全连接层输出；其中，所述预训练模型的第一建模单元通过第一粒度构建，所述初始业务模型的第二建模单元通过第二粒度构建，所述第一粒度和所述第二粒度为不同粒度；

将所述第一建模单元与所述第二建模单元进行匹配，从所述第一建模单元中确定出与所述第二建模单元分别匹配的目标第一建模单元，所述第二建模单元的全连接层输出与所匹配目标第一建模单元的全连接层输出具有相同的序列长度；

根据所述初始业务模型的第二全连接层输出、以及所述第一全连接层输出中所述目标第一建模单元分别对应的全连接层输出，对所述初始业务模型进行知识蒸馏得到目标业务模型。

另一方面，本申请实施例提供了一种数据处理装置，所述装置包括：

第一获取单元，用于获取业务数据；

输入单元，用于将业务数据输入预训练模型和初始业务模型，得到所述预训练模型的第一全连接层输出以及所述初始业务模型的第二全连接层输出；其中，所述预训练模型的第一建模单元通过第一粒度构建，所述初始业务模型的第二建模单元通过第二粒度构建，所述第一粒度和所述第二粒度为不同粒度；

匹配单元，用于将所述第一建模单元与所述第二建模单元进行匹配，从所述第一建模单元中确定出与所述第二建模单元分别匹配的目标第一建模单元，所述第二建模单元的全连接层输出与所匹配目标第一建模单元的全连接层输出具有相同的序列长度；

确定单元，用于根据所述第二全连接层输出、以及所述第一全连接层输出中所述目标第一建模单元分别对应的全连接层输出，对所述初始业务模型进行知识蒸馏得到目标业务模型。

再一方面，本申请实施例提供一种计算机设备，包括：

处理器、通信接口、存储器和通信总线；

其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；所述通信接口为通信模块的接口；

所述存储器，用于存储程序代码，并将所述程序代码传输给所述处理器；处理器，用于调用存储器中程序代码的指令执行以上方面所述的方法。

又一方面，本申请实施例提供一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行以上方面所述的方法。

又一方面，本申请实施例提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行以上方面所述的方法。

与相关技术相比，本申请实施例具有以下优点：

基于获取的业务数据，输入预训练模型和初始业务模型，得到所述预训练模型的第一全连接层输出以及所述初始业务模型的第二全连接层输出。由于预训练模型和初始业务模型通过不同粒度构建了建模单元，导致第一全连接层输出的序列长度、与第二全连接层输出的序列长度不同。在这种情况下，为了实现通过预训练模型对初始业务模型进行知识蒸馏，将所述预训练模型的第一建模单元与所述初始业务模型的第二建模单元进行匹配，第二建模单元的全连接层输出与所匹配目标第一建模单元的全连接层输出具有相同的序列长度，由此达成进行知识蒸馏的基础，从而可以在预训练模型的协助下，通过初始业务模型得到目标业务模型，实现了对包括不同粒度的建模单元的模型进行知识蒸馏。由此可见，即使预训练模型和初始业务模型具有不同粒度的建模单元，也能够使用预训练模型对初始业务模型进行优化，得到目标业务模型，从而扩展了知识蒸馏的适用范围，有效提升了业务模型的业务性能。

附图说明

图1为本申请实施例提供的一种数据处理方法的流程示意图；

图2为本申请实施例提供的一种数据处理装置的结构示意图；

图3为本申请实施例提供的客户端的结构示意图；

图4为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人经过研究发现，可以通过知识蒸馏的方式，利用预训练模型对业务模型进行优化。但是，使用知识蒸馏有一个前提，就是预训练模型的全连接层输出的序列长度和业务模型的全连接层输出的序列长度一致。这是因为在进行知识蒸馏时，要根据预训练模型的全连接层输出和业务模型的全连接层输出计算相对熵散度损失函数(Kullback–Leibler divergence loss，KLD loss)。举例说明：预训练模型的全连接层输出包括3个向量，分别是w1、w2和w3，业务模型的全连接层输出包括3个向量，分别是L1、L2和L3，则KLD loss＝w1*L1+w2*L2+w3*L3。

在一些场景中，例如，在给文本自动添加标点符号的场景中，其对应的业务模型的建模单元为分词，而预训练模型的建模单元为单个字符。而一个建模单元对应一个全连接层输出，各个建模单元分别对应的全连接层输出的序列长度相同(例如前述w1、w2、w3、L1、L2和L3的维度相同)。然而由于预训练模型和业务模型的建模单元构建粒度不同(预训练模型是以字符为粒度，业务模型是以分词为粒度)，即预训练模型和业务模型的建模单元在数量上是有区别的，这就导致该业务模型的全连接层输出的序列长度与预训练模型的全连接层输出的序列长度不一致，从而无法进行知识蒸馏。举例说明：

对于文本“我是中国人”而言，预训练模型的输入包括5个建模单元，分别为：“我”、“是”、“中”、“国”、“人”。而业务模型的输入包括3个建模单元，分别是“我”、“是”、“中国人”。假设各个建模单元对应的全连接层输出是一个5维的向量，则对于预训练模型而言，其全连接层输出为5个5维向量，而对于业务模型而言，其全连接层输出为3个5维向量。即：业务模型的全连接层输出的序列长度与预训练模型的全连接层输出的序列长度不一致。

针对此处提及的知识蒸馏、预训练模型、业务模型、建模单元和全连接层输出，需要说明的是：

知识蒸馏指的是：将预训练模型的知识迁移到业务模型，从而对业务模型进行优化。

预训练模型，包括但不限于Bert、GPT和ELECTRA。

业务模型，包括但不限于双向长短记忆网络(Bi-directional Long-Short Term Memory，BiLSTM)模型。

建模单元，指的是以模型输入的粒度为依据建立的单元，一般为单个字符或者分词，分词可以包括一个或者多个字符。

全连接层输出为未经归一化的标签概率值向量。例如，在给文本添加标点符号的场景中，可选的标点符号有4种，则各个建模单元对应的全连接层输出为一个5维向量，该5维向量的具体数值用于指示该4种标点符号的概率以及无标点符号的概率。全连接层输出又可以被称为Logits输出。

可以理解的是，若预训练模型和业务模型无法进行知识蒸馏，则无法利用大规模的预训练模型的知识对小规模的业务模型进行优化，从而使得业务模型的效果无法得到提升。

为了解决上述问题，本申请实施例提供了一种数据处理方法，实现了对包括不同粒度的建模单元的模型进行知识蒸馏，从而扩展了知识蒸馏的适用范围，有效提升了业务模型的业务性能。

该数据处理方法可以通过计算机设备实施，该计算机设备可以是终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例还涉及人工智能(Artificial Intelligence,AI)，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。本申请实施例主要涉及自然语言处理技术以及机器学习。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

例如，本申请实施例可以通过自然语言技术对文本进行切分得到分词、字符等，并对切分结果进行特征处理得到全连接层输出。而且，通过预训练模型对初始业务模型的知识蒸馏也属于实现迁移学习的一种有效实现形式。

参见图1，该图为本申请实施例提供的一种数据处理方法的流程示意图。在本实施例中，以服务器作为前述计算机设备进行示例性说明，所述方法例如可以通过以下S101-S104实现。

S101：获取业务数据。

本申请实施例中提及的业务数据，指的是与具体业务相关的数据。本申请实施例不具体限定所述业务数据。

在一种可能的实现方式中，若所述初始业务模型和所述目标业务模型用于为输入的文本添加标点符号，则该业务数据为不具有标点符号的文本，从而通过知识蒸馏，可以让得到的目标业务模型具备为不具有标点符号的文本进行标点符号的标注功能。

该不具有标点符号的文本可以基于不同方式得到，本申请对此不做限定。例如可以通过语音识别技术对语音进行识别得到的文本。

S102：将业务数据输入预训练模型和初始业务模型，得到所述预训练模型的第一全连接层输出以及所述初始业务模型的第二全连接层输出。

其中，所述预训练模型的第一建模单元通过第一粒度构建，所述初始业务模型的第二建模单元通过第二粒度构建，所述第一粒度和所述第二粒度为不同粒度。

在本申请实施例中，所述预训练模型和所述初始业务模型可以是预先训练得到的。在一个示例中，所述预训练模型可以是根据预训练数据和业务数据训练得到的。具体地：可以利用预训练数据训练得到初始预训练模型，而后，利用业务数据对所述初始预训练模型进行微调(Finetune)，得到基于业务数据所对应业务任务的预训练模型。换言之，S101中提及的预训练模型，可以是基于该业务的预训练模型。此处提及的预训练数据，可以是与该业务任务无关的训练数据。一般情况下，所述预训练模型的数据量比较大，直接使用则会影响业务处理效率。

需要说明的是，预训练数据所对应的业务任务和业务数据所对应的业务任务可以不同。而且，在一种可能的实现方式中，预训练数据的数据量大于训练得到所述目标业务模型所需的业务数据的数据量，使得预训练数据可以基于比较充分的预训练数据进行训练，所得到的预训练模型具备较高的精度和模型参数规模。

在本申请实施例中，所述初始业务模型可以是利用业务数据训练得到的。可以理解的是，目标业务模型主要应用于较新领域中的业务任务，使得能够收集用于训练的业务数据的数据量一般远小于预训练数据的数据量，尤其是对于一些新兴业务，所能获取的业务数据的数据量更是十分有限。因此，初始业务模型的准确度往往不是特别高，其模型参数规模也会小于预训练模型，并不能满足对应的业务任务。而采用知识蒸馏的方式利用预训练模型对初始业务模型进行优化，以预训练模型作为知识蒸馏中的老师模型，初始业务模型作为知识蒸馏中的学生模型，将预训练模型的知识有效的迁移到目标业务模型中，则可以在不额外增加用于模型训练的业务数据的情况下，有效提升最终得到的目标业务模型的准确度。

在本申请实施例中，所述预训练模型的第一建模单元通过第一粒度构建，所述初始业务模型的第二建模单元通过第二粒度构建，第一粒度和第二粒度为不同粒度，由此导致预训练模型的建模单元数量与初始业务模型的建模单元数量并不一致。因此，所述预训练模型的第一全连接层输出的序列长度一般是大于所述初始业务模型的第二全连接层输出的序列长度的。由此难以使用相关技术中的知识蒸馏方式将预训练模型的知识迁移到初始业务模型中，需要通过本申请实施例提供的方式，例如通过S103-S104的方式才可以实现包括不同粒度的建模单元的两个模型间的知识蒸馏。

在一种可能的实现方式中，当所述业务数据为文本时，所述第一粒度为单个字符，所述第二粒度为分词。也就是说，在此实现方式下，由于一个分词可以包括一个或多个字符，故第一粒度要比第二粒度更细。相应的，最终得到的目标业务模型可以实现对文本中以分词为粒度的业务任务，例如添加标点符号等。

如前所述，对于预训练模型和初始业务模型而言，均是一个建模单元对应一个全连接层输出。并且，预训练模型和初始业务模型的建模单元对应的全连接层输出的序列长度相同。因此，所述预训练模型的全连接层输出的序列长度，大于或者等于所述初始业务模型的全连接层输出的序列长度。并且，由于所述初始业务模型的每个建模单元只包括一个字符的可能性较小，因此，在大多数情况下，所述预训练模型的全连接层输出的序列长度，大于所述初始业务模型的全连接层输出的序列长度。

S103：将所述第一建模单元与所述第二建模单元进行匹配，从所述第一建模单元中确定出与所述第二建模单元分别匹配的目标第一建模单元。

所述第二建模单元的全连接层输出与所匹配目标第一建模单元的全连接层输出具有相同的序列长度。

S104：根据所述初始业务模型的第二全连接层输出、以及所述第一全连接层输出中所述目标第一建模单元分别对应的全连接层输出，对所述初始业务模型进行知识蒸馏得到目标业务模型。

关于S102和S103，需要说明的是，本申请实施例不具体限定S102和S103的执行顺序，只要S102和S103在S101与S104之间执行即可。S102可以在S103之前执行，S102也可以和S103同时执行，S102还可以在S103之后执行。

关于S103和S104，需要说明的是，正是由于在大多数情况下，所述预训练模型的全连接层输出的序列长度，大于所述初始业务模型的全连接层输出的序列长度。因此，若直接利用所述预训练模型的全连接层输出和所述初始业务模型的全连接层输出，无法进行知识蒸馏。

鉴于此，在本申请实施例中，可以从所述预训练模型的第一建模单元中，确定出与所述初始业务模型的第二建模单元分别匹配的目标第一建模单元，针对一个第二建模单元和对应的目标第一建模单元，该两者的全连接层输出具有相同的序列长度，且由于是通过匹配的方式确定出的第二建模单元对应的目标第一建模单元，故目标第一建模单元不仅在其全连接层输出的序列长度上与对应的第二建模单元相同，而且在业务任务的处理上具有关联性，从而达到了通过预训练模型对初始业务模型进行知识蒸馏的实现基础。

而后，利用所述初始业务模型的第二全连接层输出、以及所述第一全连接层输出中所述目标第一建模单元对应的全连接层输出对初始业务模型进行知识蒸馏达到目标业务模型。换言之，在本方案中，可以从所述预训练模型的全连接层输出中，筛选出与第二建模单元的全连接层输出的序列长度相同的目标第一建模单元，从而进行知识蒸馏，得到目标业务模型。

举例说明：

业务数据为：“我是中国人”。第一粒度为单个字符，第二粒度为分词。

如图2所示，初始业务模型包括3个第二建模单元，分别为：“我”、“是”、“中国人”，其分别对应的全连接层输出分别为：a1、a2和a3。预训练模型包括5个第一建模单元，分别为：“我”、“是”、“中”、“国”、“人”，其分别对应的全连接层输出分别为：b1、b2、b3、b4和b5。从预训练模型的第一建模单元“我”、“是”、“中”、“国”、“人”中，通过匹配确定出与初始业务模型的各个第二建模单元分别对应的目标第一建模单元。例如，确定预训练模型中目标第一建模单元“我”对应初始业务模型的第二建模单元“我”；确定预训练模型中目标第一建模单元“是”对应初始业务模型的第二建模单元“是”；确定预训练模型中目标第一建模单元“人”对应初始业务模型的第二建模单元“中国人”。而后，利用a1、a2、a3和b1、b2、b5进行知识蒸馏，得到目标业务模型。在进行知识蒸馏时，可以利用公式a1*b1+a2*b2+a3*b5计算KLD loss。

再举例说明：

初始业务模型包括3个第二建模单元，分别为：“我”、“是”、“中国人”，其分别对应的全连接层输出分别为：a1、a2和a3。预训练模型包括5个第一建模单元，分别为：“我”、“是”、“中”、“国”、“人”，其分别对应的全连接层输出分别为：b1、b2、b3、b4和b5。从预训练模型的第一建模单元“我”、“是”、“中”、“国”、“人”中，通过匹配确定出与初始业务模型的各个第二建模单元分别对应的目标第一建模单元。例如，确定预训练模型中目标第一建模单元“我”对应初始业务模型的第二建模单元“我”；确定预训练模型中目标第一建模单元“是”对应初始业务模型的第二建模单元“是”；确定预训练模型中目标第一建模单元“中”对应初始业务模型的第二建模单元“中国人”。而后，利用a1、a2、a3和b1、b2、b3进行知识蒸馏，得到目标业务模型。在进行知识蒸馏时，可以利用公式a1*b1+a2*b2+a3*b3计算KLD loss。

需要说明的是，本申请实施例中的初始业务模型和目标业务模型，可以用于处理与业务数据相关的业务。在一个示例中，所述初始业务模型和基于初始业务模型训练得到的所述目标业务模型可以用于为文本添加标点符号。考虑到根据语音自动识别到的文本不包括标点符号。因此，在一些实施例中，此处提及的业务数据和后续提及的文本，均可以是通过语音自动识别的文本。

在本申请实施例中，对于所述初始业务模型和所述目标业务模型可以用于为文本添加标点符号的情况，考虑到对于一个分词而言，其分词内部不可能会被添加标点符号，标点符号可能被添加在该分词最后一个字符之后。举例说明，对于分词“中国人”而言，字符“中”和字符“国”之间，不可能被添加标点符号；字符“国”和字符“人”之间，也不可能被添加标点符号。而字符“人”之后有可能被添加标点符号。

因此，在一种可能的实现方式中，若所述第一粒度为单个字符，所述第二粒度为分词，S103可以包括：

S1031：根据所述目标第二建模单元对应的目标分词，从所述第一建模单元中匹配出构成所述目标分词的目标字符集合，所述目标字符集合包括多个字符；

S1032：基于语序，从所述目标字符集合中将最后一个字符对应的第一建模单元确定为与所述目标第二建模单元匹配的目标第一建模单元。

为方便描述，若一个第二建模单元对应的目标分词具有多个字符，将该第二建模单元记为目标第二建模单元，该目标分词对应的多个字符构成目标字符集合，该多个字符在预训练模型中具有分别对应的第一建模单元。

基于前述针对标点符号的标注规则，可以基于业务数据中文本的语序，将目标字符集合中在语义方向下的最后一个字符对应的第一建模单元确定为目标第一建模单元。

举例说明：目标字符集合为{“中”、“国”、“人”}，目标分词为“中国人”，则将所述目标字符集合的最后一个字符“人”对应的第一建模单元确定为与目标分词匹配的目标第一建模单元。

通过以上描述可知，即使预训练模型的第一全连接层输出的序列长度大于所述初始业务模型的第二全连接层输出的序列长度，故可以将所述预训练模型的第一建模单元与所述初始业务模型的第二建模单元进行匹配，第二建模单元的全连接层输出与所匹配目标第一建模单元的全连接层输出具有相同的序列长度，由此达成进行知识蒸馏的基础，从而可以在预训练模型的协助下，通过初始业务模型得到目标业务模型，实现了对包括不同粒度的建模单元的模型进行知识蒸馏。由此可见，即使预训练模型和初始业务模型具有不同粒度的建模单元，也能够使用预训练模型对初始业务模型进行优化，得到目标业务模型，从而扩展了知识蒸馏的适用范围，有效提升了业务模型的业务性能。

在本申请实施例的一种实现方式中，得到目标业务模型之后，可以利用该目标业务模型处理相关的业务。在一个示例中，若目标业务模型用于为文本添加标点符号。则所述方法还可以包括以下步骤A-D。

步骤A：获取语音数据。

所述语音数据可以是用户通过麦克风实时录入的数据，也可以是用户提前录入并存储的数据，此处不做限定。

步骤B：对所述语音数据进行识别，得到所述语音数据对应的目标文本。

在本申请实施例中，可以利用语音识别技术，识别所述语音数据的具体内容，从而得到所述语音数据对应的文本。关于所述语音识别技术，此处不做详细介绍。

步骤C：利用所述目标业务模型，为所述目标文本添加标点符号。

步骤D：输出添加了标点符号的所述目标文本。

由于根据语音识别得到的目标文本不包括标点符号，因此，得到语音数据对应的目标文本之后，可以利用所述目标业务模型，为所述目标文本添加标点符号，并进一步输出添加了所述标点符号的所述目标文本。

此处提及的输出添加了所述标点符号的目标文本，例如可以是在文本输入区显示所述添加了所述标点符号的目标文本。通过步骤A-D，可以自动根据语音数据得到包括标点符号的目标文本。

关于步骤A和步骤D，现结合具体场景举例说明：

在即时通信场景中，用户不便手动输入文本，则可以调用麦克风录入语音数据，而后，安装所述即时通信软件的设备则可以接收用户录入的语音数据，进一步对该语音数据进行识别，并利用所述目标业务模型，为所述语音数据对应的目标文本添加标点符号。而后，在即时通信页面的输入区，输入添加了所述标点符号的目标文本。

需要说明的是，以上举例只是本申请的一种应用场景，本申请实施例所提供的方案所适用的场景不限于以上所述。

示例性设备

基于以上实施例提供的方法，本申请实施例还提供了一种装置，以下结合附图介绍该装置。

参见图3，该图为本申请实施例提供的一种数据处理装置的结构示意图。所述数据处理装置200例如可以具体包括：第一获取单元201、输入单元202、匹配单元203和确定单元204。

第一获取单元201，用于获取业务数据；

输入单元202，用于将业务数据输入预训练模型和初始业务模型，得到所述预训练模型的第一全连接层输出以及所述初始业务模型的第二全连接层输出；其中，所述预训练模型的第一建模单元通过第一粒度构建，所述初始业务模型的第二建模单元通过第二粒度构建，所述第一粒度和所述第二粒度为不同粒度；

匹配单元203，用于将所述第一建模单元与所述第二建模单元进行匹配，从所述第一建模单元中确定出与所述第二建模单元分别匹配的目标第一建模单元，所述第二建模单元的全连接层输出与所匹配目标第一建模单元的全连接层输出具有相同的序列长度；

确定单元204，用于根据所述第二全连接层输出、以及所述第一全连接层输出中所述目标第一建模单元分别对应的全连接层输出，对所述初始业务模型进行知识蒸馏得到目标业务模型。

可选的，当所述业务数据为文本时，所述第一粒度为单个字符，所述第二粒度为分词。

可选的，所述初始业务模型和所述目标业务模型用于为输入的文本添加标点符号。

可选的，若所述第一粒度为单个字符，所述第二粒度为分词，针对所述第二建模单元中的目标第二建模单元，所述匹配单元203，用于：

根据所述目标第二建模单元对应的目标分词，从所述第一建模单元中匹配出构成所述目标分词的目标字符集合，所述目标字符集合包括多个字符；

基于语序，从所述目标字符集合中将最后一个字符对应的第一建模单元确定为与所述目标第二建模单元匹配的目标第一建模单元。

可选的，所述装置还包括：

第二获取单元，用于获取语音数据；

识别单元，用于对所述语音数据进行识别，得到所述语音数据对应的目标文本；

处理单元，用于利用所述目标业务模型，为所述目标文本添加标点符号；

输出单元，用于输出添加了标点符号的所述目标文本。

可选的，所述业务数据为不具有标点符号的文本。

可选的，所述预训练模型的模型参数规模大于所述初始业务模型的模型参数规模；

所述预训练模型是基于预训练数据训练得到的，所述预训练数据的数据量大于训练得到所述目标业务模型所需的业务数据的数据量。

由于所述装置200是与以上方法实施例提供的方法对应的装置，所述装置200的各个单元的具体实现，均与以上方法实施例为同一构思，因此，关于所述装置200的各个单元的具体实现，可以参考以上方法实施例的描述部分，此处不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备为前述介绍的计算机设备，可以包括终端设备或服务器，前述的数据处理装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍。

图4示出了一种终端设备300的框图。例如，终端设备300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，终端设备300可以包括以下一个或多个组件：处理组件302，存储器304，电源组件306，多媒体组件308，音频组件310，输入/输出(I/O)的接口33，传感器组件314，以及通信组件316。

处理组件302通常控制终端设备300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理部件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在终端设备300的操作。

电源组件306为终端设备300的各种组件提供电力。

多媒体组件308包括在所述终端设备300和用户之间的提供一个输出接口的屏幕。

音频组件310被配置为输出和/或输入音频信号。

I/O接口为处理组件302和外围接口模块之间提供接口。

传感器组件314包括一个或多个传感器，用于为终端设备300提供各个方面的状态评估。

通信组件316被配置为便于终端设备300和其他设备之间有线或无线方式的通信。

在示例性实施例中，终端设备300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法：

获取业务数据；

根据所述第二全连接层输出、以及所述第一全连接层输出中所述目标第一建模单元分别对应的全连接层输出，对所述初始业务模型进行知识蒸馏得到目标业务模型。

若计算机设备为服务器，本申请实施例还提供一种服务器，请参见图5所示，图5是本申请实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口456，一个或一个以上键盘456，和/或，一个或一个以上操作系统441，例如Windows Server ^TM，Mac OS X ^TM，Unix ^TM,Linux ^TM，FreeBSD ^TM等等。

上述实施例中由服务器所执行的步骤可以基于图5所示的服务器结构。

另外，本申请实施例还提供了一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行上述实施例提供的方法。

本申请实施例还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种数据处理方法，所述方法由计算机设备执行，所述方法包括：

获取业务数据；

将业务数据输入预训练模型和初始业务模型，得到所述预训练模型的第一全连接层输出以及所述初始业务模型的第二全连接层输出；其中，所述预训练模型的第一建模单元通过第一粒度构建，所述初始业务模型的第二建模单元通过第二粒度构建，所述第一粒度和所述第二粒度为不同粒度；

将所述第一建模单元与所述第二建模单元进行匹配，从所述第一建模单元中确定出与所述第二建模单元分别匹配的目标第一建模单元，所述第二建模单元的全连接层输出与所匹配目标第一建模单元的全连接层输出具有相同的序列长度；

根据所述第二全连接层输出、以及所述第一全连接层输出中所述目标第一建模单元分别对应的全连接层输出，对所述初始业务模型进行知识蒸馏得到目标业务模型。
根据权利要求1所述的方法，当所述业务数据为文本时，所述第一粒度为单个字符，所述第二粒度为分词。
根据权利要求1所述的方法，所述初始业务模型和所述目标业务模型用于为输入的文本添加标点符号。
根据权利要求3所述的方法，若所述第一粒度为单个字符，所述第二粒度为分词，针对所述第二建模单元中的目标第二建模单元，所述将所述第一建模单元与所述第二建模单元进行匹配，从所述第一建模单元中确定出与所述第二建模单元分别匹配的目标第一建模单元，包括：

根据所述目标第二建模单元对应的目标分词，从所述第一建模单元中匹配出构成所述目标分词的目标字符集合，所述目标字符集合包括多个字符；

基于语序，从所述目标字符集合中将最后一个字符对应的第一建模单元确定为与所述目标第二建模单元匹配的目标第一建模单元。
根据权利要求3所述的方法，所述方法还包括：

获取语音数据；

对所述语音数据进行识别，得到所述语音数据对应的目标文本；

利用所述目标业务模型，为所述目标文本添加标点符号；

输出添加了标点符号的所述目标文本。
根据权利要求3所述的方法，所述业务数据为不具有标点符号的文本。
根据权利要求1所述的方法，所述预训练模型的模型参数规模大于所述初始业务模型的模型参数规模；

所述预训练模型是基于预训练数据训练得到的，所述预训练数据的数据量大于训练得到所述目标业务模型所需的业务数据的数据量。
一种数据处理装置，所述装置包括：

第一获取单元，用于获取业务数据；

输入单元，用于将业务数据输入预训练模型和初始业务模型，得到所述预训练模型的第一全连接层输出以及所述初始业务模型的第二全连接层输出；其中，所述预训练模型的第一建模单元通过第一粒度构建，所述初始业务模型的第二建模单元通过第二粒度构建，所述第一粒度和所述第二粒度为不同粒度；

匹配单元，用于将所述第一建模单元与所述第二建模单元进行匹配，从所述第一建模单元中确定出与所述第二建模单元分别匹配的目标第一建模单元，所述第二建模单元的全连接层输出与所匹配目标第一建模单元的全连接层输出具有相同的序列长度；

确定单元，用于根据所述第二全连接层输出、以及所述第一全连接层输出中所述目标第一建模单元分别对应的全连接层输出，对所述初始业务模型进行知识蒸馏得到目标业务模型。
一种服务器，所述服务器包括：

处理器、通信接口、存储器和通信总线；

其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；所述通信接口为通信模块的接口；

所述存储器，用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器，用于调用存储器中程序代码的指令执行权利要求1-8任意一项所述的方法。
一种计算机可读介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现如权利要求1-8任意一项所述的方法。
一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1-8任意一项所述的方法。