WO2023065642A1

WO2023065642A1 - 语料筛选方法、意图识别模型优化方法、设备及存储介质

Info

Publication number: WO2023065642A1
Application number: PCT/CN2022/090757
Authority: WO
Inventors: 罗圣西
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-10-22
Filing date: 2022-04-29
Publication date: 2023-04-27
Also published as: CN113780007A

Abstract

一种语料筛选方法、意图识别模型优化方法、设备及存储介质，涉及人工智能技术领域。其中，该语料筛选方法包括：获取字典文件和线上用户语料（S110）；对所述线上用户语料进行滑窗切分得到字符片段（S120）；根据所述字典文件对所述字符片段进行匹配计算，得到各个所述字符片段的不通顺分数（S130）；将对应所述线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数（S140）；对所述加权分数超过预设阈值的所述线上用户语料进行聚类得到高频语料（S150）；对所述高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料（S160）。能够通过定期对智能客服系统和客户对话日志中客户表达文本的处理，筛选出现频率较高的新式表达，能及时地使智能客服系统对客户的需求做出合理的反馈。

Description

语料筛选方法、意图识别模型优化方法、设备及存储介质

本申请要求于2021年10月22日提交中国专利局、申请号为202111236077.5，发明名称为“语料筛选方法、意图识别模型优化方法、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语料筛选方法、意图识别模型优化方法、设备及存储介质。

背景技术

智能客服系统是基于人工智能为顾客提供和企业所售卖的产品或者服务相关的信息的计算机软件系统。其主要的功能是识别客户的意图，然后给出相应的回复，解决客户的问题。作为智能客服系统的核心模块，意图识别功能的底层实现一般是基于语料直接构建或者通过机器学习方法训练得到的检索或分类模型。这意味着智能客服系统的意图识别效果在很大程度上取决于其所使用的语料的质量。特别是对于语料中没有出现过的表达，目前的智能客服系统难以有效的识别。为了达到有效识别的目的，传统的做法是由企业当中的业务方提出更新智能客服系统的需求，并提供相应的和新业务相关的语料，开发方更新语料后重新训练意图识别模型以实现对新语料的识别。

技术问题

以下是发明人意识到的现有技术的技术问题：现实情况中，传统的做法存在诸多弊端。一方面，企业的产品常常处于快速的迭代当中，新产品、新活动等层出不穷，业务方的人力物力有限，很难保证每一次推出新业务时，都能够及时主动地提出更新智能客服系统的需求。另一方面，客户的客服需求规模往往也取决于产品的热度、功能完善度等多个方面的因素，对于市场热度较小、客户反应较少的业务，对更新智能客服系统的迫切性就较低，而无差别地预先针对每次业务变动都更新智能客服系统，反而是对企业人力和物力的一种浪费。

技术解决方案

第一方面，本申请实施例提供一种语料筛选方法，包括：

获取字典文件和线上用户语料；

对所述线上用户语料进行滑窗切分得到字符片段；

根据所述字典文件对所述字符片段进行匹配计算，得到各个所述字符片段的不通顺分数；

将对应所述线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；

对所述加权分数超过预设阈值的所述线上用户语料进行聚类得到高频语料；

对所述高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料。

第二方面，本申请实施例提供一种意图识别模型优化方法，其中，应用了如第一方面所述的语料筛选方法得到新训练语料，并根据所述新训练语料对所述智能客服系统意图识别模型进行优化。

第三方面，本申请还提供电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现：

一种语料筛选方法，其中，所述语料筛选方法包括：

获取字典文件和线上用户语料；

对所述线上用户语料进行滑窗切分得到字符片段；

对所述高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料；

或一种意图识别模型优化方法，其中，所述意图识别模型优化方法应用了所述语料筛选方法得到新训练语料，并根据所述新训练语料对所述智能客服系统意图识别模型进行优化。

第四方面，本申请还提供计算机可读存储介质，存储有计算机可执行指令，其中，所述计算机可执行指令用于被处理器执行时实现：

一种语料筛选方法，所述语料筛选方法包括：

获取字典文件和线上用户语料；

对所述线上用户语料进行滑窗切分得到字符片段；

对所述高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料；或

一种意图识别模型优化方法，其中，所述意图识别模型优化方法应用了所述语料筛选方法得到新训练语料，并根据所述新训练语料对所述智能客服系统意图识别模型进行优化。

有益效果

本申请实施例提供的语料筛选方法能够通过定期对智能客服系统和客户对话日志中客户表达文本的处理，筛选出现频率较高的新式表达，这些新式表达往往就反映了客户对公司所提供的业务的最新客服需求，将这些新式表达作为语料加入当前训练语料中重新训练意图识别模型，能及时地使智能客服系统对客户的需求做出合理的反馈，同时有效减少因频繁更新智能客服系统导致的人力和物力的浪费。

可以理解的是，上述第二方面至第三方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同，可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请一个实施例提供的语料筛选方法的流程图；

图2是本申请另一个实施例提供的语料筛选方法的流程图；

图3是本申请另一个实施例提供的语料筛选方法的流程图；

图4是本申请另一个实施例提供的语料筛选方法的流程图；

图5是本申请另一个实施例提供的语料筛选方法的流程图。

本发明的实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

考虑到现有智能客服系统的意图识别模型在持续优化上的困难，本申请提出了一种语料筛选方法，基于文本通顺度和聚类方法的用户数据回流机制，通过定期对智能客服系统和客户对话日志中客户表达文本的处理，筛选出现频率较高的新式表达，这些新式表达往往就反映了客户对公司所提供的业务的最新客服需求，将这些新式表达经过人工复核后，作为语料加入当前训练语料中重新训练意图识别模型，就能及时地使智能客服系统对客户的需求做出合理的反馈。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

智能客服系统是基于人工智能为顾客提供和企业所售卖的产品或者服务相关的信息的计算机软件系统。其主要的功能是识别客户的意图，然后给出相应的回复，解决客户的问题。作为智能客服系统的核心模块，意图识别功能的底层实现一般是基于语料直接构建或者通过机器学习方法训练得到的检索或分类模型。这意味着智能客服系统的意图识别效果在很大程度上取决于其所使用的语料的质量。特别是对于语料中没有出现过的表达，目前的智能客服系统难以有效的识别。为了达到有效识别的目的，传统的做法是由企业当中的业务方提出更新智能客服系统的需求，并提供相应的和新业务相关的语料，开发方更新语料后重新训练意图识别模型以实现对新语料的识别。但现实情况中，这样的做法存在诸多弊端。一方面，企业的产品常常处于快速的迭代当中，新产品、新活动等层出不穷，业务方的人力物力有限，很难保证每一次推出新业务时，都能够及时主动地提出更新智能客服系统的需求。另一方面，客户的客服需求规模往往也取决于产品的热度、功能完善度等多个方面的因素，对于市场热度较小、客户反应较少的业务，对更新智能客服系统的迫切性就较低，而无差别地预先针对每次业务变动都更新智能客服系统，反而是对企业人力和物力的一种浪费。

基于此，本申请实施例提供的语料筛选方法、意图识别模型优化方法、设备及存储介质能够通过定期对智能客服系统和客户对话日志中客户表达文本的处理，筛选出现频率较高的新式表达，这些新式表达往往就反映了客户对公司所提供的业务的最新客服需求，将这些新式表达作为语料加入当前训练语料中重新训练意图识别模型，能及时地使智能客服系统对客户的需求做出合理的反馈，同时有效减少因频繁更新智能客服系统导致的人力和物力的浪费。

本申请提供的语料筛选方法可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

下面结合附图，对本申请实施例作进一步阐述。

参照图1和图2，图1是本申请一个实施例提供的语料筛选方法的流程图，图2是本申请另一个实施例提供的语料筛选方法的流程图，语料筛选方法包括但不仅限于步骤S110至步骤S160。

步骤S110，获取字典文件和线上用户语料；

步骤S120，对线上用户语料进行滑窗切分得到字符片段；

步骤S130，根据字典文件对字符片段进行匹配计算，得到各个字符片段的不通顺分数；

步骤S140，将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；

步骤S150，对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料；

步骤S160，对高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料。

在一实施例中，首先，获取字典文件和线上用户语料，再对线上用户语料进行单步滑窗切分得到字符片段，以字符个数作为片段长度，片段长度为N。例如分别按照片段长度为1至4逐一进行单步滑窗切分，得到多个字符片段，记录每个字符片段在切分过程中的出现次数，如一条线上用户语料的字段长度为10，N=1,使用长度为1的窗口滑动切分一次，得到10个字符片段;N=2,使用长度为2的窗口滑动切分一次，得到9个字符片段;N=3,使用长度为3的窗口滑动切分一次，得到8个字符片段;N=4,使用长度为4的窗口滑动切分一次，得到7个字符片段。在所有语料都处理过后，对每一个字符片段，用其出现次数除以和其相同长度的所有字符片段出现总次数，得到其在该长度下的出现概率。把相同长度的所有字符片段及其对应的出现概率分别储存在字典文件中。然后，根据字典文件对字符片段进行匹配计算，得到各个字符片段的不通顺分数，再将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料；对高频语料进行标注，得到新训练语料;再将新训练语料作为当前训练语料，输入意图识别模型进行训练，当前训练语料切分后添加到字典文件中。

可以理解的是，对每一个字符片段，在字典文件中进行查询，可以得到字符片段出现的概率，再计算得到字符片段的不通顺分数，用1减去其概率，定义为该字符片段的不通顺度分数。对每个长度下的所有片段，将其不通顺度分数的算术平均值作为当前语料该长度的不通顺度分数，这样每条语料至多得到4个不通顺度分数，然后对这些分数进行加权平均，得到最终该条语料的不通顺度分数。对有一定长度的句子，单个字符对通顺度的影响较小，另一方面，字符片段越长，其出现的概率本身就应该越低。所以在计算上述加权平均结果时候，单字符片段和较长字符片段的不通顺度分数权重都应较低，一个参考权重比例（长度从1到4）为1：4：4：1，若语料长度小于4，则截取其对应的比例即可。比如，若语料长度为2，则其有两个不通顺度分数，加权平均的权重分别为1/5、4/5；若语料长度为3，则其有3个不通顺度分数，加权平均的权重分别为1/9、4/9、4/9；若语料长度为4，则其有4个不通顺度分数，加权平均的权重分别为1/10、4/10、4/10、1/10，一般来说语料长度通常都是在4以下，本申请中提及的4种加权方式也包含了绝大部分的可能性，具有较好的可靠性。

需要说明的是，在将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数后，对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料，也就是不通顺度较高但是出现频率也较高的线上用户语料，这些高频语料通常是出现频率较高但是现有的智能客服系统又无法较好地识别的语料，却又实际反应了用户的高频需求。因为聚类所能处理的语料数有限，因此筛选时可以根据筛选出的语料数量调整阈值，一般不超过2万条，本实施例提供的语料筛选方法则是提供调整预设阈值，使得高频语料通常不超过两万条，然后再通过语言模型对高频语料进行处理得到向量，然后利用DBSCAN（Density-Based Spatial Clustering of Applications with Noise，基于密度的聚类算法）算法进行聚类。

最后，在聚类完成后，具有语义相似性且出现频次较高的用户语料将被筛选出来并将被标记上相应的类别信息。可以根据类别对这些语料进行标注，评判这些语料的不通顺特征是由于用户端输入的问题造成的还是因为意图识别模型本身语料不完善导致的。聚类方法不仅能够排除大部分因噪音或用户输入不当造成的长尾异常文本，对聚类出的文本也能够根据类别信息进行筛选标注，可以大大提升发现有意义的新语料的效率，同时有效减少因频繁更新智能客服系统导致的人力和物力的浪费。可以理解的是，对具有语义相似性且出现频次较高的用户语料进行标注的方法可以是通过机器标注，也可以是对一些出现频率较高的用户语料进行人工标注，本实施例对其不构成限制。

参考图3，图3是本申请另一个实施例提供的语料筛选方法的流程图，语料筛选方法包括但不仅限于步骤S210至步骤S260。

步骤S210，获取字典文件和线上用户语料,对每一条线上用户语料作字符去重和停用词过滤处理;

步骤S220，对线上用户语料进行滑窗切分得到字符片段；

步骤S230，根据字典文件对字符片段进行匹配计算，得到各个字符片段的不通顺分数；

步骤S240，将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；

步骤S250，对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料；

步骤S260，对高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料。

在一实施例中，首先，获取字典文件和线上用户语料，对每一条线上用户语料作字符去重和停用词过滤处理。再对线上用户语料进行单步滑窗切分得到字符片段，以字符个数作为片段长度，分别按照片段长度为1至4逐一进行单步滑窗切分，得到多个字符片段，记录每个字符片段在切分过程中的出现次数，在所有语料都处理过后，对每一个字符片段，用其出现次数除以和其相同长度的所有字符片段出现总次数，得到其在该长度下的出现概率。把相同长度的所有字符片段及其对应的出现概率分别储存在字典文件中。然后，根据字典文件对字符片段进行匹配计算，得到各个字符片段的不通顺分数，再将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料；对高频语料进行标注，得到新训练语料，再将新训练语料在模型中进行训练，切分后添加到字典文件中。

可以理解的是，对每一条线上用户语料作字符去重和停用词过滤处理。获取的线上用户语料在某些情况下是包含着一些重复字符，如“的的的”“好的好的”“我我我”一类的语料，但是这一类的语料的语义却是需要进行去重后才可以较为准确地获取；而且在智能客服系统也会存在一些停用词，在对线上用户语料进行单步滑窗切分得到字符片段前，进行停用词过滤处理能够提升数据处理的效率，节约计算资源，具有较好的实用价值。

在一实施例中，线上用户语料包括线上对话日志中智能客服系统识别错误或无法识别的用户语料。智能客服系统无法识别的语料通常是字典文件中不包括的用户语料，但是却高频出现，说明这些用户语料通常是因为版本更新、商品上新等情况带来的一些用户常见问题，在这些用户语料中常常也会包含一些有用信息，在对这些无法识别的用户语料和系统识别错误的用户语料进行滑窗切分得到多个字符片段，然后，根据字典文件对字符片段进行匹配计算，得到各个字符片段的不通顺分数，再将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料；对高频语料进行标注，得到新训练语料，再将新训练语料在模型中进行训练，切分后添加到字典文件中，能够提升数据处理的效率，节约计算资源，较好地从智能客服系统识别错误或无法识别的用户语料提取到有用的信息。

参考图4，图4是本申请另一个实施例提供的语料筛选方法的流程图，语料筛选方法包括但不仅限于步骤S310至步骤S360。

步骤S310，获取字典文件和线上用户语料;

步骤S320，以字符个数作为片段长度，分别按照片段长度为1至N逐一对线上用户语料进行单步滑窗切分，得到多个字符片段，N为大于或等于2的正整数；

步骤S330，根据字典文件对字符片段进行匹配计算，得到各个字符片段的不通顺分数；

步骤S340，将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；

步骤S350，对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料；

步骤S360，对高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料。

在一实施例中，对当前训练预料进行滑窗切分得到字符片段并添加到字典文件，获取字典文件和线上用户语料，再对线上用户语料进行单步滑窗切分得到字符片段，以字符个数作为片段长度，分别按照片段长度为1至4逐一进行单步滑窗切分，得到多个字符片段，记录每个字符片段在切分过程中的出现次数，如一条线上用户语料的字段长度为10，使用长度为1的窗口滑动切分一次，得到10个字符片段，使用长度为2的窗口滑动切分一次，得到9个字符片段，使用长度为3的窗口滑动切分一次，得到8个字符片段，使用长度为4的窗口滑动切分一次，得到7个字符片段，在所有语料都处理过后，对每一个字符片段，用其出现次数除以和其相同长度的所有字符片段出现总次数，得到其在该长度下的出现概率，把相同长度的所有字符片段及其对应的出现概率分别储存在字典文件中。

在一实施例中，对当前训练预料进行滑窗切分得到字符片段并添加到字典文件，获取字典文件和线上用户语料，对每一条线上用户语料作字符去重和停用词过滤处理。再对线上用户语料进行单步滑窗切分得到字符片段，以字符个数作为片段长度，分别按照片段长度为1至4逐一进行单步滑窗切分，得到多个字符片段，记录每个字符片段在切分过程中的出现次数，在所有语料都处理过后，对每一个字符片段，用其出现次数除以和其相同长度的所有字符片段出现总次数，得到其在该长度下的出现概率。把相同长度的所有字符片段及其对应的出现概率分别储存在字典文件中。然后，对字符片段在对应长度的字典文件中进行查询得到字符片段出现的概率，用1减去字符片段出现的概率得到不通顺分数。再将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料；对高频语料进行标注，得到新训练语料，再将新训练语料在模型中进行训练，切分后添加到字典文件中。

在一实施例中，对当前训练预料进行滑窗切分得到字符片段并添加到字典文件，获取字典文件和线上用户语料，再对线上用户语料进行单步滑窗切分得到字符片段，以字符个数作为片段长度，分别按照片段长度为1至4逐一进行单步滑窗切分，得到多个字符片段，记录每个字符片段在切分过程中的出现次数，如一条线上用户语料的字段长度为10，使用长度为4的窗口滑动切分一次，得到7个字符片段，当线上用户语料的字段长度为4，字符片段的权重比例为1:4:4:1，根据线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数。在所有语料都处理过后，对每一个字符片段，用其出现次数除以和其相同长度的所有字符片段出现总次数，得到其在该长度下的出现概率，把相同长度的所有字符片段及其对应的出现概率分别储存在字典文件中。

参考图5，图5是本申请另一个实施例提供的语料筛选方法的流程图，语料筛选方法包括但不仅限于步骤S410至步骤 S460；

步骤S410，获取字典文件和线上用户语料；

步骤S420，对线上用户语料进行滑窗切分得到字符片段；

步骤S430，根据字典文件对字符片段进行匹配计算，得到各个字符片段的不通顺分数；

步骤S440，将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；

步骤S450，通过语言模型将加权分数超过预设阈值的线上用户语料转换为多个向量，从多个向量中选取核心点，根据聚类半径，计算核心点邻近区域内的向量，作为同类向量，根据同类向量的数量，得到高频语料；

步骤S460，对高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料。

在一实施例中，对当前训练预料进行滑窗切分得到字符片段并添加到字典文件，获取字典文件和线上用户语料，对每一条线上用户语料作字符去重和停用词过滤处理。再对线上用户语料进行单步滑窗切分得到字符片段，以字符个数作为片段长度，分别按照片段长度为1至4逐一进行单步滑窗切分，得到多个字符片段，记录每个字符片段在切分过程中的出现次数，在所有语料都处理过后，对每一个字符片段，用其出现次数除以和其相同长度的所有字符片段出现总次数，得到其在该长度下的出现概率。把相同长度的所有字符片段及其对应的出现概率分别储存在字典文件中。然后，根据字典文件对字符片段进行匹配计算，得到各个字符片段的不通顺分数，再将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料；对高频语料进行标注，得到新训练语料，再将新训练语料在模型中进行训练，切分后添加到字典文件中。

可以理解的是，对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料，因为聚类所能处理的语料数有限，因此筛选时可以根据筛选出的语料数量调整阈值，一般不超过2万条。通过语言模型将加权分数超过预设阈值的线上用户语料转换为多个向量，语言模型可以是能够将语料转换为向量的模型，包括但不限于TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）、BERT（BidirectionalEncoder Representations from Transformer，变化的双向编码器表示）模型等，本申请对此不做限定。如果一个对象在其聚类半径内含有超过预设阈值数目的点，则将该对象设为核心点，再根据聚类的聚类半径，计算核心点聚类半径内的向量，作为同类向量，再根据同类向量的数量，得到高频语料。在聚类半径圆周上的对象是边界点，在聚类半径外的对象为噪声点，由密度可达关系导出的最大密度相连的样本集合，即为最终聚类的一个簇（多个同类向量的集合）。当然，对于核心点可以选取多个，簇里面可以有一个或者多个核心点。如果只有一个核心点，则簇里其他的非核心点样本都在这个核心点的邻域里。如果有多个核心点，则簇里的任意一个核心点的邻域中一定有一个其他的核心点。也可以根据需求调整聚类半径的大小，从而调整形成簇的数量。在一些实施例中，可选取同类向量的数量较多的簇作为高频语料。例如，可选取同类向量的数量大于预设阈值的簇作为高频语料，以供后续处理步骤进行处理。

本申请实施例还提供了一种意图识别模型优化方法，应用了如上述的语料筛选方法得到新训练语料，并根据新训练语料对智能客服系统意图识别模型进行优化。

本申请实施例提供的意图识别模型优化方法能够通过定期对智能客服系统和客户对话日志中客户表达文本的处理，筛选出现频率较高的新式表达，这些新式表达往往就反映了客户对公司所提供的业务的最新客服需求，将这些新式表达作为语料加入当前训练语料中重新训练意图识别模型，对意图识别模型进行持续优化。能及时地使智能客服系统对客户的需求做出合理的反馈，同时有效减少因频繁更新智能客服系统导致的人力和物力的浪费。

另外，本申请还提供电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现：一种语料筛选方法，其中，该语料筛选方法包括：获取字典文件和线上用户语料；对线上用户语料进行滑窗切分得到字符片段；根据字典文件对字符片段进行匹配计算，得到各个字符片段的不通顺分数；将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料；对高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料；或一种意图识别模型优化方法，其中，该意图识别模型优化方法应用了该语料筛选方法得到新训练语料，并根据新训练语料对智能客服系统意图识别模型进行优化。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

需要说明的是，本实施例中的电子设备，可以应用为如图1所示实施例的系统架构中的电子设备；另外，本实施例中的电子设备，可以执行如图2、图3、图4或图5所示实施例中的语料筛选方法。即，本实施例中的电子设备和如图1所示实施例的系统架构中的电子设备，以及如图2、图3、图4或图5所示实施例中的语料筛选方法，均属于相同的发明构思，因此这些实施例具有相同的实现原理以及技术效果，此处不再详述。

实现上述实施例的语料筛选方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的语料筛选方法，例如，执行以上描述的图1中的方法步骤S110至步骤S160，图3中的方法步骤S210至步骤S260，图4中的方法步骤S310至步骤S360，图5中的方法步骤S410至步骤S460。

另外，本申请还提供计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于被处理器执行时实现：一种语料筛选方法，其中，该语料筛选方法包括：获取字典文件和线上用户语料；对线上用户语料进行滑窗切分得到字符片段；根据字典文件对字符片段进行匹配计算，得到各个字符片段的不通顺分数；将对应线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；对加权分数超过预设阈值的线上用户语料进行聚类得到高频语料；对高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料；或一种意图识别模型优化方法，其中，该意图识别模型优化方法应用了该语料筛选方法得到新训练语料，并根据新训练语料对智能客服系统意图识别模型进行优化。

在一些实施例中，所述计算机可读存储介质可以是非易失性，也可以是易失性，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的语料筛选方法，例如，执行以上描述的图1中的方法步骤S110至步骤S160，图3中的方法步骤S210至步骤S260，图4中的方法步骤S310至步骤S360，图5中的方法步骤S410至步骤S460。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质（或非暂时性介质）和通信介质（或暂时性介质）。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施例，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请实施例的较佳实施进行了具体说明，但本申请实施例并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请实施例精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请实施例权利要求所限定的范围内。

Claims

一种语料筛选方法，其中，包括：

获取字典文件和线上用户语料；

对所述线上用户语料进行滑窗切分得到字符片段；

根据所述字典文件对所述字符片段进行匹配计算，得到各个所述字符片段的不通顺分数；

将对应所述线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；

对所述加权分数超过预设阈值的所述线上用户语料进行聚类得到高频语料；

对所述高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料。
根据权利要求1所述的语料筛选方法，其中，在所述对所述线上用户语料进行滑窗切分得到字符片段之前，还包括：

对每一条所述线上用户语料作字符去重和停用词过滤处理。
根据权利要求1所述的语料筛选方法，其中，所述线上用户语料包括线上对话日志中智能客服系统识别错误或无法识别的用户语料。
根据权利要求1所述的语料筛选方法，其中，所述对所述线上用户语料进行滑窗切分得到字符片段，包括：

以字符个数作为片段长度，分别按照片段长度为1至N逐一对所述线上用户语料进行单步滑窗切分，得到多个所述字符片段；N为大于或等于2的正整数。
根据权利要求4所述的语料筛选方法，其中，所述根据所述字典文件对所述字符片段进行匹配计算，得到各个所述字符片段的不通顺分数，包括：

对所述字符片段在对应长度的所述字典文件中进行查询；

根据查询结果，得到所述字符片段出现的概率；

用1减去所述字符片段出现的概率得到所述不通顺分数。
根据权利要求1所述的语料筛选方法，其中，所述将对应所述线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数，包括：

根据所述线上用户语料字段长度和第一预设规则配置对应不通顺分数的权重；所述第一预设规则包括：对字段长度小于第一阈值或大于第二阈值的字符片段对应的不通顺分数配置第一权重，否则配置第二权重，所述第二阈值大于第一阈值，所述第二权重大于第一权重。
根据权利要求1至6任一项所述的语料筛选方法，其中，所述对所述加权分数超过预设阈值的所述线上用户语料进行聚类得到高频语料，包括：

通过语言模型将加权分数超过预设阈值的所述线上用户语料转换为多个向量；

从多个所述向量中选取核心点；

根据聚类半径，计算所述核心点邻近区域内的所述向量，作为同类向量；

根据所述同类向量的数量，得到所述高频语料。
根据权利要求1所述的语料筛选方法，其中，所述获取字典文件，包括：

以字符个数作为片段长度，分别按照片段长度为1至N逐一对当前训练预料进行滑窗切分得到字符片段，以生成所述字典文件；N为大于或等于2的正整数。
一种意图识别模型优化方法，其中，应用了如权利要求1至8中任意一项所述的语料筛选方法得到新训练语料，并根据所述新训练语料对所述智能客服系统意图识别模型进行优化。
电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现一种语料筛选方法，其中，所述语料筛选方法包括:

获取字典文件和线上用户语料；

对所述线上用户语料进行滑窗切分得到字符片段；

根据所述字典文件对所述字符片段进行匹配计算，得到各个所述字符片段的不通顺分数；

将对应所述线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；

对所述加权分数超过预设阈值的所述线上用户语料进行聚类得到高频语料；

对所述高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料。
根据权利要求10所述的电子设备，其中，在所述对所述线上用户语料进行滑窗切分得到字符片段之前，所述语料筛选方法还包括：

对每一条所述线上用户语料作字符去重和停用词过滤处理。
根据权利要求10所述的电子设备，其中，所述线上用户语料包括线上对话日志中智能客服系统识别错误或无法识别的用户语料。
根据权利要求10所述的电子设备，其中，所述对所述线上用户语料进行滑窗切分得到字符片段，包括：

以字符个数作为片段长度，分别按照片段长度为1至N逐一对所述线上用户语料进行单步滑窗切分，得到多个所述字符片段；N为大于或等于2的正整数。
根据权利要求13所述的电子设备，其中，所述根据所述字典文件对所述字符片段进行匹配计算，得到各个所述字符片段的不通顺分数，包括：

对所述字符片段在对应长度的所述字典文件中进行查询；

根据查询结果，得到所述字符片段出现的概率；

用1减去所述字符片段出现的概率得到所述不通顺分数。
根据权利要求10所述的电子设备，其中，所述将对应所述线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数，包括：

根据所述线上用户语料字段长度和第一预设规则配置对应不通顺分数的权重；所述第一预设规则包括：对字段长度小于第一阈值或大于第二阈值的字符片段对应的不通顺分数配置第一权重，否则配置第二权重，所述第二阈值大于第一阈值，所述第二权重大于第一权重。
电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现一种意图识别模型优化方法，其中，所述意图识别模型优化方法包括:

应用语料筛选方法得到新训练语料，并根据所述新训练语料对智能客服系统意图识别模型进行优化，其中，所述语料筛选方法包括：

获取字典文件和线上用户语料；

对所述线上用户语料进行滑窗切分得到字符片段；

根据所述字典文件对所述字符片段进行匹配计算，得到各个所述字符片段的不通顺分数；

将对应所述线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；

对所述加权分数超过预设阈值的所述线上用户语料进行聚类得到高频语料；

对所述高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料。
计算机可读存储介质，存储有计算机可执行指令，其中，所述计算机可执行指令用于被处理器执行时实现一种语料筛选方法，其中，所述语料筛选方法包括：

获取字典文件和线上用户语料；

对所述线上用户语料进行滑窗切分得到字符片段；

根据所述字典文件对所述字符片段进行匹配计算，得到各个所述字符片段的不通顺分数；

将对应所述线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；

对所述加权分数超过预设阈值的所述线上用户语料进行聚类得到高频语料；

对所述高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料。
根据权利要求17所述的计算机可读存储介质，其中，在所述对所述线上用户语料进行滑窗切分得到字符片段之前，所述语料筛选方法还包括：

对每一条所述线上用户语料作字符去重和停用词过滤处理。
根据权利要求17所述的计算机可读存储介质，其中，所述线上用户语料包括线上对话日志中智能客服系统识别错误或无法识别的用户语料。
计算机可读存储介质，存储有计算机可执行指令，其中，所述计算机可执行指令用于被处理器执行时实现一种意图识别模型优化方法，其中，所述意图识别模型优化方法包括:

应用语料筛选方法得到新训练语料，并根据所述新训练语料对智能客服系统意图识别模型进行优化，其中，所述语料筛选方法包括：

获取字典文件和线上用户语料；

对所述线上用户语料进行滑窗切分得到字符片段；

根据所述字典文件对所述字符片段进行匹配计算，得到各个所述字符片段的不通顺分数；

将对应所述线上用户语料字段长度的若干个不通顺分数进行加权计算得到加权分数；

对所述加权分数超过预设阈值的所述线上用户语料进行聚类得到高频语料；

对所述高频语料进行标注，得到用于优化智能客服系统意图识别模型的新训练语料。