WO2022227166A1

WO2022227166A1 - 词语替换方法、装置、电子设备和存储介质

Info

Publication number: WO2022227166A1
Application number: PCT/CN2021/096421
Authority: WO
Inventors: 李志韬; 王健宗; 程宁; 于凤英
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-04-26
Filing date: 2021-05-27
Publication date: 2022-11-03
Also published as: CN113177402B; CN113177402A

Abstract

一种词语替换方法、装置、电子设备和存储介质，其中，替换方法包括：对第一句子中的第一词语进行掩码处理，得到第二句子，其中，第一词语至少包括两个单词；将第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值，至少一个第二词语和至少一个第一概率值一一对应；确定第一词语与至少一个第二词语中的每个第二词语之间的第一相似度；根据每个第二词语对应的第一概率值和第一相似度，确定每个第二词语的第二概率值；确定至少一个第二词语中的至少一个目标第二词语，至少一个目标第二词语中的每个目标第二词语的第二概率值大于第一阈值；分别使用每个目标第二词语替换第一句子中的第一词语。

Description

词语替换方法、装置、电子设备和存储介质

本申请要求于2021年4月26日提交中国专利局、申请号为202110458707.7，发明名称为“词语替换方法、装置、电子设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自然语言处理技术领域，具体涉及一种词语替换方法、装置、电子设备和存储介质。

背景技术

目前，无论是在自然语言领域还是人工智能领域，对一个语言相关模型进行训练时，往往需要大量的文本。对此，发明人发现，传统方式利用关键词进行可控文本生成工作，为了能快速生成大量相似的文本，采取了同义词替换的方式将关键词进行替换，不同关键词排列组合之后可以以指数级别增加文本生成的数量。基于此，对于关键词的替换方法便成为了对新生成文本的文本质量进行控制的关键。

发明人意识到，传统的替换方法主要分为两种：第一种是利用同义词词典的方法进行查找替换，例如：利用哈工大推出的《同义词词林扩展版》词典进行同义词查找替换。但是，这种方法的问题在于词汇量较少，对于一般的常用词还能找到几个同义词，而对于一些新兴词汇或者特殊名词而言，很难找到同义词。第二种方法是利用word2vec方法训练的词向量，进行词向量的匹配。但是，这种方法虽然解决了同义词词典的词汇量少的弊端，但是会发生如生成相关词而非同义词以及生成的同义词无法匹配上下文等问题。

发明内容

为了解决现有技术中存在的上述问题，本申请实施方式提供了一种词语替换方法、装置、电子设备和存储介质，使生成的同义词具有更大的范围，且能够更好地符合上下文的语境。

第一方面，本申请的实施方式提供了一种词语替换方法，包括：

对第一句子中的第一词语进行掩码处理，得到第二句子，其中，第一词语至少包括两个单词；

将第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值，其中，至少一个第一概率值中的每个第一概率值用于表征使用每个第一概率值对应的第二词语替换第一词语的合理程度，至少一个第二词语和至少一个第一概率值一一对应；

确定第一词语与至少一个第二词语中的每个第二词语之间的第一相似度；

根据每个第二词语对应的第一概率值和第一相似度，确定每个第二词语的第二概率值；

确定至少一个第二词语中的至少一个目标第二词语，至少一个目标第二词语中的每个目标第二词语对用的第二概率值大于第一阈值；

分别使用每个目标第二词语替换第一句子中的第一词语。

第二方面，本申请的实施方式提供了一种词语替换装置，包括：

掩码模块，用于对第一句子中的第一词语进行掩码处理，得到第二句子，其中，第一词语至少包括两个单词；

预测模块，用于将第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值，其中，至少一个第一概率值中的每个第一概率值用于表征使用每个第一概率值对应的第二词语替换第一词语的合理程度，至少一个第二词语和至少一个第一概率值一一对应；

词语确定模块，用于确定第一词语与至少一个第二词语中的每个第二词语之间的第一相似度；并根据每个第二词语对应的第一概率值和第一相似度，确定每个第二词语的第二概率值；以及确定至少一个第二词语中的至少一个目标第二词语，至少一个目标第二词语中的每个目标第二词语对用的第二概率值大于第一阈值；

替换模块，用于分别使用每个目标第二词语替换第一句子中的第一词语。

第三方面，本申请实施方式提供一种电子设备，包括：处理器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得电子设备执行以下方法：

分别使用每个目标第二词语替换第一句子中的第一词语。

第四方面，本申请实施方式提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序使得计算机执行以下方法：

分别使用每个目标第二词语替换第一句子中的第一词语。

本申请实施方式在保证第二词语的语义与第一词语相近的同时，能够更好地符合第一句子中上下文的语境。

附图说明

为了更清楚地说明本申请实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式提供的一种词语替换方法的流程示意图；

图2为本申请实施方式提供的一种在第一句子中确定第一词语的方法的流程示意图；

图3为本申请实施方式提供的一种确定每个目标第三词语的逆文档频率的方法的流程示意图；

图4为本申请实施方式提供的一种将第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值的方法的流程示意图；

图5为本申请实施方式提供的一种确定第一词语与至少一个第二词语中的每个第二词语之间的第一相似度的方法的流程示意图；

图6为本申请实施方式提供的一种词语替换装置的功能模块组成框图；

图7为本申请实施方式提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施方式”意味着，结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式，也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是，本文所描述的实施方式可以与其它实施方式相结合。

本申请的技术方案涉及人工智能和/或大数据技术领域，如可具体涉及自然语言处理技术。本申请可应用于文本处理等场景，以实现词语替换，使得更符合上下文的语境，从而推动智慧城市的建设。可选的，本申请涉及的数据如句子、语料和/或各词语等可存储于数据库中，或者可以存储于区块链中，比如通过区块链分布式存储，本申请不做限定。

参阅图1，图1为本申请实施方式提供的一种词语替换方法的流程示意图。该词语替换方法包括以下步骤：

101：对第一句子中的第一词语进行掩码处理，得到第二句子。

在本实施方式中，该第一词语至少包括两个单词，单词则指代由至少一个字组成的词语，例如，一个单词可以是“咖”、“啡”、“咖啡”等。基于此，第一词语可以以理解为包括至少两个字的词语，例如，第一词语可以是“咖啡”、“黑咖啡”、“牛奶咖啡”等。由此，相较于传统的单字掩码处理，直接对至少两个单词的第一词语进行掩码，可以使后续的预测操作更加精准。

示例性的，可以采用multilingual-t5模型进行掩码处理。

在本实施方式中，在对第一句子中的第一词语进行掩码处理之前，还需要在第一句子中确定第一词语。具体而言，本实施方式给出了一种在第一句子中确定第一词语的方法，如图2所示，该方法包括：

201：对第一句子进行分词处理，得到至少一个第三词语。

在本实施方式中，可以分别采用元数2、3、4的N-gram分割法对第一句子进行分词。具体而言，N-gram分割法是一种将句子分割成若干个分别由N个字符组成的片段序列的方法，每个片段称作一个N-gram。在N＝1时，N-gram分割法可以称作uni-gram(一元gram)，在N＝2时，N-gram分割法可以称作bi-gram(二元gram)，在N＝3时，N-gram分割法可以称作tri-gram(三元gram)。示例性的，如果使用bi-gram去分割句子“我昨天喝了咖啡”这段文本，那么可以得到“我昨”、“昨天”、“天喝”、“喝了”、“了咖”和“咖啡”。

由此，在本实施方式中，得到分割结果后，可以对分割结果进行过滤清洗，滤除没有意义的分割结果，例如：“我昨”、“天喝”、和“了咖”，保留包含一定语义的分割结果，例如：“昨天”、“喝了”、和“咖啡”作为第三词语。

202：对第一句子进行语法分析，得到语法特征。

203：根据语法特征确定至少一个第三词语中每个第三词语的词性信息。

204：确定至少一个第三词语中的至少一个目标第三词语。

由于在关键词替换式的文本生成时，往往不会改变原句子的句式，因此，通常会对原句中的主语、谓语或宾语进行替换，而主语和宾语通常是以名词或数词的方式出现，而谓语则是以动词的方式出现，因此，在本实施方式中，该至少一个目标第三词语中的每个目标第三词语的词性信息为名词、动词或数词。

205：确定每个目标第三词语的逆文档频率。

对于关键词替换式的文本生成，其重点是找出句子中较为重要的关键词进行替换，对于例如“我们”这样的常见词，进行替换所得到的文本的实际意义并不大。因此，在本实施方式中，通过计算每个目标第三词语的逆文档频率，来确定该目标第三词语的重要性，继而剔除其中的常见词。

示例性的，本实施方式给出了一种确定每个目标第三词语的逆文档频率的方法，如图3所示，该方法包括：

301：在语料库中确定所有包含有每个目标第三词语的语料的数量，得到第一数量。

在本实施方式中，语料库为存储有与第一句子相关的语料的数据库。

302：确定语料库中的语料的总数与第一数量的商，得到第一商。

303：将第一商的对数作为每个目标第三词语的逆文档频率。

具体而言，逆文档频率可以通过公式①表示：

其中，|D|表示语料库中的语料的总数；|[j:t∈d]|表示语料库中包含词语t的语料的总数，即第一数量。

同时，若语料库中不存在包含词语t的语料，则会导致|[j:t∈d]|为0，因此，为了避免这种情况，逆文档频率可以通过公式②表示：

其中，c为常数，可根据实际情况进行相应的调整。示例性的，c可以为1。

206：将逆文档频率大于第二阈值的目标第三词语作为第一词语。

在可选的实施方式中，还可以通过计算每个目标第三词语的词频和逆文档频率，并将词频和逆文档频率的乘积大于第二阈值的目标第三词语作为第一词语。

102：将第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值。

在本实施方式中，至少一个第一概率值中的每个第一概率值用于表征使用每个第一概率值对应的第二词语替换第一词语的合理程度，且至少一个第二词语和至少一个第一概率值一一对应。

示例性的，本申请实施方式给出了一种将第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值的方法，如图4所示，该方法包括：

401：将第二句子和第一词语的词性信息输入关键词预测模型。

402：根据第一词语的词性信息确定目标词语库。

在本实施方式中，目标词语库中存储的词语的词性信息与第一词语的词性信息一致，由此，可以使预测出的词语的词性与原词语的词性保持一致，提升预测的精准度。

403：根据第二句子和目标词语库确定至少一个第二词语和至少一个第一概率值。

示例性的，可以先对第二句子进行分割，得到第一短语和第二短语，其中，第一短语为第二句子中位于目标位置之前的所有单词组成的短语，第二短语为第二句子中位于目标位置之后的所有单词组成的短语，目标位置为掩码处理所掩码的位置。

具体而言，对于第一句子“我昨天吃了炸鱼和薯条”，第一词语为“炸鱼”，经过掩码操作后，可以得到第二句子“我昨天吃了</span mask>和薯条”。其中，“</span mask>”的位置即为目标位置。对此，对该第二句子进行拆分后，可以得到第一短语“我昨天吃了”，和第二短语“和薯条”。

然后，对第一短语进行语义补全，得到至少一个第三短语和至少一个第三概率值，其中，至少一个第三短语和至少一个第三概率值一一对应；以及，对第二短语进行语义补全，得到至少一个第四短语和至少一个第四概率值，其中，至少一个第四短语和至少一个第四概率值一一对应。

沿用上述第一短语“我昨天吃了”，和第二短语“和薯条”的示例，对第一短语进行语义补全后，得到的第三短语可以为：(汉堡，0.9)、(苹果，0.9)、(炸鱼，0.9)、(可乐，0.75)等，其中数字为前方词语对应的第三概率，例如，用“汉堡”补全第一短语的合理概率为0.9。

同理，对第二短语进行语义补全后，得到的第四短语可以为：(汉堡，0.9)、(番茄，0.65)、(炸鱼，0.95)、(可乐，0.9)等。

在得到至少一个第三短语和至少一个第四短语后，将至少一个第三短语和至少一个第四短语进行求交集，得到至少一个第五短语；并分别将至少一个第五短语中的每个第五短语对应的第三概率值和第四概率值进行乘积，得到至少一个第五概率值，其中，至少一个第五短语和至少一个第五概率值一一对应。

具体而言，对于第三短语可以为：(汉堡，0.9)、(苹果，0.9)、(炸鱼，0.9)、(可乐，0.75)等，以及第四短语可以为：(汉堡，0.9)、(番茄，0.65)、(炸鱼，0.95)、(可乐，0.9)等。两者的交集为词语：“汉堡”、“炸鱼”和“可乐”，其中，“汉堡”所对应的第五概率值为0.9×0.9＝0.81、“炸鱼”对应的第五概率值为0.9×0.95＝0.855、以及“可乐”所对应的第五概率值为0.75×0.9＝0.675。

最后，根据至少一个第五短语、至少一个第五概率值和目标词语库确定至少一个第二词语和至少一个第一概率值。

示例性的，首先，可以在至少一个第五词语中，确定至少一个第二词语，其中，至少一个第二词语为至少一个第五词语中有，且目标词语库中也有的词语；然后，将至少一个第二词语中每个第二词语对应的第五概率值，作为每个第二词语对应的第一概率值。

具体而言，对于确定出的第五短语和第五概率值(汉堡，0.81)、(炸鱼，0.855)和(可乐，0.675)，经过和目标词语库的比对，发现在目标词库中没有词语“可乐”。因此，最后得出的第二词语和该第二词语对应的第一概率值为：(汉堡，0.81)和(炸鱼，0.855)。由此，得出的第二词语不但更加精准，且更加契合原句中的上下文。

103：确定第一词语与至少一个第二词语中的每个第二词语之间的第一相似度。

在本实施方式中，给出了一种确定第一词语与至少一个第二词语中的每个第二词语之间的第一相似度的方法，如图5所示，该方法包括：

501：对第一词语进行词嵌入处理，得到第一词向量。

502：对每个第二词语进行词嵌入处理，得到第二词向量:。

503：对第一词向量进行取模，得到第一模。

504：对第二词向量进行取模，得到第二模。

505：确定第一模与第二模的乘积值。

506：确定第一词向量和第二词向量的内积。

507：将内积与乘积值的商，作为第一词语与每个第二词语之间的第一相似度。

示例性的，可以通过点积计算第一词语对应的第一词向量和第二词语对应的第二词向量之间的夹角余弦值，并用该夹角余弦值作为第一词语和第二词语之间的第一相似度。

具体而言，对于第一词语对应的第一词向量A＝[a1，a2，…，ai，…，an]，和第二词语对应的第二词向量B＝[b1，b2，…，bi，…，bn]，其中，i＝1，2，…，n。夹角余弦值可以通过公式③表示：

其中，A·B表示第一词向量A与第二词向量B的内积，丨丨为取模符号，丨A丨表示第一词向量A的模，丨B丨表示第二词向量B的模。

进一步的，第一词向量A与第二词向量B的内积可以通过公式④表示：

进一步的，第一词向量A的模可以通过公式⑤表示：

最后，将该夹角余弦值作为第一词向量A与第二词向量B之间的第一相似度。示例性的，第一词向量A与第二词向量B之间的相关性系数可以通过公式⑥表示：

p＝cosθ…………⑥

由于余弦值的取值范围为【-1，1】，这使得余弦值在高维的情况下依然拥有相同时为1、正交时为0、相反时为-1的性质。即，余弦值越趋近于1，代表两个特征之间的方向越接近，相关性越大；越趋近于-1，他们的方向越相反，相关性越小；接近于0，表示两个特征近乎于正交，可以体现两个特征方向上的相对差异。由此，采用余弦值作为第一词向量与第二词向量之间的相关性系数，可以精确的表示第一词语与第二词语之间的相似度。

104：根据每个第二词语对应的第一概率值和第一相似度，确定每个第二词语的第二概率值。

示例性的，可以将每个第二词语对应的第一概率值和第一相似度进行乘积，将成绩结果作为每个第二词语的第二概率值。

105：确定至少一个第二词语中的至少一个目标第二词语。

在本实施方式中，该至少一个目标第二词语中的每个目标第二词语对用的第二概率值大于第一阈值。

106：分别使用每个目标第二词语替换第一句子中的第一词语。

综上所述，本申请所提供的词语替换方法，通过对至少包括两个单词的第一词语进行掩码操作，得到第二句子，从而将第二句子输入关键词预测模型，预测出多个第二词语和对应的第一概率值。由此，通过同时对至少包括两个单词的第一词语进行掩码操作，相较于传统的单字掩码处理，可以实现对直接对词语行掩码，继而使后续的预测操作更加精准。同时，对于预测出的多个第二词语，本申请实施方式通过计算每个第二词语与第一词语的相似度，再结合每个第二词语对应的第一概率值，生成混合指标第二概率值。最后使用大于第一阈值的第二概率值对应的第二词语替换第一句子中的第一词语。由此，在保证第二词语的语义与第一词语相近的同时，能够更好地符合第一句子中上下文的语境。

参阅图6，图6为本申请实施方式提供的一种词语替换装置的功能模块组成框图。如图6所示，该词语替换装置600包括：

掩码模块601，用于对第一句子中的第一词语进行掩码处理，得到第二句子，其中，第一词语至少包括两个单词；

预测模块602，用于将第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值，其中，至少一个第一概率值中的每个第一概率值用于表征使用每个第一概率值对应的第二词语替换第一词语的合理程度，至少一个第二词语和至少一个第一概率值一一对应；

词语确定模块603，用于确定第一词语与至少一个第二词语中的每个第二词语之间的第一相似度；并根据每个第二词语对应的第一概率值和第一相似度，确定每个第二词语的第二概率值；以及确定至少一个第二词语中的至少一个目标第二词语，至少一个目标第二词语中的每个目标第二词语对用的第二概率值大于第一阈值；

替换模块604，用于分别使用每个目标第二词语替换第一句子中的第一词语。

在本申请的实施方式中，在对第一句子中的第一词语进行掩码处理，得到第二句子之前，掩码模块601，还用于：

对第一句子进行分词处理，得到至少一个第三词语；

对第一句子进行语法分析，得到语法特征；

根据语法特征确定至少一个第三词语中每个第三词语的词性信息；

确定至少一个第三词语中的至少一个目标第三词语，至少一个目标第三词语中的每个目标第三词语的词性信息为名词、动词或数词；

确定每个目标第三词语的逆文档频率；

将逆文档频率大于第二阈值的目标第三词语作为第一词语。

在本申请的实施方式中，在确定每个目标第三词语的逆文档频率方面，掩码模块601，具体用于：

在语料库中确定所有包含有每个目标第三词语的语料的数量，得到第一数量，其中，语料库为存储有与第一句子相关的语料的数据库；

确定语料库中的语料的总数与第一数量的商，得到第一商；

将第一商的对数作为每个目标第三词语的逆文档频率。

在本申请的实施方式中，在将第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值方面，预测模块602，具体用于：

将第二句子和第一词语的词性信息输入关键词预测模型；

根据第一词语的词性信息确定目标词语库，其中，目标词语库中存储的词语的词性信息与第一词语的词性信息一致；

根据第二句子和目标词语库确定至少一个第二词语和至少一个第一概率值。

在本申请的实施方式中，在根据第二句子和目标词语库确定至少一个第二词语和至少一个第一概率值方面，预测模块602，具体用于：

对第二句子进行分割，得到第一短语和第二短语，其中，第一短语为第二句子中位于目标位置之前的所有单词组成的短语，第二短语为第二句子中位于目标位置之后的所有单词组成的短语，目标位置为掩码处理所掩码的位置；

对第一短语进行语义补全，得到至少一个第三短语和至少一个第三概率值，其中，至少一个第三短语和至少一个第三概率值一一对应；

对第二短语进行语义补全，得到至少一个第四短语和至少一个第四概率值，其中，至少一个第四短语和至少一个第四概率值一一对应；

将至少一个第三短语和至少一个第四短语进行求交集，得到至少一个第五短语；

分别将至少一个第五短语中的每个第五短语对应的第三概率值和第四概率值进行乘积，得到至少一个第五概率值，其中，至少一个第五短语和至少一个第五概率值一一对应；

根据至少一个第五短语、至少一个第五概率值和目标词语库确定至少一个第二词语和至少一个第一概率值。

在本申请的实施方式中，在根据至少一个第五短语、至少一个第五概率值和目标词语库确定至少一个第二词语和至少一个第一概率值方面，预测模块602，具体用于：

在至少一个第五词语中，确定至少一个第二词语，其中，至少一个第二词语为至少一个第五词语中有，且目标词语库中也有的词语；

将至少一个第二词语中每个第二词语对应的第五概率值，作为每个第二词语对应的第一概率值。

在本申请的实施方式中，在确定第一词语与至少一个第二词语中的每个第二词语之间的第一相似度方面，词语确定模块603，具体用于：

对第一词语进行词嵌入处理，得到第一词向量；

对每个第二词语进行词嵌入处理，得到第二词向量；

对第一词向量进行取模，得到第一模；

对第二词向量进行取模，得到第二模；

确定第一模与第二模的乘积值；

确定第一词向量和第二词向量的内积；

将内积与乘积值的商，作为第一词语与每个第二词语之间的第一相似度。

参阅图7，图7为本申请实施方式提供的一种电子设备的结构示意图。电子设备包括处理器和存储器。可选的，该电子设备还可包括通信接口，该通信接口可以为收发器或其他输入输出设备。例如，如图7所示，电子设备700包括收发器701、处理器702和存储器703。它们之间通过总线704连接。示例性的，收发器701用于接收待处理的数据至处理器702，以及向外输出处理器702的处理结果，具体而言，在本实施方式中，收发器701可以用于接收第一句子，以及输出用目标第二词语替换了第一词语后的第一句子。存储器703用于存储计算机程序和数据，并可以将存储器703存储的数据传输给处理器702。

处理器702用于读取存储器703中的计算机程序执行以下操作：

分别使用每个目标第二词语替换第一句子中的第一词语。

在本申请的实施方式中，在对第一句子中的第一词语进行掩码处理，得到第二句子之前，处理器702，具体用于执行以下操作：

对第一句子进行分词处理，得到至少一个第三词语；

对第一句子进行语法分析，得到语法特征；

确定每个目标第三词语的逆文档频率；

将逆文档频率大于第二阈值的目标第三词语作为第一词语。

在本申请的实施方式中，在确定每个目标第三词语的逆文档频率方面，处理器702，具体用于执行以下操作：

确定语料库中的语料的总数与第一数量的商，得到第一商；

将第一商的对数作为每个目标第三词语的逆文档频率。

在本申请的实施方式中，在将第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值方面，处理器702，具体用于执行以下操作：

将第二句子和第一词语的词性信息输入关键词预测模型；

在本申请的实施方式中，在根据第二句子和目标词语库确定至少一个第二词语和至少一个第一概率值方面，处理器702，具体用于执行以下操作：

在本申请的实施方式中，在根据至少一个第五短语、至少一个第五概率值和目标词语库确定至少一个第二词语和至少一个第一概率值方面，处理器702，具体用于执行以下操作：

在本申请的实施方式中，在确定第一词语与至少一个第二词语中的每个第二词语之间的第一相似度方面，处理器702，具体用于执行以下操作：

对第一词语进行词嵌入处理，得到第一词向量；

对每个第二词语进行词嵌入处理，得到第二词向量；

对第一词向量进行取模，得到第一模；

对第二词向量进行取模，得到第二模；

确定第一模与第二模的乘积值；

确定第一词向量和第二词向量的内积；

应理解，本申请中的词语替换装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices，简称：MID)、机器人或穿戴式设备等。上述词语替换装置仅是举例，而非穷举，包含但不限于上述词语替换装置。在实际应用中，上述词语替换装置还可以包括：智能车载终端、计算机设备等等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可借助软件结合硬件平台的方式来实现。基于这样的理解，本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

因此，本申请实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施方式中记载的任何一种词语替换方法的部分或全部步骤。例如，所述存储介质可以包括硬盘、软盘、光盘、磁带、磁盘、优盘、闪存等。

可选的，本申请涉及的存储介质如计算机可读存储介质可以是非易失性的，也可以是易失性的。

本申请实施方式还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施方式中记载的任何一种词语替换方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施方式，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施方式均属于可选的实施方式，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施方式中，对各个实施方式的描述都各有侧重，某个实施方式中没有详述的部分，可以参见其他实施方式的相关描述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施方式的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施方式进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施方式的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种词语替换方法，其中，所述替换方法包括：

对第一句子中的第一词语进行掩码处理，得到第二句子，其中，所述第一词语至少包括两个单词；

将所述第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值，其中，所述至少一个第一概率值中的每个第一概率值用于表征使用所述每个第一概率值对应的第二词语替换所述第一词语的合理程度，所述至少一个第二词语和所述至少一个第一概率值一一对应；

确定所述第一词语与所述至少一个第二词语中的每个第二词语之间的第一相似度；

根据所述每个第二词语对应的第一概率值和第一相似度，确定所述每个第二词语的第二概率值；

确定所述至少一个第二词语中的至少一个目标第二词语，所述至少一个目标第二词语中的每个目标第二词语对用的第二概率值大于第一阈值；

分别使用所述每个目标第二词语替换所述第一句子中的第一词语。
根据权利要求1所述的替换方法，其中，在对第一句子中的第一词语进行掩码处理，得到第二句子之前，所述替换方法还包括：

对所述第一句子进行分词处理，得到至少一个第三词语；

对所述第一句子进行语法分析，得到语法特征；

根据所述语法特征确定所述至少一个第三词语中每个第三词语的词性信息；

确定所述至少一个第三词语中的至少一个目标第三词语，所述至少一个目标第三词语中的每个目标第三词语的词性信息为名词、动词或数词；

确定所述每个目标第三词语的逆文档频率；

将所述逆文档频率大于第二阈值的目标第三词语作为所述第一词语。
根据权利要求2所述的替换方法，其中，所述确定所述每个目标第三词语的逆文档频率，包括：

在语料库中确定所有包含有所述每个目标第三词语的语料的数量，得到第一数量，其中，所述语料库为存储有与所述第一句子相关的语料的数据库；

确定所述语料库中的语料的总数与所述第一数量的商，得到第一商；

将所述第一商的对数作为所述每个目标第三词语的逆文档频率。
根据权利要求2所述的替换方法，其中，所述将所述第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值，包括：

将所述第二句子和所述第一词语的词性信息输入所述关键词预测模型；

根据所述第一词语的词性信息确定目标词语库，其中，所述目标词语库中存储的词语的词性信息与所述第一词语的词性信息一致；

根据所述第二句子和所述目标词语库确定所述至少一个第二词语和所述至少一个第一概率值。
根据权利要求4所述的替换方法，其中，所述根据所述第二句子和所述目标词语库确定所述至少一个第二词语和所述至少一个第一概率值，包括：

对所述第二句子进行分割，得到第一短语和第二短语，其中，所述第一短语为所述第二句子中位于目标位置之前的所有单词组成的短语，所述第二短语为所述第二句子中位于所述目标位置之后的所有单词组成的短语，所述目标位置为所述掩码处理所掩码的位置；

对所述第一短语进行语义补全，得到至少一个第三短语和至少一个第三概率值，其中，所述至少一个第三短语和所述至少一个第三概率值一一对应；

对所述第二短语进行语义补全，得到至少一个第四短语和至少一个第四概率值，其中，所述至少一个第四短语和所述至少一个第四概率值一一对应；

将所述至少一个第三短语和所述至少一个第四短语进行求交集，得到所述至少一个第五短语；

分别将所述至少一个第五短语中的每个第五短语对应的第三概率值和第四概率值进行乘积，得到至少一个第五概率值，其中，所述至少一个第五短语和所述至少一个第五概率值一一对应；

根据所述至少一个第五短语、所述至少一个第五概率值和所述目标词语库确定所述至少一个第二词语和所述至少一个第一概率值。
根据权利要求5所述的替换方法，其中，所述根据所述至少一个第五短语、所述至少一个第五概率值和所述目标词语库确定所述至少一个第二词语和所述至少一个第一概率值，包括：

在所述至少一个第五词语中，确定所述至少一个第二词语，其中，所述至少一个第二词语为所述至少一个第五词语中有，且所述目标词语库中也有的词语；

将所述至少一个第二词语中每个第二词语对应的第五概率值，作为所述每个第二词语对应的第一概率值。
根据权利要求1所述的替换方法，其中，所述确定所述第一词语与所述至少一个第二词语中的每个第二词语之间的第一相似度，包括：

对所述第一词语进行词嵌入处理，得到第一词向量；

对所述每个第二词语进行词嵌入处理，得到第二词向量；

对所述第一词向量进行取模，得到第一模；

对所述第二词向量进行取模，得到第二模；

确定所述第一模与所述第二模的乘积值；

确定所述第一词向量和所述第二词向量的内积；

将所述内积与所述乘积值的商，作为所述第一词语与所述每个第二词语之间的第一相似度。
一种词语替换装置，其中，所述替换装置包括：

掩码模块，用于对第一句子中的第一词语进行掩码处理，得到第二句子，其中，所述第一词语至少包括两个单词；

预测模块，用于将所述第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值，其中，所述至少一个第一概率值中的每个第一概率值用于表征使用所述每个第一概率值对应的第二词语替换所述第一词语的合理程度，所述至少一个第二词语和所述至少一个第一概率值一一对应；

词语确定模块，用于确定所述第一词语与所述至少一个第二词语中的每个第二词语之间的第一相似度；并根据所述每个第二词语对应的第一概率值和第一相似度，确定所述每个第二词语的第二概率值；以及确定所述至少一个第二词语中的至少一个目标第二词语，所述至少一个目标第二词语中的每个目标第二词语对用的第二概率值大于第一阈值；

替换模块，用于分别使用所述每个目标第二词语替换所述第一句子中的第一词语。
一种电子设备，其中，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行以实现以下方法：

对第一句子中的第一词语进行掩码处理，得到第二句子，其中，所述第一词语至少包括两个单词；

将所述第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值，其中，所述至少一个第一概率值中的每个第一概率值用于表征使用所述每个第一概率值对应的第二词语替换所述第一词语的合理程度，所述至少一个第二词语和所述至少一个第一概率值一一对应；

确定所述第一词语与所述至少一个第二词语中的每个第二词语之间的第一相似度；

根据所述每个第二词语对应的第一概率值和第一相似度，确定所述每个第二词语的第二概率值；

确定所述至少一个第二词语中的至少一个目标第二词语，所述至少一个目标第二词语中的每个目标第二词语对用的第二概率值大于第一阈值；

分别使用所述每个目标第二词语替换所述第一句子中的第一词语。
根据权利要求9所述的电子设备，其中，在对第一句子中的第一词语进行掩码处理，得到第二句子之前，所述处理器还用于执行：

对所述第一句子进行分词处理，得到至少一个第三词语；

对所述第一句子进行语法分析，得到语法特征；

根据所述语法特征确定所述至少一个第三词语中每个第三词语的词性信息；

确定所述至少一个第三词语中的至少一个目标第三词语，所述至少一个目标第三词语中的每个目标第三词语的词性信息为名词、动词或数词；

确定所述每个目标第三词语的逆文档频率；

将所述逆文档频率大于第二阈值的目标第三词语作为所述第一词语。
根据权利要求10所述的电子设备，其中，执行所述确定所述每个目标第三词语的逆文档频率，包括：

在语料库中确定所有包含有所述每个目标第三词语的语料的数量，得到第一数量，其中，所述语料库为存储有与所述第一句子相关的语料的数据库；

确定所述语料库中的语料的总数与所述第一数量的商，得到第一商；

将所述第一商的对数作为所述每个目标第三词语的逆文档频率。
根据权利要求10所述的电子设备，其中，执行所述将所述第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值，包括：

将所述第二句子和所述第一词语的词性信息输入所述关键词预测模型；

根据所述第一词语的词性信息确定目标词语库，其中，所述目标词语库中存储的词语的词性信息与所述第一词语的词性信息一致；

根据所述第二句子和所述目标词语库确定所述至少一个第二词语和所述至少一个第一概率值。
根据权利要求12所述的电子设备，其中，执行所述根据所述第二句子和所述目标词语库确定所述至少一个第二词语和所述至少一个第一概率值，包括：

对所述第二句子进行分割，得到第一短语和第二短语，其中，所述第一短语为所述第二句子中位于目标位置之前的所有单词组成的短语，所述第二短语为所述第二句子中位于所述目标位置之后的所有单词组成的短语，所述目标位置为所述掩码处理所掩码的位置；

对所述第一短语进行语义补全，得到至少一个第三短语和至少一个第三概率值，其中，所述至少一个第三短语和所述至少一个第三概率值一一对应；

对所述第二短语进行语义补全，得到至少一个第四短语和至少一个第四概率值，其中，所述至少一个第四短语和所述至少一个第四概率值一一对应；

将所述至少一个第三短语和所述至少一个第四短语进行求交集，得到所述至少一个第五短语；

分别将所述至少一个第五短语中的每个第五短语对应的第三概率值和第四概率值进行乘积，得到至少一个第五概率值，其中，所述至少一个第五短语和所述至少一个第五概率值一一对应；

根据所述至少一个第五短语、所述至少一个第五概率值和所述目标词语库确定所述至少一个第二词语和所述至少一个第一概率值。
根据权利要求9所述的电子设备，其中，执行所述确定所述第一词语与所述至少一个第二词语中的每个第二词语之间的第一相似度，包括：

对所述第一词语进行词嵌入处理，得到第一词向量；

对所述每个第二词语进行词嵌入处理，得到第二词向量；

对所述第一词向量进行取模，得到第一模；

对所述第二词向量进行取模，得到第二模；

确定所述第一模与所述第二模的乘积值；

确定所述第一词向量和所述第二词向量的内积；

将所述内积与所述乘积值的商，作为所述第一词语与所述每个第二词语之间的第一相似度。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现以下方法：

对第一句子中的第一词语进行掩码处理，得到第二句子，其中，所述第一词语至少包括两个单词；

将所述第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值，其中，所述至少一个第一概率值中的每个第一概率值用于表征使用所述每个第一概率值对应的第二词语替换所述第一词语的合理程度，所述至少一个第二词语和所述至少一个第一概率值一一对应；

确定所述第一词语与所述至少一个第二词语中的每个第二词语之间的第一相似度；

根据所述每个第二词语对应的第一概率值和第一相似度，确定所述每个第二词语的第二概率值；

确定所述至少一个第二词语中的至少一个目标第二词语，所述至少一个目标第二词语中的每个目标第二词语对用的第二概率值大于第一阈值；

分别使用所述每个目标第二词语替换所述第一句子中的第一词语。
根据权利要求15所述的计算机可读存储介质，其中，在对第一句子中的第一词语进行掩码处理，得到第二句子之前，所述计算机程序被处理器执行时还用于实现：

对所述第一句子进行分词处理，得到至少一个第三词语；

对所述第一句子进行语法分析，得到语法特征；

根据所述语法特征确定所述至少一个第三词语中每个第三词语的词性信息；

确定所述至少一个第三词语中的至少一个目标第三词语，所述至少一个目标第三词语中的每个目标第三词语的词性信息为名词、动词或数词；

确定所述每个目标第三词语的逆文档频率；

将所述逆文档频率大于第二阈值的目标第三词语作为所述第一词语。
根据权利要求16所述的计算机可读存储介质，其中，执行所述确定所述每个目标第三词语的逆文档频率，包括：

在语料库中确定所有包含有所述每个目标第三词语的语料的数量，得到第一数量，其中，所述语料库为存储有与所述第一句子相关的语料的数据库；

确定所述语料库中的语料的总数与所述第一数量的商，得到第一商；

将所述第一商的对数作为所述每个目标第三词语的逆文档频率。
根据权利要求16所述的计算机可读存储介质，其中，执行所述将所述第二句子输入关键词预测模型，得到至少一个第二词语和至少一个第一概率值，包括：

将所述第二句子和所述第一词语的词性信息输入所述关键词预测模型；

根据所述第一词语的词性信息确定目标词语库，其中，所述目标词语库中存储的词语的词性信息与所述第一词语的词性信息一致；

根据所述第二句子和所述目标词语库确定所述至少一个第二词语和所述至少一个第一概率值。
根据权利要求18所述的计算机可读存储介质，其中，执行所述根据所述第二句子和所述目标词语库确定所述至少一个第二词语和所述至少一个第一概率值，包括：

对所述第二句子进行分割，得到第一短语和第二短语，其中，所述第一短语为所述第二句子中位于目标位置之前的所有单词组成的短语，所述第二短语为所述第二句子中位于所述目标位置之后的所有单词组成的短语，所述目标位置为所述掩码处理所掩码的位置；

对所述第一短语进行语义补全，得到至少一个第三短语和至少一个第三概率值，其中，所述至少一个第三短语和所述至少一个第三概率值一一对应；

对所述第二短语进行语义补全，得到至少一个第四短语和至少一个第四概率值，其中，所述至少一个第四短语和所述至少一个第四概率值一一对应；

将所述至少一个第三短语和所述至少一个第四短语进行求交集，得到所述至少一个第五短语；

分别将所述至少一个第五短语中的每个第五短语对应的第三概率值和第四概率值进行乘积，得到至少一个第五概率值，其中，所述至少一个第五短语和所述至少一个第五概率值一一对应；

根据所述至少一个第五短语、所述至少一个第五概率值和所述目标词语库确定所述至少一个第二词语和所述至少一个第一概率值。
根据权利要求15所述的计算机可读存储介质，其中，执行所述确定所述第一词语与所述至少一个第二词语中的每个第二词语之间的第一相似度，包括：

对所述第一词语进行词嵌入处理，得到第一词向量；

对所述每个第二词语进行词嵌入处理，得到第二词向量；

对所述第一词向量进行取模，得到第一模；

对所述第二词向量进行取模，得到第二模；

确定所述第一模与所述第二模的乘积值；

确定所述第一词向量和所述第二词向量的内积；

将所述内积与所述乘积值的商，作为所述第一词语与所述每个第二词语之间的第一相似度。