WO2021139268A1

WO2021139268A1 - 敏感词检测方法、装置、计算机设备及存储介质

Info

Publication number: WO2021139268A1
Application number: PCT/CN2020/118862
Authority: WO
Inventors: 程华东; 李剑锋; 汪伟
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-07-16
Filing date: 2020-09-29
Publication date: 2021-07-15
Also published as: CN111831785A

Abstract

一种敏感词检测方法、装置、计算机设备及存储介质。所述方法包括：从预设的敏感词服务器中获取敏感词库（S1）；构建所述敏感词库对应的谐音词库（S2）；分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器（S3）；若接收到待测文本，通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合（S4）；去除待测文本中的非中文字符以得到去冗余文本，并通过敏感词索引器对去冗余文本进行过滤以得到第二敏感词集合（S5）；通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合（S6）；通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合（S7）；将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合（S8）。

Description

敏感词检测方法、装置、计算机设备及存储介质

本申请要求于2020年7月16日提交中国专利局、申请号为202010688343.7、发明名称为“敏感词检测方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及敏感词过滤技术领域，尤其涉及一种敏感词检测方法、装置、计算机设备及存储介质。

背景技术

敏感词过滤是指基于先进的人工智能技术，精准高效识别各类场景涉政、色情、辱骂、违禁、垃圾广告等违规内容，提前防御内容风险，提升用户体验。目前，常用的敏感词过滤算法有基于敏感词库的有限自动机匹配算法、基于机器学习模型的分类和序列标注算法。

发明人意识到以上现有敏感词过滤方法的缺点是：只能识别敏感词本身，对于敏感词的变形词，如谐音词以及冗余插入词不能够过滤出来，从而导致对敏感词识别的准确性较低。

发明内容

本申请实施例提供了一种敏感词检测方法、装置、计算机设备及存储介质，旨在解决现有敏感词过滤方法对敏感词识别的准确性低的问题。

第一方面，本申请实施例提供了一种敏感词检测方法，其包括：

从预设的敏感词服务器中获取敏感词库；

构建所述敏感词库对应的谐音词库；

分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器；

若接收到待测文本，通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合；

去除所述待测文本中的非中文字符以得到去冗余文本，并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合；

通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合；

通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合；

将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。

第二方面，本申请实施例还提供了一种敏感词检测装置，其包括：

第一获取单元，用于从预设的敏感词服务器中获取敏感词库；

第一构建单元，用于构建所述敏感词库对应的谐音词库；

第二构建单元，用于分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器；

第一过滤单元，用于若接收到待测文本，通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合；

第二过滤单元，用于去除所述待测文本中的非中文字符以得到去冗余文本，并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合；

第三过滤单元，用于通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合；

第四过滤单元，用于通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合；

合并单元，用于将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。

第三方面，本申请实施例还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器用于运行所述计算机程序，以执行如下步骤：

从预设的敏感词服务器中获取敏感词库；

构建所述敏感词库对应的谐音词库；

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时使所述处理器执行以下步骤：

从预设的敏感词服务器中获取敏感词库；

构建所述敏感词库对应的谐音词库；

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种敏感词检测方法的应用场景示意图；

图2为本申请实施例提供的一种敏感词检测方法的流程示意图；

图3为本申请实施例提供的一种敏感词检测方法的子流程示意图；

图4为本申请实施例提供的一种敏感词检测方法的子流程示意图；

图5为本申请实施例提供的一种敏感词检测方法的子流程示意图；

图6为本申请实施例提供的一种敏感词检测方法的子流程示意图；

图7为本申请实施例提供的一种敏感词检测装置的示意性框图；

图8为本申请实施例提供的一种敏感词检测装置的第一构建单元的示意性框图；

图9为本申请实施例提供的一种敏感词检测装置的第二构建单元的示意性框图；

图10为本申请实施例提供的一种敏感词检测装置的第三过滤单元的示意性框图；

图11为本申请实施例提供的一种敏感词检测装置的第四过滤单元的示意性框图；

图12为本申请实施例提供的一种敏感词检测装置的第一获取单元的示意性框图；

图13为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

请参阅图1和图2，图1为本申请实施例提供的敏感词检测方法的应用场景示意图。图2为本申请实施例提供的敏感词检测方法的示意性流程图。该敏感词检测方法应用于敏感词检测服务器10中。敏感词检测服务器10是指用于检测敏感词的服务器。敏感词检测服务器10从预设的敏感词服务器20中获取敏感词库。

图2是本申请实施例提供的敏感词检测方法的流程示意图。如图所示，该方法包括以下步骤S1-S8。

S1，从预设的敏感词服务器中获取敏感词库。

具体实施中，从预设的敏感词服务器中获取敏感词库。敏感词服务器是指用于提供敏感词库的服务器。

在一实施例中，以上步骤S1具体包括：若接收到所述敏感词服务器发送的敏感词库更新提醒消息，从所述敏感词库更新提醒消息中获取更新后的敏感词库的下载地址，所述敏感词库更新提醒消息包含所述下载地址；从所述下载地址下载更新后的敏感词库。

具体实施中，敏感词服务器在敏感词库更新时，会向敏感词检测服务器发送敏感词库更新提醒消息，敏感词库更新提醒消息包含更新后的敏感词库的下载地址。

如果接收到所述敏感词服务器发送的敏感词库更新提醒消息，敏感词检测服务器从所述敏感词库更新提醒消息中获取更新后的敏感词库的下载地址，并从所述下载地址下载更新后的敏感词库。通过以上步骤，可实现对敏感词库的更新。

需要说明的是，本申请实施例中，敏感词服务器通过以下方式获取敏感词库。

首先，构建训练语料，根据敏感词库和谐音词库，对语料库进行自动标注，同时根据冗余正则随机生成带冗余成分的敏感词进行对应的文本增强。

其次，通过训练语料对敏感词发现模型进行训练。

最后，定期的将获取到的语料，包括网络语料、业务语料等输入到敏感词发现模型进行预测，将预测到的新敏感词进行冗余过滤后添加到敏感词库中。

在本申请实施例中，敏感词的检测和词库更新是相互分离，词库的更新是一个离线任务因此不会影响线上的检索过滤速度，所以选用bert+bi-lstm+crf模型作为敏感词发现模型，该模型的准确性更高。

S2，构建所述敏感词库对应的谐音词库。

具体实施中，首先，将敏感词库中的每个词转换成对应的拼音，比如高纯冰转换为gaochunbing。为了扩大检索范围，可去掉拼音的音调。

然后，对所有敏感词转换后的拼音进行去重即可得到对应的谐音词库。

参见图3，在一实施例中，以上步骤S2具体包括如下步骤S21-S22。

S21，获取所述敏感词库的敏感词的拼音。

具体实施中，获取所述敏感词库的敏感词的拼音，同时去除声调。

S22，将所述敏感词库的敏感词的拼音作为谐音敏感词，并将所述谐音敏感词存入到预设的空白数据库中以得到所述谐音词库。

具体实施中，将所述敏感词库的敏感词的拼音作为谐音敏感词，并对得到的谐音敏感词去重后，存入到预设的空白数据库中以得到所述谐音词库。空白数据库是指未存有数据的数据库。

S3，分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器。

具体实施中，分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器。

需要说明的是，敏感词索引器以及谐音词索引器可通过trie树或者双数组trie树等数据结构构建。

trie树，是一种树形结构，是一种哈希树的变种。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，能实现插入和查询操作，是一种以空间换取时间的数据结构，广泛用于词频统计和输入统计领域。

双数组trie树将原来需要多个数组才能表示的Trie树，使用两个数据就可以存储下来，可以极大的减小空间复杂度。具体来说：

使用两个数组base和check来维护trie树，base数组负责记录状态，check数组负责检查各个字符串是否是从同一个状态转移而来，当check[i]为负值时，表示此状态为字符串的结束。

参见图4，在一实施例中，以上步骤S3具体包括如下步骤S31-S32。

S31，使用双数组tire树构建所述敏感词库对应的敏感词索引器。

具体实施中，使用双数组tire树构建所述敏感词库对应的敏感词索引器。

S32，使用双数组tire树构建所述谐音词库对应的谐音词索引器。

具体实施中，使用双数组tire树构建所述谐音词库对应的谐音词索引器。

需要说明的是，由于tire树结构存在较大的数据稀疏，造成了空间浪费，因此本实施例，在tire树结构的基础上经过升级提出了双数组trie树，双数组trie树具有查询效率高、节省空间的优点，可以有效降低空间浪费。

S4，若接收到待测文本，通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合。

具体实施中，如果接收到待测文本，通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合。

具体地，将所述待测文本输入到所述敏感词索引器中，敏感词索引器查找所述待测文本包含的敏感词，并将查询到的敏感词添加到第一敏感词集合中。

S5，去除所述待测文本中的非中文字符以得到去冗余文本，并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合。

具体实施中，首先，去除所述待测文本中的非中文字符以得到去冗余文本。非中文字符包括火星文、符号和数字等冗余成分。这些冗余成分会干扰敏感词索引器的检索。

然后，通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合。

具体地，将所述去冗余文本输入到所述敏感词索引器中，敏感词索引器查找所述去冗余文本包含的敏感词，并将查询到的敏感词添加到第二敏感词集合中。

S6，通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合。

具体实施中，首先将待测文本的中文转行为拼音，之后将转换后的待测文本输入到所述谐音词索引器中，以由所述谐音词索引器查找相应的谐音敏感词。

参见图5，在一实施例中，以上步骤S6具体包括如下步骤S61-S63。

S61，将所述待测文本中的中文转换为拼音以得到待测谐音文本。

具体实施中，将所述待测文本中的中文转换为拼音以得到待测谐音文本。为了提高检索范围，可去除拼音的音调。

S62，通过所述谐音词索引器对所述待测谐音文本进行过滤以得到第一谐音敏感词集合。

具体实施中，通过所述谐音词索引器对所述待测谐音文本进行过滤以得到第一谐音敏感词集合。

具体地，将所述待测谐音文本输入到所述谐音词索引器中，谐音词索引器查找所述待测谐音文本包含的谐音敏感词，并将查询到的谐音敏感词添加到第一谐音敏感词集合中。

S63，获取所述待测文本中与所述第一谐音敏感词集合中的谐音敏感词相对应的词以得到所述第三敏感词集合。

具体实施中，将待测文本中的中文转换为拼音时建立中文与拼音的映射关系，之后根据该映射关系查找所述待测文本中与所述第一谐音敏感词集合中的谐音敏感词相对应的词。并且，将查找到的词作为敏感词添加到所述第三敏感词集合中。

S7，通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合。

具体实施中，首先将去冗余文本的中文转行为拼音，之后将转换后的去冗余文本输入到所述谐音词索引器中，以由所述谐音词索引器查找相应的谐音敏感词。

参见图6，在一实施例中，以上步骤S7具体包括如下步骤S71-S73。

S71，将所述去冗余文本中的中文转换为拼音以得到去冗余谐音文本。

具体实施中，将所述去冗余文本中的中文转换为拼音以得到去冗余谐音文本。为了提高检索范围，可去除拼音的音调。

S72，通过所述谐音词索引器对所述去冗余谐音文本进行过滤以得到第二谐音敏感词集合。

具体实施中，通过所述谐音词索引器对所述去冗余谐音文本进行过滤以得到第二谐音敏感词集合。

具体地，将所述去冗余谐音文本输入到所述谐音词索引器中，谐音词索引器查找所述去冗余谐音文本包含的谐音敏感词，并将查询到的谐音敏感词添加到第二谐音敏感词集合中。

S73，获取所述去冗余文本中与所述第二谐音敏感词集合中的谐音敏感词相对应的词以得到所述第四敏感词集合。

具体实施中，将去冗余文本中的中文转换为拼音时建立中文与拼音的映射关系，之后根据该映射关系查找所述去冗余文本中与所述第二谐音敏感词集合中的谐音敏感词相对应的词。并且，将查找到的词作为敏感词添加到所述第四敏感词集合中。

S8，将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。

具体实施中，首先，对所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合进行去重处理，即去除重复的敏感词。

然后，将第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合合并以得到总敏感词集合。总敏感词集合即包含了待测文本包含的所有敏感词。

本申请实施例的技术方案，构建敏感词库对应的谐音词库；分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器；若接收到待测文本，分别通过敏感词索引器以及谐音词索引器对待测文本以及待测文本去除非中文字符后的去冗余文本进行敏感词过滤，从而不仅能够识别待测文本中的敏感词本身，还能识别敏感词的谐音词以及冗余插入词，极大地提高了识别的准确性。

图7是本申请实施例提供的一种敏感词检测装置60的示意性框图。如图7所示，对应于以上敏感词检测方法，本申请还提供一种敏感词检测装置60。该敏感词检测装置60包括用于执行上述敏感词检测方法的单元，该敏感词检测装置60可以被配置于服务器中。具体地，请参阅图7，该敏感词检测装置60包括第一获取单元61、第一构建单元62、第二构建单元63、第一过滤单元64、第二过滤单元65、第三过滤单元66、第四过滤单元67以及合并单元68。

第一获取单元61，用于从预设的敏感词服务器中获取敏感词库；

第一构建单元62，用于构建所述敏感词库对应的谐音词库；

第二构建单元63，用于分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器；

第一过滤单元64，用于若接收到待测文本，通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合；

第二过滤单元65，用于去除所述待测文本中的非中文字符以得到去冗余文本，并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合；

第三过滤单元66，用于通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合；

第四过滤单元67，用于通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合；

合并单元68，用于将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。

在一实施例中，如图8所示，所述第一构建单元62包括第二获取单元621以及储存单元622。

第二获取单元621，用于获取所述敏感词库的敏感词的拼音。

储存单元622，用于将所述敏感词库的敏感词的拼音作为谐音敏感词，并将所述谐音敏感词存入到预设的空白数据库中以得到所述谐音词库。

在一实施例中，如图9所示，所述第二构建单元63包括第三构建单元631以及第四构建单元632。

第三构建单元631，用于使用双数组tire树构建所述敏感词库对应的敏感词索引器；

第四构建单元632，用于使用双数组tire树构建所述谐音词库对应的谐音词索引器。

在一实施例中，如图10所示，所述第三过滤单元66包括第一转换单元661、第五过滤单元662以及第三获取单元663。

第一转换单元661，用于将所述待测文本中的中文转换为拼音以得到待测谐音文本；

第五过滤单元662，用于通过所述谐音词索引器对所述待测谐音文本进行过滤以得到第一谐音敏感词集合；

第三获取单元663，用于获取所述待测文本中与所述第一谐音敏感词集合中的谐音敏感词相对应的词以得到所述第三敏感词集合。

在一实施例中，如图11所示，所述第四过滤单元67包括第二转换单元671、第六过滤单元672以及第四获取单元673。

第二转换单元671，用于将所述去冗余文本中的中文转换为拼音以得到去冗余谐音文本；

第六过滤单元672，用于通过所述谐音词索引器对所述去冗余谐音文本进行过滤以得到第二谐音敏感词集合；

第四获取单元673，用于获取所述去冗余文本中与所述第二谐音敏感词集合中的谐音敏感词相对应的词以得到所述第四敏感词集合。

在一实施例中，如图12所示，所述第一获取单元61包括下载单元611。

下载单元611，用于若接收到所述敏感词服务器发送的敏感词库更新提醒消息，从所述敏感词库更新提醒消息中获取更新后的敏感词库的下载地址，所述敏感词库更新提醒消息包含所述下载地址；从所述下载地址下载更新后的敏感词库。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述敏感词检测装置60和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述敏感词检测装置可以实现为一种计算机程序的形式，该计算机程序可以在如图13所示的计算机设备上运行。

请参阅图13，图13是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图13，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行一种敏感词检测方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种敏感词检测方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本申请的敏感词检测方法。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(Central Processing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行本申请的敏感词检测方法。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。所述计算机可读存储介质可以是非易失性，也可以是易失性。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，尚且本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种敏感词检测方法，包括：

从预设的敏感词服务器中获取敏感词库；

构建所述敏感词库对应的谐音词库；

分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器；

若接收到待测文本，通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合；

去除所述待测文本中的非中文字符以得到去冗余文本，并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合；

通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合；

通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合；

将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。
根据权利要求1所述的敏感词检测方法，其中，所述构建所述敏感词库对应的谐音词库，包括：

获取所述敏感词库的敏感词的拼音；

将所述敏感词库的敏感词的拼音作为谐音敏感词，并将所述谐音敏感词存入到预设的空白数据库中以得到所述谐音词库。
根据权利要求1所述的敏感词检测方法，其中，所述分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器，包括：

使用双数组tire树构建所述敏感词库对应的敏感词索引器；

使用双数组tire树构建所述谐音词库对应的谐音词索引器。
根据权利要求1所述的敏感词检测方法，其中，所述通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合，包括：

将所述待测文本中的中文转换为拼音以得到待测谐音文本；

通过所述谐音词索引器对所述待测谐音文本进行过滤以得到第一谐音敏感词集合；

获取所述待测文本中与所述第一谐音敏感词集合中的谐音敏感词相对应的词以得到所述第三敏感词集合。
根据权利要求1所述的敏感词检测方法，其中，所述通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合，包括：

将所述去冗余文本中的中文转换为拼音以得到去冗余谐音文本；

通过所述谐音词索引器对所述去冗余谐音文本进行过滤以得到第二谐音敏感词集合；

获取所述去冗余文本中与所述第二谐音敏感词集合中的谐音敏感词相对应的词以得到所述第四敏感词集合。
根据权利要求1所述的敏感词检测方法，其中，所述从预设的敏感词服务器中获取敏感词库，包括：

若接收到所述敏感词服务器发送的敏感词库更新提醒消息，从所述敏感词库更新提醒消息中获取更新后的敏感词库的下载地址，所述敏感词库更新提醒消息包含所述下载地址；

从所述下载地址下载更新后的敏感词库。
一种敏感词检测装置，包括：

第一获取单元，用于从预设的敏感词服务器中获取敏感词库；

第一构建单元，用于构建所述敏感词库对应的谐音词库；

第二构建单元，用于分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器；

第一过滤单元，用于若接收到待测文本，通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合；

第二过滤单元，用于去除所述待测文本中的非中文字符以得到去冗余文本，并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合；

第三过滤单元，用于通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合；

第四过滤单元，用于通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合；

合并单元，用于将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。
根据权利要求7所述的敏感词检测装置，其中，所述第一构建单元包括：

第二获取单元，用于获取所述敏感词库的敏感词的拼音；

储存单元，用于将所述敏感词库的敏感词的拼音作为谐音敏感词，并将所述谐音敏感词存入到预设的空白数据库中以得到所述谐音词库。
一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器用于运行所述计算机程序，以执行如下步骤：

从预设的敏感词服务器中获取敏感词库；

构建所述敏感词库对应的谐音词库；

分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器；

若接收到待测文本，通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合；

去除所述待测文本中的非中文字符以得到去冗余文本，并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合；

通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合；

通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合；

将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。
根据权利要求9所述的计算机设备，其中，所述构建所述敏感词库对应的谐音词库的步骤，包括：

获取所述敏感词库的敏感词的拼音；

将所述敏感词库的敏感词的拼音作为谐音敏感词，并将所述谐音敏感词存入到预设的空白数据库中以得到所述谐音词库。
根据权利要求9所述的计算机设备，其中，所述分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器的步骤，包括：

使用双数组tire树构建所述敏感词库对应的敏感词索引器；

使用双数组tire树构建所述谐音词库对应的谐音词索引器。
根据权利要求9所述的计算机设备，其中，所述通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合的步骤，包括：

将所述待测文本中的中文转换为拼音以得到待测谐音文本；

通过所述谐音词索引器对所述待测谐音文本进行过滤以得到第一谐音敏感词集合；

获取所述待测文本中与所述第一谐音敏感词集合中的谐音敏感词相对应的词以得到所述第三敏感词集合。
根据权利要求9所述的计算机设备，其中，所述通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合的步骤，包括：

将所述去冗余文本中的中文转换为拼音以得到去冗余谐音文本；

通过所述谐音词索引器对所述去冗余谐音文本进行过滤以得到第二谐音敏感词集合；

获取所述去冗余文本中与所述第二谐音敏感词集合中的谐音敏感词相对应的词以得到所述第四敏感词集合。
根据权利要求9所述的计算机设备，其中，所述从预设的敏感词服务器中获取敏感词库的步骤，包括：

若接收到所述敏感词服务器发送的敏感词库更新提醒消息，从所述敏感词库更新提醒消息中获取更新后的敏感词库的下载地址，所述敏感词库更新提醒消息包含所述下载地址；

从所述下载地址下载更新后的敏感词库。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时使所述处理器执行以下步骤：

从预设的敏感词服务器中获取敏感词库；

构建所述敏感词库对应的谐音词库；

分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器；

若接收到待测文本，通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合；

去除所述待测文本中的非中文字符以得到去冗余文本，并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合；

通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合；

通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合；

将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。
根据权利要求15所述的计算机可读存储介质，其中，所述构建所述敏感词库对应的谐音词库的步骤，包括：

获取所述敏感词库的敏感词的拼音；

将所述敏感词库的敏感词的拼音作为谐音敏感词，并将所述谐音敏感词存入到预设的空白数据库中以得到所述谐音词库。
根据权利要求15所述的计算机可读存储介质，其中，所述分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器的步骤，包括：

使用双数组tire树构建所述敏感词库对应的敏感词索引器；

使用双数组tire树构建所述谐音词库对应的谐音词索引器。
根据权利要求15所述的计算机可读存储介质，其中，所述通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合的步骤，包括：

将所述待测文本中的中文转换为拼音以得到待测谐音文本；

通过所述谐音词索引器对所述待测谐音文本进行过滤以得到第一谐音敏感词集合；

获取所述待测文本中与所述第一谐音敏感词集合中的谐音敏感词相对应的词以得到所述第三敏感词集合。
根据权利要求15所述的计算机可读存储介质，其中，所述通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合的步骤，包括：

将所述去冗余文本中的中文转换为拼音以得到去冗余谐音文本；

通过所述谐音词索引器对所述去冗余谐音文本进行过滤以得到第二谐音敏感词集合；

获取所述去冗余文本中与所述第二谐音敏感词集合中的谐音敏感词相对应的词以得到所述第四敏感词集合。
根据权利要求15所述的计算机可读存储介质，其中，所述从预设的敏感词服务器中获取敏感词库的步骤，包括：

若接收到所述敏感词服务器发送的敏感词库更新提醒消息，从所述敏感词库更新提醒消息中获取更新后的敏感词库的下载地址，所述敏感词库更新提醒消息包含所述下载地址；

从所述下载地址下载更新后的敏感词库。