WO2020151218A1

WO2020151218A1 - 电力专业词库生成方法及装置、存储介质

Info

Publication number: WO2020151218A1
Application number: PCT/CN2019/099862
Authority: WO
Inventors: 庄莉; 王秋琳; 宋立华; 张垚; 陈江海
Original assignee: 福建亿榕信息技术有限公司; 国网信息通信产业集团有限公司; 国网浙江省电力有限公司; 国家电网有限公司; 国网信通亿力科技有限责任公司
Priority date: 2019-01-22
Filing date: 2019-08-08
Publication date: 2020-07-30
Also published as: CN109710947A; CN109710947B

Abstract

一种电力专业词库生成方法及装置，其中方法包括如下步骤，获取电力相关语料，对相关语料进行切词，得到候选词，对候选词进行互信息值计算，设定互信息值阈值，将互信息值小于互信息值阈值的词删除。解决现有技术中电力专业词库杂乱不准确，无法满足实际需求的问题。

Description

电力专业词库生成方法及装置、存储介质

相关申请的交叉引用

本申请基于申请号为2019012201943140、申请日为2019年01月22日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的内容在此以引入方式并入本申请。

技术领域

本发明涉及自然语言处理领域，尤其涉及一种电力行业中专业词库的生成方法及装置、计算机存储介质。

背景技术

分词技术是自然语言处理中比较基础但又非常重要的技术。在中文语言中单字作为最基本的语义单位，虽然也有自己的意义，但表意能力较差，意义较分散，而词的表意能力更强，能更加准确的描述一个事物。因此在自然语言处理中，通常情况下词(包括单字成词)是最基本的处理单位。对于英文等拉丁语系的语言而言，由于词之间有空格作为词边际表示，词语一般情况下都能简单且准确的提取出来。而中文语言除了标点符号之外，字之间紧密相连，没有明显的词边界，因此很难将词提取出来。中文分词方法大致分为两种：基于词典的切分和基于统计模型的序列标注切分两种方式。其中，基于词典切分是比较常用且高效的分词方式，其前提是要有词库。电网公司目前已经积累了大量的电力行业专业语料，为了通过文本分析、挖掘技术对这些语料进行充分利用，当前迫切的需要一个较准确、完整的电力行业词库。

目前的语言分析处理方法主要有基于如下方面：

一、基于CRF(条件随机场)算法的专业词发现

CRF(条件随机场)是由一个在给定输入节点条件下计算输出节点的条件概率的无向图模型。假设X，Y分别表示需要标记的观察序列和相对应的标记序列的联合分布随机变量，那么条件随机场(X,Y)就是一个以观察序列X为条件的无向图模型。条件随机场的目标是在给定需要标记的观察序列的条件下，使标记序列的联合概率达到最优。方案一通常做法是在人工优选语料中标注出专业领域词，然后利用标注好的语料进行机器学习的CRF模型训练，最后输入专业语料让模型识别出专业词。

方案一对于专业词的识别效果还是较好的，但是前提是要有领域业务专家先对语料进行大量专业词标注，为CRF模型训练提供标注数据。此方案的不足之处就是需要行业专家参与训练数据标注，且需要标注的数据量较大，效率较低。

二、基于统计学原理的专业词库生成

基于统计学原理的词库生成方法不依赖于已有的词库，通常根据词的词频、互信息、左右信息熵特征，将一段大规模语料中可能成词的文本片段全部提取出来，不管它是专业词还是普通词。然后，再把所有抽出来的词通过设置阈值进行过滤筛选，得到词库。

方案二的词库生成过程是完全无监督的，不需要行业专家进行语料标注工作且效率较高，这是其主要优点。方案二的不足之处是仅仅通过词频、互信息、左右熵的词特征来筛选专业词存在准确率较低的缺点。

发明内容

为此，本申请实施例提供一种电力专业词库生成方法、装置及计算机存储介质，至少能够解决现有技术中电力专业词库杂乱不准确，需要人工参与、无法满足实际需求的问题。

为实现上述目的，本申请实施例提供一种电力专业词库生成方法，包括如下步骤，

获取电力相关语料；

对电力相关语料进行切词，得到候选词；

对候选词进行互信息值计算；

将互信息值小于预设互信息值阈值的词删除。

上述方案中，所述步骤对相关语料进行切词，得到候选词，包括：

根据预设定长长度，对中文符号分割出的短句进行定长切词，得到多个定长切词结果；

对每个定长切词结果，截取所述定长切词结果的前n个字，得到候选词，所述n为初始步长，再将n增加预设值，重复截取步骤，直至n等于所述预设定长长度。

上述方案中，所述方法还包括：对候选词进行左右信息熵计算，将左右信息熵小于预设的左右信息熵阈值的词删除。

上述方案中，所述方法还包括：对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。

上述方案中，所述方法还包括：对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序，并将排序好的结果呈现给用户。

本申请实施例还提供一种电力专业词库生成装置，包括：

获取模块，配置为获取电力相关语料；

切词模块，配置为对电力相关语料进行切词，得到候选词；

计算模块，配置为对候选词进行互信息值计算；

删除模块，配置为将互信息值小于预设互信息值阈值的词删除。

上述方案中，

所述切词模块包括：

切词子模块，配置为对中文符号分割出的短句根据预设定长长度进行定长切词，得到定长切词结果；

分词子模块，配置为截取所述定长切词结果的前n个字，得到候选词，所述n为初始步长，再将n增加预设值，重复截取步骤，直至n等于所述预设定长长度。

上述方案中，所述装置还包括左右信息熵计算模块，配置为对候选词进行左右信息熵计算，将左右信息熵小于预设左右信息熵阈值的词删除。

上述方案中，所述装置还包括标注删除模块，配置为对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。

上述方案中，所述装置还包括排序模块，配置为对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序，并将排序好的结果呈现给用户。

区别于现有技术，本发明实施例至少可以通过对电力专业语料进行切词，对切词结果进行相关计算从而使得电力专业的词库更加准确，更加有实用性，无需工人参与。其中，删除互信息值小于互信息值阈值的词的操作，可提高对候选词筛选的有效率。

附图说明

图1为本发明提供的电力专业词库生成方法实施例一的实现流程示意图；

图2为本发明提供的电力专业词库生成方法实施例二的实现流程示意图；

图3为本发明提供的电力专业词库生成装置的组成结构示意图；

图4为本发明提供的电力专业词库生成装置的硬件构成示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，为一种电力专业词库生成方法实施例的实现流程示意图，包括如下步骤：

S(步骤)100：获取电力相关语料：

S102：对相关语料进行切词，得到候选词：

S104：对候选词进行互信息值计算；

S106：将互信息值小于互信息值阈值的词删除。

其中，所述互信息值阈值为预先设定的，根据经验而得，可以为具体数值，也可以为范围值，不做具体限定。

作为一个可选的实现方式，所述对电力相关语料的切词为全切词，具体可通过如下方式实现：

根据预设定长长度，对中文符号分割出的短句进行定长切词，得到定长切词结果；例如通过对获取到的文件先按中文标点切分，然后对按中文标点切分后的语料进行N-gram切分(N-gram窗口大小推荐6-8)。这样处理的好处在于能够使得定长切词结果能够更加全面，窗口大小选择能够满足进一步细分的切词需要并囊括更多可用的结果。举个例子，对“绕线型转子的变极感应电动机”这句进行窗口为6的N-gram切分(定长长度)，会得到下列切分结果，即定长切词结果：

绕线型转子的

线型转子的变

型转子的变极

转子的变极感

子的变极感应

的变极感应电

变极感应电动

极感应电动机

继续的步骤中，还可以对每个定长切词结果，截取所述定长切词结果的前n个字，得到候选词，所述n为初始步长、为正整数，再将n增加预设值，重复截取步骤，直至n等于所述预设定长长度。具体的，分词的步长用于对定长切词结果进行进一步细化，设定n为2至预设定长长度在上例中，就会变成分词取定长切词结果的前2至6个字作为候选词，n每次增加的预设值可以为1，也可以为其他整数。如对“绕线型转子的”进行切词后，会得到如下切分结果：

绕线

绕线型

绕线型转

绕线型转子

绕线型转子的；

通过上述方案，经过定长切词及后续切分词步骤得到的候选词量大而全，同时分两个主要步骤的操作例也能够节省运算资源，并且不会得到过长的候选词结果。最终能够达到有效提高电力专业候选词有效性的效果。

对上述候选词继续进行互信息值的计算：

互信息值体现了组成当前词的各个字或词之间结合的紧密程度，互信息值越大成词的可能性也越大，计算公式如下：

其中p(x)、p(y)分别是候选词中的字或词组分x和y单独出现的概率，p(x,y)是x和y同时出现的概率。通过进行互信息值的计算，并删除互信息值小于互信息值阈值的词的操作方式，能够删除大概率不成词的字组合，以及不成合成词的词组合，同时提高对候选词筛选的有效率。

作为一种实现方式，所述生成方法还包括：

S104：对候选词进行左右信息熵计算，设定左右信息熵阈值，将左右信息熵小于该阈值的词删除。通常一个词可以在各种语境中使用，因此一个词的左右组合比较多，可以用信息熵来表示这个词在语料库中左右组合的丰富程度。通过进行左右信息熵阈值的筛选，可以删除固定词组中部分词被单独作为候选词的情况，提高电力领域专业词库的行业适用性。最终形成的词库可以更为科学。其中，所述左右信息熵阈值为预先设定的，根据经验而得，可以为具体数值，也可以为范围值，不做具体限定。

其他一些实施例中，所述生成方法还可以包括：

S106：对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。词性标注工具可以借助现有技术，常用带词性标注的分词工具可以包括：jieba、nltk、HanLP、Ansj等，具体用于对候选词中的细分分词词性进行标注，从而得到候选词的词性组合特点，根据词性组合特点再进行删除，例如，较高成词概率的组合：名词+名词、动词+名词、名词+动词等，而较低成词概率的组合有：动词+动词、介词+名词、介词+动词、副词+动词等，可以通过设计删除规则表将具有动词+动词、介词+名词、介词+动词、副词+动词等组分词性的词进行删除，达到候选词优化的效果，提高候选词的有效率，更好地达到电力专业词库构建的效果。

作为一种实现方式，所述生成方法还包括：

S108对候选词进行TF-IDF(Term Frequency–Inverse Document Frequency，词频-逆文本频率指数，为一种加权技术)值计算，根据TF-IDF值对候选词排序。TF-IDF是一种统计方法，用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正相关增加，但同时会随着它在语料库中出现的频率成负相关下降，计算公式如下：

其中,

表示在语料d中，词w出现的次数，N表示语料总数，N _w表示含有词w的语料数量。通过计算上述TF-IDF值进行候选词的排序，并将排序好的结果呈现给用户，将重要程度最高的词选排在最前，能够进一步优化用户的使用体验。

在图2所示中，本发明实施例的生成方法包括：

S200：获取电力相关语料，对相关语料进行切词，对中文符号分割出的短句进行定长切词，得到定长切词结果；例如通过对获取到的文件先按中文标点切分，然后对按中文标点切分后的语料进行N-gram切分(N-gram窗口大小6)，再对各定长切词结果中进行再分词，再分词的步长为2至6，得到候选词，

S202：对候选词进行互信息值计算，设定互信息值阈值，将互信息值小于互信息值阈值的词删除。

S204：对候选词进行左右信息熵计算，设定左右信息熵阈值，将左右信息熵小于该阈值的词删除。

S206：对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。

S208：对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序。

作为一个实现方式，本发明实施例的生成方法包括如下步骤：

S200：获取电力相关语料，对相关语料进行切词可以具体为：对中文符号分割出的短句进行定长切词，得到定长切词结果；例如通过对获取到的文件先按中文标点切分，然后对按中文标点切分后的语料进行N-gram切分(N-gram窗口大小4)，再对各定长切词结果中进行再分词，再分词的步长为2至4，得到候选词。

S208：对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序。

作为一个实现方式，本发明实施例的方法包括如下步骤：

S200：获取电力相关语料，对相关语料进行切词，对中文符号分割出的短句进行定长切词，得到定长切词结果；例如通过对获取到的文件先按中文标点切分，或者，按中文标点切分后的语料进行N-gram切分(N-gram窗口大小8)，再对各定长切词结果中进行再分词，再分词的步长为2至8，得到候选词。

S208：对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序。

同时，将步骤S202至S208内的任意步骤进行删除也是能够达到效果，或可以将步骤S202至S206内的任意步骤进行调换顺序。

此外，本申请实施例还提供一种电力专业词库生成装置，如图3所示，所述装置包括：获取模块301、切词模块302、计算模块303和删除模块304；其中，

获取模块301，配置为获取电力相关语料；

切词模块302，配置为对电力相关语料进行切词，得到候选词；

计算模块303，配置为对候选词进行互信息值计算；

删除模块304，配置为将互信息值小于预设互信息值阈值的词删除。

作为一种实现方式，所述切词模块还包括：

分词子模块，配置为截取所述定长切词结果的前n个字，得到候选词，所述n为初始步长，再将n增加预设值，重复截取步骤，直至n等于所述预设定长长度；n为正整数。

作为一种实现方式，所述装置还包括左右信息熵计算模块，配置为对候选词进行左右信息熵计算，将左右信息熵小于预设左右信息熵阈值的词删除。

作为一种实现方式，所述装置还包括标注删除模块，配置为对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。

作为一种实现方式，所述装置还包括排序模块，配置为对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序，并将排序好的结果呈现给用户。

上述实施例提供的电力专业词库生成装置与电力专业词库生成方法实施例属于同一构思，其具体实现过程详见电力专业词库生成方法的实施例，这里不再赘述。其中，所述获取模块301、切词模块302、计算模块303和删除模块304均可由数字信号处理(DSP)、中央处理器(CPU)、可编程逻辑控制(FPGA)、控制器(MCU)等来实现。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时至少用于执行图1、或图2所示方法的步骤。所述计算机可读存储介质具体可以为存储器。所述存储器可以为如图4所示的存储器42。

本申请实施例还提供了一种电力专业词库生成装置。图4为本申请实施例的电力专业词库生成装置的硬件结构示意图。如图4所示，所述装置包括：用于进行数据传输的通信组件43、至少一个处理器41和用于存储能够在处理器41上运行的计算机程序的存储器42。终端中的各个组件通过总线系统44耦合在一起。可理解，总线系统44用于实现这些组件之间的连接通信。总线系统44除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统44。

其中，所述处理器41执行所述计算机程序时至少执行图1或图2所示方法的步骤。

可以理解，存储器42可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器42旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器41中，或者由处理器41实现。处理器41可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器41可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器42，处理器41读取存储器42中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，检测设备可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述的电力专业词库生成方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

工业实用性

本发明实施例中，至少可以通过对电力专业语料进行切词，并对切词结果进行相关计算、如互信息值的计算、左右信息熵等，从而可得到更为准确的电力专业的词库，更加有实用性，且无需工人参与。其中，删除互信息值小于互信息值阈值的操作方式，能够删除大概率不成词的字组合，以及不成合成词的词组合，可提高本发明实施例对候选词筛选的有效率。

Claims

一种电力专业词库生成方法，包括：

获取电力相关语料；

对电力相关语料进行切词，得到候选词；

对候选词进行互信息值计算；

将互信息值小于预设互信息值阈值的词删除。
根据权利要求1所述的电力专业词库生成方法，其中，所述对电力相关语料进行切词，得到候选词包括：

根据预设定长长度，对中文符号分割出的短句进行定长切词，得到多个定长切词结果；

截取所述定长切词结果的前n个字，得到候选词；其中，所述n为初始步长、为正整数，将n增加预设值，重复截取步骤，直至n等于所述预设定长长度。
根据权利要求1所述的电力专业词库生成方法，其中，所述方法还包括：

对候选词进行左右信息熵计算：

将左右信息熵小于预设的左右信息熵阈值的词删除。
根据权利要求1所述的电力专业词库生成方法，其中，所述方法还包括：

对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。
根据权利要求1至4任一项所述的电力专业词库生成方法，其中，所述方法还包括：

对候选词进行TF-IDF值计算；

根据TF-IDF值对候选词排序，并呈现排序结果。
一种电力专业词库生成装置，所述装置包括：

获取模块，配置为获取电力相关语料；

切词模块，配置为对电力相关语料进行切词，得到候选词；

计算模块，配置为对候选词进行互信息值计算；

删除模块，配置为将互信息值小于预设互信息值阈值的词删除。
根据权利要求6所述的电力专业词库生成装置，其中，所述切词模块还包括：

切词子模块，配置为对中文符号分割出的短句根据预设定长长度进行定长切词，得到定长切词结果；

分词子模块，配置为截取所述定长切词结果的前n个字，得到候选词，所述n为初始步长，再将n增加预设值，重复截取步骤，直至n等于所述预设定长长度。
根据权利要求6所述的电力专业词库生成装置，其中，所述装置还包括：

左右信息熵计算模块，配置为对候选词进行左右信息熵计算，将左右信息熵小于预设左右信息熵阈值的词删除。
根据权利要求6所述的电力专业词库生成装置，其中，所述装置还包括标注删除模块，配置为对候选词进行组分词性标注，根据组分词性删除不成词的词性组合。
根据权利要求6至9任一项所述的电力专业词库生成装置，其中，所述装置还包括排序模块，配置为对候选词进行TF-IDF值计算，根据TF-IDF值对候选词排序，并呈现排序结果。
一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至5任一项所述的电力专业词库生成方法。
一种电力专业词库生成装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至5任一项所述电力专业词库生成方法的步骤。