WO2022073333A1

WO2022073333A1 - 基于多级词典的分词方法、装置、设备及可读存储介质

Info

Publication number: WO2022073333A1
Application number: PCT/CN2021/088599
Authority: WO
Inventors: 李正华; 周厚全; 侯洋; 周仕林; 张民
Original assignee: 苏州大学
Priority date: 2020-10-10
Filing date: 2021-04-21
Publication date: 2022-04-14
Also published as: CN112214994A; CN112214994B

Abstract

一种基于多级词典的分词方法、装置、设备及可读存储介质，用于解决当前的分词模型均采用单级词典，导致分词性能较差的问题。基于多级词典的分词方法包括：针对目标语句，生成每个字符的向量表示，并生成每个字符在至少两个词典中的特征表示（S101）；利用基于机器学习技术的分词模型，根据向量表示和特征表示，确定每个字符的成词标签（S102）；根据每个字符的成词标签，对目标语句进行分词（S103）。

Description

基于多级词典的分词方法、装置、设备及可读存储介质

本申请要求于2020年10月10日提交至中国专利局、申请号为202011079701.0、发明名称为“基于多级词典的分词方法、装置、设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种基于多级词典的分词方法、装置、设备及可读存储介质。

背景技术

汉语分词是一个将输入的句子切分成词序列的过程。通常为模型提供额外词典，来缓解人工标注训练数据不足的问题。然而，目前的分词方案均采用单级词典，忽略了词典中不同词语的成词概率不同的问题，也忽略了同一字符串在一个领域成词，而在另一种领域不成词的问题，导致分词模型的分词效果较差。

基于单级词典的分词方法，还存在对实际分词效果影响不大的问题。主要原因就在于词典知识是以特征形式，作为软约束加到分词模型中，而词典中的词语成词概率千差万别，因此对于分词模型的影响有限。

可见，当前的分词模型均采用单级词典，导致分词效果较差，如何解决该问题，提升分词性能，是亟待本领域技术人员解决的问题。

发明内容

本申请的目的是提供一种基于多级词典的分词方法、装置、设备及可读存储介质，用以解决当前的分词模型均采用单级词典，导致分词性能较差的问题。其具体方案如下：

第一方面，本申请提供了一种基于多级词典的分词方法，包括：

针对目标语句，生成每个字符的向量表示，并生成每个字符在至少两个词典中的特征表示；

利用基于机器学习技术的分词模型，根据所述向量表示和所述特征表示，确定每个字符的成词标签，其中所述成词标签包括：当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词；

根据所述每个字符的成词标签，对所述目标语句进行分词。

优选的，在所述针对目标语句，生成每个字符的向量表示，并生成每个字符在至少两个词典中的特征表示之前，还包括：

根据所属领域和/或成词概率，将目标词典划分为至少两个词典。

优选的，所述针对目标语句，生成每个字符的向量表示，包括：

针对目标语句，生成每个字符的字符n-gram特征、字符重复特征信息特征和字符类别特征，以作为该字符的向量表示；

相应的，所述根据所述向量表示和所述特征表示，确定每个字符的成词标签，包括：

利用基于传统离散特征的分词模型，根据所述向量表示和所述特征表示，确定每个字符的成词标签。

优选的，在所述基于传统离散特征的分词模型为CRF模型时，所述生成每个字符在至少两个词典中的特征表示，包括：

生成每个字符在至少两个词典中的单元特征和三元特征，以作为特征表示。

随机生成嵌入向量表；针对目标语句，通过查询所述嵌入向量表确定每个字符的向量表示；

利用基于神经网络的分词模型，对所述向量表示和所述特征表示进行特征提取，得到每个字符的特征向量，并根据所述特征向量确定每个字符的成词标签。

优选的，在所述基于神经网络的分词模型为BiLSTM-CRF模型时，所述生成每个字符在至少两个词典中的特征表示，包括：

生成每个字符在至少两个词典中的2-gram特征、3-gram特征、4-gram特征、5-gram特征，以作为特征表示。

优选的，所述利用基于神经网络的分词模型，对所述向量表示和所述特征表示进行特征提取，得到每个字符的特征向量，包括：

分别对所述向量表示和所述特征表示进行特征提取，得到第一特征向量和第二特征向量；对所述第一特征向量和所述第二特征向量进行拼接，得到每个字符的特征向量；

或者，

对所述向量表示和所述特征表示进行拼接，并对拼接结果进行特征提取，得到每个字符的特征向量。

第二方面，本申请提供了一种基于多级词典的分词装置，包括：

表示模块：用于针对目标语句，生成每个字符的向量表示，并生成每个字符在至少两个词典中的特征表示；

标签确定模块：用于利用基于机器学习技术的分词模型，根据所述向量表示和所述特征表示，确定每个字符的成词标签，其中所述成词标签包括：当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词；

分词模块：用于根据所述每个字符的成词标签，对所述目标语句进行分词。

第三方面，本申请提供了一种基于多级词典的分词设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上所述的基于多级词典的分词方法。

第四方面，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的基于多级词典的分词方法。

本申请所提供的一种基于多级词典的分词方法，包括：针对目标语句，生成每个字符的向量表示，并生成每个字符在至少两个词典中的特征表示；利用基于机器学习技术的分词模型，根据向量表示和特征表示，确定每个字符的成词标签；根据每个字符的成词标签，对目标语句进行分词。

可见，该方法采用至少两个词典以辅助分词模型进行分词，在对字符进行表示的时候，不仅生成常规的向量表示，还生成该字符在至少两个词典中的特征表示，最终根据向量表示和特征表示确定该字符的成词标签。该方法本质上是通过区分不同词的地位和重要性，从而提升整体方案的分词性能，例如，当上述至少两个词典是按照领域划分得到的词典时，该方法能够让分词模型学习到词的所属领域这一信息，从而有效提升分词模型的领域适应能力；当上述至少两个词典是按照成词概率划分得到的词典时，该方法能够让分词模型学习到词的成词概率这一信息，从而显著提升分词模型的分词准确性；甚至可以同时按照领域和成词概率进行划分，从而同时提升领域适应能力和分词准确性。

此外，本申请还提供了一种基于多级词典的分词装置、设备及可读存储介质，其技术效果与上述方法的技术效果相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种基于多级词典的分词方法实施例一的实现流程图；

图2为本申请所提供的一种基于多级词典的分词方法实施例二的网络结构图；

图3为本申请所提供的一种基于多级词典的分词方法实施例三的网络结构图；

图4为本申请所提供的一种基于多级词典的分词装置实施例的功能框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前流行的分词方法多是基于统计的，该方法比之前基于词典的分词方法在性能上有较大提升。然而，当训练语料的领域与目标领域不一致时，基于统计的分词方法的性能会大幅下降。为了解决罕见词与领域相关词语的错误切分问题，一般在统计模型中融入词典信息，目前有两种解决方案：

(1)在传统机器学习领域，以CRF分词模型为例，对于每个字符，该模型不仅使用了中文分词中常用的基本特征，还加入了词典相关的特征。

(2)在神经网络领域，以BiLSTM-CRF模型为例，每个字符不仅需要自身的字符向量，还要基于词典和上下文构建词典特征向量。

然而，上述分词模型都是采用单级词典来进行分词，由于单级词典无法体现不同词之间的差异，导致分词模型的整体分词性能受到很大限制。

针对该问题，本申请提供了一种基于多级词典的分词方法、装置、设备及可读存储介质，采用至少两个词典以辅助分词模型进行分词，在对字符进行表示的时候，不仅生成常规的向量表示，还生成该字符在至少两个词典中的特征表示，最终根据向量表示和特征表示确定该字符的成词标签。最终通过区分不同词的地位和重要性，提升了整体方案的分词性能。

下面对本申请提供的一种基于多级词典的分词方法实施例一进行介绍，参见图1，实施例一包括：

S101、针对目标语句，生成每个字符的向量表示，并生成每个字符在至少两个词典中的特征表示；

具体的，上述生成每个字符在至少两个词典中的特征表示的过程，具体包括：对于每个词，生成其在每个词典中的特征表示，对该词在各个词典中的特征表示进行拼接，得到该词在至少两个词典中的特征表示。

上述至少两个词典，可以是按照所属领域划分得到的词典，也可以是按照成词概率划分得到的词典，甚至还可以是同时按照所属领域和成词概率划分得到的词典。作为一种优选的实施方式，在同时按照所属领域和成词概率划分词典时，对于关键的领域，可以从成词概率上按照更细粒度进行划分，以进一步提升分词模型的分词性能。例如，在领域A相较于领域B更为重要时，可以按照以下方式进行词典划分：词典1用于描述在领域A内成词概率为80％至100％的词，词典2用于描述在领域A内成词概率为60％至80％的词，词典3用于描述在领域B内成词概率为60％至100％的词。

S102、利用基于机器学习技术的分词模型，根据向量表示和特征表示，确定每个字符的成词标签；

可以理解的是，分词任务可以看作序列化标注任务，就是根据字符在词中的位置信息来对每个字符来进行标注，进而达到分词的目的。在实际应用中，可能存在不同的标注方式，相应的，也存在按照不同方式进行分类的成词标签，本实施例对选用何种成词标签不做限定。

此处提供一种常用的标注方法，即4-tag标注法，在该标注法中成词标签被划分为以下四种类型：当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词。

上述利用基于机器学习技术的分词模型，包括但不限于基于传统离散特征的分词模型和基于神经网络的分词模型。

当选用基于传统离散特征的分词模型时，S101中生成每个字符的向量表示的过程，具体包括：采用特征工程技术，根据预先设置的特征模板，生成每个字符的向量表示。其中，特征模板用于挖掘命名实体内部的特征以及上下文之间的关联特征，作为一种具体的实施方式，特征模板可以设置为：字符n-gram特征、字符重复特征信息特征和字符类别特征。实际应用中，可以根据实际需求自行设置和调整特征模板，本实施例对特征模板中具体选用何种特征不做限定。

当选用基于神经网络的分词模型时，S101中生成每个字符的向量表示的过程，具体包括：随机生成嵌入向量表；针对目标语句，通过查询嵌入向量表确定每个字符的向量表示。

以上对在选用不同的分词模型时，如何生成常规的字符向量表示的过程进行了描述。可以理解的是，在选用不同的分词模型时，不仅常规的字符向量表示可能存在差异，字符在至少两个词典中的特征表示也可能存在差异。具体的，可以针对实际选用的分词模型，预先设置特征模板，然后根据特征模板，从至少两个词典中提取字符的特征表示。下面针对不同类型的分词模型，提供一种可行的从词典中提取字符特征表示的实现方式，可以理解的是，本实施例不局限于此：

当选用基于传统离散特征的分词模型时，S101中生成每个字符在至少两个词典中的特征表示的过程，具体包括：生成每个字符在至少两个词典中的单元特征和三元特征，以作为特征表示。

当选用基于神经网络的分词模型时，S101中生成每个字符在至少两个词典中的特征表示的过程，具体包括：生成每个字符在至少两个词典中的2-gram特征、3-gram特征、4-gram特征、5-gram特征，以作为特征表示。

S103、根据每个字符的成词标签，对目标语句进行分词。

根据成词标签对目标语句进行分词的过程，就是将语句转换为词序列的过程，本实施例不再展开描述该部分内容。

值得一提的是，当选用基于神经网络的分词模型时，S102中所述根据向量表示和特征表示，确定每个字符的成词标签的过程，具体包括：利用基于神经网络的分词模型，对向量表示和特征表示进行特征提取，得到每个字符的特征向量，并根据特征向量确定每个字符的成词标签。

其中，对于所述利用基于神经网络的分词模型，对向量表示和特征表示进行特征提取，得到每个字符的特征向量的过程，本实施例提供以下两种实现方式：

第一种实现方式：分别对向量表示和特征表示进行特征提取，得到第一特征向量和第二特征向量；对第一特征向量和第二特征向量进行拼接，得到每个字符的特征向量；

第二种实现方式：对向量表示和特征表示进行拼接，并对拼接结果进行特征提取，得到每个字符的特征向量。

理论上来讲，以上两种方式均可以实现本实施例的分词方案，但在实际测试过程中，上述第一种实现方式相较于第二种实现方式表现出更优异的分词性能，因此，本实施例将第一种实现方式作为一种更优选的方式。

本实施例所提供一种基于多级词典的分词方法，采用至少两个词典以辅助分词模型进行分词，在对字符进行表示的时候，不仅生成常规的向量表示，还生成该字符在至少两个词典中的特征表示，最终根据向量表示和特征表示确定该字符的成词标签。通过区分不同词的地位和重要性，提升了整体方案的分词性能。

如前文所述，分词任务可以看作序列化标注任务。以采用4-tag标注法为例，用B、M、E、W来对每个字符进行标注。其中，B表示该字符是词的第一个字符，E表示该字符是词的最后一个字符，M表示该字符位于词的中间位置，W表示该字符单独成词。

假设语句序列为S＝{c ₁,c ₂,c ₃...c _n}，标签序列为Y＝(y ₁,y ₂,...,y _n)，其中c _i表示目标语句中的第i个字符，y _i表示第i个字符的标签，i∈[1,n]，n表示字符总数，y _i∈{B,M,E,W}。那么，分词过程就是对S中的每一个字符都找到最优的标记y ^*，使其满足下式的过程：

上面对分词任务进行了形象化描述，下面分别以CRF分词模型和基于BiLSTM-CRF的分词模型为基础，对本申请的实施过程进行详细说明。

首先对词典划分过程进行说明。此处以按照成词概率划分的二级词典为例，对词典划分过程进行描述，至于三级或三级以上词典，以及按照其他划分方式的词典划分过程，可以轻易扩展得到，此处不再举例说明。

根据单词的成词概率，将单词分成多个等级。比如，在二级词典中，可以将词典分为两级：第一级是成词概率100％的词，第二级是成词概率非100％的词。假设已有一个单级词典D，一些语料C。可以利用语料C，根据成词概率，将词典D划分为两级，一级词典D ₁，二级词典D ₂，具体如下：

二级词典D ₂：在语料C中出现，但不总是作为一个词出现，即成词概率非100％，将那些词放到D ₂中。

一级词典D ₁：在语料C中出现，且总是作为一个词出现，即成词概率为100％，将那些词放到D ₁中。

下面开始详细介绍本申请提供的一种基于多级词典的分词方法实施例二，实施例二以CRF分词模型为基础，根据前述二级词典，在传统CRF分词模型的基础上，为分词模型增加了多级词典特征，以提升分词性能。

本实施例中，如表1所示，CRF分词模型使用了中文分词中常用的基本特征：字符n-gram特征，字符重复特征信息特征和字符类别特征。除了上述三种特征，CRF分词模型中还融入了词典相关的特征。

对于给定输入序列S＝{c ₁,c ₂,c ₃...c _n}，模型预测输出序列Y＝(y ₁,y ₂,...,y _n)，CRF分词模型的目标是找到Y，使得Y＝arg max P(Y|S)，这里给出CRF中P(Y|S)的定义：

这里Z(S)是一个归一化因子：

Z(s)＝Σ _Y′exp(Score(S,Y′))

其中Y’是指长度为S长度的所有可能输出序列。另外：

其中，f(S,i,y _i-1,y _i)为特征抽取函数返回特征向量，w为对应的权重向量。这里f(S,i,y _i-1,y _i)按照如下表1的特征模版来提取前述基本特征：

表1

其中，下标i表示距离当前字符的相对位置，c _i表示相对当前字符位置为i的字符。例如，c ₀表示当前字符，c _-1表示当前字符的前一个字符。Dup()表示两个字符是否相同，相同则返回1，不相同则返回0。Type(c _i)用于表示字符的类型，这里的类型是指标点符号、英文数字、中文数字、字母等类别，而非4-tag中的{B,M,E,W}。

由于本实施例将单级词典划分为二级词典，因此需要相应修改字典特征模版来体现出词的成词概率信息。以从词典抽取单元特征和三元特征为例，单级词典的特征模板如表2所示：

表2

经过修改后，二级词典的特征模板如下表3所示：

表3

假设当前考虑的字符位于句子S的j位置，则：

[f _B] _i,L＝f _B(S,j+i,D _L)

[f _M] _i,L＝f _M(S,j+i,D _L)

[f _E] _i,L＝f _E(S,j+i,D _L)

其中，D _L表示使用的是第L级词典，L＝1或者2。

在训练时，目标是极大化似然，一般可以取似然函数的相反数，然后采用随机梯度下降去训练去极小化，在计算条件概率的时候，可以使用前向后向算法，最后再用维特比算法解码。

基于实施例二，假设目标语句为“棒曲霉素的生产量”，将“的”作为当前字符，将“棒曲霉素”放入一级词典，而{生产，产量}放入二级词典。那么，依照表3提取特征，最终得到该字符在二级词典中的特征表示如表4所示：

表4

下面开始详细介绍本申请提供的一种基于多级词典的分词方法实施例三，实施例三以基于BiLSTM-CRF的分词模型为基础，并根据前述二级词典，为分词模型增加了多级词典特征，以提升分词性能。

使用BiLSTM-CRF作为基础模型，每个字符c不仅需要代表自身的字符向量e，还要基于二级词典和上下文构建词典特征向量t。该特征向量表示由c及其邻近字符组成的字符串是否构成一个单词，特征模板包含了2-gram到5-gram的字段，每个长度包含两种情况：字符是字段的首部或尾部，最终的特征向量是一个16维的0-1向量。

图3是BiLSTM-CRF模型的一个变体。一共分为三层：表示层，特征层和预测层。下面分别对每层进行介绍：

(1)表示层

在神经网络中，会随机初始化一个词嵌入向量表，每个向量都代表了一个字符，通过索引表，可以很方便得到每个字符的词嵌入表示。

对于一个句子S＝{c ₁,c ₂,c ₃...c _n}，c _i表示句子中第i个字符，n表示句子的长度。对于句中每个字符c _i，通过查表得到其对应的词嵌入表示e _i。

除了词嵌入表示，每个字符c _i还要基于词典和上下文构建词典特征向量。首先基于特征模板为字符c _i构建n-gram字符串，特征模板如表5所示：

表5

类型	特征含义
前向2-gram	c _i-1c _i在词典1中
前向3-gram	c _i-2c _i-1c _i在词典1中
前向4-gram	c _i-3c _i-2c _i-1c _i在词典1中
前向5-gram	c _i-4c _i-3c _i-2c _i-1c _i在词典1中
后向2-gram	c _ic _i+1在词典1中
后向3-gram	c _ic _i+1c _i+2在词典1中
后向4-gram	c _ic _i+1c _i+2c _i+3在词典1中
后向5-gram	c _ic _i+1c _i+2c _i+3c _i+4在词典1中
前向2-gram	c _i-1c _i在词典2中
前向3-gram	c _i-2c _i-1c _i在词典2中
前向4-gram	c _i-3c _i-2c _i-1c _i在词典2中
前向5-gram	c _i-4c _i-3c _i-2c _i-1c _i在词典2中
后向2-gram	c _ic _i+1在词典2中
后向3-gram	c _ic _i+1c _i+2在词典2中
后向4-gram	c _ic _i+1c _i+2c _i+3在词典2中
后向5-gram	c _ic _i+1c _i+2c _i+3c _i+4在词典2中

如果相应的字符或字符串在词典中，特征值为1，否则为0。

对于c _i在特征模板中的每个字符串，都会产生一个二元值表示该字符串是否在词典中出现。

代表c _i基于词典D对应于第k个模板的输出值。最终，c _i基于词典D生成了一个8维的0-1向量t _i。由于划分了两级词典，c _i对应一级词典D ₁的特征向量为

对应二级词典D ₂的特征向量为

最终的词典特征向量由各级词典特征向量连接得到：

(2)特征层

LSTM由输入门、遗忘门、输出门和记忆单元四个部分组成，可以用来保存上下文有用的信息，同时解决长距离依赖问题。对于一个输入向量序列X＝{x ₁,x ₂,x ₃...x _n}。由于LSTM可以有效地编码整个序列，所以通过LSTM对整个序列进行编码得到x _i在序列中的全局信息

其中，

分别表示第i个字符对应的输入门，遗忘门，输出门和细胞状态的输出，

和

表示第i项对应的输入向量和隐藏层向量。σ表示sigmoid激活函数，W和b分别对应相应门的权重以及偏置。

对于一个句子，单向的LSTM仅仅能编码一个方向的句子信息。即对于句子中第i个字符，前向的

只包含前i个字符的信息，不包含第i个字符以后的序列信息。为了使句子中每个字符都能包含前后的信息，这里采用两个不同方向的LSTM对句子进行编码。最终，将前向后向的LSTM的隐层输出拼接，得到字符c _i在整个句子序列中的双向表示

在表示层中，每个字符c _i对应了2个向量：e _i和t _i。其中，e _i代表c _i的词嵌入向量，t _i表示c _i基于词典和上下文生成的词典特征向量，由一级词典和二级词典各自得到的向量连接而成。将这三个向量分别输入到一个Bi-LSTM中：

在输入到CRF层前，将两个隐藏层向量连接起来：

(3)预测层

预测层采用CRF进行最终的标签序列优化。

全标注数据中句子的每个汉字都有一个明确的分词标签。所以在包含 N个句子的全标注数据集T中，对于一个长度为n的句子S而言，其所有可能的4 ⁿ种分词切割路径中仅有一条正确的路径Y，那么全标注CRF的学习问题就是最大化权重θ下句子S被标记为Y的似然函数LL(T；θ)。其中，Score(S,Y)表示为句子S标记为序列Y的得分，Z(S)表示句子S的4 ⁿ种可能得分之和，p(Y|S)表示句子S被标记为序列Y的概率：

最终训练目标为最大化似然函数LL(T；θ)。

基于实施例三，假设目标语句为“棒曲霉素的生产量”，对于单一词典的分词模型，模型使用的词典为{棒曲霉素，生产，产量}，模型输入和输出如表6所示：

表6

对于同一目标语句，对于基于二级词典的分词模型，将“棒曲霉素”放入最高优先级的一级词典，而{生产，产量}放入次优先级的二级词典，得到的输出如表7所示：

表7

下面对本申请实施例提供的一种基于多级词典的分词装置进行介绍，下文描述的一种基于多级词典的分词装置与上文描述的一种基于多级词典的分词方法可相互对应参照。

如图4所示，本实施例的基于多级词典的分词装置，包括：

表示模块401：用于针对目标语句，生成每个字符的向量表示，并生成每个字符在至少两个词典中的特征表示；

标签确定模块402：用于利用基于机器学习技术的分词模型，根据向量表示和特征表示，确定每个字符的成词标签，其中所述成词标签包括：当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词；

分词模块403：用于根据每个字符的成词标签，对目标语句进行分词。

本实施例的基于多级词典的分词装置用于实现前述的基于多级词典的分词方法，因此该装置中的具体实施方式可见前文中的基于多级词典的分词方法的实施例部分，例如，表示模块401、标签确定模块402、分词模块403，分别用于实现上述基于多级词典的分词方法中步骤S101，S102，S103。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的基于多级词典的分词装置用于实现前述的基于多级词典的分词方法，因此其作用与上述方法的作用相对应，这里不再赘述。

此外，本申请还提供了一种基于多级词典的分词设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行计算机程序，以实现如上文所述的基于多级词典的分词方法。

最后，本申请提供了一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时用于实现如上文所述的基于多级词典的分词方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种基于多级词典的分词方法，其特征在于，包括：

针对目标语句，生成每个字符的向量表示，并生成每个字符在至少两个词典中的特征表示；

利用基于机器学习技术的分词模型，根据所述向量表示和所述特征表示，确定每个字符的成词标签，其中所述成词标签包括：当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词；

根据所述每个字符的成词标签，对所述目标语句进行分词。
如权利要求1所述的方法，其特征在于，在所述针对目标语句，生成每个字符的向量表示，并生成每个字符在至少两个词典中的特征表示之前，还包括：

根据所属领域和/或成词概率，将目标词典划分为至少两个词典。
如权利要求1所述的方法，其特征在于，所述针对目标语句，生成每个字符的向量表示，包括：

针对目标语句，生成每个字符的字符n-gram特征、字符重复特征信息特征和字符类别特征，以作为该字符的向量表示；

相应的，所述根据所述向量表示和所述特征表示，确定每个字符的成词标签，包括：

利用基于传统离散特征的分词模型，根据所述向量表示和所述特征表示，确定每个字符的成词标签。
如权利要求3所述的方法，其特征在于，在所述基于传统离散特征的分词模型为CRF模型时，所述生成每个字符在至少两个词典中的特征表示，包括：

生成每个字符在至少两个词典中的单元特征和三元特征，以作为特征表示。
如权利要求1所述的方法，其特征在于，所述针对目标语句，生成每个字符的向量表示，包括：

随机生成嵌入向量表；针对目标语句，通过查询所述嵌入向量表确定每个字符的向量表示；

相应的，所述根据所述向量表示和所述特征表示，确定每个字符的成词标签，包括：

利用基于神经网络的分词模型，对所述向量表示和所述特征表示进行特征提取，得到每个字符的特征向量，并根据所述特征向量确定每个字符的成词标签。
如权利要求5所述的方法，其特征在于，在所述基于神经网络的分词模型为BiLSTM-CRF模型时，所述生成每个字符在至少两个词典中的特征表示，包括：

生成每个字符在至少两个词典中的2-gram特征、3-gram特征、4-gram特征、5-gram特征，以作为特征表示。
如权利要求5所述的方法，其特征在于，所述利用基于神经网络的分词模型，对所述向量表示和所述特征表示进行特征提取，得到每个字符的特征向量，包括：

分别对所述向量表示和所述特征表示进行特征提取，得到第一特征向量和第二特征向量；对所述第一特征向量和所述第二特征向量进行拼接，得到每个字符的特征向量；

或者，

对所述向量表示和所述特征表示进行拼接，并对拼接结果进行特征提取，得到每个字符的特征向量。
一种基于多级词典的分词装置，其特征在于，包括：

表示模块：用于针对目标语句，生成每个字符的向量表示，并生成每个字符在至少两个词典中的特征表示；

标签确定模块：用于利用基于机器学习技术的分词模型，根据所述向量表示和所述特征表示，确定每个字符的成词标签，其中所述成词标签包括：当前字符是词的第一个字符、当前字符是词的最后一个字符、当前字符位于词的中间位置、当前字符单独成词；

分词模块：用于根据所述每个字符的成词标签，对所述目标语句进行分词。
一种基于多级词典的分词设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如权利要求1-7任意一项所述的基于多级词典的分词方法。
一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1-7任意一项所述的基于多级词典的分词方法。