WO2017177809A1

WO2017177809A1 - 语言文本的分词方法和系统

Info

Publication number: WO2017177809A1
Application number: PCT/CN2017/077830
Authority: WO
Inventors: 陈晓; 李航
Original assignee: 华为技术有限公司
Priority date: 2016-04-12
Filing date: 2017-03-23
Publication date: 2017-10-19
Also published as: EP3416064A1; CN107291684A; US20190018836A1; EP3416064A4; CN107291684B; US10691890B2; EP3416064B1

Abstract

本发明实施例提供一种语言文本的分词方法和系统，该方法包括：获取待处理的第一语言文本和可信度阈值；采用第一分词方式，对第一语言文本进行分词，得到第一词边界集合；根据可信度阈值，将第一词边界集合划分成可信的第二词边界集合和不可信的第三词边界集合；根据第三词边界集合，从第一语言文本中选取第二语言文本，第二语言文本包括第三词边界集合中的每个词边界对应的词；采用第二分词方式，对第二语言文本进行分词，得到第四词边界集合；将第二词边界集合和第四词边界集合确定为第一语言文本的分词结果。通过调整可信度阈值的大小，能够灵活调整第一语言文本所需的分词精度，从而能够适应对分词精度有不同要求的多种应用场景。

Description

语言文本的分词方法和系统

本申请要求于2016年04月12日提交中国专利局、申请号为201610225943.3、发明名称为“语言文本的分词方法和系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自然语言处理领域，并且更为具体地，涉及一种语言文本的分词方法和系统。

背景技术

分词是自然语言处理的基本问题之一。所有无词边界标记的语言(如：汉语、日语、阿拉伯语等)都面临分词问题。分词系统在信息检索、机器翻译、问答系统等领域都有着广泛的应用。

不同的应用对于分词系统的输出有着不同的要求。例如，信息检索系统对分词的速度和一致性要求较高。但信息检索系统对分词的正确性要求相对较低，如对未登录词(未被分词系统收录的词)识别率要求较低。而在机器翻译系统中，对分词的正确性要求较高，而对分词的一致性的要求则相对较低。例如，字串“姜文远”是一个未登录词，在信息检索应用中，如果分词系统没有将“姜文远”切成一个词，而是将其切分为“姜”和“文远”两个词，只要分词系统保证文档中的所有的“姜文远”的切分方式保持一致，信息检索系统就能够检索出相关文档。相比而言，在机器翻译系统中，如果字串“姜文远”被切分为“姜”和“文远”，那么“姜”字就有可能被错误的翻译成英文单词ginger，导致机器翻译系统的翻译结果不准确。

目前的分词系统都只能满足某一种特定应用的需要，难以在不用的应用场景下复用。考虑到行业内有一些公司和机构需要在几种不同的应用场景下使用分词系统，它们通常的解决方案是为不同的应用订制不同的分词系统。这种方式会导致资源的浪费和系统维护的困难。

发明内容

本申请提供一种语言文本的分词方法和系统，能够适应多种应用场景对分词系统的不同需求。

第一方面，提供一种语言文本的分词方法，包括：获取待处理的第一语言文本和可信度阈值，所述可信度阈值用于指示所述第一语言文本所需的分词精度；采用第一分词方式，对所述第一语言文本进行分词，得到第一词边界集合；根据所述可信度阈值，将所述第一词边界集合划分成可信的第二词边界集合和不可信的第三词边界集合；根据所述第三词边界集合，从所述第一语言文本中选取第二语言文本，所述第二语言文本包括所述第三词边界集合中的每个词边界对应的词；采用第二分词方式，对所述第二语言文本进行分词，得到第四词边界集合，其中，所述第二分词方式的分词精度高于所述第一分词方式的分词精度；将所述第二词边界集合和所述第四词边界集合确定为所述第一语言文本的分词结果。

通过调整可信度阈值的大小，能够灵活调整第一语言文本所需的分词精度，从而能够适应对分词精度有不同要求的多种应用场景。例如，针对分词精度要求较高的场景，用户可以输入较低的可信度阈值；针对分词精度要求较低的场景，用户可以输入较高的可信度阈值。

结合第一方面，在第一方面的第一种实现方式中，所述根据所述可信度阈值，将所述第一词边界集合划分成可信的第二词边界集合和不可信的第三词边界集合，包括：从所述第一词边界集合中的每个词边界的上下文中选取所述每个词边界对应的至少一个词；提取所述每个词边界对应的至少一个词的特征；根据所述每个词边界对应的至少一个词的特征，通过预先训练得到的分类器，确定所述每个词边界在所述上下文中的可信度；将所述第一词边界集合中的可信度大于所述可信度阈值的词边界添加至所述第二词边界集合；将所述第一词边界集合中的可信度小于或等于所述可信度阈值的词边界添加至所述第三词边界集合。

通过预先训练得到的分类器，能够实现第一词边界集合的快速分类。

结合第一方面的第一种实现方式，在第一方面的第二种实现方式中，所述根据所述每个词边界对应的至少一个词的特征，通过预先训练得到的分类器，确定所述每个词边界在所述上下文中的可信度，包括：根据

确定所述每个词边界在所述上下文中的可信度，其中，P(True|B_i,c)表示所述第一词边界集合中的第i个词边界B_i在所述上下文c中的可信度，S(t,B_i,c)表示所述第i个词边界B_i在所述上下文c中的得分，

f_j(t,B_i,c)表示所述至少一个词的特征中的第j个特征，β_j表示所述分类器的参数，t表示所述分类器对应的类，且t∈{True,False}。

线性分类器能够加快词边界的分类速度。

结合第一方面的第一至第二种实现方式中的任一种，在第一方面的第三种实现方式中，所述从所述第一词边界集合中的每个词边界的上下文中选取所述每个词边界对应的至少一个词，包括：从所述每个词边界的上下文中选取所述每个词边界对应的词、所述每个词边界对应的词的前一词，以及所述每个词边界对应的词的后一词。

结合第一方面的第一至第三种实现方式中的任一种，在第一方面的第四种实现方式中，所述分类器的参数是基于目标语言文本训练得到的参数，所述目标语言文本是采用第一分词方式对词边界已知的语言文本进行分词后得到的语言文本。

采用第一分词方式对词边界已知的语言文本进行分词，得到目标语言文本，基于目标语言文本训练分类器参数，这样与实际情况更加符合(实际中待分词的每个语言文本均会先采用第一分词方式进行分词)，训练出的分类器会更加准确。

结合第一方面的第一至第四种实现方式中的任一种，在第一方面的第五种实现方式中，所述从所述第一词边界集合中的每个词边界的上下文中选取至少一个词，包括：根据所述每个词边界在所述第一语言文本中的位置，确定所述词边界的上下文；从所述上下文中选取所述至少一个词。

第二方面，提供一种语言文本的分词系统，包括能够执行第一方面中的方法的模块。

第三方面，提供一种语言文本的分词系统，包括存储器，用于存储程序；处理器，用于执行所述程序，当所述程序被执行时，所述处理器执行第一方面中的方法。

第四方面，提供一种计算机可读介质，所述计算机可读介质存储用于分词系统执行的程序代码，所述程序代码包括用于执行第一方面中的方法的指令。

在某些实现方式中，所述至少一个词中的每个词对应的特征包括：所述每个词的词长、所述每个词对应的开销、所述每个词在词典中的类型、所述每个词的音韵、所述每个词是否包含词缀、所述每个词是否含有格标记，其中，所述每个词对应的开销所述每个词在词路径中所占的开销，所述词路径为采用所述第一分词方式进行分词后的分词结果形成的词路径。

在某些实现方式中，所述分类器可以是线性分类器。在一个例子中，线性分类器的参数为所述至少一个词的特征中的每个特征的权值。线性分类器可以降低计算复杂度。

在某些实现方式中，可信度阈值可用于指示第一语言文本所需的分词速度。

在某些实现方式中，第一分词方式的分词速度可以高于第二分词方式的分词速度。

在某些实现方式中，词边界对应的词可以指该词边界划分出的词。例如，可以指分词结果中的位于该词边界前面的一个词。

在某些实现方式中，所述分类器的参数是基于目标语言文本训练得到的参数，所述目标语言文本是采用第一分词方式对词边界已知的语言文本进行分词后得到的词边界集合与人工标注的词边界集合比较而得到的语言文本。

在某些实现方式中，所述分类器的参数的训练数据包括用于训练的语言文本，所述语言文本的已知的词边界集合，采用第一分词方式对所述语言文本进行分词后得到的词边界集合。

在某些实现方式中，所述每个词边界的上下文可以指所述每个词在第一语言文本中的上下文，例如，可以包括第一语言文本中的位于第一词边界左边的词和/或右边的词。

附图说明

图1是本申请实施例的分词系统的结构示例图。

图2是本申请实施例的分词流程的示意图。

图3是本申请实施例的对语言文本进行简单分词的示意性流程图。

图4是词图的示例图。

图5是本申请实施例的对语言文本进行复杂分词的示意性流程图。

图6是本申请实施例的分类器的训练过程的示意性流程图。

图7是本申请实施例的目标语言文本的示例图。

图8是本申请实施例的复杂分词模块的示意性结构图。

图9是本申请实施例的基于标记的分词方式的示例图。

图10是本申请实施例的可信度阈值对分词结果的曲线图。

图11是本申请实施例的语言文本的分词系统的示意性结构图。

图12是本申请实施例的语言文本的分词系统的示意性结构图。

具体实施方式

为了便于理解，后文将第一分词方式称为简单分词方式，简单分词方式对应的模块称为简单分词模块。简单分词方式可以使用分词速度快、分词一致性高的分词算法，包括但不限于最短路径分词算法；后文将第二分词方式称为复杂分词方式，复杂分词方式对应的模块称为复杂分词模块。复杂分词方式可以使用准确性高、算法复杂度高的分词算法，包括但不限于基于字标注方法的分词算法。

图1是本申请实施例的分词系统的结构示例图。参见图1，从整体来看，分词系统的输入不但包括输入的第一语言文本，而且包括可信度阈值101，而分词系统的输出是基于可信度阈值101对第一语言文本进行切分的分词结果。下面对各个模块的功能进行详细描述。

可信度阈值101：一个用户输入的参数，作为可信度判断模块判断当前简单分词模块的切分是否可信的阈值。可信度阈值例如可以是一个取值范围在0和1之间的实数，对于不同应用场景，分词系统的可信度阈值的取值可以有所不同，如：信息检索系统对分词速度和分词一致性要求较高，所以可信度阈值可以设置得较低(如小于0.5)，而机器翻译系统对分词的正确性要求比较高，可信度阈值可以设置的比较高(如大于0.7)。

在一些实施例中，可信度判断模块202可以判断简单分词模块201输出的分词结果是否可信。可信度判断模块202可以是预先训练得到的分类器，该分类器可以是线性分类器，也可以是非线性分类器。

在一些实施例中，合并输出模块301可以是将简单分词模块201和复杂分词模块203的分词结果进行合并输出的模块。

从图1可以看出，核心分词模块包括3个模块：简单分词模块201、可信度判断模块202以及复杂分词模块203。下文以图2为例，介绍基于上述3个模块的分词流程。

具体而言，用户输入的第一语言文本首先会经过简单分词模块的切分，得到第一词边界集合。然后，简单分词模块201的分词结果可以与用户输入的可信度阈值101一起传给可信度判断模块202。可信度判断模块202可以判断第一词边界集合中的每个词边界的可信度，将第一词边界集合划分为可信词边界集合和不可信词边界集合。对于可信词边界集合，可以直接传给合并输出模块301，作为最终的分词输出；对于不可信词边界集合，可以传给复杂分词模块203，进行进一步的切分，然后再输出到合并输出模块301，与可信词边界集合合并，作为第一语言文本的最终结果输出。

在一些实施例中，简单分词模块201的一种可行的技术方案是：采用基于词典的分词方式，并利用语言模型和最少分词原则进行歧义消解。

在一些实施例中，简单分词模块201可以采用图3所示的流程对第一语言文本进行分词：

S310、建立词图。

具体地，可以利用词典对第一语言文本进行分词，并建立分词结果对应的词图。以第一语言文本为“市场中国有企业”为例，可以建立图4所示的词图。从图4可以看出，在“中国有”这段文本上存在这两条交叉的边，这种情况称为分词歧义，将在下面的步骤中进行歧义消除。

S320、第一次歧义消除。

在一些实施例中，可以采用最短路经搜索法在词图中找到最短的路径，即从最左边的节点到左右边的节点边最少的路径。若存在唯一的最短路径，则将这条路径所表示的分词结果作为简单分词模块201的分词结果。

S330、第二次歧义消除。

在一些实施例中，如果通过S320的最短路径搜索发现：该词图中有多条最短路径，则可以通过计算各条路径的开销来寻找开销最小的路径，并将开销最小的路径作为简单分词模块201。

在一些实施例中，可以利用一元语言模型计算路径开销。一元语言模型可以通过如下公式表示：

C(w)＝-log(P(w)) (2)

其中，句子S的开销C(S)可以等于该句子中所有词w的开销的和，对于一个词w而言，其开销C(w)则是利用其在一元语言模型中的概率P(w)计算得到。

在一些实施例中，词典和一元语言模型都可以从一份分词训练语料中得到。应理解，简单分词模块201的实现方式包括但不仅限于上述技术方案，凡是计算复杂度低、速度快、切分一致性比较高的分词方式均可以作为简单分词模块201的实现方式。

在一些实施例中，可信度判断模块202的一种可行的技术方案为：线性分类器。对第一词边界集合中的词边界，线性分类器利用从其上下文中提取的特征对其进行分类，计算第一词边界集合中的词边界的可信度，并将第一次边界集合中的词边界的可信度与可信度阈值101进行比较，以确定这些词边界是否可信。

在一些实施例中，可信度判断模块202可以采用图5所示的算法将第一词边界集合中的词边界划分成可信词边界集合和不可信词边界集合。

S510、提取第一词边界集合中的词边界对应的特征。

假设第一词边界集合中的第i词边界为B_i，B_i对应词W_i，可信度判断模块202可以从B_i的上下文中提取以下特征：

当前词W_i的词长、前一词W_i-1的词长、后一词W_i+1的词长；

W_i的开销、W_i-1的开销、W_i+1的开销；

W_i、W_i-1、W_i+1在词典中的类型(人名，地名，机构名,等)；

W_i、W_i-1、W_i+1的其他特征(比如音韵，是否包含词缀，是否包含格标记)；

上述特征的各种组合。

S520、可信度计算。

在一些实施例中，可以利用线性分类器计算词边界B_i的可信度：

其中，j可表示线性分类器所使用的特征的下标，f_j(t,B_i,c)可表示词边界B_i对应的特征中的第j个特征，β_j可表示分类器的参数，S(t,B_i,c)可表示线性分类器对于词边界B_i的得分，t可表示所述分类器对应的类。按照公式(3)对这个计分进行归一化，即可得到分词边界B_i的可信度P(True|B_i,c)(在本申请实施例中，可信度通过可信概率P表示)。

S530、可信度判别。

假设可信度阈值101为h，若P(True|B_i,c)>h，则B_i可信，传递给合并输出模块301；若P(True|B_i,c)≤h，则B_i不可信，传送给复杂分词模块203。

在一些实施例中，在使用线性分类器之前，需要对分类器的参数β_j进行训练(即对每个特征对应的权值进行训练)。例如，可以基于训练数据集，通过机器学习的方式训练得到分类器参数β_j。

在一些实施例中，用于训练分类器参数的目标语言文本可以是对词边界已知的语言文本(下称分词训练语料)进行简单分词后得到的。目标语言文本的制作过程参见图6。

S610、利用简单分词模块201切分分词训练语料。

在一些实施例中，首先可以将分词训练语料中的词边界标记去掉，得到无标记的语言文本；然后可以用简单分词模块201对该文本进行切分，得到简单分词模块201的分词结果。

S620、将上述分词结果中的词边界与分词训练语料的正确的词边界进行一一比较。

通过S620，可以得到一份简单分词模块201输出的词边界集合，其中每个词边界都带有是否正确的标注，这样就得到了训练分类器所需的目标语言文本。图7目标语言文本制作的示例。

进一步地，得到上述训练数据后，可以采用标准的训练方法来进行分类器的训练，得到分类器参数。

在一些实施例中，复杂分词模块203可以由两部分组成，参见图8。

在一些实施例中，不可信词边界收集器可以负责收集连续的不可信词边界，以“斯诺/登/”为例，可以将这些不可信词边界所切分的语言文本片段合并为“斯诺登”，作为复杂分词器的输入。

在一些实施例中，复杂分词器可以采用基于字标注的分词方式。该分词方式的大致原理是将语言文本的分词问题转换成给语言文本中的每个字分配一个标记的问题。参见图9，图9中的BEO可以分别表示字在词中的位置，O可以表示单字成词，B可以表示一个多字词的词头，即词的第一个字，E可以表示多字词除词头外的其他位置。

在一些实施例中，复杂分词器可以采用如下训练方式：

首先，可以将有分词标记的训练语料转换成汉字和词位置标记，如图9所示。

其次，可以利用机器学习模型(最大熵模型，条件随机场模型，结构化感知机等)学习各个字在一定的上下文中分配何种标记。

在一些实施例中，复杂分词器可以采用如下分词方式：

首先，可以利用训练方式训练的复杂分词器的参数，给输入的句子的每个字分配一个标记。

然后，根据字的标记确定如何分词。

应理解，本申请实施例对实现复杂分词模块203的方式不作具体限定，只要是具有高准确性、高未登录词识别能力的分词方式或算法都可以作为复杂分词模块203的实现方案。

在一些实施例中，可信度阈值101可以是一个连续的变量，例如，可以由分词系统的用户提供，与第一语言文本一起传递给分词系统。该变量可以代表应用场景对于分词结果的要求，比如：信息检索场景下要求分词结果速度快、一致性高，机器翻译或自动问答场景要求分词结果准确性高。在一个例子中，可以将可信度阈值设置成取值范围在0和1之间的实数。

图10示出了可信度阈值对分词结果的影响。从图10可以看出可信度阈值越高，未登录词识别能力越高，歧义消解能力越强，分词结果的正确性就越高，同时分词的速度和一致性就下降。可信度阈值越低，分词的速度越快，一致性越强，未登录词识别能力以及歧义消解能力则减弱，分词的正确性也会下降。

下面结合具体例子，更加详细地描述本申请实施例。应注意，后文的例子仅仅是为了帮助本领域技术人员理解本申请实施例，而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的例子，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本申请实施例的范围内。

假设待处理的第一语言文本为：范登高便和王小聚约定年底之前一定要小聚一次。针对一致性要求较高的应用场景，可以将可信度阈值h设定为0.2。

首先，经过简单分词模块201之后，得到如下分词结果(“\”表示词边界)：范\登高\便\和\王\小聚\约定\年底\之前\一定\要\小聚\一\次\。\

然后，可信度判断模块202可以对这一分词结果中的每个词边界“\”的可信度进行判断。

例如，如果用B_i表示上述分词结果中的第i个词边界，可信度判断模块202可以计算该词边界在一定的上下文c中可信(True)的概率P(True|B_i,c)。当P(True|B_i,c)>h时，则可以将B_i作为可信词边界传送给合并输出模块301。当P(True|B_i,c)≤h时，可以将B_i作为不可信词边界传送给复杂分词模块203处理。如果经过可信度判断模块202的判断，上述分词结果中的词边界都是可信的词边界，则可以将分词结果均输出到合并输出模块203。

然后，合并输出模块301将分词结果整理输出。

合并输出模块301输出的分词结果可以是：范\登高\便\和\王\小聚\约定\年底\之前\一定\要\小聚\一\次\。\

在本实施例中，由于对分词结果有较高一致性要求，所以设置了较低的可信度阈值(h＝0.2)。最终的分词结果反映是：1)没有识别出“范登高”和“王小聚”两个未登录词；2)“王小聚”和“小聚一次”两个片段中的“小聚”切分一致。

下面以第一语言文本为：范登高便和王小聚约定年底之前一定要小聚一次，可信度阈值为h＝0.9进行举例说明。

经过可信度判断模块202后，得到如下分词结果(“/”表示不可信的词边界)：范/登高/便\和\王/小聚/约定\年底\之前\一定\要\小聚\一\次\。\

其次，不可信边界收集器从上述结果中收集连续的不可信边界，形成不可信区间(在下面例句中下划线标出的部分):

范/登高/便\和\王/小聚/约定\年底\之前\一定\要\小聚\一\次\。\

然后，复杂分词模块203对每一个不可信区间进行分词。

经过复杂分词模块203，以上两个不可信区域均会被识别成人名。

然后，合并输出模块301将分词结果整理输出。

合并输出模块301输出的分词结果可以是：

范登高\便\和\王小聚\约定\年底\之前\一定\要\小聚\一\次\。\

在本实施例中，需要分词结果据有较高的正确性，所以设置可信度阈值较高(h＝0.9)，分词结果中的反映是“范登高”和“王小聚”两个未登录词都识别了出来，但“王小聚”和“小聚一次”两个片段中的“小聚”切分不一致。

应理解，本申请实施例中的复杂分词模块可以是一个，也可以是多个。在复杂分词模块为多个时，前一复杂分词模块的输出可以作为后一复杂分词模块的输入，同时，在每一复杂分词模块进行复杂分词之前，可以接收新的可信度阈值。

上文结合图1至图10，详细描述了根据本申请实施例的语言文本的分词方法。下文结合图11和图12，详细描述根据本申请实施例的语言文本的分词系统。应理解，图11或图12的分词系统能够执行上文描述的方法的各个步骤，为避免重复，此处不再详述。

图11是本申请实施例的语言文本的分词系统的示意性结构图。图11的分词系统1100包括：

输入模块1110，用于获取待处理的第一语言文本和可信度阈值，所述可信度阈值用于指示所述第一语言文本所需的分词精度、分词速度或分词一致性；

第一分词模块1120，用于采用第一分词方式，对所述第一语言文本进行分词，得到第一词边界集合；

可信度判断模块1130，用于根据所述可信度阈值，将所述第一词边界集合划分成可信的第二词边界集合和不可信的第三词边界集合；

选取模块1140，用于根据所述第三词边界集合，从所述第一语言文本中选取第二语言文本，所述第二语言文本包括所述第三词边界集合中的每个词边界对应的词；

第二分词模块1150，用于采用第二分词方式，对所述第二语言文本进行分词，得到第四词边界集合，其中，所述第二分词方式的分词精度高于所述第一分词方式的分词精度；

输出模块1160，用于将所述第二词边界集合和所述第四词边界集合确定为所述第一语言文本的分词结果。

可选地，作为一个实施例，所述可信度判断模块1130具体用于从所述第一词边界集合中的每个词边界的上下文中选取所述每个词边界对应的至少一个词；提取所述每个词边界对应的至少一个词的特征；根据所述每个词边界对应的至少一个词的特征，通过预先训练得到的分类器，确定所述每个词边界在所述上下文中的可信度；将所述第一词边界集合中的可信度大于所述可信度阈值的词边界添加至所述第二词边界集合；将所述第一词边界集合中的可信度小于或等于所述可信度阈值的词边界添加至所述第三词边界集合。

可选地，作为一个实施例，所述可信度判断模块1130具体用于根据

确定所述每个词边界在所述上下文中的可信度，其中， P(True|B_i,c)表示所述第一词边界集合中的第i个词边界B_i在所述上下文c中的可信度，S(t,B_i,c)表示所述第i个词边界B_i在所述上下文c中的得分，

可选地，作为一个实施例，所述可信度判断模块1130具体用于从所述每个词边界的上下文中选取所述每个词边界对应的词、所述每个词边界对应的词的前一词，以及所述每个词边界对应的词的后一词。

可选地，作为一个实施例，所述分类器的参数是基于目标语言文本训练得到的参数，所述目标语言文本是采用第一分词方式对词边界已知的语言文本进行分词后得到的语言文本。

图12是本申请实施例的语言文本的分词系统的示意性结构图。图12的分词系统1200包括：

存储器1210，用于存储程序；

处理器1220，用于执行存储器1210中的程序，当所述程序被执行时，所述处理器1220获取待处理的第一语言文本和可信度阈值，所述可信度阈值用于指示所述第一语言文本所需的分词精度、分词速度或分词一致性；采用第一分词方式，对所述第一语言文本进行分词，得到第一词边界集合；根据所述可信度阈值，将所述第一词边界集合划分成可信的第二词边界集合和不可信的第三词边界集合；根据所述第三词边界集合，从所述第一语言文本中选取第二语言文本，所述第二语言文本包括所述第三词边界集合中的每个词边界对应的词；采用第二分词方式，对所述第二语言文本进行分词，得到第四词边界集合，其中，所述第二分词方式的分词精度高于所述第一分词方式的分词精度；将所述第二词边界集合和所述第四词边界集合确定为所述第一语言文本的分词结果。

可选地，作为一个实施例，所述处理器1220具体用于从所述第一词边界集合中的每个词边界的上下文中选取所述每个词边界对应的至少一个词；提取所述每个词边界对应的至少一个词的特征；根据所述每个词边界对应的至少一个词的特征，通过预先训练得到的分类器，确定所述每个词边界在所述上下文中的可信度；将所述第一词边界集合中的可信度大于所述可信度阈值的词边界添加至所述第二词边界集合；将所述第一词边界集合中的可信度小于或等于所述可信度阈值的词边界添加至所述第三词边界集合。

可选地，作为一个实施例，所述处理器1220具体用于根据

表示所述至少一个词的特征中的第j个特征，β_j表示所述分类器的参数，t表示所述分类器对应的类，且t∈{True,False}。

可选地，作为一个实施例，所述处理器1220具体用于从所述每个词边界的上下文中选取所述每个词边界对应的词、所述每个词边界对应的词的前一词，以及所述每个词边界对应的词的后一词。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

一种语言文本的分词方法，其特征在于，包括：

获取待处理的第一语言文本和可信度阈值，所述可信度阈值用于指示所述第一语言文本所需的分词精度、分词速度或分词一致性；

采用第一分词方式，对所述第一语言文本进行分词，得到第一词边界集合；

根据所述可信度阈值，将所述第一词边界集合划分成可信的第二词边界集合和不可信的第三词边界集合；

根据所述第三词边界集合，从所述第一语言文本中选取第二语言文本，所述第二语言文本包括所述第三词边界集合中的每个词边界对应的词；

采用第二分词方式，对所述第二语言文本进行分词，得到第四词边界集合，其中，所述第二分词方式的分词精度高于所述第一分词方式的分词精度；

将所述第二词边界集合和所述第四词边界集合确定为所述第一语言文本的分词结果。
如权利要求1所述的方法，其特征在于，所述根据所述可信度阈值，将所述第一词边界集合划分成可信的第二词边界集合和不可信的第三词边界集合，包括：

从所述第一词边界集合中的每个词边界的上下文中选取所述每个词边界对应的至少一个词；

提取所述每个词边界对应的至少一个词的特征；

根据所述每个词边界对应的至少一个词的特征，通过预先训练得到的分类器，确定所述每个词边界在所述上下文中的可信度；

将所述第一词边界集合中的可信度大于所述可信度阈值的词边界添加至所述第二词边界集合；

将所述第一词边界集合中的可信度小于或等于所述可信度阈值的词边界添加至所述第三词边界集合。
如权利要求2所述的方法，其特征在于，所述根据所述每个词边界对应的至少一个词的特征，通过预先训练得到的分类器，确定所述每个词边界在所述上下文中的可信度，包括：

根据
确定所述每个词边界在所述上下文中的可信度，其中，P(True|B_i,c)表示所述第一词边界集合中的第i个词边界B_i在所述上下文c中的可信度，S(t,B_i,c)表示所述第i个词边界B_i在所述上下文c中的得分，
f_j(t,B_i,c)表示所述至少一个词的特征中的第j个特征，β_j表示所述分类器的参数，t表示所述分类器对应的类，且t∈{True,False}。
如权利要求2或3所述的方法，其特征在于，所述从所述第一词边界集合中的每个词边界的上下文中选取所述每个词边界对应的至少一个词，包括：

从所述每个词边界的上下文中选取所述每个词边界对应的词、所述每个词边界对应的词的前一词，以及所述每个词边界对应的词的后一词。
如权利要求2-4中任一项所述的方法，其特征在于，所述分类器的参数是基于目标语言文本训练得到的参数，所述目标语言文本是采用第一分词方式对词边界已知的语言文本进行分词后得到的语言文本。
一种语言文本的分词系统，其特征在于，包括：

输入模块，用于获取待处理的第一语言文本和可信度阈值，所述可信度阈值用于指示所述第一语言文本所需的分词精度、分词速度或分词一致性；

第一分词模块，用于采用第一分词方式，对所述第一语言文本进行分词，得到第一词边界集合；

可信度判断模块，用于根据所述可信度阈值，将所述第一词边界集合划分成可信的第二词边界集合和不可信的第三词边界集合；

选取模块，用于根据所述第三词边界集合，从所述第一语言文本中选取第二语言文本，所述第二语言文本包括所述第三词边界集合中的每个词边界对应的词；

第二分词模块，用于采用第二分词方式，对所述第二语言文本进行分词，得到第四词边界集合，其中，所述第二分词的分词精度高于所述第一分词的分词精度；

输出模块，用于将所述第二词边界集合和所述第四词边界集合确定为所述第一语言文本的分词结果。
如权利要求6所述的分词系统，其特征在于，所述可信度判断模块具体用于从所述第一词边界集合中的每个词边界的上下文中选取所述每个词边界对应的至少一个词；提取所述每个词边界对应的至少一个词的特征；根据所述每个词边界对应的至少一个词的特征，通过预先训练得到的分类器，确定所述每个词边界在所述上下文中的可信度；将所述第一词边界集合中的可信度大于所述可信度阈值的词边界添加至所述第二词边界集合；将所述第一词边界集合中的可信度小于或等于所述可信度阈值的词边界添加至所述第三词边界集合。
如权利要求7所述的分词系统，其特征在于，所述可信度判断模块具体用于根据
确定所述每个词边界在所述上下文中的可信度，其中，P(True|B_i,c)表示所述第一词边界集合中的第i个词边界B_i在所述上下文c中的可信度，S(t,B_i,c)表示所述第i个词边界B_i在所述上下文c中的得分，
f_j(t,B_i,c)表示所述至少一个词的特征中的第j个特征，β_j表示所述分类器的参数，t表示所述分类器对应的类，且t∈{True,False}。
如权利要求7或8所述的分词系统，其特征在于，所述可信度判断模块具体用于从所述每个词边界的上下文中选取所述每个词边界对应的词、所述每个词边界对应的词的前一词，以及所述每个词边界对应的词的后一词。
如权利要求7-9中任一项所述的分词系统，其特征在于，所述分类器的参数是基于目标语言文本训练得到的参数，所述目标语言文本是采用第一分词方式对词边界已知的语言文本进行分词后得到的语言文本。