WO2018184510A1

WO2018184510A1 - 分词方法、装置及存储介质

Info

Publication number: WO2018184510A1
Application number: PCT/CN2018/081536
Authority: WO
Inventors: 樊林
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-04-07
Filing date: 2018-04-02
Publication date: 2018-10-11
Also published as: CN108304367B; CN108304367A

Abstract

本申请实施例公开了一种分词方法，包括：检测文本输入组件中的文本输入操作，所述文本输入操作包括顺序的一次或一次以上的字符串输入操作；将所述一次或一次以上的字符串输入操作所输入的一个或一个以上的目标字符串进行顺序拼接，并将拼接成的输入文本展示在所述文本输入组件中，其中每个目标字符串为一次字符串输入操作所输入的字符串；获取每个目标字符串的延迟输入时长，所述延迟输入时长为所述目标字符串对应的字符串输入操作与其相邻的目标字符串对应的字符串输入操作的间隔时长；将每个目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词。

Description

分词方法、装置及存储介质

本申请要求于2017年4月7日提交中国专利局、申请号为201710224889.5，发明名称为“分词方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种分词方法及装置。

背景技术

人工智能(Artificial Intelligence，英文缩写为AI)，是对人的意识、思维的信息过程的模拟，而理解用户输入的自然语言是人工智能的一个很重要的课题，尤其是针对中文输入的自然语言的理解。不同于英文空格可以自动标识词的便捷，中文文本是以字为基本的书写单位，词与词之间没有空格，而词可以由单个字或者多个字构成，即一个词包含的字数是不定的。因此，理解中文输入的文本的第一步就是分词，即进行词的正确切分。

目前常用的分词方法主要包括以下三种：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法是按照一定的策略将待分析的汉字串与机器词典中的词条进行匹配，若在词典中找到某个词，则匹配成功(识别出一个词)。基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果，但也因此需要使用大量的语言知识和信息。基于统计的分词方法对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息并计算两个汉字的相邻共现概率，来判断两个词是不是需要切分。

技术内容

本申请实施例提出了一种分词方法，以提高对用户输入的文本进行分词的准确度。

一种分词方法，包括：

检测文本输入组件中的文本输入操作，所述文本输入操作包括顺序的一次或一次以上的字符串输入操作；

将所述一次或一次以上的字符串输入操作所输入的一个或一个以上的目标字符串进行顺序拼接，并将拼接成的输入文本展示在所述文本输入组件中，其中每个目标字符串为一次字符串输入操作所输入的字符串；

获取每个目标字符串的延迟输入时长，所述延迟输入时长为所述目标字符串对应的字符串输入操作与其相邻的目标字符串对应的字符串输入操作的间隔时长；

将每个目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词。

此外，本申请实施例还提出了一种分词装置。

一种分词装置，包括：

处理器；

与所述处理器相连接的存储器；所述存储器中存储有机器可读指令模块；所述机器可读指令模块包括：

文本输入操作检测模块，用于检测文本输入组件中的文本输入操作，所述文本输入操作包括顺序的一次或一次以上的字符串输入操作；

输入文本展示模块，用于将所述一次或一次以上的字符串输入操作所输入的一个或一个以上的目标字符串进行顺序拼接，并将拼接成的输入文本展示在所述文本输入组件中，其中每个目标字符串为一次字符串输入操作所输入的字符串；

延迟输入时长计算模块，用于获取每个目标字符串的延迟输入时长，所述延迟输入时长为所述目标字符串对应的字符串输入操作与其相邻的目标字符串对应的字符串输入操作的间隔时长；

分词模块，用于将每个目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词。

本申请实施例还提供了一种非易失性计算机可读存储介质，其中所述存储介质中存储有机器可读指令，所述机器可读指令可以由处理器执行以完成上述方法。

附图简要说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中一种分词方法的流程示意图；

图2为一个实施例中通过文本输入组件进行输入的示意图；

图3为一个实施例中通过文本输入组件进行输入的示意图；

图4为一个实施例中通过文本输入组件进行输入的示意图；

图5为一个实施例中一种分词装置的结构示意图；

图6为一个实施例中运行前述分词方法的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

一些分词方法是按照某一个固定的模式来进行分词，而有些文本会存在多种分词方式，每一种分词方式可能会有不同的含义，这就导致了分词的结果不够准确；并且，用户在输入文本时，会附带用户的习惯，例如，打字的习惯，或者打错别字等，传统的分词方法均没有考虑到用户的输入文本时的真实情况，忽略了用户真实的需求，也导致了分词的准确度不足。

为提高对用户输入的中文文本进行分词的分词准确度，在本实施例中，特提出了一种分词方法，该方法的实现可依赖于计算机程序，该计算机程序可运行于基于冯诺依曼体系的计算机系统之上，该计算机程序可以是终端或者服务器上的分词应用，或者是集成在提供了文本输入组件来接收用户输入的字符串或者文本的应用中的文本分词应用程序。该计算机系统可以是运行上述计算机程序的例如智能手机、平板电脑、个人电脑等服务器或终端。

具体的，如图1所示，上述分词方法包括如下步骤S102-S108：

步骤S102：检测文本输入组件中的文本输入操作，所述文本输入操作包括顺序的一次或一次以上的字符串输入操作。

文本输入组件指的是可供用户输入文本的组件，例如，文本输入框、文档输入界面、搜索输入框等可供用户输入单行或多行文字的组件。例如，在如图2所示即时通讯软件的聊天界面中，用户可以通过展示的文本输入框201进行输入，并且在完成输入之后点击“发送”按钮将输入的文本进行发送。需要说明的是，在本实施例中，文本输入组件不限于图 2所示的即时通讯软件的聊天界面中的文本输入框201，还可以是其他文字输入框，例如，搜索输入框，或者Word等文字编辑软件的文字编辑窗口等，均为文本输入组件。

在本实施例中，不对文本输入组件的展示场景进行限制，即可以是搜索界面的搜索输入框，也可以是对话窗口的文字输入框，还可以是文档编辑页面的文字编辑窗口，只要是用户可以通过展示的文本输入组件输入文字。

在用户通过文本输入组件输入文字时，可以通过文本输入组件检测用户的输入操作，并获取用户输入的具体内容，用户通过文本输入组件输入具体的内容的操作即为文本输入操作。

需要说明的是，在本实施例中，用户单次的文本输入操作即为字符串输入操作，用户的文本输入操作包含了至少一个字符串输入操作，即，用户输入文本输入操作时输入的可以是单个的字符，也可以是多个字符(例如，通过输入法一次性输入包含了多个字符的词，如在图2所示的应用场景中，用户通过拼音输入法输入“zhuanli”来一次性输入字符串“专利”)。

在一些文本输入方式中，大多用户在进行输入时，通过安装的输入法(例如拼音输入法)来进行输入，例如，通过在终端上安装的搜狗输入法包含的拼音输入法进行输入。例如，在图2-4所示的应用场景中，用户通过安装的拼音输入法进行输入。在图2-4所示的应用场景中，在用户输入与目标字符串对应的拼音之后，展示与输入的拼音对应的候选词展示框202a～202d，用户可在展示的候选词展示框202a～202d中选择需要输入的字符或字符串。

进一步的，因为输入法在展示候选词时，会自动根据用户的输入来展示与之匹配的词语，从而减少用户在展示的候选词中选择需要输入的目标字符时需要输入的操作次数。因此，多数用户在输入文本时，会将需要输入的词语通过一次字符串输入操作来输入。

在一个具体的实施例中，如图3所示，在用户输入“zhuan”时，展示如图3所示的候选词展示框202b，通过与编号3对应的选择操作来输入“专”；在用户输入“li”时，展示如图4所示的候选词展示框202c，用户需要通过输入一次翻页操作以及一次与编号“2”对应的选择操作来输入“利”，来完成字符串“专利”的输入。

而在如图2所示的应用场景中，用户可以通过输入“zhuanli”来一次性输入字符串“专利”，并且只需要输入与编号“1”对应的选择操作即可在展示的候选词展示框202a中选择输入“专利”来完成输入。

因此，在本实施例中，用户通过一次字符串输入操作所输入的目标字符串可以是单词的字符，也可以是由多个字符组成的字符串。也就是说，一次字符串输入操作对应的是用户一次性在文本输入组件中输入的字符串，在该字符串包含多个字符时，在该字符串中包含的多个字符是通过输入到文本输入组件中去的，即该字符串中包含的多个字符对应的输入时间是相同的。

一般情况下，用户在通过文本输入组件输入文本时，是依次输入的文本包含的多个字符串，并且，输入的文本中在前的字符串的输入时间会限于在后的字符串输入的时间。即，文本输入操作包括了顺序的至少一次字符串输入操作。

步骤S104：将所述字符串输入操作输入的一个或一个以上的目标字符串进行顺序拼接，并将拼接成的输入文本展示在所述文本输入组件中。本实施例中，所述字符串输入操作的次数包括一次或一次以上，所述目标字符串的个数为一个或一个以上，目标字符串按照输入顺序进行拼接。

在本实施例中，每一个字符串输入操作均对应一个输入的字符串，即与该字符串输入操作对应的目标字符串。相应的，字符串输入操作的输入时间即为与该字符串输入操作对应的目标字符串的输入时间，因此，可以确定用户的文本输入操作所对应的所有的目标字符串的输入时间，并且，任意两个目标字符串是输入时间不同。

根据检测到的字符串输入操作，获取检测到的字符串输入操作所对应的目标字符串，以及，输入每一个目标字符串的输入时间(即字符串输入操作的输入时间)；然后根据每一个目标字符串的输入时间，确定目标字符串的输入顺序，然后将目标字符串顺序拼接成输入文本并展示在文本输入组件中。

需要说明的是，在本实施例中，在文本输入组件中展示的输入文本为当前已经完成输入的字符串输入操作所对应的目标字符串所拼接成的，用户还可以继续通过文本输入组件输入字符串输入操作来输入目标字符串。

步骤S106：获取每个目标字符串的延迟输入时长，所述延迟输入时长为所述目标字符串对应的字符串输入操作与其相邻的目标字符串对应的字符串输入操作的间隔时长。

目标字符串的延迟输入时长指的是输入该目标字符串的输入时间与输入相邻的目标字符串的输入时间之间的时间差或间隔时间，即该目标字符串对应的字符串输入操作与相邻的目标字符串对应的字符串输入操作的间隔时长。

需要说明的是，在本实施例中，在确定目标字符串的延迟输入时长时，与该目标字符串相邻的目标字符串，可以是与该目标字符串前相邻的目标字符串(即输入时间在该目标字符串之前且与该目标字符串相邻的目标字符串)，也可以是与该目标字符串后相邻的目标字符串(即输入时间在该目标字符串之后且与该目标字符串相邻的目标字符串)，在本实施例中不做限定，但是，所有的目标字符串的延迟输入时长的计算中，是采用前相邻或者后相邻的目标字符串的输入时间，必须在前相邻的目标字符串与后相邻的目标字符串中选择一个，并且在针对所有的目标字符串计算与之对应的延迟输入时间时，选择必须是一致的。

在一个具体的实施例中，采用的是通过计算当前目标字符串与后相邻的目标字符串的输入时间的时间间隔作为与该目标字符串对应的延迟输入时长的情况下，上述获取目标字符串的延迟输入时长的过程具体为：获取目标字符串对应的字符串输入操作的第一时间戳，以及相应的后相邻的目标字符串对应的字符串输入操作的第二时间戳；根据第一时间戳和第二时间戳确定目标字符串的延迟输入时长。

输入目标字符串的字符串输入操作对应的输入时间，即为与该字符串输入操作对应的时间戳，即第一时间戳；与该目标字符串后相邻的目标字符串对一个的字符串输入操作的输入时间，即为与后相邻的目标字符串的字符串输入操作对应的时间戳，即第二时间戳。第一时间戳与第二时间戳之间的时间间隔即为该目标字符串与后相邻的目标字符串的输入时间之间的间隔时长，也就是说，第一时间戳与第二时间戳之间的间隔时长为与目标字符串对应的延迟输入时长。

在另一个具体的实施例中，采用的是通过计算当前目标字符串与前相邻的目标字符串的输入时间的时间间隔作为与该目标字符串对应的延迟输入时长的情况下，上述获取目标字符串的延迟输入时长的过程具体为：获取目标字符串对应的字符串输入操作的第三时间戳，以及相应的前相邻的目标字符串对应的字符串输入操作的第四时间戳；根据第三时间戳和第四时间戳确定目标字符串的延迟输入时长。

输入目标字符串的字符串输入操作对应的输入时间，即为与该字符串输入操作对应的时间戳，即第三时间戳；与该目标字符串前相邻的目标字符串对三个的字符串输入操作的输入时间，即为与前相邻的目标字符串的字符串输入操作对应的时间戳，即第四时间戳。第三时间戳与第四时间戳之间的时间间隔即为该目标字符串与前相邻的目标字符串的输入时间之间的间隔时长，也就是说，第三时间戳与第四时间戳之间的间隔时长为与目标字符串对应的延迟输入时长。

步骤S108：将每个目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词。

一般来讲，在用户手动打字输入文字时，部分包含了多个单字的词语会一次性输入，尤其使用拼音输入法的用户，因为输入法会根据用户输入的拼音自动去匹配词语，避免了用户单字输入时需要在展示的与输入的拼音匹配的选项中进行查找或者翻页等操作，从而提高打字的速度。

例如，在用户输入“我要吃火锅”时，“火锅”二字一般会通过拼音“huoguo”一次性输入，避免在单个字输入时需要在待选项中进行选择。在此种情况下，用户输入“火锅”的输入操作即为一次字符串输入操作，字符“火”、“锅”对应的时间戳是一致的。

需要说明的是，在输入上述“我要吃火锅”中的“火锅”时，如用户输入“火锅”时，并不是一次性完成了“火”、“锅”两个单字的输入，而是分别输入“火”、“锅”两个单字，而用户在输入例如“火”时，下一个输入的字符一定会是“锅”，用户在输入时不需要思考或者停顿，因此，“火”、“锅”两个单字的输入时间之间的间隔时间也会较小。例如，按照一般用户的输入习惯输入“我...要...吃......火..锅”，单字“火”与“锅”之间的输入时间的时间间隔会明显小于单字“吃”与“火”之间的输入时间的时间间隔。

进一步的，用户在手动打字输入文字时，会因为思考、停顿等原因，输入的字符或者字符串之间的间隔时间是不一样的，有的会比较短，而部分字符之间的间隔时间会比较长。

例如，在用户输入“我明天早上七点的飞机去重庆”时，输入的字符串分别为“我”“明天”“早上”“七点”“的”“飞机”“去”“重庆”，按照一般用户的输入习惯“我....明天...早上...七点...的...飞机...........去....重庆”，“明天”与“早上”之间的时间间隔会明显小于“飞机”与“去”之间的时间间隔。

也就是说，大多数用户在输入文本时，语义上连接或者不可切分的字符会一次性输入或者两个字符之间的时间间隔较短，而语义上不连接或者需要进行切分的字符的输入时间之间的时间间隔一般会大于语义上连接或者不可切分的字符的输入时间之间的时间间隔。即，若输入两个字符或者字符串的输入时间之间存在较大的时间间隔，则说明用户在输入时因为表达的习惯或连续性、或因为思考，而停顿了较长时间，在此种情况下，这两个字符或者字符串语义上是不连续的或者是要被切分的。

在本实施例中，在所有的目标字符串的延迟输入时长确定之后，即可根据目标字符串的延迟输入时长对输入文本进行切分，即将所述目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词。也就是说，根据目标字符串的延迟输入时长对输入文本进行分词时，需要考虑目标字符串的延迟输入时长，具体的，需要将目标字符串的延迟输入时长作为分词决策中何处划分单词的一个影响因子，一个目标字符串与相邻的目标字符串之间是否进行切分需要考虑该目标字符串的延迟输入时长的大小。

在一个具体的实施例中，以目标字符串的延迟输入时长是通过该目标字符串与后相邻的目标字符串是输入时间的间隔时间确定的情况为例进行说明。

上述将所述目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词的过程具体为：获取所述输入文本中，对应的延迟输入时长大于或等于第一阈值的目标字符串的结束位置；根据所述结束位置将所述输入文本切分成至少一个文本段；对所述文本段分别进行分词处理。

针对输入文本包含的所有的目标字符串，确定与每一个目标字符串对应的延迟输入时长；因为每一个目标字符串的延迟输入时长标识的是该字符串与后相邻的目标字符串对应的字符串的输入时间的时间间隔，目标字符串的延迟输入时长越大，该目标字符串与后相邻的目标字符串之间的停顿时间越长，二者存在语义连接或者不可被切分的可能性越低。因此，在目标字符串的延迟输入时长大于预设的时间阈值(第一阈值)时，在目标字符串与后相邻的目标字符串之间进行切分，即在目标字符串的结束位置进行切分。

需要说明的是，在本实施例中，输入文本包含了不止一个目标字符串，根据目标字符串的延迟输入时间对输入文本进行切分的过程中满足切分条件的目标字符串的延迟输入时间的数量也不止一个。因此，在延迟输入时长大于或等于预设的时间阈值的情况下，根据目标字符串的结束为止对输入文本进行切分之后，可以将输入文本切分成多个文本段，每个文本段包含了一个或者多个目标字符串。

需要说明的是，在本实施例中，在用户手动打字来进行输入的过程中，若用户手动打字的速度较快或者打字的过程中没有停顿，部分在分词的过程中应该被切分的两个字符或字符串的输入时间的时间间隔也可能较小，从而导致了在上述根据字符串的延迟输入时长对输入文本进行切分时没有进行切分。在此种情况下，可以对切分得到的文本段进行进一步的分词处理，例如，使用其他分词方法或者分词组件对文本段进行进一步的分词处理，以提高分词的准确度和有效性。

例如，针对用户输入的输入文本“我刚刚买了一张明天早上七点飞北京的机票”，确定每一个字符或字符串的延迟输入时间如下(其中，目标字符串的延迟输入时长是通过该目标字符串与后相邻的目标字符串是输入时间的间隔时间确定的)：

表1

字符或字符串	延迟输入时间(单位：秒)
我	1.5
刚刚	1.3
买	0.5
了	1.6
一张	2.0
明天	1.4
早上	1.5
七点	2.6
飞	1.8
北京	0.5
的	1.6
机票	—

在预设的第一阈值为1.8的情况下，对上述输入文本进行分词得到的结果为“我刚刚买了一张/明天早上七点/飞/北京的机票”，显然，这并不是最终的分词结果。对上述分词结果继续采用其他分词算法进行分词，可以得到最终的分词结果为“我/刚刚/买/了/一/张/明天/早上/七点/飞/北京/的/机票”。

需要说明的是，在本实施中，在对文本段分别进行分词处理的过程中可以采用已知的分词方法或用户自定义的分词方法的一种或多种的组合，对于具体采用的分词方法，在本实施例中不做限制。

例如，采用的分词方法可以是基于字符串匹配的分词方法，即机械分词方法。按照一定的策略将待分析的汉字串与机器词典中的词条进行匹配，若在词典中找到某个词，则匹配成功(识别出一个词)。按照扫描方向的不同，字符串匹配方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的标准，又可以分为最大(最长)匹配和最小(最短)匹配。

在另一个实施例中，还可以采用基于理解的分词方法面积通过计算机模拟人对句子的理解，达到识别词的效果，即在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。

在另一个实施例中，还可以采用基于统计的分词方法。从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。也就是说，只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。

用户在通过文本输入组件输入文本时，也会根据需求输入标点符号、数字、英文缩写或英文字母、或者其他非汉字符号，例如，“我昨晚7点在QQ上给你发了消息，你看见了吗”中的“7”、“QQ”、“，”均为非汉字字符。

一般来讲，在对输入文本进行分词时，词语由若干个汉字字符组成，或者由多干个英文字符组成，而不是汉字字符与非汉字字符的组合。也就是说，汉字字符与非汉字字符之间为停顿、或者进行切分的位置。

因此，在输入文本中包含了标点符号、数字、英文缩写或英文字母、或者其他非汉字符号时，可以直接将汉字字符与上述非汉字字符之间进行切分。具体的，在上述将所述目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词的过程中，获取所述输入文本中包含的分隔符的分隔位置，按照所述分隔位置将所述输入文本切分成至少一个文本段；对所述文本段分别参考所述文本段中的目标字符串的延迟输入时长进行分词。

其中，分隔符即为标点符号、英文符号、英文字母、以及其他非汉字符号。在对输入文本进行分词的第一步，可以先根据输入文本中包含的分隔符所在的位置，对输入文本进行切分，将分隔符与输入文本中的其他字符切分开来，从而将输入文本切分成若干个文本段，然后再对文本段进行分词。

例如，在输入文本为“我昨晚7点在QQ上给你发了消息，你看见了吗”的情况下，根据分隔符对上述输入文本进行切分，得到“我昨晚/7/点在/QQ/上给你发了消息/，/你看见了吗”，包含了“我昨晚”、“点在”、“上给你发了消息”、“你看见了吗”4个文本段，然后再对上述4个文本段分别进行分词处理。采用本实施例，预先根据分隔符对输入文本进行分词，减少了在后续进行分词处理时的计算量，提高了分词处理的分词效率。

需要说明的是，用户在手动输入输入文本时，可以通过手写、软键盘手动的输入一个字符或者字符串，还可能是直接通过复制粘贴的方式一次性输入多个字符串，在此种情况下，复制粘贴的所有的字符或字符串对应的输入时间是相同的。针对输入文本中包含了通过复制粘贴的相邻的至少一个字符串的情况下，根据延迟输入时间直接将复制粘贴的所有字符划分成一个文本段，然后再对该文本段进行分词处理。

在另一个实施例中，上述将所述目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词的过程具体为：通过分词组件对所述输入文本进行分词得到至少一个目标单词；获取所述目标单词中，对应的延迟输入时长大于或等于第一阈值的目标字符串的结束位置；根据所述结束位置对所述目标单词进行分词。

也就是说，针对需要进行分词的输入文本，首先采用其他分词算法对输入文本进行分词，例如，采用最少切分算法对输入文本进行分词，得到与输入文本对应的至少一个目标单词。因为得到的多个目标单词可能存在分词不完全的问题，因此，针对通过分词组件对输入文本进行分词处理得到的至少一个目标单词，获取目标单词中所包含的所有的字符或字符串所对应的延迟输入时长，然后，根据字符或字符串所对应的延迟输入时长对目标单词进行分词。

需要说明的是，在本实施例中，上述分词组件可以基于任意的分词算法(包括用户自定义的分词算法)或者多个分词算法，例如，可以是基于最大正向匹配法、逆向最大匹配法、最少切分法、双向匹配法或全切分算法等分词算法中的一种或者多种的组合。

需要说明的是，在本实施例中，在根据分词组件对输入文本得到的至少一个目标单词可能存在切分不完全的问题，因此需要进行进一步的分词处理；但是，在另一个实施例中，在根据分词组件对输入文本进行分词得到的至少一个目标单词也可能存在切分过度的问题，即将不应该被切分的包含不止一个单字的词语切分开来。在此种情况下，可以根据输入文本中切分得到的所有的目标单词中，相邻的目标单词的衔接处是否存在目标字符串(被相邻的像个目标单词切分开的目标字符串)，如果存在，则将该相邻的两个目标单词合并。

具体的，通过分词组件对所述输入文本进行分词得到至少一个目标单词之后还包括：获取在所述输入文本中相邻的目标单词之间衔接处的目标字符串，将所述相邻的目标单词合并，并且，若在输入文本中相邻的目标单词之间衔接处不存在目标字符串，则跳过合并目标单词的步骤，直接执行获取所述目标单词中，对应的延迟输入时长大于或等于第一阈值的目标字符串的结束位置，根据所述结束位置对所述目标单词进行分词。

例如，在一个具体的实施例中，输入文本为“我昨晚给你发了一封邮件”，通过分词组件对输入文本进行分词得到的至少一个目标单词为“我/昨/晚/给/你/发了/一/封/邮件”。而根据用户输入该输入文本的字符串操作中，“昨”和“晚”是通过一个字符串输入操作完成的，即“昨晚”为一个不可被切分的字符串。也即，“昨晚”为目标单词“昨”和“晚”之间的衔接处的目标字符串。在此种情况下，将目标单词“昨”和“晚”进行合并，得到“我/昨晚/给/你/发了/一/封/邮件”。

在另一个实施例中，需要将相邻的目标单词合并的情况不仅包括了上述目标单词的衔接处被拆分的目标字符串，还包括相邻的目标单词的衔接处存在的相邻的两个目标字符串而这两个相邻的目标字符串对应的输入时间足够小的情况。

即，通过分词组件对输入文本进行分词得到至少一个目标单词之后还包括：获取在输入文本中相邻的目标单词之间的衔接处的目标字符串(相邻的目标单词中在先的目标单词中包含的与在后的目标单词相邻的目标字符串，以及，在后的目标单词中包含的字符串中与在先的目标单词相邻的目标字符串)，确定目标字符串的延迟输入时长，在该延迟输入时长小于预设的第二阈值的情况下，将上述相邻的目标单词进行合并。

例如，在一个具体的实施例中，用户输入的输入文本为“我今天参观了故宫博物馆”，通过分词组件对输入文本进行分词得到的至少一个目标单词为“我/今天/参观/了/故宫/博物馆”。目标单词“故宫”与“博物馆”之间的目标字符串包括了“故宫”、“博物馆”这两个目标字符串，并且，通过计算“故宫”与后相邻的目标字符串“博物馆”对应的字符串输入操作的间隔时长为0.5s，而预设的第二阈值为1s，因此，目标字符串“故宫”的延迟输入时长小于第二阈值、在此种情况下，认为“故宫”、“博物馆”这两个目标字符串之间不需要进行切分，因此，将目标单词“故宫”与“博物馆”进行合并，得到“我/今天/参观/了/故宫博物馆”。

具体的，确定输入文本包含的字符对应的时间戳，确定至少一个目标单词，获取目标单词的最后一个字符对应的时间戳，获取与该目标单词后相邻的目标单词的第一个字符对应的时间戳，然后计算两个时间戳对应的时间间隔，如果该时间间隔小于预设的时间阈值(即第二阈值，且，第二阈值小于第一阈值)，判定该目标单词与后相邻的目标单词之间不应该进行切分，因此，可以取消该目标单词与后相邻的目标单词之间的切分。

例如，第二阈值可以为0.3s，若两个字符对应的输入时间的时间间隔小于0.3s(例如时间间隔为0s)时，取消对目标单词与后相邻的目标单词之间的切分或将目标单词与后相邻的目标单词进行合并。

在另外一个实施例中，还需要不同的用户的输入速度，例如，经常使用电脑打字的用户打字的速度会明显快于不常使用电脑的老年用户的输入速度，在此种情况下，如果针对所有的用户在根据延迟输入时长进行分词处理时依旧采用相同的时间阈值，会导致分词不完全或者分词不准确的问题。

因此，在一个具体的实施例中，上述分词方法还包括：检测所述文本输入组件中的文本输入速度，根据所述文本输入速度确定所述第一阈值。也就是说，在用户通过文本输入组件输入文本时，还需要对用户输入文本的文本输入速度进行检测，例如，单位时间内平均输入字符数，然后文本输入速度确定上述第一阈值的具体取值。例如，系统预设了文本输入速度与第一阈值的取值之间的对应关系，在检测到通过文本输入组件输入文本之后，根据检测到的文本输入速度在预设的文本输入速度与第一阈值的取值之间的对应关系中查找与检测到的文本输入速度对应的第一阈值作为分词处理中的第一阈值。

在另一个实施例中，文本输入速度不仅可以是检测到的通过文本输入组件输入文本的文本输入速度，还可以是根据用户的历史字符串输入操作确定的文本输入速度，例如，获取用户输入的字符串输入操作或文本输入操作对应的文本输入速度的历史数据，并根据该历史数据确定与用户对应的文本输入速度，然后根据确定的文本输入速度确定与之对应的第一阈值。

需要说明的是，在本实施例中，上述用户输入的字符串输入操作或文本输入操作对应的文本输入速度的历史数据，可以是通过获取与当前登录的账户(例如，输入法中登录的账户，或者分词应用中登录的账户)对应的文本输入操作对应的历史数据，也可以是获取通过当前终端输入文本输入操作对应的历史数据。

在本实施例中，若展示文本输入组件的应用场景为聊天窗口的对话页面，用户在输入需要发送的文本之后，会点击发送按钮来将通过文本输入组件输入的文本进行发送，在此种情况下，对输入文本进行分词处理。也就是说，在用户通过文本输入组件进行输入时，仅仅通过文本输入组件检测用户的文本输入操作，且检测文本输入操作所输入的字符串或文本以及与之对应的时间戳，然后在用户点击发送按钮时，才对输入文本进行分词处理。在其他应用场景中，用户还可以通过其他操作来触发分词的执行，例如，输入文本的提交，或输入文本的导入，或输入文本的保存等。

在一个具体的实施例中，在用户通过文本输入组件输入文本输入操作时，检测用户输入的每一个字符串输入操作对应的目标字符串以及时间戳，在用户完成所有的文本输入之后，将目标字符串以及对应的时间戳发送中分词模块进行处理。

此外，为提高对用户输入的文本进行分词的分词准确度，在本实施例中，还提出了一种分词装置。

具体的，如图5所示，上述分词装置包括文本输入操作检测模块102、输入文本展示模块104、延迟输入时长计算模块106以及分词模块108，其中：

文本输入操作检测模块102，用于检测文本输入组件中的文本输入操作，所述文本输入操作包括顺序的一次或一次以上的字符串输入操作；

输入文本展示模块104，用于将所述一次或一次以上的字符串输入操作输入的一个或一个以上的目标字符串进行顺序拼接，并将拼接成的输入文本展示在所述文本输入组件中，其中每个目标字符串为一次字符串输入操作所输入的字符串；

延迟输入时长计算模块106，用于获取每个目标字符串的延迟输入时长，所述延迟输入时长为所述目标字符串对应的字符串输入操作与其相邻的目标字符串对应的字符串输入操作的间隔时长；

分词模块108，用于将每个目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词。

在一个实施例中，分词模块108还用于通过分词组件对所述输入文本进行分词得到至少一个目标单词，所述目标单词中包含多个目标字符串；获取所述目标单词中，对应的延迟输入时长大于或等于第一阈值的目标字符串的结束位置；根据所述结束位置对所述目标单词进行分词。

在一个实施例中，分词模块108还用于获取在所述输入文本中相邻的两个目标单词之间衔接处的第一目标字符串和第二目标字符串，其中所述第一目标字符串和第二目标字符串分别属于所述两个目标单词，如果所述第一目标字符串与第二目标字符串对应的字符串输入操作的间隔时长小于预定的第二阈值，将所述相邻的目标单词合并。

在一个实施例中，分词模块108还用于获取所述输入文本中，对应的延迟输入时长大于或等于第一阈值的目标字符串的结束位置；根据所述结束位置将所述输入文本切分成至少一个文本段；对每个文本段分别进行分词处理。

在一个实施例中，延迟输入时长计算106模块还用于获取每个目标字符串对应的字符串输入操作的第一时间戳，以及其相邻的目标字符串对应的字符串输入操作的第二时间戳；根据所述第一时间戳和所述第二时间戳确定所述目标字符串的延迟输入时长。

在一个实施例中，分词模块108还用于获取所述输入文本中包含的分隔符的分隔位置，按照所述分隔位置将所述输入文本切分成至少一个文本段；对每个文本段分别根据所述文本段中的目标字符串的延迟输入时长进行分词。

在一个实施例中，如图5所示，上述装置还包括阈值确定模块110，用于检测所述文本输入组件中的文本输入速度，根据所述文本输入速度确定所述第一阈值，其中所述文本输入速度为单位时间内平均输入字符数。

实施本申请实施例，将具有如下有益效果：

采用了上述分词方法和装置之后，在用户通过文本输入组件输入文本时，记录用户输入的每一个字符或字符串的输入时间，并计算相邻的两个字符或字符串之间的间隔时长，然后在该间隔时长大于预设值时，在分词处理的过程中，在该相邻的两个字符或字符串之间进行切分。也就是说，在对用户输入的输入文本进行分词处理的过程中，考虑用户输入的每一个字符或字符串的时间，若用户输入两个字符或字符串之间的间隔时间较长时，认为这两个字符或字符串之间没有语义上的相邻并将其切分开来。采用本申请实施例，在分词的过程中考虑了用户在输入文本时的实际情况，提高了分词的准确性。

在上述实施例中，可以全部或部分的通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或者数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或半导体介质(例如固态硬盘Solid State Disk(SSD))等。

在一个实施例中，如图6所示，图6展示了一种运行上述分词方法的基于冯诺依曼体系的计算机系统的终端。该计算机系统可以是智能手机、平板电脑、掌上电脑、笔记本电脑、个人电脑、头戴式设备、可穿戴设备、智能音箱等智能家居设备。具体的，可包括通过系统总线连接的外部输入接口1001、处理器1002、存储器1003和输出接口1004。其中，外部输入接口1001可至少包括网络接口10012。存储器1003可包括外存储器10032(例如硬盘、光盘或软盘等)和内存储器10034。输出接口1004可至少连接显示屏10042等设备。

在本实施例中，本方法的运行基于计算机程序，该计算机程序的程序文件存储于前述基于冯诺依曼体系的计算机系统的外存储器10032中，在运行时被加载到内存储器10034中，然后被编译为机器码之后传递至处理器1002中执行，从而使得基于冯诺依曼体系的计算机系统中形成逻辑上的文本输入操作检测模块102、输入文本展示模块104、延迟输入时长计算模块106、分词模块108以及阈值确定模块110。且在上述分词方法执行过程中，输入的参数均通过外部输入接口1001接收，并传递至存储器1003中缓存，然后输入到处理器1002中进行处理，处理的结果数据或缓存于存储器1003中进行后续地处理，或被传递至输出接口1004进行输出。

具体的，处理器1002用于执行如下操作：

将所述一次或一次以上的字符串输入操作输入的一个或一个以上的目标字符串进行顺序拼接，并将拼接成的输入文本展示在所述文本输入组件中其中，每个目标字符串为一次字符串输入操作所输入的字符串；

在其中一个实施例中，处理器1002还用于通过分词组件对所述输入文本进行分词得到至少一个目标单词，所述目标单词中包含多个目标字符串；获取所述目标单词中，对应的延迟输入时长大于或等于第一阈值的目标字符串的结束位置；根据所述结束位置对所述目标单词进行分词。

在其中一个实施例中，处理器1002还用于获取在所述输入文本中相邻的两个目标单词之间衔接处的第一目标字符串和第二目标字符串，其中，所述第一目标字符串和第二目标字符串分别属于所述两个目标单词；如果所述第一目标字符串与第二目标字符串对应的字符串输入操作的间隔时长小于预设的第二阈值，将所述相邻的两个目标单词合并。

在其中一个实施例中，处理器1002还用于获取所述输入文本中，对应的延迟输入时长大于或等于第一阈值的目标字符串的结束位置；根据所述结束位置将所述输入文本切分成至少一个文本段；对每个文本段分别进行分词处理。

在其中一个实施例中，处理器1002还用于获取所述目标字符串对应的字符串输入操作的第一时间戳，以及其相邻的目标字符串对应的字符串输入操作的第二时间戳；根据所述第一时间戳和所述第二时间戳确定所述目标字符串的延迟输入时长。

在其中一个实施例中，处理器1002还用于获取所述输入文本中包含的分隔符的分隔位置，按照所述分隔位置将所述输入文本切分成至少一个文本段；对每个文本段分别根据所述文本段中的目标字符串的延迟输入时长进行分词。

在其中一个实施例中，处理器1002还用于检测所述文本输入组件中的文本输入速度，根据所述文本输入速度确定所述第一阈值，其中所述文本输入速度为单位时间内平均输入字符数。

以上所揭露的仅为本申请一些实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种分词方法，应用于计算机设备，包括：

检测文本输入组件中的文本输入操作，所述文本输入操作包括顺序的一次或一次以上的字符串输入操作；

将所述一次或一次以上的字符串输入操作所输入的一个或一个以上的目标字符串进行顺序拼接，并将拼接成的输入文本展示在所述文本输入组件中，其中每个目标字符串为一次字符串输入操作所输入的字符串；

获取每个目标字符串的延迟输入时长，所述延迟输入时长为所述目标字符串对应的字符串输入操作与相邻的目标字符串对应的字符串输入操作的间隔时长；

将每个目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词。
根据权利要求1所述的分词方法，所述将每个目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词为：

通过分词组件对所述输入文本进行分词得到至少一个目标单词，所述目标单词中包含多个目标字符串；

获取所述目标单词中，对应的延迟输入时长大于或等于第一阈值的目标字符串的结束位置；

根据所述结束位置对所述目标单词进行分词。
根据权利要求2所述的分词方法，所述通过分词组件对所述输入文本进行分词得到至少一个目标单词之后还包括：

获取在所述输入文本中相邻的两个目标单词之间衔接处的第一目标字符串和第二目标字符串，其中，所述第一目标字符串和第二目标字符串分别属于所述两个目标单词；

如果所述第一目标字符串与第二目标字符串对应的字符串输入操作的间隔时长小于预设的第二阈值，将所述相邻的两个目标单词合并。
根据权利要求1所述的分词方法，所述将每个目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词为：

获取所述输入文本中，对应的延迟输入时长大于或等于第一阈值的目标字符串的结束位置；

根据所述结束位置将所述输入文本切分成至少一个文本段；

对每个文本段分别进行分词处理。
根据权利要求1所述的分词方法，所述获取每个目标字符串的延迟输入时长为：

获取所述目标字符串对应的字符串输入操作的第一时间戳，以及其相邻的目标字符串对应的字符串输入操作的第二时间戳；

根据所述第一时间戳和所述第二时间戳确定所述目标字符串的延迟输入时长。
根据权利要求1所述的分词方法，所述将每个目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词包括：

获取所述输入文本中包含的分隔符的分隔位置，按照所述分隔位置将所述输入文本切分成至少一个文本段；

对每个文本段，分别根据所述文本段中的目标字符串的延迟输入时长进行分词。
根据权利要求2或4所述的分词方法，所述方法还包括：

检测所述文本输入组件中的文本输入速度，根据所述文本输入速度确定所述第一阈值，其中所述文本输入速度为单位时间内平均输入字符数。
一种分词装置，包括：

处理器；

与所述处理器相连接的存储器；所述存储器中存储有机器可读指令模块；所述机器可读指令模块包括：

文本输入操作检测模块，用于检测文本输入组件中的文本输入操作，所述文本输入操作包括顺序的一次或一次以上的字符串输入操作；

输入文本展示模块，用于将所述一次或一次以上的字符串所输入操作所输入的一个或一个以上的目标字符串进行顺序拼接，并将拼接成的输入文本展示在所述文本输入组件中，其中每个目标字符串为一次字符串输入操作所输入的字符串；

延迟输入时长计算模块，用于获取每个目标字符串的延迟输入时长，所述延迟输入时长为所述目标字符串对应的字符串输入操作与其相邻的目标字符串对应的字符串输入操作的间隔时长；

分词模块，用于将每个目标字符串的延迟输入时长作为分词条件对所述输入文本进行分词。
根据权利要求8所述的分词装置，所述分词模块还用于通过分词组件对所述输入文本进行分词得到至少一个目标单词，所述目标单词中包含多个目标字符串；获取所述目标单词中，对应的延迟输入时长大于或等于第一阈值的目标字符串的结束位置；根据所述结束位置对所述目标单词进行分词。
根据权利要求9所述的分词装置，所述分词模块还用于获取在所述输入文本中相邻的两个目标单词之间衔接处的第一目标字符串和第二目标字符串，其中所述第一目标字符串和第二目标字符串分别属于所述两个目标单词，如果所述第一目标字符串与第二目标字符串对应的字符串输入操作的间隔时长小于预定的第二阈值，将所述相邻的两个目标单词合并。
根据权利要求8所述的分词装置，所述分词模块还用于获取所述输入文本中，对应的延迟输入时长大于或等于第一阈值的目标字符串的结束位置；根据所述结束位置将所述输入文本切分成至少一个文本段；对每个文本段分别进行分词处理。
根据权利要求8所述的分词装置，所述延迟输入时长计算模块还用于获取每个目标字符串对应的字符串输入操作的第一时间戳，以及其相邻的目标字符串对应的字符串输入操作的第二时间戳；根据所述第一时间戳和所述第二时间戳确定所述目标字符串的延迟输入时长。
根据权利要求8所述的分词装置，所述分词模块还用于获取所述输入文本中包含的分隔符的分隔位置，按照所述分隔位置将所述输入文本切分成至少一个文本段；对每个文本段分别根据所述文本段中的目标字符串的延迟输入时长进行分词。
根据权利要求9或11所述的分词装置，所述装置还包括阈值确定模块，用于检测所述文本输入组件中的文本输入速度，根据所述文本输入速度确定所述第一阈值，其中所述文本输入速度为单位时间内平均输入字符数。
一种非易失性计算机可读存储介质，其中所述存储介质中存储有机器可读指令，所述机器可读指令可以由处理器执行以完成权利要求1至7所述的方法。