WO2017166626A1

WO2017166626A1 - 归一化方法、装置和电子设备

Info

Publication number: WO2017166626A1
Application number: PCT/CN2016/096673
Authority: WO
Inventors: 周蕾蕾
Original assignee: 乐视控股（北京）有限公司; 乐视致新电子科技（天津）有限公司
Priority date: 2016-03-30
Filing date: 2016-08-25
Publication date: 2017-10-05
Also published as: CN105843797A

Abstract

一种归一化方法、装置和电子设备。获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词（110）；根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配（120）；当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果（130）。实现了快速而灵活的归一化处理。

Description

归一化方法、装置和电子设备

交叉引用

本申请要求在2016年03月30日提交中国专利局、申请号为201610193023.8、发明名称为“归一化方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种归一化方法、装置和电子设备。

背景技术

对于语音识别结果进行解析时，语音识别结果中的数字部分包括阿拉伯数字、大写汉字、小数、分数等，识别结果难以控制，经常出现我们不想要的结果，所以需要对识别结果进行归一化，使得显示美观且方便后续进行语义解析。比如将识别结果“二零零五年”归一化成“2005年”，将“十二点一刻”归一化成“12:15”等。

另外，对于很多异形同义词，其表述含义相同，然而在语音识别过程中，也经常出现并不符合用户意图的识别结果。例如，用户通过带有语音识别的电视进行节目搜索时，用户的语音输入为“我想看芒果台”，然而，在电视的语音识别设备中，预先可能并没有存有“芒果台”这一电视频道关键词，因此，对用户的语音输入的识别结果可能会出错，也许会得到许多跟“芒果”有关的电视节目。因此，需要在识别之前进一步将异形同义词进行归一化，例如，将“芒果台”归一化至“湖南台”，从而，不论用户的语音输入结果是“芒果台”还是“湖南台”都能准确识别用户意图，并为用户提供相应服务。

目前比较主流的归一化方案都是对待归一化的目标进行简单的映射，这种办法归一化结果完全依赖归一化映射表包含的内容，十分不灵活，需要人工维护，并且归一化结果蛮力生硬，容易出错。

因此，一种改进的归一化方法亟待提出。

发明内容

本发明实施例提供一种归一化方法及装置，用以解决现有技术归一化结果完全依赖归一化映射表式的缺陷，实现快速而灵活的归一化处理。

本发明实施例提供一种归一化方法，包括：

获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；

根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；

当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。

本发明实施例提供一种归一化装置，包括：

解析模块，用于获取输入语句，对所述输入语句进行解析从而获得所述输语句对应的应用场景；

切词模块，用于获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；

匹配模块，用于根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；

查询模块，用于当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。

本发明实施例又公开了一种电子设备，包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。

本发明还公开了一种非易失性计算机存储介质，其中，所述存储介质存储有计算机可执行指令，所述计算机可执行指令当由电子设备执行时使得电子设备能够：获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。

本发明实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述的方法。

本发明实施例提供的归一化方法、装置和电子设备，通过判断输入语句对应的应用场景并根据所述应用场景调用相应的领域切词词典对所述输入语句进行切词，从而根据预设的归一化语法以及预设的归一化映射表对所述输入语句进行归一化处理，改变了现有技术中进行归一化处理时，归一化结果完全依赖归一化映射表式的缺陷，实现快速而灵活的归一化处理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一的技术流程图；

图2a为本申请实施例一的归一化场景示例图；

图2b为本申请实施例一的归一化语法树示例图；

图2c为本申请实施例一的归一化示例图；

图3为本申请实施例二的技术流程图；

图4为本申请实施例二的地址信息部分示例图；

图5为本申请实施例二的词典组成部分示例图；

图6为本申请实施例三的装置结构示意图；

图7为本发明实施例中电子设备的硬件结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

图1是本申请实施例一的技术流程图，结合图1，本申请实施例一种归一化方法，可由如下的步骤实现：

步骤S110：获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；

步骤S120：根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；

步骤S130：当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。

具体的，在步骤S110中，所述输入语句可以是用户输入语音的识别对应的文字结果，也可以是用户直接的文字输入结果。所述应用场景相应的所述领域切词词典是预先训练的到的。对于一个词或者一个数字，其对应的每一种应用场景都相应的有一个专属于这一应用领域的切词词典，从而输入语句能够按照其所处领域的语法规则来进行切词，从而能够正确提取归一化目标部分。本步骤中，对于一输入语句而言，并无法得知其中的归一化目标属于哪一应用场景，因此，本步骤中，需要采用不用应用场景的领域切词词典对输入语句进行切词，能够得到多种应用场景。

例如，在电视应用领域，“芒果台”是一个能够代表湖南电视台的词，在用电视应用领域的领域切词词典对“我想看芒果台”进行切词的时候，可能得到的结果是“我想|看|芒果台”；而在食物领域，“芒果”就是一种水果，所以，在用食物领域的领域切词词典对“我想看芒果台”进行切词的时候，可能得到的结果是“我想|看|芒果|台”。

根据现有技术中的做法，对于每一个字或者词的不同应用领域，共同采用同一个切词词典对用户语音识别的结果进行切词，切词结果是不可控的。若是切词结果为“我想|看|芒果|台”，那么相应的语义解析以及搜索结果，可能并不是用户想要的湖南台，也许是与“芒果”这一水果有关的任意节目。因此，本发明实施例中，将通用的切词词典，按照用户输入语句的应用场景进行分类，从而得到每个应用场景分类对应的领域切词词典，切词结果可控且语义匹配的正确率更高。

具体的，在步骤S120中，对上一步骤所切分得到的结果进行语义匹配，其目的在于，寻找用户输入的语句中是否包含需要进行归一化的目标，例如数字的书写以及同义词。

本步骤中，在进行语义匹配时，针对所述不同应用场景的领域词典的切词结果，采用对应的归一化语法进行语义匹配。由此，才能够保证语义匹配的正确性。

例如，“我想|看|芒果|台”是用电视应用场景的邻域切词词典进行切词得到的结果，需要用电视应用场景的归一化语法进行语义匹配，那么将能够得到正确的匹配结果，即“我想看湖南台”。“我想|看|芒果|台”是食物应用领域切词词典进行切词得到的结果，若是用食物场景的归一化语法进行语义匹配，则“看”和“台”，在食物应用领域的归一化语法中是匹配不上的，因此，在这个应用场景，用户的输入没有匹配结果。

本发明实施例采用基于BNF语法的语义解析语法，并在其基础上进行了扩展，增加数字提取等关键函数。BNF(Backus-Naur Form)，即巴科斯范式，是一种用形式化符号来描述给定语言的语法。

现有技术中已有BNF语法有如下规则：

在双引号中的字("word")代表着这些字符本身。而double_quote用来代表双引号。

在双引号外的字(有可能有下划线)代表着语法部分。

<>：内包含的为必选项，是语法必须进一步解释的非终结节点；

[]：内包含的为可选项，表示其内容可以跳过；

|：表示在其左右两边任选一项，相当于"或"的意思；

()：表示组合；

大括号({})内包含的为可重复0至无数次的项。

::＝是“被定义为”的意思。

本发明实施例中采用的语法规则在BNF的基础之上进行了扩展，具体加了如下规则：

#：表示注释；

:：非终结节点与其解释的分隔符；

；：表示语法中语句的结束；

“”：表示引用外部词典文件；

&root(<name>)：写在归一化语法的开始部分，表示该归一化语法的名字为name；

&norm(“MappingTable.dict”)：是归一化方法最重要的函数，它用来提取输入文本的归一化目标部分，并查找映射表MappingTable.dict，从而以归一化的结果对归一化目标进行替换。

在本发明实施例中，&root(<name>)中，name写在归一化语法的开始部分，表示所述归一化语法名字，也能够表示所述归一化语法的种类以及应用场景。

以下部分以数字的年代应用场景为例，按照语法规则书写好如下语法文件，对应的语法文件的名字是“年代数字归一化”：

&root(<年代数字归一化>)；

<年代数字归一化>:<一到九><零>年代；

<一到九>:&norm(“DigitNormalize.dic”)；

<零>:&norm(“DigitNormalize.dic”)；

其中DigitNormalize.dic内容如下：

一＝1

二＝2

三＝3

四＝4

五＝5

六＝6

七＝7

八＝8

九＝9

十＝0

零＝0

映射成哈希表，得到：

key＝一 value＝1

key＝二 value＝2

key＝三 value＝3

key＝四 value＝4

key＝五 value＝5

key＝六 value＝6

key＝七 value＝7

key＝八 value＝8

key＝九 value＝9

key＝十 value＝0

key＝零 value＝0

在本发明实施例中，&norm(“MappingTable.dict”)函数主要用于提取输入语句中的任何形式出现的数字以及异构异形的同义词。

具体的，在步骤S130中，若是在上一步的语义匹配中，发现用户的所述输入语句中包含以任何形式出现的数字、以及异构异形的同义词等归一化目标，则根据这些归一化目标查询预先建立的归一化映射表，并从所述归一化映射表中获取所属归一化目标的替代项，即归一化结果，从而对所述输入语句进行更新，将更新后的归一化结果送至下一步操作。

需要说明的是，本步骤中的所述归一化映射表，可以是多个所述应用场景公用一个归一化映射表，也可以是每个所述应用场景单独设置一个归一化映射表，本发明实施例并不限制于此。所述归一化映射表中，针对不同的使用环境，可以设计不同的应用场景，如图2a所示，数字的应用场景可以包括：年份、年代、月份、日、时间、货币、电话号码、比分、分数、小数、剧集、年龄、车次星期等。当然，应当理解，上述数字的应用场景仅供举例使用，对本发明实施例并不构成限制。

为方便语义匹配，需要将所有归一语法编译成语法树，最终输出一个归一语法森林。上述“年代数字归一化语法”编译成语法树如图2b所示：

其中数字归一化映射表DigitNormalize.dic以哈希表的形式存放在语法树中，作为哈希类型的节点。哈希表中含有键和值，也就是key和value，DigitNormalize.dic中等号左边的作为key，右边作为value，匹配成功时将识别结果中的key映射成value。

比如识别语句为“播放九十年代的电影”，切词结果为“播|放|九|十|年代的|电影”，将这一待匹配语句与所有数字归一语法树进行匹配，提取数字部分，将key映射为value，最终输出归一化结果，具体如图5所示。

本实施例中，通过判断输入语句对应的应用场景并根据所述应用场景调用相应的领域切词词典对所述输入语句进行切词，从而根据预设的归一化语法以及预设的归一化映射表对所述输入语句进行归一化处理，改变了现有技术中进行归一化处理时，归一化结果完全依赖归一化映射表式的缺陷，实现快速而灵活的归一化处理。

图3是本申请实施二的技术流程图，结合图3，本申请实施例一种归一化方法中，生成每一应用场景的所述领域切词词典的过程可进一步由以下步骤实现：

步骤S310：根据预先训练得到的语言模型获取通用的切词词典；

步骤S320：计算所述通用的切词词典中所有词的平均概率值；

步骤S330：获取每一所述应用场景对应的所述归一化语法的终结词在所述通用的切词词典中的概率值；

步骤S340：在所述应用场景的领域切词词典中，以所述概率值为所述终结词赋值从而生成所述应用场景的领域切词词典。

具体的，步骤S310中，首先通过语言模型得到一个通用的切词词典，词典格式如图4以及图5所示，词典包含两部分，地址信息部分和词典组成部分。

其中，地址信息部分包含10个阿拉伯数字、26个大写英文字母(数字和大写字母都用全角格式，占用两个字节)和6768个常用汉字所对应的词组的地址信息，每个字相应的地址用4个字节保存，并且按汉字GB2312的编码顺序排列，所以地址部分占用大小为：(10+26+6768)*4＝27216字节。因此，如果词典的首地址为uniDict，那么词组区域首地址：uniDict+27216。

其中，词典组成部分存储的是地址区域对应的汉字的词组，比如以全角字母“0”为例，在地址区域，“0”对应的地址是“27216”，所以在词组区域，“0”对应的词组区域的地址为“uniDict+27216”，可以看到，以“0”为首字的组词可以为：“05毫米”，当我们需要在字典里查找以“0”为首字的词时，从地址“uniDict+27216”开始向下查找即可，直到遇到边界guard标记。如此，所有组词按首字划分区域，可以大大提高字典的查找效率，并且词组部分不需要存储首字，从而节省了字典的空间。

词典种包含的每个参数含义如下：

wordlen：词组的长度；

buf：去掉首字的词组内容，sizeof(buf)＝wordlen-2字节；

frequency：由一元模型概率转换得到的词频，sizeof(frequency)＝2字节；

reclen：存储一个词占用的总空间，sizeof(reclen)＝1字节，

reclen＝sizeof(reclen)+sizeof(wordlen)+sizeof(buf)+sizeof(frequency)；

guard：代表每个分区的结束，sizeof(guard)＝1字节。

具体的，在步骤S320中，计算所述通用的切词词典中所有词的平均概率，记为meanF。

具体的，在步骤S330中，针对每一种应用场景，计算其对应的归一化语法中，每一个终结词在所述通用的切词词典中的概率值。

承接上一实施例中步骤S130的归一化语法———“年代数字归一化”为例，遍历所述归一化语法，得到所有终结词，即：一、二、三、四、五、六、七、八、九、十、零、年代。对于每个终结词都去所述通用的切词词典中查找，如果在所述通用的切词词典中找到，获取其对应的概率值，记为fi，其中i为大于等于0的正数，表示终结词的个数。

具体的，在步骤340，建立每个所述应用场景专属的领域切词词典，并将每一种应用场景对应的归一化语法中的终结词的概率值以fi赋值。

例如，在所述通用的切词词典中，终结词“一”的概率是0.2，那么在新建立的年代领域切词词典中，也以0.2给“一”赋值。

需要说明的是，若是某一归一化语法中的终结词在所述通用的切词词典中概率值为0，则以步骤S320中计算出的所述平均概率值meanF在所述应用场景的领域切词词典中为所述终结词赋值从而更新所述应用场景的领域切词词典。

由此，得到格式与通用的切词词典相同的领域切词词典，但是它只包含当前归一化语法中有的终结词。例如，电视领域的切词词典中只包含电视领域的归一化语法的终结词、音乐领域的切词词典中只包含音乐领域的归一化语法的终结词。

对于每个应用领域的归一化语法，都相应的生成领域切词词典。由此，在对输入语句进行切词的时候通过相应的所述领域切词词典可以得到正确想要的切词结果。比如假设“年代”一词在通用的切词词典中是不存在的，也就是说它的概率是0，按照通用的切词词典的切词方法会被切碎成“年|代”，但是如果用领域切词词典，由于其概率赋值为meanF，就不会被切碎。

本实施例中，通过将通用的切词词典更新生成不用应用场景的领域切词词典，以使得判定输入语句应用场景之后采用相应的领域切词词典对所述输入语句进行切词，进一步提高了切词以及归一化结果的正确性；与此同时，需要增加应用场景时增加相应的归一化语法和归一化映射表映射即可达到目的，并且多个场景可以共用映射表，使用灵活，方便维护。

图6是本申请实施例三的装置结构示意图，结合图6，本申请一种归一化装置，包括、切词模块61、匹配模块62、查询模块63以及预处理模块64。

所述切词模块61，用于获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；

所述匹配模块62，用于根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；

所述查询模块63，用于当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。

其中，所述归一化目标包括数字书写和/或同义词。

其中，所述装置还包括预处理模块64，所述预处理模块64用于：对所述归一化目标的应用场景进行分类，并根据每一所述应用场景定义相应的归一化语法以及相应的归一化映射表。

其中，所述预处理模块64还用于：根据所述归一化语法以及预先获取的通用的切词词典生成每一所述应用场景的领域切词词典。

其中，所述预处理模块64具体用于：根据预先训练得到的语言模型获取通用的切词词典；计算所述通用的切词词典中所有词的平均概率值；获取每一所述应用场景对应的所述归一化语法的终结词在所述通用的切词词典中的概率值；在所述应用场景的领域切词词典中，以所述概率值为所述终结词赋值从而生成所述应用场景的领域切词词典。

其中，所述预处理模块64还用于，若所述终结词在所述通用的切词词典中概率值为0，则以所述平均概率值在所述应用场景的领域切词词典中为所述终结词赋值从而更新所述应用场景的领域切词词典。

图6所示装置可以执行图1～图5所示实施例的方法，实现原理和技术效果参考图1～图5所示实施例，不再赘述。

如图7所示，本发明实施例又公开了一种电子设备，包括至少一个处理器810；以及，与所述至少一个处理器810通信连接的存储器800；其中，所述存储器800存储有可被所述至少一个处理器810执行的指令，所述指令被所述至少一个处理器810执行，以使所述至少一个处理器810能够获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。所述电子设备还包括与所述存储器800和所述处理器电连接的输入装置830和输出装置840，所述电连接优选为通过总线连接。

本实施例的电子设备，优选地，所述归一化目标包括数字书写和/或同义词。

本实施例的电子设备，优选地，在获取输入语句之前，所述方法还包括：对所述归一化目标的应用场景进行分类，并根据每一所述应用场景定义相应的归一化语法以及相应的归一化映射表。

本实施例的电子设备，优选地，所述方法还包括：根据所述归一化语法以及预先获取的通用的切词词典生成每一所述应用场景的领域切词词典。

本实施例的电子设备，优选地，所述方法，生成每一所述应用场景的领域切词词典，具体包括：根据预先训练得到的语言模型获取通用的切词词典；计算所述通用的切词词典中所有词的平均概率值；获取每一所述应用场景对应的所述归一化语法的终结词在所述通用的切词词典中的概率值；在所述应用场景的领域切词词典中，以所述概率值为所述终结词赋值从而生成所述应用场景的领域切词词典。

本实施例的电子设备，优选地，所述方法还包括，若所述终结词在所述通用的切词词典中概率值为0，则以所述平均概率值在所述应用场景的领域切词词典中为所述终结词赋值从而更新所述应用场景的领域切词词典。

本发明实施例还公开了一种非易失性计算机存储介质，其中，所述存储介质存储有计算机可执行指令，所述计算机可执行指令当由电子设备执行时使得电子设备能够：获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。

本实施例的存储介质，优选地，所述归一化目标包括数字书写和/或同义词。

本实施例的存储介质，优选地，在获取输入语句之前，所述方法还包括：对所述归一化目标的应用场景进行分类，并根据每一所述应用场景定义相应的归一化语法以及相应的归一化映射表。

本实施例的存储介质，优选地，所述方法还包括：根据所述归一化语法以及预先获取的通用的切词词典生成每一所述应用场景的领域切词词典。

本实施例的存储介质，优选地，所述方法，生成每一所述应用场景的领域切词词典，具体包括：根据预先训练得到的语言模型获取通用的切词词典；计算所述通用的切词词典中所有词的平均概率值；获取每一所述应用场景对应的所述归一化语法的终结词在所述通用的切词词典中的概率值；在所述应用场景的领域切词词典中，以所述概率值为所述终结词赋值从而生成所述应用场景的领域切词词典。

本实施例的存储介质，优选地，所述方法还包括，若所述终结词在所述通用的切词词典中概率值为0，则以所述平均概率值在所述应用场景的领域切词词典中为所述终结词赋值从而更新所述应用场景的领域切词词典。

本发明实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述实施例所述的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

一种归一化方法，其特征在于，包括如下的步骤：

获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；

根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；

当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。
根据权利要求1所述的方法，其特征在于，所述归一化目标包括数字书写和/或同义词。
根据权利要求2所述的方法，其特征在于，在获取输入语句之前，所述方法还包括：

对所述归一化目标的应用场景进行分类，并根据每一所述应用场景定义相应的归一化语法以及相应的归一化映射表。
根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述归一化语法以及预先获取的通用的切词词典生成每一所述应用场景的领域切词词典。
根据权利要求4所述的方法，其特征在于，所述方法，生成每一所述应用场景的领域切词词典，具体包括：

根据预先训练得到的语言模型获取通用的切词词典；

计算所述通用的切词词典中所有词的平均概率值；

获取每一所述应用场景对应的所述归一化语法的终结词在所述通用的切词词典中的概率值；

在所述应用场景的领域切词词典中，以所述概率值为所述终结词赋值从而生成所述应用场景的领域切词词典。
根据权利要求5所述的方法，其特征在于，所述方法还包括，

若所述终结词在所述通用的切词词典中概率值为0，则以所述平均概率值在所述应用场景的领域切词词典中为所述终结词赋值从而更新所述应用场景的领域切词词典。
一种归一化装置，其特征在于，包括如下的模块：

切词模块，用于获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；

匹配模块，用于根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；

查询模块，用于当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。
根据权利要求7所述的装置，其特征在于，所述归一化目标包括数字书写和/或同义词。
根据权利要求8所述的装置，其特征在于，所述装置还包括预处理模块，所述预处理模块用于：

对所述归一化目标的应用场景进行分类，并根据每一所述应用场景定义相应的归一化语法以及相应的归一化映射表。
根据权利要求9所述的装置，其特征在于，所述预处理模块还用于：

根据所述归一化语法以及预先获取的通用的切词词典生成每一所述应用场景的领域切词词典。
根据权利要求10所述的装置，其特征在于，所述预处理模块具体用于：

根据预先训练得到的语言模型获取通用的切词词典；

计算所述通用的切词词典中所有词的平均概率值；

获取每一所述应用场景对应的所述归一化语法的终结词在所述通用的切词词典中的概率值；

在所述应用场景的领域切词词典中，以所述概率值为所述终结词赋值从而生成所述应用场景的领域切词词典。
根据权利要求11所述的装置，其特征在于，所述预处理模块还用于，

若所述终结词在所述通用的切词词典中概率值为0，则以所述平均概率值在所述应用场景的领域切词词典中为所述终结词赋值从而更新所述应用场景的领域切词词典。
一种电子设备，其特征在于包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够

获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；

根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；

当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。
一种非易失性计算机存储介质，其特征在于：所述存储介质存储有计算机可执行指令，所述计算机可执行指令当由电子设备执行时使得电子设备能够：

获取输入语句，调用预先生成的、不同应用场景对应的领域切词词典对所述输入语句进行切词；

根据所述切词的结果，调用预先设置的、所述不同应用场景对应的归一化语法，与所述切词的结果进行语义匹配；

当判定所述切词的结果中包含归一化目标，则查询预设的归一化映射表，获取所述归一化目标的归一化结果。
[根据细则26改正29.09.2016]　
一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，其特征在于，当所述程序指令被计算机执行时，使所述计算机执行权利要求1-6所述的方法。