WO2018153215A1 - 一种自动生成语义相近句子样本的方法 - Google Patents

一种自动生成语义相近句子样本的方法 Download PDF

Info

Publication number
WO2018153215A1
WO2018153215A1 PCT/CN2018/074325 CN2018074325W WO2018153215A1 WO 2018153215 A1 WO2018153215 A1 WO 2018153215A1 CN 2018074325 W CN2018074325 W CN 2018074325W WO 2018153215 A1 WO2018153215 A1 WO 2018153215A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
similar
sample
words
samples
Prior art date
Application number
PCT/CN2018/074325
Other languages
English (en)
French (fr)
Inventor
王昊
陈见耸
高鹏
Original Assignee
芋头科技(杭州)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 芋头科技(杭州)有限公司 filed Critical 芋头科技(杭州)有限公司
Publication of WO2018153215A1 publication Critical patent/WO2018153215A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种自动生成语义相近句子样本的方法,属于语言处理技术领域;方法包括:获取句子样本并进行分词处理;采用词向量模型得到与每个词语的语义相近的相近词的集合;分别从集合中选取一个相近词并替换词语,以形成语义相近句子样本;采用语言模型,分别针对每个语义相近句子样本生成用于表示语义可能性的可能值,并按照可能值由高至低对所有语义相近句子样本排序;选取并保留前N个语义相近句子样本,以根据被保留的语义相近句子样本进行后续处理步骤。上述技术方案的有益效果是:能够在不需要海量的后续句子集合的情况下自动生成大批量的语义相近的句子样本,省去了大量的人力工作。

Description

一种自动生成语义相近句子样本的方法 技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种自动生成语义相近句子样本的方法。
背景技术
现有技术中,在自然语言的处理过程中,很多处理任务都需要大量语义相近的句子或句式集合,这些语义相近的句子或句式的集合通常需要人工来编写,因此会耗费大量的人力和时间。
随着自动化技术的发展,越来越多的语义相近句子的编写过程可以由自动化的方式实现。目前大批量获得语义相近的句子集合的方式主要有以下几种:
1)采用检索式的方式获取大批量的语义相近句子。所谓检索式方式,是指在海量的候选句子中通过一定的检索式找到语义相近的句子集合。这种方法应用的前提首先是需要有海量的候选句子集合,并且在采用检索式查找并生成语义相近句子的过程中对于语义相似度查找模块的性能要求非常高,即语义相似度查找模块的性能决定了采用检索式方式获取的语义相近句子的精确程度。
2)采用sequence to sequence的方式获取大批量的语义相近句子。这种方式目前在学术科研领域的研究非常活跃,但是采用这种方式在实际应用中生成的很多句子并不合理,其性能并不是很好,因此缺乏一定的实用性。
发明内容
根据现有技术中存在的上述问题,现提供一种自动生成语义相近句子样本的方法的技术方案,旨在有效地自动生成大批量的语义相近的句子样本,省去了大量的人力工作。
上述技术方案具体包括:
一种自动生成语义相近句子样本的方法,适用于自然语言处理的过程中;其中,预先训练并形成用于处理得到语义相近的词语的词向量模型,以及用于判断生成的所述语义相近句子样本的语义可能性的语言模型,还包括:
步骤S1,获取外部输入的句子样本;
步骤S2,对所述句子样本进行分词处理,以将所述句子样本分解为包括多个依序排列的词语的组合;
步骤S3,采用所述词向量模型,分别得到与所述句子样本中包括的每个所述词语的语义相近的相近词的集合;
步骤S4,分别从与每个所述词语相对应的所述集合中选取一个所述相近词并替换所述词语,以形成关联于所述句子样本的所述语义相近句子样本;
步骤S5,判断所述集合中是否还有尚未被选取的所述相近词:
若有,则返回所述步骤S4;
步骤S6,采用所述语言模型,分别针对每个所述语义相近句子样本生成用于表示所述语义可能性的可能值,并按照所述可能值由高至低对所有所述语义相近句子样本排序;
步骤S7,选取并保留前N个所述语义相近句子样本,以根据被保留的所述语义相近句子样本进行后续处理步骤。
优选的,该自动生成语义相近句子样本的方法,其中,所述句子样本的类型包括:
句子类型,所述句子类型的所述句子样本中包括依序排列的多个所述词语;
句式类型,所述句式类型的所述句子样本中包括依序排列的多个所述词语和多个所述词语的词类标签,或者所述句式类型的所述句子样本中包括依序排列的多个所述词类标签;
所述步骤S1具体包括:
步骤S11,获取外部输入的所述句子样本;
步骤S12,判断所述句子样本的类型:
若所述句子样本为所述句式类型,则转向步骤S13;
若所述句子样本为所述句子类型,则直接转向所述步骤S2;
步骤S13,将所述句子样本中的每个所述词类标签分别替换成对应于所述词类标签的一高频词,以形成完整的所述句子样本,随后转向所述步骤S2。
优选的,该自动生成语义相近句子样本的方法,其中,采用一预设的分词方法预先训练并形成所述词向量模型;
则所述步骤S2中,采用所述预设的分词方法对所述句子样本进行分词处理。
优选的,该自动生成语义相近句子样本的方法,其中,所述步骤S4中,被选取并用于替换的所述相近词与被替换的所述词语之间具有相同的词性。
优选的,该自动生成语义相近句子样本的方法,其中,所述步骤S6中,每个所述语义相近句子样本的所述可能值为用于表示每个所述语义相近句子样本作为一个完整的句子成立的可能性的语义学评分。
优选的,该自动生成语义相近句子样本的方法,其中,所述语义相近句子样本的类型包括:
句子类型,所述句子类型的所述语义相近句子样本中包括依序排列的多个所述词语;
句式类型,所述句式类型的所述语义相近句子样本中包括依序排列的多个所述词语和多个所述词语的词类标签,或者所述句式类型的所述句子样本中包括依序排列的多个所述词类标签;
则所述步骤S7具体包括:
步骤S71,选取并保留前N个所述语义相近句子样本;
步骤S72,判断是否需要输出所述句式类型的所述语义相近句子样本:
若是,则转向步骤S73;
若否,则转向步骤S74;
步骤S73,将所述语义相近句子样本中包括的词语替换成对应的所述词类标签,以形成完整的所述语义相近句子样本,随后进行后续处理步骤;
步骤S74,根据被保留的所述语义相近句子样本进行后续处理步骤。
上述技术方案的有益效果是:提供一种自动生成语义相近句子样本的方法,能够在不需要海量的后续句子集合的情况下自动生成大批量的语义相近的句子样本,省去了大量的人力工作。
附图说明
图1是本发明的较佳的实施例中,一种自动生成语义相近句子样本的方法的总体流程示意图;
图2是本发明的较佳的实施例中,于图1的基础上,获取外部输入的句子样本并进行处理的流程示意图;
图3是本发明的较佳的实施例中,于图1的基础上,选取并保留语义相近句子样本的同时对输出的语义相近句子样本进行处理的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
基于现有技术中存在的上述问题,现提供一种自动生成语义相近句子样本的方法,该方法适用于自然语言处理的过程中。
上述方法中,预先训练并形成用于处理得到语义相近的词语的词向量模型,以及用于判断生成的语义相近句子样本的语义可能性的语言模型。
上述方法具体如图1所示,包括:
步骤S1,获取外部输入的句子样本;
步骤S2,对句子样本进行分词处理,以将句子样本分解为包括多个依序排列的词语的组合;
步骤S3,采用词向量模型,分别得到与句子样本中包括的每个词语的语义相近的相近词的集合;
步骤S4,分别从与每个词语相对应的集合中选取一个相近词并替换词语,以形成关联于句子样本的语义相近句子样本;
步骤S5,判断集合中是否还有尚未被选取的相近词:
若有,则返回步骤S4;
步骤S6,采用语言模型,分别针对每个语义相近句子样本生成用于表示语义可能性的可能值,并按照可能值由高至低对所有语义相近句子样本排序;
步骤S7,选取并保留前N个语义相近句子样本,以根据被保留的语义相近句子样本进行后续处理步骤。
本实施例中,上述词向量模型可以采用一些将词表征为实数值向量的工具形成,例如Word2vec,该工具可以利用深度学习的思想,通过训练把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。上述词向量是指采用神经网络对语言模型进行建模,同时获得一种单词在向量空间上的表示,采用词向量对词语进行处理就能根据词语之间的相似度获得该词语的相近词。
具体地,本实施例中,训练形成上述词向量模型的训练样本可以为大量的文本数据,这些文本数据可以来源于爬取的不同论坛上的文本数据,并且在输入前需要经过分词处理。
在经过上述词向量模型后,输出的应当为用于表示词语的低维度的实数向量,训练语料中每个词都应当对应一个低维度的实数向量。
上述实数向量通常可以表示成[0.792,-0.177,-0.107,0.109,-0.542,...]或类似的形式,维度以50维和100维比较常见。则词与词之间的向量的距离可以用最传统的欧氏距离来衡量,也可以用cos夹角来衡量。用这种方式表示的向量,“麦克”和“话筒”的距离会远远小于“麦克”和“天气”。例如。可以采用计算cos夹角的方式来计算相似度,从而得到指定词语的相近词。计算其他词与指定词的相似度的过程中,相似度较高的即为相近词。
相应地,本实施例中,上述语言模型可以为用来计算一个句子的成句概率的模型,例如表示为P(W1,W2,...Wk)。利用语言模型,可以确定哪个词序列是句子的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。简单说,语言模型用来判断几个词组成的词序列是不是符合人说话的习惯,即该词序列是句子的可能性。在本发明的一个较佳的实施例中,上述语言模型可以采用n-gram模型实现。
具体地,在对语言模型进行训练的过程中,输入模型的是经过分词处理的各文本句子,输出的可以为各文本句子中词语搭配组合的概率。
则本实施例中,上述步骤S1中,获取外部输入的句子样本有可能是通过人工输入的,也有可能通过连接外部的句子样本数据库获得。所获取的句子样本可以为纯随机的句子样本,只需要遵循最基本的语义学规则即可,例如符合语义学上构成句子的必要条件,并且是一句通顺的句子即可。
本实施例中,上述步骤S2中,对每个句子样本分别进行分词处理,因此能够把一个句子样本分解成包括多个依序排列的词语的组合。例如对于一个句子样本“我要听周杰伦的青花瓷”,则经过分词后形成的即为“我+要+听+周杰伦+的+青花瓷”,其中需要在后续步骤中关注的应该为具有具体含义的词语,例如名词“周杰伦”和名词“青花瓷”。进一步地,在上述句子样本中的每个词语都具有一对应的词类标签,例如“周杰伦”的词类标签为“歌手”(在计算机处理过程中可能以“singer”来表示),“青花瓷”的词类标签为“歌曲”(在计算机处理过程中可能以“song”来表示)等。本实施例中,上述词类标签也可以被称为该词语的标签。
本实施例中,对句子样本进行分词处理完毕后,根据每个词语采用词向量模型处理得到其对应的相近词的集合。具体地,所谓相近词,是指与该词语的词类一致的语义相近的词语,例如对于“周杰伦”来说,其标签为“歌手”,则根据词向量模型处理得到的对应该标签的相近词可能有“王力宏”、“陶喆”、“陈奕迅”以及“那英”等,则根据词向量模型能够处理得到上述相近词的集合并输出。相应地,若对于“周杰伦”来说其标签为“男歌手”(在计算机处理过程中可能以“male-Singer”来表示),则对应该标签的相近词可能有“王力宏”、“陶喆”以及“陈奕迅”等。换言之,不同词语对应的标签决定了该词语的相近词的集合。
本实施例中,上述步骤S4中,分别从与每个词语相对应的集合中选取一个相近词并替换词语,以形成关联于句子样本的语义相近句子样本。例如,对应一个句子样本可能存在a个词语,即一个句子样本由a个词语依序排列形成,并且针对每个词语具有一个相近词集合,每个集合内部具有b个语义与该词语最相近的相近词,则一个句子样本可能对应存在b a个语义相近句子样本,即针对一个句子样本存在一个语义相近句子样本的集合,针对多个句子样本就可能存在多个语义相近句子样本的集合,因此能够实现自动生成大批量的语义相近句子样本。
本实施例中,上述步骤S5为对相近词集合的循环选择,即上述步骤S4-S5实现的为针对一批输入的句子样本生成大批量的语义相近句子样本的操作。
本实施例中,在生成语义相近句子样本时,有些语义相近句子样本可能由于单纯相近词的堆砌造成语义上的不通畅,从而不能作为一个正常的句子样本进入后续处理。因此在上述步骤S6中,在生成语义相近句子样本后,需要采用上述预先训练并生成的语言模型对每个语义相近句子样本的语义可能性进行分析,最终可以针对每个语义相近句子样本生成用于表示该句子的语义可能性的可能值,该可能值可以用于表示该句子在语义学上的合理性。随后根据该可能值由高至低对语义相近句子样本进行排列。具体地,对于给定句子S=W1,W2,...,Wk,其中S用于标记句子,Wk(k=1,2,3……)用于表示该句子中的第k个词语。
则上述句子的可能值可以表示为:P(S)=P(W1,W2,…,Wk)~P(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1),上述公式中的“P(W1)”、“P(W2|W1)”等概率是由上述语言模型训练形成的。因此可以通过语言模型针对每个句子S处理得到其可能值P(S),该可能值也可以视为该句子的语义学得分。
最后在上述步骤S7中,选取前N个语义相近句子样本并保留,随后对被保留的语义相近句子样本进行后续处理步骤,舍弃其他未被保留的语义相近句子样本。上述N可以为自然数,并且其取值可以由使用者根据实际情况自由设定。
具体地,针对上述步骤S7,本发明的一个较佳的实施例中,可以针对每个输入的句子样本均保留前N个语义相近句子样本。本发明的另一个实施例中,还可以针对所有形成的语义相近句子样本仅保留前N个。上述选取的对象范围可以由使用者根据需要自行设定。
本发明的较佳的实施例中,上述输入的句子样本的类型包括:
句子类型,句子类型的句子样本中包括依序排列的多个词语;
句式类型,句式类型的句子样本中包括依序排列的多个词语和词类标签,或者仅包括多个依序排列的词类标签;
则上述步骤S1具体如图2所示,包括:
步骤S11,获取外部输入的句子样本;
步骤S12,判断句子样本的类型:
若句子样本为句式类型,则转向步骤S13;
若句子样本为句子类型,则直接转向步骤S2;
步骤S13,将句子样本中的每个词类标签分别替换成对应于词类标签的一高频词,以形成完整的句子样本,随后转向步骤S2。
具体地,本实施例中,上述句子样本的类型可以包括句子类型和句式类型。
所谓句子类型,是指包括依序排列的多个词语的句子,例如“我要听周杰伦的青花瓷”就为一个句子。
所谓句式类型,是指包括依序排列的多个词语和词类标签,或者仅包括依序排列的多个词类标签的句子,例如“我要听‘歌手’的‘歌曲’”就为一个句式,其中“歌手”和“歌曲”均为词类标签。
进一步地,只要在句子样本中出现一个词类标签,该句子样本就为一句式类型的句子样本。例如“我要听周杰伦的‘song’”就为一个句式类型的句子样本。
则本实施例中,对于句子样本无需做任何处理就能进入上述步骤S2中进行后续操作。
而对于句式样本,需要将其中的词类标签替代成对应该标签的词语,以形成一个完整的句子,再送入上述步骤S2中进行后续处理。
具体地,上述步骤S13中,将被判断为句式类型的句子样本中的词类标签替代成该标签中的高频词,以形成完整的句子样本。所谓高频词,是指在由统计数据得到的在一个词类标签下出现次数较多、使用较为频繁的词语,采用这些高频词替代句式类型的句子样本中的相应的词类标签,可以形成一个比较合理且完整的句子样本。
本发明的较佳的实施例中,采用一预设的分词方法预先训练并形成词向量模型;
则上述步骤S2中,采用预设的分词方法对句子样本进行分词处理。
具体地,本实施例中,采用与训练形成上述词向量模型相同的分词方法来对句子样本进行分词处理,能够在后续的处理步骤中减少集外词,因此有助于提升最终的处理效果。
本发明的一个较佳的实施例中,上述预设的分词方法可以采用基于大词典的正向最大匹配思想进行分词的处理方法:从左向右取待切分的句子中的m个字符作为匹配字段,m为大词典中最长词语的词长度;查找大词典进行匹配,如果匹配成功,将匹配成功的字段作为一个词切分出来;若匹配不成功,将匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复上述过程,直至切分出所有词为止。
本发明的另一个较佳的实施例中,上述预设的分词方法可以采用基于大词典的逆向最大匹配思想进行分词的处理方法,具体为:从右向左取待切分的句子的m个字符作为匹配字段,m为大词典中最长词语的词长度;查找大词典进行匹配,如果匹配成功,将匹配成功的字段作为一个词切分出来;若匹配不成功,将匹配字段的最前一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复上述过程,直至切分出所有词为止。
本发明的另一个较佳的实施例中,上述预设的分词方法还可以采用基于大词典的双向最大匹配思想进行分词的处理方法,即结合上述正向最大匹配思想和逆向最大匹配思想进行分词处理的方法。具体为:
若正向最大匹配和逆向最大匹配的结果相同,取任意一个的结果并输出;
若正向最大匹配和逆向最大匹配的结果不同,首先选择分词后的词数较少的那个结果;如果词数相同,选择逆向最大匹配的结果。
上述实施例中所谓的“大词典”是指通过收集整理后形成的一个收录大量词语的词典数据库。
本发明的其他实施例中,其他分词方法也可以适用于本发明中,并不影响本发明的保护范围。
本发明的较佳的实施例中,上述步骤S4中,被选取并用于替换的相近词与被替换的词语之间具有相同的词性,例如同样为名词或者同样为动词,因此可以保证替换操作的精准性,避免经过替换后的句子逻辑不合理。
本发明的较佳的实施例中,上述语义相近句子样本的类型包括:
句子类型,句子类型的语义相近句子样本中包括依序排列的多个词语;
句式类型,句式类型的语义相近句子样本中包括依序排列的多个词语和词类标签,或者仅包括多个依序排列的词类标签;
则如图3所示,上述步骤S7具体包括:
步骤S71,选取并保留前N个语义相近句子样本;
步骤S72,判断是否需要输出句式类型的语义相近句子样本:
若是,则转向步骤S73;
若否,则转向步骤S74;
步骤S73,将语义相近句子样本中包括的词语替换成对应的词类标签,以形成完整的语义相近句子样本,随后进行后续处理步骤;
步骤S74,根据被保留的语义相近句子样本进行后续处理步骤。
具体地,类似上文中所述,上述语义相近句子样本同样包括句子类型和句式类型。则在本实施例中,使用者可以自行设定最终输出的语义相近句子样本为句子类型还是句式类型:
若使用者设定最终输出的语义相近句子样本为句子类型,则直接输出通过语言模型筛选的语义相近句子样本并进行后续处理步骤。
若使用者设定最终输出的语义相近句子样本为句式类型,则需要将语义相近句子样本中包括的词语替换成对应的词类标签,以形成完整的句式类型的语义相近句子样本,随后再进行后续处理步骤。
本发明的较佳的实施例中,上文中所述的后续处理步骤,可以包括根据自动生成的大批量的语义相近句子样本进行语义开放平台的开发,或者进行语义相似度的计算等。
具体地,本发明的较佳的实施例中,语义开放平台的功能在于将语义的接口开放给其他开发者,帮助开发者完成具体项目的开发。当用户输入一个句子或者句式时,采用上文中所述的方法可以自动生成大量相似的句子或者句式,从而增加语义泛化能力,增强语义理解能力,并且降低了大量的人工操作,节省时间,提升效率。
相应地,本发明的较佳的实施例中,在语义相似度的计算过程中,需要使用到大量的语义相近的句子或者句式,则使用上文中所述的方法能够大批量地生成用于语义相似度计算的训练过程的句子样本。
本发明的较佳的实施例中,上述步骤S7中,最终可以输出包括被保留的语义相近句子样本的集合,以供后续进行处理。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (7)

  1. 一种自动生成语义相近句子样本的方法,适用于自然语言处理的过程中;其特征在于,预先训练并形成用于处理得到语义相近的词语的词向量模型,以及用于判断生成的所述语义相近句子样本的语义可能性的语言模型,还包括:
    步骤S1,获取外部输入的句子样本;
    步骤S2,对所述句子样本进行分词处理,以将所述句子样本分解为包括多个依序排列的词语的组合;
    步骤S3,采用所述词向量模型,分别得到与所述句子样本中包括的每个所述词语的语义相近的相近词的集合;
    步骤S4,分别从与每个所述词语相对应的所述集合中选取一个所述相近词并替换所述词语,以形成关联于所述句子样本的所述语义相近句子样本;
    步骤S5,判断所述集合中是否还有尚未被选取的所述相近词:
    若有,则返回所述步骤S4;
    步骤S6,采用所述语言模型,分别针对每个所述语义相近句子样本生成用于表示所述语义可能性的可能值,并按照所述可能值由高至低对所有所述语义相近句子样本排序;
    步骤S7,选取并保留前N个所述语义相近句子样本,以根据被保留的所述语义相近句子样本进行后续处理步骤。
  2. 如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,所述句子样本的类型包括:
    句子类型,所述句子类型的所述句子样本中包括依序排列的多个所述词语;
    句式类型,所述句式类型的所述句子样本中包括依序排列的多个所述词语和多个所述词语的词类标签,或者所述句式类型的所述句子样本中包括依序排列的多个所述词类标签;
    所述步骤S1具体包括:
    步骤S11,获取外部输入的所述句子样本;
    步骤S12,判断所述句子样本的类型:
    若所述句子样本为所述句式类型,则转向步骤S13;
    若所述句子样本为所述句子类型,则直接转向所述步骤S2;
    步骤S13,将所述句子样本中的每个所述词类标签分别替换成对应于所述词类标签的一高频词,以形成完整的所述句子样本,随后转向所述步骤S2。
  3. 如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,采用一预设的分词方法预先训练并形成所述词向量模型;
    则所述步骤S2中,采用所述预设的分词方法对所述句子样本进行分词处理。
  4. 如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,所述步骤S4中,被选取并用于替换的所述相近词与被替换的所述词语之间具有相同的词性。
  5. 如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,所述步骤S6中,每个所述语义相近句子样本的所述可能值为用于表示每个所述语义相近句子样本作为一个完整的句子成立的可能性的语义学评分。
  6. 如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,所述语义相近句子样本的类型包括:
    句子类型,所述句子类型的所述语义相近句子样本中包括依序排列的多个所述词语;
    句式类型,所述句式类型的所述语义相近句子样本中包括依序排列的多个所述词语和多个所述词语的词类标签,或者所述句式类型的所述句子样本中包括依序排列的多个所述词类标签;
    则所述步骤S7具体包括:
    步骤S71,选取并保留前N个所述语义相近句子样本;
    步骤S72,判断是否需要输出所述句式类型的所述语义相近句子样本:
    若是,则转向步骤S73;
    若否,则转向步骤S74;
    步骤S73,将所述语义相近句子样本中包括的词语替换成对应的所述词类标签,以形成完整的所述语义相近句子样本,随后进行后续处理步骤;
    步骤S74,根据被保留的所述语义相近句子样本进行后续处理步骤。
  7. 如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于, 所述步骤S7中,选取并保留前N个所述语义相近句子样本后,输出包括被保留的所述语义相近句子样本的样本集合,以进行后续处理步骤。
PCT/CN2018/074325 2017-02-27 2018-01-26 一种自动生成语义相近句子样本的方法 WO2018153215A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710109325.7A CN108509409A (zh) 2017-02-27 2017-02-27 一种自动生成语义相近句子样本的方法
CN201710109325.7 2017-02-27

Publications (1)

Publication Number Publication Date
WO2018153215A1 true WO2018153215A1 (zh) 2018-08-30

Family

ID=63254281

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/074325 WO2018153215A1 (zh) 2017-02-27 2018-01-26 一种自动生成语义相近句子样本的方法

Country Status (3)

Country Link
CN (1) CN108509409A (zh)
TW (1) TWI662425B (zh)
WO (1) WO2018153215A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096572A (zh) * 2019-04-12 2019-08-06 平安普惠企业管理有限公司 一种样本生成方法、装置及计算机可读介质
CN110929522A (zh) * 2019-08-19 2020-03-27 网娱互动科技(北京)股份有限公司 一种智能近义词替换方法及系统
CN110929526A (zh) * 2019-10-28 2020-03-27 深圳绿米联创科技有限公司 样本生成方法、装置以及电子设备
CN111178059A (zh) * 2019-12-07 2020-05-19 武汉光谷信息技术股份有限公司 一种基于word2vec技术的相似度比较方法及装置
CN112395867A (zh) * 2020-11-16 2021-02-23 中国平安人寿保险股份有限公司 同义词挖掘方法、装置、存储介质及计算机设备
CN112883150A (zh) * 2021-01-21 2021-06-01 平安科技(深圳)有限公司 商标词语与通用词语的区分方法、装置、设备及存储介质
CN113688239A (zh) * 2021-08-20 2021-11-23 平安国际智慧城市科技股份有限公司 少样本下的文本分类方法、装置、电子设备及存储介质
US11741302B1 (en) 2022-05-18 2023-08-29 Microsoft Technology Licensing, Llc Automated artificial intelligence driven readability scoring techniques

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657231B (zh) * 2018-11-09 2023-04-07 广东电网有限责任公司 一种长短信精简方法及系统
CN111950237B (zh) * 2019-04-29 2023-06-09 深圳市优必选科技有限公司 一种句子改写方法、句子改写装置及电子设备
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置
CN110633359B (zh) * 2019-09-04 2022-03-29 北京百分点科技集团股份有限公司 语句等价性判断方法和装置
CN111709234B (zh) * 2020-05-28 2023-07-25 北京百度网讯科技有限公司 文本处理模型的训练方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320186A1 (en) * 2010-06-23 2011-12-29 Rolls-Royce Plc Entity recognition
CN105677637A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统中抽象语义库的更新方法及更新装置
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN106033416A (zh) * 2015-03-09 2016-10-19 阿里巴巴集团控股有限公司 一种字符串处理方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI227417B (en) * 2003-12-02 2005-02-01 Inst Information Industry Digital resource recommendation system, method and machine-readable medium using semantic comparison of query sentence
JP4245530B2 (ja) * 2004-08-19 2009-03-25 三菱電機株式会社 言語モデル作成装置及び方法並びにプログラム
US9135237B2 (en) * 2011-07-13 2015-09-15 Nuance Communications, Inc. System and a method for generating semantically similar sentences for building a robust SLM
CN103218444B (zh) * 2013-04-22 2016-12-28 中央民族大学 基于语义的藏文网页文本分类方法
CN103823794B (zh) * 2014-02-25 2016-08-17 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
CN104281565B (zh) * 2014-09-30 2017-09-05 百度在线网络技术(北京)有限公司 语义词典构建方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320186A1 (en) * 2010-06-23 2011-12-29 Rolls-Royce Plc Entity recognition
CN106033416A (zh) * 2015-03-09 2016-10-19 阿里巴巴集团控股有限公司 一种字符串处理方法及装置
CN105677637A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统中抽象语义库的更新方法及更新装置
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096572A (zh) * 2019-04-12 2019-08-06 平安普惠企业管理有限公司 一种样本生成方法、装置及计算机可读介质
CN110096572B (zh) * 2019-04-12 2023-09-15 成都美满科技有限责任公司 一种样本生成方法、装置及计算机可读介质
CN110929522A (zh) * 2019-08-19 2020-03-27 网娱互动科技(北京)股份有限公司 一种智能近义词替换方法及系统
CN110929526A (zh) * 2019-10-28 2020-03-27 深圳绿米联创科技有限公司 样本生成方法、装置以及电子设备
CN111178059B (zh) * 2019-12-07 2023-08-25 武汉光谷信息技术股份有限公司 一种基于word2vec技术的相似度比较方法及装置
CN111178059A (zh) * 2019-12-07 2020-05-19 武汉光谷信息技术股份有限公司 一种基于word2vec技术的相似度比较方法及装置
CN112395867B (zh) * 2020-11-16 2023-08-08 中国平安人寿保险股份有限公司 同义词挖掘方法、装置、存储介质及计算机设备
CN112395867A (zh) * 2020-11-16 2021-02-23 中国平安人寿保险股份有限公司 同义词挖掘方法、装置、存储介质及计算机设备
CN112883150A (zh) * 2021-01-21 2021-06-01 平安科技(深圳)有限公司 商标词语与通用词语的区分方法、装置、设备及存储介质
CN112883150B (zh) * 2021-01-21 2023-07-25 平安科技(深圳)有限公司 商标词语与通用词语的区分方法、装置、设备及存储介质
CN113688239A (zh) * 2021-08-20 2021-11-23 平安国际智慧城市科技股份有限公司 少样本下的文本分类方法、装置、电子设备及存储介质
CN113688239B (zh) * 2021-08-20 2024-04-16 平安国际智慧城市科技股份有限公司 少样本下的文本分类方法、装置、电子设备及存储介质
US11741302B1 (en) 2022-05-18 2023-08-29 Microsoft Technology Licensing, Llc Automated artificial intelligence driven readability scoring techniques

Also Published As

Publication number Publication date
TW201841121A (zh) 2018-11-16
TWI662425B (zh) 2019-06-11
CN108509409A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
WO2018153215A1 (zh) 一种自动生成语义相近句子样本的方法
CN110298033B (zh) 关键词语料标注训练提取系统
WO2021000676A1 (zh) 问答方法、问答装置、计算机设备及存储介质
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN108121829B (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN107609132B (zh) 一种基于语义本体库中文文本情感分析方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
WO2020063092A1 (zh) 知识图谱的处理方法及装置
US20150081277A1 (en) System and Method for Automatically Classifying Text using Discourse Analysis
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN115809345A (zh) 一种基于知识图谱的多源数据差异溯源检索方法
CN111353306A (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN111191464A (zh) 基于组合距离的语义相似度计算方法
JPH0816620A (ja) データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
CN113742469B (zh) 基于Pipeline处理和ES储存问答系统构建方法
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18758429

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18758429

Country of ref document: EP

Kind code of ref document: A1