WO2020114429A1 - 关键词提取模型训练方法、关键词提取方法及计算机设备 - Google Patents
关键词提取模型训练方法、关键词提取方法及计算机设备 Download PDFInfo
- Publication number
- WO2020114429A1 WO2020114429A1 PCT/CN2019/123057 CN2019123057W WO2020114429A1 WO 2020114429 A1 WO2020114429 A1 WO 2020114429A1 CN 2019123057 W CN2019123057 W CN 2019123057W WO 2020114429 A1 WO2020114429 A1 WO 2020114429A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- candidate word
- text
- word
- candidate
- training
- Prior art date
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 181
- 238000012549 training Methods 0.000 title claims abstract description 167
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000011218 segmentation Effects 0.000 claims abstract description 73
- 239000013598 vector Substances 0.000 claims description 48
- 230000015654 memory Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 abstract description 26
- 238000010586 diagram Methods 0.000 description 22
- 230000007246 mechanism Effects 0.000 description 13
- 239000008280 blood Substances 0.000 description 11
- 210000004369 blood Anatomy 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Abstract
一种关键词提取方法,以及一种关键词提取模型的训练方法、计算机设备及存储介质。所述关键词提取方法包括:对文本进行分词处理,得到多个候选词;对与所述文本语义相对应的标题以字符为单位进行切分,得到多个字符(301);将所述多个候选词依次输入关键词提取模型,得到各个候选词相对于各个字符的注意力权重(302),所述注意力权重用于表征每个候选词分别与各个字符的语义关联程度;从各个候选词中选择在所述标题中出现的候选词(303);根据所述选择出的候选词相对于各个字符的注意力权重,确定提取阈值(304);根据所述提取阈值,从所述各个候选词中确定出所述文本的关键词(305)。
Description
本申请要求于2018年12月7日提交的申请号为201811494250.X、发明名称为“关键词提取模型训练方法、关键词提取方法、装置及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及人工智能领域,尤其涉及一种关键词提取模型训练方法、关键词提取方法、计算机设备及存储介质。
关键词是代表一篇文档核心语义的词语,用户输入关键词,搜索引擎就可以根据用户输入的关键词返回相应的搜索结果,例如,用户可以根据关键词搜索朋友圈、文章、公众号、小说、音乐、表情等。
例如,可以采用TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文档频率指数)模型或者textrank模型来提取关键词,其中,TF-IDF模型是通过计算文本中词权重来提取关键词,词权重的计算方式便是词频乘以逆文档频率,词频衡量的是该词在当前文本中的重要程度,逆文档频率衡量的是该词的常见程度,越是常见的词,则该词越不重要。因此,TF-IDF值越大,则该词成为关键词的可能性越大。
textrank模型是通过把文本分割成若干组成单元,例如单词或句子,并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取。
上述两种方法所需要的文本长度较长,对于描述类的短文本,无法提供足够的信息,有可能生成偏差极大的关键词。
另外,也可以采用基于序列到序列的模型,把文本的关键词提取形式化成一个序列到序列模型,以文本为输入,以对应的标注好的标签作为输出。但是,该方法需要大量的标注数据和人工预先设定阈值。
发明内容
本申请实施例提供了一种关键词提取模型的训练方法、存储介质及计算机设备,以避免大量人工标注数据和人工设定阈值,能够有效地节约人工成本。
本申请实施例还提供了一种关键词提取方法、存储介质及计算机设备,以充分利用文本和标题之间的语义关系,解决针对短文本无法提取出准确的关键词的问题。
本申请实施例提供了一种关键词提取模型的训练方法,所述关键词提取模型包括编码模型和解码模型,包括:
对训练文本进行分词处理,得到多个候选词;对与所述训练文本语义相对应的训练标题进行切分,得到多个字符;
将所述多个候选词依次输入所述编码模型,得到各个候选词的文本特征表示;
根据各个候选词的注意力权重,对所述各个候选词的文本特征表示进行调整;根据所述调整后的各个候选词的文本特征表示,得到所述训练文本的文本特征表示;
将所述训练文本的文本特征表示和切分得到的所述多个字符输入所述解码模型,得到多个目标字符;
对切分得到的所述多个字符和所述多个目标字符进行比较,根据比较结果分别调整所述各个候选词的文本特征表示对应的注意力权重。
本申请实施例还提供了一种非易失性机器可读存储介质,存储有可读指令,可以使至少一个处理器执行上述关键词提取模型的训练方法。
本申请实施例还提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行下述步骤:
对训练文本进行分词处理,得到多个候选词;对与所述训练文本语义相对应的训练标题进行切分,得到多个字符;
将所述多个候选词依次输入关键词提取模型中的编码模型,得到各个候选词的文本特征表示;
根据各个候选词的注意力权重,对所述各个候选词的文本特征表示进行调整;根据所述各个候选词调整后的文本特征表示,得到所述训练文本的文本特征表示;
将所述训练文本的文本特征表示和切分得到的所述多个字符输入所述关键词提取模型中的解码模型,得到多个目标字符;
对切分得到的所述多个字符和所述多个目标字符进行比较,根据比较结果分别调整所述各个候选词的文本特征表示对应的注意力权重。
本申请的一些实施例提供的关键词提取模型的训练方法,一方面无需大量人工标注数据,能够有效地节约人工成本;另一方面,由于文本和标题具有相同的语义,该关键词提取模型的训练方法利用了文本和标题的语义关系,提高了关键词提取的精确度。
本申请实施例还提供了一种关键词提取方法,包括:
对文本进行分词处理,得到多个候选词;对与所述文本语义相对应的标题进行切分,得到多个字符;
将所述多个候选词依次输入关键词提取模型,得到各个候选词的注意力权重,所述注意力权重用于表征各个时刻的候选词与各个字符的语义关联程度;
从各个候选词中选择在所述标题中出现的候选词;
根据所述选择出的候选词的注意力权重,确定提取阈值;
根据所述提取阈值,从所述各个候选词中确定出所述文本的关键词。
本申请实施例还提供了一种非易失性机器可读存储介质,存储有可读指令,可以使至少一个处理器执行上述关键词提取方法。
本申请实施例还提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行下述步骤:
对文本进行分词处理,得到多个候选词;对与所述文本语义相对应的标题进行切分,得到多个字符;
将所述多个候选词依次输入关键词提取模型,得到各个候选词相对于各个字符的注意力权重,所述注意力权重用于表征每个候选词分别与各个字符的语义关联程度;
从各个候选词中选择在所述标题中出现的候选词;
根据所述选择出的候选词相对于各个字符的注意力权重,确定提取阈值;
根据所述提取阈值,从所述各个候选词中确定出所述文本的关键词。
本申请实施例提供的关键词提取方法,充分利用了文本和标题之间的语义关系,即使对于短文本也能提取出准确的关键词;另一方面,该文本的关键词的提取方法,无需人工设定阈值和人工标注数据,能够根据不同的文本和标题自适应调整提取关键词的阈值,具有较好的泛化性能,同时能够为诸多搜索场景提供服务,提升用户搜索体验。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1为本申请一些实施例提供的一种应用场景的结构示意图;
图2为本申请一些实施例提供的关键词提取模型训练方法、关键词提取方法的框架图;
图3为本申请一些实施例提供的关键词提取模型的训练方法的流程图;
图4为本申请一些实施例提供的关键词提取方法的流程图;
图5为本申请一些实施例提供的关键词提取模型的训练方法的流程图;
图6为本申请一些实施例所述的关键词提取模型的结构示意图;
图7为本申请一些实施例提供的关键词提取方法的流程图;
图8为本申请一些实施例中用户界面的示意图;
图9为本申请一些实施例中另一用户界面示意图;
图10为本申请一些实施例中又一用户界面示意图;
图11为本申请一些实施例提供的关键词提取模型的训练装置的结构示意图;
图12为本申请一些实施例提供的关键词提取装置的结构示意图;
图13为本申请一些实施例的计算设备的硬件结构示意图。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
为了描述上的简洁和直观,下文通过描述若干代表性的实施例来对本申请的方案进行阐述。实施例中大量的细节仅用于帮助理解本申请的方案。但是很明显,本申请的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本申请的方案,一些实施方式没有进行细致地描述,而是仅给出了框架。下文中,“包括”是指“包括但不限于”,“根据……”是指“至少根据……,但不限于仅根据……”。下文中没有特别指出一个成分的数量时,意味着该成分可以是一个也可以是多个,或可理解为至少一个。
本申请实施例提出了一种关键词提取模型的训练方法以及一种关键词提取方法。本申请实施例提供的方法利用了文本和标题之间的语义关系,对文本切分得到的每个候选词赋予不同的注意力权重,该注意力权重表征该候选词与标题中各个字符的语义关联程度,无需人工设定阈值和人工标注数据,能够自适应的调整阈值,对于短文本也可以提取准确的关键词,。
本申请实施例提供的关键词提取模型的训练方法可以由任何具有数据处理能力的计算机设备来执行,例如,终端设备或者服务器等等。
图1显示了本申请一些实施例提供的一种应用场景100的示意图。如图1所示,本申请实施例的关键词提取模型的训练方法可以由模型训练装置116来执行。
在一些实施例中,所述模型训练装置116可以在一个或多个独立的数据处理装置或分布式计算机网络上实现,也可以集成在所述服务器13或者终端设备11中。
在一些实施例中,所述模型训练装置116用于对关键词提取模型进行训练,得到训练好的关键词提取模型,并将所述训练好的关键词提取模型提供给服务器13,以便服务器13为终端设备11提供基于该关键词提取模型的搜索服务,例如为用户提供小程序搜索服务、公众号搜索服务、表情图像搜索服务等等。
在本申请的一些实施例中,上述终端设备11可以是个人计算机(Personal Computer,PC)、笔记本电脑等智能终端设备,也可以是智能手机、平板电脑等智能移动终端设备。
在本申请的一些实施例中,上述终端设备11可以通过应用程序14以及网络12连接至服务器13。上述终端设备11可以通过应用程序14向服务器13发送用户输入的检索词,以使服务器13将用户输入的上述检索词与存储的锚文本进行对比,当用户的检索词包含任一锚文本时,展示该锚文本对应的搜索结果,例如小程序、公众号或表情图像。
网络12可以是无线网络也可以是有线网络。如图1所示,在接入网一侧,终端设备11是可以有线的方式或无线的方式接入到网络12;而在核心网一侧,服务器13一般是通过有线的方式接入网络12。当然,服务器13也可以通过无线方式连接到网络12。
服务器13,用于提取文本以及所述文本对应的标题中的关键词,并将关键词作为文本的锚文本;接收用户输入的检索词,将用户输入的上述检索词与存储的锚文本进 行对比,当确定用户的检索词命中某一锚文本时,将与所述锚文本对应的内容反馈至终端设备11,以使终端设备展示所述锚文本对应的内容,上述文本可以是小程序、公众号、表情图像的描述文本,其中,所述锚文本,用于描述所指向的页面的内容,例如所述页面是小程序时,所述锚文本用于描述所述小程序的内容。
图2为本申请实施例提供的关键词提取模型的训练方法以及关键词提取方法的框架图。如图2所示,本申请实施例提供的关键词提取模型的训练方法以及关键词提取方法包括三个阶段:文本处理阶段、模型训练阶段和关键词生成阶段。
在本申请实施例中,所述的关键词提取模型可以是基于注意力机制的编码-解码模型,包括编码模型和解码模型,编码模型将文本编码成一个文本特征表示,这个文本特征表示作为输入被传送到解码模型得到目标序列(即关键词)。
在本申请实施例中,利用文本和标题之间具有相同语义(也就是文本和标题的语义相对应)的特点,解决了需要大量人工标注数据的问题。
在文本处理阶段,分别将文本和与文本具有相同语义的标题进行预处理(例如,特殊符号处理、英文大小写转换、繁简体字统一等),然后对预处理后的文本进行分词处理得到多个候选词,对预处理后的标题按字符粒度切分得到多个字符。
在模型训练阶段,将上述多个候选词输入编码模型得到上述多个候选词的文本特征表示;利用注意力机制,根据上述多个候选词的文本特征表示得到各个候选词相对于各个字符的注意力权重,根据各个候选词相对于各个字符的注意力权重对多个候选词的文本特征表示进行调整得到上述文本的文本特征表示,将文本的文本特征表示和上述切分得到的多个字符依次输入解码模型,得到预测的标题,将预测出的标题与切分得到的多个字符进行对比,来评估预测的准确度,进而调整各个候选词的相对于各个字符的注意力权重,直至预测出的标题与切分得到的多个字符一致。
在关键词生成阶段,可以根据训练好的关键词提取模型,得到文本中每个候选词相对于标题中每个字符的注意力权重,从所有候选词中选择在标题中出现的候选词,利用这些候选词的注意力权重,确定出提取阈值,然后根据确定出的提取阈值从各个候选词中筛选出关键词。
在本申请实施例中,文本中通常包含一些关键词,而这些关键词有可能在标题中并没有出现,将这些关键词提取出来作为锚文本,对提升用户的搜索体验至关重要。因此,在本申请实施例中,可以根据出现在标题中的候选词的注意力权重来确定提取阈值,从而能够自适应的确定出提取阈值,无需预先设定阈值,对于一些和标题毫无关系的文本也具有一定的鲁棒性。下面通过几个实施例对本申请实施例提供的文本的关键词提取模型的训练方法以及关键词的提取方法进行说明。
图3示出了本申请一些实施例提供的关键词提取模型的训练方法的流程图。该方法可以由图1所示的模型训练装置116执行。该关键词提取模型基于注意力机制,包括编码模型和解码模型。
如图3所示,该关键词提取模型的训练方法包括以下步骤:
步骤201:模型训练装置对训练文本进行分词处理,得到多个候选词;对与所述训练文本具有相同语义的训练标题进行切分,得到多个字符。
在上述过程中,与训练文本具有相同语义的训练标题,也即是与训练文本语义相对应的训练标题,例如,当训练文本为小程序的描述文本时,与该训练文本语义相对应的训练标题则为该小程序的标题。
在一些实施例中,所述文本可以是长文本,也可以是短文本。这里,所述短文本是指文本的长度较短,例如,小程序的描述文本、公众号的描述文本等等。
在一些实施例中,可以对上述训练文本和训练标题分别采取不同的分词方式进行分词处理。
对于训练文本,可以根据上述训练文本中各个词语的语义关联程度,对上述训练文本进行分词处理,以得到上述训练文本对应的多个候选词,其中,上述训练文本中各个词语的语义关联程度又可以称为上述文本中各个词语的紧密度。
对于训练标题,由于其包含词语数量较少,不具有完整的句子结构,并且有可能包含各种专有名词,因此,对上述训练标题按照字符粒度进行切分,以得到上述训练标题对应的多个字符。
步骤202:模型训练装置将所述多个候选词依次输入所述编码模型,得到各个候选词的文本特征表示。
在一些实施例中,在将所述多个候选词依次输入所述编码模型之前,在预设的词表中确定所述多个候选词的位置信息,并根据所述多个候选词的位置信息,分别获取所述多个候选词的词向量;将所述多个候选词的词向量依次输入上述编码模型,得到各个候选词的文本特征表示,其中,所述词向量(Word embedding)是一个用于将来自单词表的单词或短语映射到实数的向量。
步骤203:模型训练装置根据各个候选词的注意力权重,对所述各个候选词的文本特征表示进行调整,根据所述各个候选词调整后的文本特征表示,得到所述训练文本的文本特征表示。
在一些实施例中,在基于注意力机制的编码-解码模型中,在将编码得到文本特征表示输入到解码模型之前,由于文本中各个候选词对于解码得到的目标序列的影响力不同,需要确定各个候选词相对于目标序列中各个字符的注意力权重。在模型训练过程中,对所述注意力权重不断的进行迭代调整,使得解码得到的目标序列与训练标题趋于一致。
在一些实施例中,在根据注意力机制得到各个候选词的注意力权重后,根据各个候选词的注意力权重,对所述各个候选词的文本特征表示进行加权;将加权后的各个候选词的文本特征表示进行求和,得到所述训练文本的文本特征表示。
步骤204:模型训练装置将所述训练文本的文本特征表示和切分得到的所述多个字符依次输入所述解码模型,得到多个目标字符。
步骤205:模型训练装置对切分得到的所述多个字符和所述多个目标字符进行比 较,根据比较结果分别调整所述各个候选词的文本特征表示对应的注意力权重。
在一些实施例中,可以确定切分得到的所述多个字符和所述多个目标字符进行之间的误差,并根据所述的误差确定出梯度,所述梯度用于表征所述注意力权重的更新方向;根据确定出的所述梯度,调整所述各个候选词的文本特征表示对应的注意力权重。
在一些实施例中,当切分得到的所述多个字符和所述多个目标字符一致时,可以结束训练所述关键词提取模型。可选地,当迭代训练的次数到达次数阈值时,也可以结束训练该关键词提取模型。
在一些实施例中,完成训练的上述关键词提取模型建立了文本进行分词处理得到的多个候选词与标题切分得到的多个字符之间的关联关系,能够根据注意力机制为各个候选词分配注意力权重,并且为每个候选词分配的注意力权重能够表征该候选字与标题中各个字符的语义关联程度。
本申请的一些实施例提供的关键词提取模型的训练方法,一方面无需大量人工标注数据,能够有效地节约人工成本;另一方面,由于文本和标题具有相同的语义,该关键词提取模型的训练方法利用了文本和标题的语义关系,训练得到的模型能够为文本中的候选词分配合适的注意力权重,提高了关键词提取的精确度。
图4示出了本申请一些实施例提供的关键词的提取方法的流程图。该方法可以由图1所示的服务器13执行。如图4所示,该关键词的提取方法包括以下步骤:
步骤301:服务器对文本进行分词处理,得到多个候选词;对与所述文本具有相同语义的标题进行切分,得到多个字符。
在上述过程中,与文本具有相同语义的标题,也即是与文本语义相对应的标题,例如,当文本为小程序的描述文本时,与该文本语义相对应的标题则为该小程序的标题。
在一些实施例中,在对文本和标题进行分词处理之前,分别对上述文本和标题进行预处理,例如,所述预处理包括特殊符号处理、英文大小写转换以及繁简体统一处理。
在一些实施例中,可以对上述文本和标题分别采取不同的分词方式进行分词处理。
对于文本,可以根据上述文本中各个词语的语义关联程度,对上述文本进行分词处理,以得到所述文本对应的多个候选词,其中,所述文本中各个词语的语义关联程度也可以称为所述文本中各个词语的紧密度。
对于标题,由于所述标题的词语数量较少,不具有完整的句子结构,并且有可能包含各种专有名词,因此,对标题按照字符粒度进行切分,以得到所述标题对应的多个字符。如果标题也按词切分,而文本中通常会出现标题的词,且通常出现在文本的起始位置,那么模型则倾向于将起始的词作为输出,从而不考虑文本中各个词的语义联系,这将难以完成关键词提取任务。而且,相对于输入的文本而言,标题的词数太少,模型难以捕获足够多的信息。另外,文本通常具有完整的句子结构,符合语法, 切词较为简单。而标题往往具有各式各样的专有名词,且仅仅是一个句法单元片段,切词的准确率不高。
步骤302:服务器将所述多个候选词依次输入所述关键词提取模型,得到各个候选词相对于各个字符的注意力权重,所述注意力权重用于表征每个候选词分别与各个字符的语义关联程度。
在一些实施例中,所述关键词提取模型可以包括编码模型和解码模型。在将所述多个候选词依次输入所述关键词提取模型之前,对于每个候选词,在预设的词表中确定所述候选词的位置信息,并根据所述候选词的位置信息,分别获取所述候选词的词向量;将所述多个候选词的词向量依次输入所述编码模型,得到各个候选词的文本特征表示,其中,所述词向量(Word embedding)是一个用于将来自单词表的单词或短语映射到实数的向量。
步骤303:服务器从各个候选词中选择在所述标题中出现的候选词。
在本申请实施例中,文本中通常包含一些关键词,而这些关键词有可能在标题中并没有出现,将这些关键词提取出来作为锚文本,对提升用户的搜索体验至关重要。因此,在本申请实施例中,可以根据出现在标题中的候选词的注意力权重来确定提取阈值,从而能够自适应的确定出提取阈值,
在一些实施例中,当所述多个候选词中没有一个在所述标题中出现过,则表明该文本与所述标题的语义关联程度不大,舍弃所述多个候选词,结束本流程。
步骤304:服务器根据所述选择出的候选词相对于各个字符的注意力权重,确定提取阈值。
在一些实施例中,对于每个选择出的候选词,根据该候选词相对于各个字符的注意力权重,确定该候选词对应的权重;根据各个选择出的候选词对应的权重,确定出所述提取阈值。
在一些实施例中,由于注意力权重为各个候选词相对于各个字符的注意力权重,因此每个候选词的注意力权重的个数与标题中的字符的个数相同。对于步骤303选择出的每个候选词,将所述候选词相对于各个字符的注意力权重中,取值最大的注意力权重,作为该候选词对应的权重。
在一些实施例中,对于步骤303选择出的每个候选词,也可以将所述候选词相对于各个字符的注意力权重的平均值或中位数作为该候选词对应的权重。
在为步骤303选择出的各个候选词选择出对应的权重后,可以根据所述各个选择出的候选词对应的权重中的最大值,确定所述提取阈值。
步骤305:服务器根据所述提取阈值,从所述各个候选词中确定出所述文本的关键词。
在一些实施例中,对于所述候选词中的每个候选词,如果该候选词对应的权重大于所述提取阈值,将所述候选词作为所述文本的关键词。
本申请的一些实施例提供了一种文本的关键词的提取方法,一方面,利用了文本 和标题的语义关系,提取出的关键词能够反映该文本的核心语义;另一方面,该文本的关键词的提取方法,无需人工设定阈值,且根据不同的文本和标题自适应调整提取关键词的阈值,具有较好的泛化性能,同时能够为诸多搜索场景提供服务,提升用户搜索体验。
下面结合附图,以所述文本为短文本为例,介绍本申请的一些实施例提供的关键词提取模型的训练方法。图5示出了本申请的一些实施例提供的关键词提取模型的训练方法的流程图。该方法可以由图1所示的模型训练装置116执行。如图5所示,该关键词提取模型的训练方法包括以下步骤:
步骤401:模型训练装置分别对训练文本和与所述训练文本具有相同语义的训练标题进行预处理。
在上述过程中,与训练文本具有相同语义的训练标题,也即是与训练文本语义相对应的训练标题,例如,当训练文本为小程序的描述文本时,与该训练文本语义相对应的训练标题则为该小程序的标题。
在一些实施例中,所述预处理包括特殊符号处理、英文大小写转换以及繁简体统一处理。例如,将所述训练文本和训练标题中的大写的英文字母转换为小写的英文字母,等等。
步骤402:模型训练装置对所述训练文本进行分词处理,得到多个候选词。
在一些实施例中,根据所述训练文本中各个词语的语义关联程度,对所述训练文本进行分词处理,以得到所述训练文本对应的多个候选词,其中,所述训练文本中各个词语的语义关联程度又可以称为所述文本中各个词语的紧密度。
例如,所述训练文本为“招商银行分行遍布北京、上海、杭州等”则可以将所述文本进行分词处理得到对应的多个候选词“招商”、“银行”、“分行”、“遍布”、“北京”、“上海”、“杭州”“等”。
步骤403:模型训练装置对所述训练标题以字符为单位进行切分,得到多个字符。
在一些实施例中,一方面如果训练标题也按词切分,而训练文本中通常会出现训练标题中的词语,且通常出现在训练文本的起始位置,那么关键词提取模型则倾向于将起始的词作为输出,从而不考虑训练文本中各个词的语义联系,这将难以完成我们的关键词生成任务。另一方面,相对于输入的训练文本而言,训练标题的词数太少,关键词提取模型难以捕获足够多的信息。再一方面,训练文本通常具有完整的句子结构,符合语法,切词较为简单,而训练标题往往具有各式各样的专有名词,且仅仅是一个句法单元片段,切词的准确率不高。因此,对所述训练标题按照字符粒度进行切分,以得到所述训练标题对应的多个字符。
例如,将所述训练标题“招商银行”按照字符粒度进行切分得到对应的多个字符“招”、“商”、“银”、“行”。
步骤404:模型训练装置在预设的词表中确定所述多个候选词的位置信息,并根 据所述多个候选词的位置信息,分别获取所述多个候选词的词向量。
在一些实施例中,所述预设的词表是指针对所有在标题出现过的词建立的词表,以便可以根据该词表找到任一词的位置信息。所述词向量(Word embedding),是一个用于将来自单词表的单词或短语映射到实数的向量。
在上述过程中,各个候选词的位置信息和各个候选词的词向量可以是对应存储的,使得当在词表中查询到各个候选词的位置信息后,根据位置信息与词向量的映射关系,在数据库中查询得到与各个位置信息对应的各个词向量。
步骤405:模型训练装置将所述多个候选词的词向量依次输入所述编码模型,得到各个候选词的文本特征表示。
在一些实施例中,所述编码模型可以由L层长短时记忆网络单元(LSTM:Long Short-Term Memory)组成;所述解码模型可以由L层LSTM单元组成。
或者,所述编码模型和解码模型也可以采用其他方式实现,例如递归门单元(GRU,Gate Recurrent Unit)等。
图6为本申请实施例中关键词提取模型的结构示意图。如图6所示,所述关键词提取模型由编码模型501和解码模型502组成。x
1至x
T是文本进行分词处理以后得到的多个候选词,T为候选词x
1至x
T的个数,在所述预设的词表中确定所述多个候选词的位置信息,并根据所述多个候选词的位置信息,分别得到所述多个候选词对应的词向量503,词向量503的个数为所述多个候选词的个数,将所述多个候选词对应的词向量503依次输入编码模型501。
如图6所示,编码模型501中包括3层LSTM单元。首先在第一时刻将x
1的词向量输入LSTM单元e
1,1,然后在第二时刻将LSTM单元e
1,1的输出以及候选词x
2的词向量作为LSTM单元e
1,2的输入,这样直至第T时刻将LSTM单元e
1,T-1的输出以及候选词x
T-1的词向量输入LSTM单元e
1,T完成了编码模型501的第一层LSTM单元的编码;再将LSTM单元e
1,1的输出作为LSTM单元e
2,1的输入,然后将LSTM单元e
2,1的输出和LSTM单元e
1,2的输出作为LSTM单元e
2,2的输入,这样直至LSTM单元e
2,T完成了编码模型501的第二层LSTM单元的编码,这样以此类推,编码模型501完成3层LSTM单元的编码,得到各个候选词的文本特征表示,其中,LSTM单元e
3,1输出的向量为候选词x
1的文本特征表示h
1,LSTM单元e
3,2输出的向量为候选词x
2的文本特征表示h
2,LSTM单元e
3,i输出的向量为候选词x
i的文本特征表示h
i,依次类推,LSTM单元e
3,T输出的向量为候选词x
T的文本特征表示h
T,1<=i<=T。
更进一步的,所述LSTM单元e
3,1至LSTM单元e
3,T输出的T个文本特征表示h
1至h
T为T个向量,这T个向量可以组成一个文本特征矩阵,也即所述文本特征矩阵是由所述T个词向量组成,其中,所述LSTM单元e
3,1至LSTM单元e
3,T输出的T个向量的维度可以与所述T个候选词的词向量的维度相同,也可以不同。
从以上编码模型的编码过程可以看出,由LSTM单元构成的编码模型,在编码的过程中,不仅考虑了当前时刻输入的候选词的信息,也考虑了上一个LSTM单元的输 出,也即考虑了上一时刻输入的候选词的信息,因此,该编码模型输出的各个文本特征表示能够反映所述文本的核心语义。
步骤406:模型训练装置根据注意力机制,得到不同时刻各个候选词的注意力权重。
在一些实施例中,所述注意力权重用于表征每个候选词分别与各个字符的语义关联程度。仍以图6为例,所述编码模型501输出的T个候选词x
1至x
T的文本特征表示h
i,根据注意力机制,得到不同时刻的T个候选词的注意力权重α
t1、α
t2、…α
ti…α
tT,其中,α
ti是第t时刻预测字符y
t时,根据注意力机制为各个候选词分配的其与标题中的字符y
t′的注意力分配概率,表示在第t时刻预测字符y
t时,第i个候选词x
i与标题中的字符y
t′的语义关联程度,预测字符y
t与标题中的字符y
t′对应,t为正整数,1<=t<=K,K为所述标题进行切分后得到的所述多个字符的个数。
步骤407:模型训练装置根据不同时刻各个候选词的注意力权重,对所述各个候选词的文本特征表示进行调整,根据所述调整后的各个候选词的文本特征表示,得到所述训练文本在不同时刻的文本特征表示。
在一些实施例中,在根据注意力机制得到不同时刻各个候选词的注意力权重后,根据不同时刻各个候选词的注意力权重,对所述各个候选词的文本特征表示进行加权;将加权后的各个候选词的文本特征表示进行求和,得到所述训练文本在不同时刻的文本特征表示,也即得到所述文本在不同时刻的上下文向量,该上下文向量能够表征所述文本的中间语义。
具体的,仍以图6为例,在得到不同时刻的T个候选词的注意力权重α
t1、α
t2、…α
ti…α
tT之后,根据不同时刻的T个候选词的注意力权重α
t1、α
t2、…α
ti…α
tT,对各个候选词的文本特征表示h
i进行加权求和,得到所述文本在不同时刻的文本特征表示,也即得到所述文本在第t时刻的上下文向量C
t,具体公式(1)如下:
其中,α
ti为在第t时刻预测字符y
t时,第i个候选词x
i的注意力权重;h
i为候选词x
i的文本特征表示,1<=i<=T,1<=t<=K。
步骤408:模型训练装置将所述训练文本在不同时刻的文本特征表示和所述切分得到的多个字符依次输入所述解码模型,得到多个目标字符。
在一些实施例中,所述关键词提取模型还包括解码模型。在得到所述文本在不同时刻的文本特征表示之后,将所述训练文本在不同时刻的文本特征表示和所述切分得到的多个字符依次输入所述解码模型,得到所述解码模型解码出的所述多个目标字符。
具体的,将所述训练文本在不同时刻的文本特征表示和所述切分得到的多个字符依次输入所述解码模型,所述解码模型根据当前时刻的文本特征表示和前一时刻对应的字符解码出当前时刻对应的目标字符。
如图6所示,解码模型502中包括3层LSTM单元。首先在第一时刻将所述文本 在第一时刻的文本特征表示C
1和预设向量输入LSTM单元d
1,1,然后在第二时刻将LSTM单元d
1,1的输出、所述文本在第二时刻的文本特征表示C
2以及切分得到的多个字符中的第一个字符y
1′作为LSTM单元d
1,2的输入,以此类推,将在第t时刻将LSTM单元d
1,t-1的输出、所述文本在第t-1时刻的文本特征表示C
t-1以及切分得到的多个字符中的第t-1个字符y
t-1′作为LSTM单元d
1,t的输入,这样直至第K时刻将LSTM单元d
1,K-1的输出、所述文本在第K时刻的文本特征表示C
K以及切分得到的多个字符中的第K个字符y
K′输入LSTM单元e
1,K,所述第K个字符后面为预设的结束字符,比如eos,直至遇到结束字符eos完成了解码模型502的第一层LSTM单元的解码;再将LSTM单元d
1,1的输出作为LSTM单元d
2,1的输入,然后将LSTM单元d
2,1的输出和LSTM单元d
1,2的输出作为LSTM单元d
2,2的输入,这样直至LSTM单元d
2,K完成了解码模型502的第二层LSTM单元的解码,这样以此类推,解码模型502完成3层LSTM单元的解码,得到解码出的K个目标字符y
1至y
K。
步骤409:模型训练装置对所述切分得到的多个字符和所述多个目标字符进行比较,根据比较结果分别调整所述各个候选词的文本特征表示对应的注意力权重。
在一些实施例中,对所述切分得到的多个字符和所述多个目标字符进行比较,得到相应的误差,并根据得到的误差确定出梯度,所述梯度用于表征所述注意力权重的更新方向;根据确定出的所述梯度,调整所述各个候选词的文本特征表示对应的注意力权重。
具体的,将切分得到的多个字符y
1′至y
K′与解码出的目标字符y
1至y
K进行对比,根据比较结果得到的误差,确定出表征注意力权重的更新方向的梯度,根据梯度调整所述各个候选词x
1至x
T的文本特征表示h
1至h
T对应的注意力权重α
t1、α
t2、…α
ti…α
tT,直至切分得到的多个字符y
1′至y
K′与解码出的目标字符y
1至y
K一致,停止训练所述关键词提取模型。
在一些实施例中,完成训练的所述关键词提取模型建立了文本进行分词处理得到的多个候选词与标题切分得到的多个字符之间的关联关系,能够根据注意力机制为各个候选词分配注意力权重,并且为每个候选词分配的注意力权重能够表征该候选字与标题中各个字符的语义关联程度,当某个候选词与某个字符的注意力权重取值越大时,代表该候选词与该字符之间的语义关联程度越强,也即是说,两者的紧密度越高。
通过以上技术方案,一方面无需人工标注大量的数据集,能够有效地节约人工成本;另一方面,由于文本和标题具有相同的核心语义,该关键词提取模型的训练方法利用了文本和标题的结构信息,训练得到的模型能够为文本中的候选词分配合适的注意力权重,提高了关键词提取的精确度。
下面结合附图,以所述文本为短文本为例,介绍本申请一些实施例提供的关键词的提取方法。
图7示出了本申请的一些实施例提供的关键词提取方法的流程图。该方法可以由图1所示的服务器13执行。如图7所示,该关键词的提取方法包括以下步骤:
步骤601:服务器分别对文本和与所述文本具有相同语义的标题进行预处理。
在上述过程中,与文本具有相同语义的标题,也即是与文本语义相对应的标题,例如,当文本为小程序的描述文本时,与该文本语义相对应的标题则为该小程序的标题。
在一些实施例中,所述预处理包括特殊符号处理、英文大小写转换以及繁简体统一处理。例如,将所述训练文本和训练标题中的大写的英文字母转换为小写的英文字母,等等。
步骤602:服务器对所述文本进行分词处理,得到多个候选词。
在一些实施例中,根据所述文本中各个词语的语义关联程度,对所述文本进行分词处理,以得到所述文本对应的多个候选词,其中,所述文本中各个词语的语义关联程度又可以称为所述文本中各个词语的紧密度。
例如,一个短文本为“招商银行分行遍布北京、上海、杭州等”,与该短文本具有相同语义的标题为“招商银行”,则可以将所述短文本进行分词处理得到对应的多个候选词“招商”、“银行”、“分行”、“遍布”、“北京”、“上海”、“杭州”“等”。
步骤603:服务器对所述标题以字符为单位进行切分,得到多个字符。
例如,将所述标题按照字符粒度进行切分得到对应的多个字符“招”、“商”、“银”、“行”。
本步骤的实现方法与上述步骤403类似,这里不做赘述。
步骤604:服务器在预设的词表中确定所述多个候选词的位置信息,并根据所述多个候选词的位置信息,分别获取所述多个候选词的词向量。
在一些实施例中,所述词向量(Word embedding)是一个用于将来自单词表的单词或短语映射到实数的向量。
本步骤的实现方法与上述步骤404类似,这里不做赘述。
步骤605:服务器将所述多个候选词的词向量依次输入所述编码模型,得到各个候选词的文本特征表示。
本步骤的实现方法与步骤405类似,在此不再赘述。
步骤606:服务器根据注意力机制,得到各个候选词相对于标题中各个字符的注意力权重。
在一些实施例中,所述注意力权重用于表征各个时刻的候选词与各个字符的语义关联程度。
本步骤的实现方法与步骤406类似,在此不再赘述。
步骤607:服务器从各个候选词中选择在所述标题中出现的候选词。
例如,一个短文本经过分词处理后得到4个候选词:“杭州”、“银行”、“遍布”、“浙江”,与该文本具有相同语义的的标题为“杭州银行”,因此,可以确定在标题中出现的候选词为候选词“杭州”和候选词“银行”。
步骤608:服务器根据所述选择出的候选词相对于各个字符的注意力权重,确定 提取阈值。
在一些实施例中,对于每个选择出的候选词,根据该候选词相对于各个字符的注意力权重,确定该候选词对应的权重;根据各个选择出的候选词对应的权重,确定出所述提取阈值。
在一些实施例中,对于每个选择出的候选词,将所述候选词相对于各个字符的注意力权重中,取值最大的注意力权重,作为该候选词对应的权重。更进一步的,将所述候选词相对于各个字符的注意力权重的平均值或中位数作为该候选词对应的权重。
在一些实施例中,由于注意力权重为各个候选词相对于各个字符的注意力权重,因此每个候选词的注意力权重的个数与标题中的字符的个数相同。在为各个候选词选择出对应的权重后,可以根据所述各个选择出的候选词对应的权重中的最大值,确定所述提取阈值。
例如,所述标题中的字符个数为K,将每个候选词的K个注意力权重中的最大值作为该候选词对应的权重,更进一步的,还可以将该候选词的K个注意力权重的平均值或者中位数作为该候选词对应的权重。
例如,一个短文本经过分词处理后得到4个候选词:“杭州”、“银行”、“遍布”、“浙江”,与该短文本具有相同语义的的标题为“杭州银行”,因此,只有候选词“杭州”和候选词“银行”在标题“杭州银行”中出现过,因此,候选词“杭州”和候选词“银行”为选择出的候选词,提取阈值从候选词“杭州”和候选词“银行”中确定。假设这4个候选词对应的权重分别为:0.3、0.2、0.1、0.4,由于候选词“杭州”对应的权重0.3大于候选词“银行”对应的权重0.2,因此将提取阈值确定为0.3。
在一些实施例中,当所述多个候选词中没有一个在所述标题中出现过,则表明该文本与所述标题的语义关联程度不大,舍弃所述多个候选词,结束本流程。
步骤609:服务器根据所述提取阈值,从所述各个候选词中确定出所述文本的关键词。
在一些实施例中,对于所述候选词中的每个候选词,如果该候选词对应的权重大于所述提取阈值,将所述候选词作为所述文本的关键词。
仍以步骤608中的例子为例,“杭州”、“银行”、“遍布”、“浙江”这4个候选词对应的权重分别为:0.3、0.2、0.1、0.4,根据这4个候选词对应的权重的大小对这4个候选词进行排序,可以得到排序结果为“浙江”(0.4)、“杭州”(0.3)、“银行”(0.2)、“遍布”(0.1),由于确定的提取阈值确定为0.3,因此,可以根据提取阈值确定出候选词“浙江”对应的权重大于所述提取阈值,也即排序结果为候选词“浙江”位于所述提取阈值对应的候选词“杭州”的前面,因此,将候选词“浙江”为该文本的关键词。
在一些实施例中,本申请的一些实施例提供的关键词的提取方法还可以包括:
步骤610:服务器将所述关键词作为所述文本的锚文本。
步骤611:服务器当确定用户的检索词命中所述锚文本时,将确定出来与所述锚 文本对应的文本反馈至终端设备,以使终端设备展示所述锚文本对应的文本。
在一些实施例中,除了将从文本中提取出的关键词作为锚文本之外,将文本对应的标题进行切分得到标题对应的关键词,将标题对应的关键词也分别作为锚文本,当确定用户的检索词命中某一锚文本时,将与所述锚文本对应的内容反馈至终端设备,以使终端设备展示所述内容,例如,可以是小程序、公众号的描述页面等。
图8为本申请实施例中用户界面的示意图。如图8所示,用户点击终端设备的中的应用程序提供的界面61中的“搜一搜”控件62,应用程序响应于用户的点击操作,展示界面63,用户可以在搜索框64中输入检索词65。图8中假设用户输入的检索词65为“杭州银行”。
图9为本申请实施例中另一用户界面的示意图。如图9所示,根据用户输入的检索词“杭州银行”65,终端设备展示出两条搜索结果,一个是杭州银行的公众号,包括该公众号的标题69和描述文本67;另一个是杭州银行的小程序,包括该小程序的标题60和描述文本68,可以大大提高用户的搜索体验。
图10为本申请一些实施例中又一用户界面示意图。如图10所示,图10中的用户界面a为其他实施例的应用效果示意图。根据图10中的用户界面a,当用户需要通过输入检索词“篮球”620来搜索“热血大灌篮”的小程序时,由于“热血大灌篮”的小程序的名称中并不包括“篮球”,因此,服务器只能根据检索词“篮球”620找到标题中出现检索词“篮球”620的小程序“跃动篮球”621和公众号“篮球技巧教学”622,并不能找到“热血大灌篮”的小程序。可以看出,相关技术确定的锚文本只能是标题中出现的词语,并不能提取出文本中表明核心语义的关键词作为锚文本,进而终端设备只能展示出名称中包括检索词“篮球”620的小程序、公众号以及服务等,不能展示“热血大灌篮”的小程序。
更进一步的,图10中的用户界面b为本申请实施例提供的关键词提取方法的应用效果示意图。根据图10中的用户界面a,当用户需要通过输入检索词“篮球”620来搜索“热血大灌篮”的小程序时,由于热血大灌篮”小程序的描述文本为“手感最爽的投篮游戏,通过点击操纵篮球,各种花式进球,与好友一较高下;献给喜爱NBA和灌篮高手的天才”,因此,通过本申请实施例提供的关键词提取方法,可以提取出“篮球”作为上述热血大灌篮”小程序的描述文本的关键词,并将关键词“篮球”作为热血大灌篮”小程序的锚文本。当用户输入检索词“篮球”620时,服务器可以通过检索词“篮球”620确定出热血大灌篮”小程序的锚文本“篮球”,进而找到热血大灌篮”小程序,并反馈给终端设备以使其在搜索结果中展示热血大灌篮”小程序623。
本申请提供的技术方案,由于文本和标题具有相同的核心语义,该文本的关键词的提取方法利用了文本和标题的结构信息,提取出的关键词能够反映该文本的核心语义;另一方面,该文本的关键词的提取方法,无需人工设定阈值,且根据不同的文本和标题自适应调整提取关键词的阈值,具有较好的泛化性能,同时能够为诸多搜索场景提供服务,提升用户搜索体验。
对应以上关键词提取模型的训练方法,本申请还提供了实现上述方法的装置700。图11为本申请一些实施例提供的装置的结构示意图。如图11所示,该装置700包括:分词模块701、编码模块702、注意力模块703、解码模块704以及比较模块705,其中:
所述分词模块701,用于对训练文本进行分词处理,得到多个候选词;对与所述训练文本具有相同语义(也即是语义相对应)的训练标题进行切分,得到多个字符;
所述编码模块702,用于将所述多个候选词依次输入所述编码模型,得到各个候选词的文本特征表示;
所述注意力模块703,用于根据各个候选词的注意力权重,对所述各个候选词的文本特征表示进行调整;根据所述调整后的各个候选词的文本特征表示,得到所述训练文本的文本特征表示;
所述解码模块704,将所述训练文本的文本特征表示和所述切分得到的多个字符输入所述解码模型,得到多个目标字符;
所述比较模块705,对所述切分得到的多个字符和所述多个目标字符进行比较,根据比较结果分别调整所述各个候选词的文本特征表示对应的注意力权重。
在一些实施例中,所述注意力模块703进一步用于根据各个候选词在不同时刻的注意力权重,对所述各个候选词的文本特征表示进行加权;将加权后的各个候选词的文本特征表示进行求和,得到所述训练文本在不同时刻的文本特征表示。
在一些实施例中,所述比较模块705进一步用于:
确定所述切分得到的多个字符和所述多个目标字符之间的误差,并根据所述误差确定出梯度,所述梯度用于表征所述注意力权重的更新方向;
根据确定出的所述梯度,调整所述各个候选词的文本特征表示对应的注意力权重。
在一些实施例中,当比较模块705确定所述切分得到的多个字符和所述多个目标字符一致时,结束训练所述关键词提取模型。
通过以上关键词提取模型的训练装置,一方面无需人工标注大量的数据集,能够有效地节约人工成本;另一方面,由于文本和标题具有相同的核心语义,该关键词提取模型的训练方法利用了文本和标题的结构信息,训练得到的模型能够为文本中的候选词分配合适的注意力权重,提高了关键词提取的精确度。
在一些实施例中,提供了一种计算机设备,包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器加载并执行下述步骤:
对训练文本进行分词处理,得到多个候选词;对与该训练文本语义相对应的训练标题进行切分,得到多个字符;
将该多个候选词依次输入关键词提取模型中的编码模型,得到各个候选词的文本特征表示;
根据各个候选词的注意力权重,对该各个候选词的文本特征表示进行调整;根据 该各个候选词调整后的文本特征表示,得到该训练文本的文本特征表示;
将该训练文本的文本特征表示和切分得到的该多个字符输入该关键词提取模型中的解码模型,得到多个目标字符;
对切分得到的该多个字符和该多个目标字符进行比较,根据比较结果分别调整该各个候选词的文本特征表示对应的注意力权重。
可选地,该一个或多个处理器用于执行下述步骤:
根据各个候选词的注意力权重,对该各个候选词的文本特征表示进行加权;
该根据该各个候选词调整后的文本特征表示,得到该训练文本的文本特征表示包括:
将加权后的各个候选词的文本特征表示进行求和,得到该训练文本的文本特征表示。
可选地,该一个或多个处理器用于执行下述步骤:
确定该切分得到的多个字符和该多个目标字符之间的误差,并根据该误差确定出梯度,该梯度用于表征该注意力权重的更新方向;
根据确定出的该梯度,调整该各个候选词的文本特征表示对应的注意力权重。
可选地,该一个或多个处理器用于执行下述步骤:
当该切分得到的多个字符和该多个目标字符一致时,结束训练该关键词提取模型。
对应以上文本的关键词的提取方法,本申请实施例还提供了实现上述方法的装置800。图12为本申请一些实施例提供的装置800的结构示意图。如图12所示,该服务器800包括:分词模块801、输入模块802选择模块803以及确定模块804,其中:
所述分词模块801,用于对文本进行分词处理,得到多个候选词;对与所述文本具有相同语义(也即是语义相对应)的标题进行切分,得到多个字符;
所述输入模块802,用于将所述多个候选词依次输入关键词提取模型,得到各个候选词相对于各个字符的注意力权重,所述注意力权重用于表征每个候选词分别与各个字符的语义关联程度;
所述选择模块803,用于从各个候选词中选择在所述标题中出现的候选词;
所述确定模块804,用于根据所述选择出的候选词的注意力权重,确定提取阈值;根据所述提取阈值,从所述各个候选词中确定出所述文本的关键词。
在一些实施例中,所述输入模块802进一步用于在预设的词表中确定所述多个候选词的位置信息,并根据所述多个候选词的位置信息,分别获取所述多个候选词的词向量;将所述多个候选词的词向量依次输入所述关键词提取模型。
在一些实施例中,所述确定模块804进一步用于:
对于每个选择出的候选词,从该候选词相对于各个字符的注意力权重中,选择对应的权重;根据各个选择出的候选词对应的权重,确定出所述提取阈值。
在一些实施例中,所述对应的权重为:所述候选词相对于各个字符的注意力权重中,取值最大的注意力权重。
在一些实施例中,所述确定模块804进一步用于对于每个选择出的候选词,将所述候选词相对于各个字符的注意力权重中,取值最大的注意力权重,作为该候选词对应的权重。
在一些实施例中,所述确定模块804进一步用于对于每个选择出的候选词,将该候选词相对于各个字符的注意力权重的平均值,确定为该候选词对应的权重。
在一些实施例中,所述确定模块804进一步用于:对于所述候选词中的每个候选词,如果该候选词对应的将对应的权重大于所述提取阈值,将所述候选词作为所述文本的关键词。
在一些实施例中,所述确定模块804进一步用于:根据所述各个选择出的候选词对应的权重中的最大值,确定所述提取阈值。
在一些实施例中,所述确定模块804进一步用于:对于所述候选词中的每个候选词,如果该候选词对应的权重大于所述提取阈值,将所述候选词作为所述文本的关键词。
在一些实施例中,当所述确定模块804确定每个候选词在所述标题中均未出现过时,舍弃所述多个候选词。
在一些实施例中,所述确定模块804,进一步将所述关键词作为所述文本的锚文本;当所述确定模块804确定用户的检索词包含所述锚文本时,将确定出来与所述锚文本对应的文本反馈至终端设备,以使终端设备展示所述锚文本对应的文本。
通过以上关键词提取装置,由于文本和标题具有相同的核心语义,该文本的关键词的提取方法利用了文本和标题的结构信息,提取出的关键词能够反映该文本的核心语义;另一方面,该文本的关键词的提取方法,无需人工设定阈值,且根据不同的文本和标题自适应调整提取关键词的阈值,具有较好的泛化性能,同时能够为诸多搜索场景提供服务,提升用户搜索体验。
在一些实施例中,提供了一种计算机设备,包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器加载并执行下述步骤:
对文本进行分词处理,得到多个候选词;对与该文本语义相对应的标题进行切分,得到多个字符;
将该多个候选词依次输入关键词提取模型,得到各个候选词相对于各个字符的注意力权重,该注意力权重用于表征每个候选词分别与各个字符的语义关联程度;
从各个候选词中选择在该标题中出现的候选词;
根据该选择出的候选词相对于各个字符的注意力权重,确定提取阈值;
根据该提取阈值,从该各个候选词中确定出该文本的关键词。
可选地,该一个或多个处理器用于执行下述步骤:
对于每个候选词,在预设的词表中确定该候选词的位置信息,并根据该候选词的位置信息,获取该候选词的词向量;
将该多个候选词的词向量依次输入该关键词提取模型。
可选地,该一个或多个处理器用于执行下述步骤:
对于每个选择出的候选词,根据该候选词相对于各个字符的注意力权重,确定该候选词对应的权重;
根据各个选择出的候选词对应的权重,确定出该提取阈值。
可选地,该一个或多个处理器用于执行下述步骤:
对于每个选择出的候选词,将该候选词相对于各个字符的注意力权重中取值最大的注意力权重,作为该候选词对应的权重。
可选地,该一个或多个处理器用于执行下述步骤:
对于每个选择出的候选词,将该候选词相对于各个字符的注意力权重的平均值,确定为该候选词对应的权重。
可选地,该一个或多个处理器用于执行下述步骤:
根据该各个选择出的候选词对应的权重中的最大值,确定该提取阈值。
可选地,该一个或多个处理器用于执行下述步骤:
对于每个候选词,如果该候选词对应权重大于该提取阈值,将该候选词作为该文本的关键词。
可选地,该一个或多个处理器用于执行下述步骤:
当各个候选词在该标题中均未出现过时,舍弃该多个候选词。
图13示出了用于实现本申请实施例提供的关键词提取模型的训练方法和文本的关键词的提取方法的计算设备的组成结构图。该计算设备可以是装置700也可以是装置800。如图13所示,该计算设备包括一个或者多个处理器(Central Processing Unit,CPU)902、通信模块904、存储器906、用户接口910,以及用于互联这些组件的通信总线908。
处理器902可通过通信模块904接收和发送数据以实现网络通信和/或本地通信。
用户接口910包括一个或多个输出设备912,其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口910也包括一个或多个输入设备914,其包括诸如,键盘,鼠标,声音命令输入单元或扩音器,触屏显示器,触敏输入板,姿势捕获摄像机或其他输入按钮或控件等。
存储器906可以是高速随机存取存储器,诸如DRAM(Dynamic Random Access Memory,动态随机存取存储器)、SRAM(Static Random Access Memory,静态随机存取存储器)、DDR RAM(Double Data Rate Random Access Memory,双倍数据速率的随机存取存储器)、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
存储器906存储处理器902可执行的指令集,包括:
操作系统916,包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
应用918,包括用于实现信息处理方法各种应用程序,这种应用程序能够实现上 述各实施例中的处理流程,比如可以包括图11所示的装置700中的部分或全部单元或可以包括图12所示的装置800中的部分或全部单元。各单元或模块701-705或801-804中的至少一个模块可以存储有机器可执行指令。处理器902通过执行存储器906中各模块701-705或801-804中至少一个模块中的机器可执行指令,进而能够实现上述各模块701-705或801-804中的至少一个模块的功能。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令,存储在非易失性存储介质中。因此,各实施例也可以体现为软件产品。
因此,本申请的一些实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,其中,所述计算机指令被处理器执行时实现上述图3、4、5、7中所述方法的步骤。
在一些实施例中,该计算机指令被处理器执行时实现下述步骤:
对文本进行分词处理,得到多个候选词;对与该文本语义相对应的标题进行切分,得到多个字符;
将该多个候选词依次输入关键词提取模型,得到各个候选词相对于各个字符的注意力权重,该注意力权重用于表征每个候选词分别与各个字符的语义关联程度;
从各个候选词中选择在该标题中出现的候选词;
根据该选择出的候选词相对于各个字符的注意力权重,确定提取阈值;
根据该提取阈值,从该各个候选词中确定出该文本的关键词。
可选地,该计算机指令被处理器执行时实现下述步骤:
对于每个候选词,在预设的词表中确定该候选词的位置信息,并根据该候选词的位置信息,获取该候选词的词向量;
将该多个候选词的词向量依次输入该关键词提取模型。
可选地,该计算机指令被处理器执行时实现下述步骤:
对于每个选择出的候选词,根据该候选词相对于各个字符的注意力权重,确定该候选词对应的权重;
根据各个选择出的候选词对应的权重,确定出该提取阈值。
可选地,该计算机指令被处理器执行时实现下述步骤:
对于每个选择出的候选词,将该候选词相对于各个字符的注意力权重中取值最大的注意力权重,作为该候选词对应的权重。
可选地,该计算机指令被处理器执行时实现下述步骤:
对于每个选择出的候选词,将该候选词相对于各个字符的注意力权重的平均值,确定为该候选词对应的权重。
可选地,该计算机指令被处理器执行时实现下述步骤:
根据该各个选择出的候选词对应的权重中的最大值,确定该提取阈值。
可选地,该计算机指令被处理器执行时实现下述步骤:
对于每个候选词,如果该候选词对应权重大于该提取阈值,将该候选词作为该文本的关键词。
可选地,该计算机指令被处理器执行时实现下述步骤:
当各个候选词在该标题中均未出现过时,舍弃该多个候选词。
本申请的一些实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现下述步骤:
对训练文本进行分词处理,得到多个候选词;对与该训练文本语义相对应的训练标题进行切分,得到多个字符;
将该多个候选词依次输入关键词提取模型中的编码模型,得到各个候选词的文本特征表示;
根据各个候选词的注意力权重,对该各个候选词的文本特征表示进行调整;根据该各个候选词调整后的文本特征表示,得到该训练文本的文本特征表示;
将该训练文本的文本特征表示和切分得到的该多个字符输入该关键词提取模型中的解码模型,得到多个目标字符;
对切分得到的该多个字符和该多个目标字符进行比较,根据比较结果分别调整该各个候选词的文本特征表示对应的注意力权重。
可选地,该计算机指令被处理器执行时实现下述步骤:
根据各个候选词的注意力权重,对该各个候选词的文本特征表示进行加权;
该根据该各个候选词调整后的文本特征表示,得到该训练文本的文本特征表示包括:
将加权后的各个候选词的文本特征表示进行求和,得到该训练文本的文本特征表示。
可选地,该计算机指令被处理器执行时实现下述步骤:
确定该切分得到的多个字符和该多个目标字符之间的误差,并根据该误差确定出梯度,该梯度用于表征该注意力权重的更新方向;
根据确定出的该梯度,调整该各个候选词的文本特征表示对应的注意力权重。
可选地,该计算机指令被处理器执行时实现下述步骤:
当该切分得到的多个字符和该多个目标字符一致时,结束训练该关键词提取模型。
各个实施例中,硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如,硬件可以为专门设计的永久性电路或逻辑器件,例如专用处理器,如FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列)或ASIC(Application Specific Integrated Circuit,专用集成电路),用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。
另外,本申请的每个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本申请。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本申请,本申请还提供了一种非易失性存储介质,其中存储有数据处理程序,这种数据处理程序可用于执行本申请上述方法实施例中的任何一种实施例。
图11、12中的模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。
另外,在本申请各个实施例中的装置及各模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上装置或模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅为本申请的可选实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (20)
- 一种关键词提取方法,其特征在于,包括:对文本进行分词处理,得到多个候选词;对与所述文本语义相对应的标题进行切分,得到多个字符;将所述多个候选词依次输入关键词提取模型,得到各个候选词相对于各个字符的注意力权重,所述注意力权重用于表征每个候选词分别与各个字符的语义关联程度;从各个候选词中选择在所述标题中出现的候选词;根据所述选择出的候选词相对于各个字符的注意力权重,确定提取阈值;根据所述提取阈值,从所述各个候选词中确定出所述文本的关键词。
- 根据权利要求1所述的方法,其特征在于,所述将所述多个候选词依次输入关键词提取模型,包括:对于每个候选词,在预设的词表中确定所述候选词的位置信息,并根据所述候选词的位置信息,获取所述候选词的词向量;将所述多个候选词的词向量依次输入所述关键词提取模型。
- 根据权利要求1所述的方法,其特征在于,所述根据所述选择出的候选词相对于各个字符的注意力权重,确定提取阈值,包括:对于每个选择出的候选词,根据该候选词相对于各个字符的注意力权重,确定该候选词对应的权重;根据各个选择出的候选词对应的权重,确定出所述提取阈值。
- 根据权利要求3所述的方法,其特征在于,所述对于每个选择出的候选词,根据该候选词相对于各个字符的注意力权重,确定该候选词对应的权重包括:对于每个选择出的候选词,将所述候选词相对于各个字符的注意力权重中取值最大的注意力权重,作为该候选词对应的权重。
- 根据权利要求3所述的方法,其特征在于,所述对于每个选择出的候选词,根据该候选词相对于各个字符的注意力权重,确定该候选词对应的权重包括:对于每个选择出的候选词,将该候选词相对于各个字符的注意力权重的平均值,确定为该候选词对应的权重。
- 根据权利要求3所述的方法,其特征在于,所述根据各个选择出的候选词对应的权重,确定出所述提取阈值包括:根据所述各个选择出的候选词对应的权重中的最大值,确定所述提取阈值。
- 根据权利要求3所述的方法,其特征在于,所述根据所述提取阈值,从所述各个候选词中确定出所述文本的关键词,包括:对于每个候选词,如果该候选词对应权重大于所述提取阈值,将所述候选词作为所述文本的关键词。
- 根据权利要求1所述的方法,其特征在于,所述方法还包括:当各个候选词在所述标题中均未出现过时,舍弃所述多个候选词。
- 一种关键词提取模型的训练方法,所述关键词提取模型包括编码模型和解码模型,其特征在于,包括:对训练文本进行分词处理,得到多个候选词;对与所述训练文本语义相对应的训练标题进行切分,得到多个字符;将所述多个候选词依次输入所述编码模型,得到各个候选词的文本特征表示;根据各个候选词的注意力权重,对所述各个候选词的文本特征表示进行调整;根据所述各个候选词调整后的文本特征表示,得到所述训练文本的文本特征表示;将所述训练文本的文本特征表示和切分得到的所述多个字符输入所述解码模型,得到多个目标字符;对切分得到的所述多个字符和所述多个目标字符进行比较,根据比较结果分别调整所述各个候选词的文本特征表示对应的注意力权重。
- 根据权利要求9所述的方法,其特征在于,所述根据各个候选词的注意力权重,对所述各个候选词的文本特征表示进行调整,包括:根据各个候选词的注意力权重,对所述各个候选词的文本特征表示进行加权;所述根据所述各个候选词调整后的文本特征表示,得到所述训练文本的文本特征表示包括:将加权后的各个候选词的文本特征表示进行求和,得到所述训练文本的文本特征表示。
- 根据权利要求9所述的方法,其特征在于,所述对所述切分得到的多个字符和所述多个目标字符进行比较,根据比较结果分别调整所述各个候选词的文本特征表示对应的注意力权重,包括:确定所述切分得到的多个字符和所述多个目标字符之间的误差,并根据所述误差确定出梯度,所述梯度用于表征所述注意力权重的更新方向;根据确定出的所述梯度,调整所述各个候选词的文本特征表示对应的注意力权重。
- 根据权利要求9所述的方法,其特征在于,所述方法还包括:当所述切分得到的多个字符和所述多个目标字符一致时,结束训练所述关键词提取模型。
- 一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行下述步骤:对文本进行分词处理,得到多个候选词;对与所述文本语义相对应的标题进行切分,得到多个字符;将所述多个候选词依次输入关键词提取模型,得到各个候选词相对于各个字符的 注意力权重,所述注意力权重用于表征每个候选词分别与各个字符的语义关联程度;从各个候选词中选择在所述标题中出现的候选词;根据所述选择出的候选词相对于各个字符的注意力权重,确定提取阈值;根据所述提取阈值,从所述各个候选词中确定出所述文本的关键词。
- 根据权利要求13所述的计算机设备,其特征在于,所述一个或多个处理器用于执行下述步骤:对于每个候选词,在预设的词表中确定所述候选词的位置信息,并根据所述候选词的位置信息,获取所述候选词的词向量;将所述多个候选词的词向量依次输入所述关键词提取模型。
- 根据权利要求13所述的计算机设备,其特征在于,所述一个或多个处理器用于执行下述步骤:对于每个选择出的候选词,根据该候选词相对于各个字符的注意力权重,确定该候选词对应的权重;根据各个选择出的候选词对应的权重,确定出所述提取阈值。
- 根据权利要求15所述的计算机设备,其特征在于,所述一个或多个处理器用于执行下述步骤:对于每个选择出的候选词,将所述候选词相对于各个字符的注意力权重中取值最大的注意力权重,作为该候选词对应的权重。
- 根据权利要求15所述的计算机设备,其特征在于,所述一个或多个处理器用于执行下述步骤:对于每个选择出的候选词,将该候选词相对于各个字符的注意力权重的平均值,确定为该候选词对应的权重。
- 根据权利要求15所述的计算机设备,其特征在于,所述一个或多个处理器用于执行下述步骤:根据所述各个选择出的候选词对应的权重中的最大值,确定所述提取阈值。
- 根据权利要求13所述的计算机设备,其特征在于,所述关键词提取模型包括编码模型和解码模型,所述一个或多个处理器用于执行下述步骤:对训练文本进行分词处理,得到多个候选词;对与所述训练文本语义相对应的训练标题进行切分,得到多个字符;将所述多个候选词依次输入所述编码模型,得到各个候选词的文本特征表示;根据各个候选词的注意力权重,对所述各个候选词的文本特征表示进行调整;根据所述各个候选词调整后的文本特征表示,得到所述训练文本的文本特征表示;将所述训练文本的文本特征表示和切分得到的所述多个字符输入所述解码模型,得到多个目标字符;对切分得到的所述多个字符和所述多个目标字符进行比较,根据比较结果分别调 整所述各个候选词的文本特征表示对应的注意力权重。
- 一种非易失性机器可读存储介质,其特征在于,存储有机器可读指令,可以使至少一个处理器执行如权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/183,218 US11947911B2 (en) | 2018-12-07 | 2021-02-23 | Method for training keyword extraction model, keyword extraction method, and computer device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811494250.X | 2018-12-07 | ||
CN201811494250.XA CN110232183B (zh) | 2018-12-07 | 2018-12-07 | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/183,218 Continuation US11947911B2 (en) | 2018-12-07 | 2021-02-23 | Method for training keyword extraction model, keyword extraction method, and computer device |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020114429A1 true WO2020114429A1 (zh) | 2020-06-11 |
Family
ID=67861915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2019/123057 WO2020114429A1 (zh) | 2018-12-07 | 2019-12-04 | 关键词提取模型训练方法、关键词提取方法及计算机设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11947911B2 (zh) |
CN (1) | CN110232183B (zh) |
WO (1) | WO2020114429A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798948A (zh) * | 2020-07-01 | 2020-10-20 | 微医云(杭州)控股有限公司 | 病历信息处理方法、装置、设备和存储介质 |
CN112530421A (zh) * | 2020-11-03 | 2021-03-19 | 科大讯飞股份有限公司 | 语音识别方法、电子设备及存储装置 |
CN112529743A (zh) * | 2020-12-18 | 2021-03-19 | 平安银行股份有限公司 | 合同要素抽取方法、装置、电子设备及介质 |
CN114021148A (zh) * | 2021-11-17 | 2022-02-08 | 山东云天安全技术有限公司 | 基于Summary分词特征预测工控网漏洞的系统 |
CN116050412A (zh) * | 2023-03-07 | 2023-05-02 | 江西风向标智能科技有限公司 | 基于数学语义逻辑关系的高中数学题目的分割方法和系统 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232183B (zh) | 2018-12-07 | 2022-05-27 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 |
CN110717327B (zh) * | 2019-09-29 | 2023-12-29 | 北京百度网讯科技有限公司 | 标题生成方法、装置、电子设备和存储介质 |
CN110852100B (zh) * | 2019-10-30 | 2023-07-21 | 北京大米科技有限公司 | 关键词提取方法、装置、电子设备及介质 |
CN111061872B (zh) * | 2019-11-26 | 2023-08-04 | 北京中科汇联科技股份有限公司 | 一种文本分类系统及其训练方法 |
CN111079422B (zh) | 2019-12-13 | 2023-07-14 | 北京小米移动软件有限公司 | 关键词提取方法、装置及存储介质 |
CN111078884B (zh) * | 2019-12-13 | 2023-08-15 | 北京小米智能科技有限公司 | 一种关键词提取方法、装置及介质 |
CN111353310B (zh) * | 2020-02-28 | 2023-08-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体识别方法、装置及电子设备 |
CN111401040B (zh) * | 2020-03-17 | 2021-06-18 | 上海爱数信息技术股份有限公司 | 一种适用于word文本的关键词提取方法 |
CN111401042B (zh) * | 2020-03-26 | 2023-04-14 | 支付宝(杭州)信息技术有限公司 | 一种训练文本关键内容提取模型的方法和系统 |
CN112395328A (zh) * | 2020-05-22 | 2021-02-23 | 南京大学 | 一种基于注意力机制的关键属性挖掘方法 |
CN111724765B (zh) * | 2020-06-30 | 2023-07-25 | 度小满科技(北京)有限公司 | 一种文本转语音的方法、装置及计算机设备 |
CN111783903B (zh) * | 2020-08-05 | 2023-11-28 | 腾讯科技(深圳)有限公司 | 文本处理方法、文本模型的处理方法及装置、计算机设备 |
CN112069812B (zh) * | 2020-08-28 | 2024-05-03 | 喜大(上海)网络科技有限公司 | 一种分词方法、装置、设备及计算机存储介质 |
CN112163405A (zh) * | 2020-09-08 | 2021-01-01 | 北京百度网讯科技有限公司 | 问题的生成方法和装置 |
CN112256832B (zh) * | 2020-10-23 | 2024-01-26 | 上海恒生聚源数据服务有限公司 | 一种标签的提取方法、装置、设备及可读存储介质 |
CN112732870B (zh) * | 2020-12-31 | 2024-03-05 | 平安科技(深圳)有限公司 | 基于词向量的搜索方法、装置、设备及存储介质 |
CN113011141A (zh) * | 2021-03-17 | 2021-06-22 | 平安科技(深圳)有限公司 | 佛经注解模型训练方法、佛经注解生成方法及相关设备 |
CN113505218B (zh) * | 2021-09-07 | 2021-12-21 | 科大讯飞(苏州)科技有限公司 | 文本提取方法、文本提取系统、电子设备和存储装置 |
CN113792549B (zh) * | 2021-09-17 | 2023-08-08 | 中国平安人寿保险股份有限公司 | 一种用户意图识别的方法、装置、计算机设备及存储介质 |
CN113836937B (zh) * | 2021-09-23 | 2023-11-10 | 上海瑞释信息科技有限公司 | 基于比较模型的文本处理方法、装置、设备与存储介质 |
CN114282092A (zh) * | 2021-12-07 | 2022-04-05 | 咪咕音乐有限公司 | 信息处理方法、装置、设备及计算机可读存储介质 |
CN115169338B (zh) * | 2022-09-08 | 2023-01-03 | 杭州费尔斯通科技有限公司 | 一种公司名简称识别方法及装置 |
CN117312506B (zh) * | 2023-09-07 | 2024-03-08 | 广州风腾网络科技有限公司 | 一种页面语义信息提取方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170169008A1 (en) * | 2015-12-15 | 2017-06-15 | Le Holdings (Beijing) Co., Ltd. | Method and electronic device for sentiment classification |
CN107967256A (zh) * | 2017-11-14 | 2018-04-27 | 北京拉勾科技有限公司 | 词语权重预测模型生成方法、职位推荐方法及计算设备 |
CN108287858A (zh) * | 2017-03-02 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 自然语言的语义提取方法及装置 |
CN108334489A (zh) * | 2017-01-19 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 文本核心词识别方法和装置 |
CN110232183A (zh) * | 2018-12-07 | 2019-09-13 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5156047B2 (ja) * | 2010-03-31 | 2013-03-06 | 株式会社東芝 | キーワード提示装置、方法及びプログラム |
CN102270244B (zh) * | 2011-08-26 | 2013-03-13 | 四川长虹电器股份有限公司 | 基于核心语句的网页内容关键词快速提取方法 |
CN103377232B (zh) * | 2012-04-25 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 标题关键词推荐方法及系统 |
US20150095017A1 (en) * | 2013-09-27 | 2015-04-02 | Google Inc. | System and method for learning word embeddings using neural language models |
CN105574047A (zh) * | 2014-10-17 | 2016-05-11 | 任子行网络技术股份有限公司 | 一种基于网站主页特征分析的中文网站分类方法和系统 |
US11210300B2 (en) * | 2015-05-14 | 2021-12-28 | NetSuite Inc. | System and methods of generating structured data from unstructured data |
JP6876061B2 (ja) * | 2016-01-26 | 2021-05-26 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | ニューラル臨床パラフレーズ生成のためのシステム及び方法 |
CN108073568B (zh) * | 2016-11-10 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
US10706113B2 (en) * | 2017-01-06 | 2020-07-07 | Microsoft Technology Licensing, Llc | Domain review system for identifying entity relationships and corresponding insights |
KR102342066B1 (ko) * | 2017-06-21 | 2021-12-22 | 삼성전자주식회사 | 뉴럴 네트워크 모델을 이용한 기계 번역 방법, 장치 및 그 장치를 학습시키기 위한 방법 |
CN107577763A (zh) * | 2017-09-04 | 2018-01-12 | 北京京东尚科信息技术有限公司 | 检索方法和装置 |
CN108170671A (zh) * | 2017-12-19 | 2018-06-15 | 中山大学 | 一种提取新闻事件发生时间的方法 |
CN108153728B (zh) * | 2017-12-22 | 2021-05-25 | 新奥(中国)燃气投资有限公司 | 一种关键词确定方法及装置 |
US11461801B2 (en) * | 2018-03-02 | 2022-10-04 | Adobe Inc. | Detecting and resolving semantic misalignments between digital messages and external digital content |
CN108763313A (zh) * | 2018-04-26 | 2018-11-06 | 平安科技(深圳)有限公司 | 模型的在线训练方法、服务器及存储介质 |
-
2018
- 2018-12-07 CN CN201811494250.XA patent/CN110232183B/zh active Active
-
2019
- 2019-12-04 WO PCT/CN2019/123057 patent/WO2020114429A1/zh active Application Filing
-
2021
- 2021-02-23 US US17/183,218 patent/US11947911B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170169008A1 (en) * | 2015-12-15 | 2017-06-15 | Le Holdings (Beijing) Co., Ltd. | Method and electronic device for sentiment classification |
CN108334489A (zh) * | 2017-01-19 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 文本核心词识别方法和装置 |
CN108287858A (zh) * | 2017-03-02 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 自然语言的语义提取方法及装置 |
CN107967256A (zh) * | 2017-11-14 | 2018-04-27 | 北京拉勾科技有限公司 | 词语权重预测模型生成方法、职位推荐方法及计算设备 |
CN110232183A (zh) * | 2018-12-07 | 2019-09-13 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798948A (zh) * | 2020-07-01 | 2020-10-20 | 微医云(杭州)控股有限公司 | 病历信息处理方法、装置、设备和存储介质 |
CN111798948B (zh) * | 2020-07-01 | 2024-02-27 | 微医云(杭州)控股有限公司 | 病历信息处理方法、装置、设备和存储介质 |
CN112530421A (zh) * | 2020-11-03 | 2021-03-19 | 科大讯飞股份有限公司 | 语音识别方法、电子设备及存储装置 |
CN112529743A (zh) * | 2020-12-18 | 2021-03-19 | 平安银行股份有限公司 | 合同要素抽取方法、装置、电子设备及介质 |
CN112529743B (zh) * | 2020-12-18 | 2023-08-08 | 平安银行股份有限公司 | 合同要素抽取方法、装置、电子设备及介质 |
CN114021148A (zh) * | 2021-11-17 | 2022-02-08 | 山东云天安全技术有限公司 | 基于Summary分词特征预测工控网漏洞的系统 |
CN114021148B (zh) * | 2021-11-17 | 2022-07-01 | 山东云天安全技术有限公司 | 基于Summary分词特征预测工控网漏洞的系统 |
CN116050412A (zh) * | 2023-03-07 | 2023-05-02 | 江西风向标智能科技有限公司 | 基于数学语义逻辑关系的高中数学题目的分割方法和系统 |
CN116050412B (zh) * | 2023-03-07 | 2024-01-26 | 江西风向标智能科技有限公司 | 基于数学语义逻辑关系的高中数学题目的分割方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US11947911B2 (en) | 2024-04-02 |
US20210174024A1 (en) | 2021-06-10 |
CN110232183A (zh) | 2019-09-13 |
CN110232183B (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020114429A1 (zh) | 关键词提取模型训练方法、关键词提取方法及计算机设备 | |
US11948058B2 (en) | Utilizing recurrent neural networks to recognize and extract open intent from text inputs | |
US11693894B2 (en) | Conversation oriented machine-user interaction | |
CN108829757B (zh) | 一种聊天机器人的智能服务方法、服务器及存储介质 | |
CN108288078B (zh) | 一种图像中字符识别方法、装置和介质 | |
US11544474B2 (en) | Generation of text from structured data | |
US10997503B2 (en) | Computationally efficient neural network architecture search | |
CN109214386B (zh) | 用于生成图像识别模型的方法和装置 | |
CN109190120B (zh) | 神经网络训练方法和装置及命名实体识别方法和装置 | |
US11729120B2 (en) | Generating responses in automated chatting | |
US11657802B2 (en) | Utilizing a dynamic memory network for state tracking | |
WO2020063148A1 (zh) | 一种基于深度学习的实体抽取方法、计算机设备和存储介质 | |
US11521071B2 (en) | Utilizing deep recurrent neural networks with layer-wise attention for punctuation restoration | |
US10945040B1 (en) | Generating and providing topic visual elements based on audio content and video content of a digital video | |
WO2020244065A1 (zh) | 基于人工智能的字向量定义方法、装置、设备及存储介质 | |
US20210133279A1 (en) | Utilizing a neural network to generate label distributions for text emphasis selection | |
US11238050B2 (en) | Method and apparatus for determining response for user input data, and medium | |
CN112507124B (zh) | 一种基于图模型的篇章级别事件因果关系抽取方法 | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
WO2022228127A1 (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
US20220165257A1 (en) | Neural sentence generator for virtual assistants | |
CN116450813B (zh) | 文本关键信息提取方法、装置、设备以及计算机存储介质 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
US11983489B1 (en) | Extractive summary generation by abstractive trained model | |
US11461399B2 (en) | Method and apparatus for responding to question, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19894193 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19894193 Country of ref document: EP Kind code of ref document: A1 |