WO2021139076A1 - 智能化文本对话生成方法、装置及计算机可读存储介质 - Google Patents

智能化文本对话生成方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
WO2021139076A1
WO2021139076A1 PCT/CN2020/093551 CN2020093551W WO2021139076A1 WO 2021139076 A1 WO2021139076 A1 WO 2021139076A1 CN 2020093551 W CN2020093551 W CN 2020093551W WO 2021139076 A1 WO2021139076 A1 WO 2021139076A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
dialogue
word
intelligent
word vector
Prior art date
Application number
PCT/CN2020/093551
Other languages
English (en)
French (fr)
Inventor
邓悦
金戈
徐亮
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021139076A1 publication Critical patent/WO2021139076A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Definitions

  • This application relates to the field of artificial intelligence technology, and in particular to a method, device and computer-readable storage medium for intelligent text dialogue generation.
  • This application provides an intelligent text dialogue generation method, device and computer readable storage medium, the main purpose of which is to provide a highly accurate text intelligent dialogue solution.
  • an intelligent text dialog generation method includes:
  • the current question input by the user is received, the text with the highest similarity to the current question is calculated from the text prediction set based on the similarity calculation method, and the text is outputted to complete an intelligent text dialogue with the current question.
  • the word segmentation includes:
  • the calculation of the keyword set in the update dialogue text set according to the dependency relationship graph includes:
  • the constructing a dependency relationship graph according to the undirected graph includes:
  • the text prediction set obtained through activation processing, convolution operation and memory update on the word vector set includes:
  • the present application also provides an intelligent text dialog generating device, which includes a memory and a processor, and an intelligent text dialog generating program that can run on the processor is stored in the memory, When the intelligent text dialog generating program is executed by the processor, the following steps are implemented:
  • the current question input by the user is received, the text with the highest similarity to the current question is calculated from the text prediction set based on the similarity calculation method, and the text is outputted to complete an intelligent text dialogue with the current question.
  • the word segmentation includes:
  • the calculation of the keyword set in the update dialogue text set according to the dependency relationship graph includes:
  • the constructing a dependency relationship graph according to the undirected graph includes:
  • this application also provides a computer-readable storage medium with an intelligent text dialog generation program stored on the computer-readable storage medium, and the intelligent text dialog generation program can be used by one or more The processor executes to implement the steps of the intelligent text dialog generation method as described above.
  • This application can improve the purity of the data by cleaning and word segmentation of the original dialogue text set, and improve the data foundation for further similarity calculation.
  • the core data is extracted through the keyword extraction algorithm and the one-hot encoding algorithm, because the one-hot
  • the coding algorithm not only speeds up the efficiency of text dialogue generation and reduces the computational pressure, but also combines keyword extraction algorithms to improve the precise positioning of keywords.
  • it predicts the best dialogue based on the text semantic understanding model and similarity calculation method.
  • Text because the text semantic understanding model is based on deep learning methods, non-traditional machine learning, not only improves the degree of intelligence, but also further improves the accuracy of intelligent dialogue. Therefore, the intelligent text dialog generation method, device, and computer-readable storage medium proposed in this application can realize accurate and efficient intelligent text dialog functions.
  • FIG. 1 is a schematic flowchart of an intelligent text dialog generation method provided by an embodiment of this application
  • FIG. 2 is a schematic diagram of the internal structure of an intelligent text dialog generating device provided by an embodiment of the application;
  • FIG. 3 is a schematic diagram of modules of an intelligent text dialog generating program in an intelligent text dialog generating device provided by an embodiment of the application.
  • This application provides an intelligent text dialog generation method.
  • FIG. 1 it is a schematic flowchart of a method for generating an intelligent text dialogue provided by an embodiment of this application.
  • the method can be executed by a device, and the device can be implemented by software and/or hardware.
  • the intelligent text dialog generation method includes:
  • the original conversation text set includes questions asked by users in different scenarios and various answer information that should be output based on the questions, wherein the answer information is generally stored in an answer library.
  • the cleaning process described in this application mainly includes: denoising and removing stop words, etc.
  • the denoising processing is to filter out the noise contained in the original dialogue text set, such as numbers, emoticons, and special symbols such as URL, "@", “#” and other useless information.
  • regular expressions can be used to filter out noise information.
  • stop words are words that have no actual meaning in the function words of the text data, and have no effect on the classification of the text, but have a high frequency of occurrence, including commonly used pronouns, prepositions, and the like. Studies have shown that stop words that have no practical meaning will reduce the effectiveness of text analysis.
  • the method for removing stop words is to filter the stop word list, and the words in the original dialogue text set are matched one by one through the stop word list that has been constructed. If the matching is successful, the The word is a stop word and the word is deleted.
  • this application further performs word segmentation operations on the original dialogue text set.
  • the word segmentation in the embodiment of the present application includes: constructing a word appearance probability according to the original dialogue text set, solving the conditional probability of the original dialogue text set under the word appearance probability based on the word appearance probability, and maximizing the condition The probability obtains the word segmentation result of the original dialogue text set.
  • the word segmentation described in this application includes: in a sentence S composed of a word sequence ⁇ W 1 , W 2 ... W m ⁇ , in the case where the first i-1 words appear, calculate the word that appears in the i-th word Probability of occurrence P:
  • W m-n+1 ,...W m-1 ) represents: the probability that W m appears when the character string W m-n+1 ,...W m-1 appears.
  • a binary grammar model is used, and the probability model of the sentence S is:
  • This application uses the full segmentation method to segment the sentence S to obtain all possible Chinese word segmentation methods, then calculate the probability of each word segmentation method, and select the word segmentation method with the highest probability as the final text segmentation result.
  • the process of selecting a word segmentation method with the largest probability is to find the maximum value of P(S):
  • said calculating a keyword set according to the dependency relationship graph includes: calculating an importance score set of words in the conversation text set according to the dependency relationship graph, and traversing the importance score set based on a preset threshold Obtain the keyword set.
  • the constructing a dependency relationship graph based on the undirected graph includes: calculating a weight in the undirected graph by using the gravitational value between words, and combining the weight and the undirected graph to obtain the dependency relation chart.
  • tfidf(W) is the TF-IDF value of word W
  • d is the Euclidean distance between words W i and W j
  • f grav (W i ,W j ) is the gravitational value between words W i and W j , Specifically:
  • the processor 12 may be a central processing unit (CPU), controller, microcontroller, microprocessor, or other data processing chip, for running program codes or processing stored in the memory 11 Data, such as the execution of intelligent text dialog generation program 01 and so on.
  • CPU central processing unit
  • controller microcontroller
  • microprocessor or other data processing chip
  • said calculating a keyword set according to the dependency relationship graph includes: calculating an importance score set of words in the conversation text set according to the dependency relationship graph, and traversing the importance score set based on a preset threshold Obtain the keyword set.
  • the one-hot encoding algorithm is a basic method of word vector representation, which is similar to the idea of bag-of-words model.
  • a dictionary is constructed by extracting all the words in the corpus, and each word in it is represented by a word vector.
  • the dimension of the vector is equal to the dictionary scale, and only the value of the dimension corresponding to the current word in the vector is 1, and the values of the remaining dimensions are all 0.
  • the keyword set is traversed to obtain a word vector set.
  • the operation method of the convolution operation is to construct a convolution template in advance and extract the word vector feature by the convolution amplitude.
  • the word vector is:
  • the pre-built convolution template is Will be mentioned first versus
  • the calculation method is: 1*0, 0*3, 1*1 and other corresponding dimensions are multiplied, and the convolution data set is finally obtained.
  • the similarity calculation method is:
  • FIG. 3 a schematic diagram of the program modules of the intelligent text dialog generating program in an embodiment of the intelligent text dialog generating device of the present application.
  • the intelligent text dialog generating program can be divided into The data receiving and processing module 10, the part-of-speech coding module 20, the text semantic model training module 30, and the text dialogue output module 40 are exemplary:
  • the part-of-speech coding module 20 is configured to construct an undirected graph for each word in the updated dialogue text set, construct a dependency graph based on the undirected graph, and calculate the updated dialogue text set based on the dependency graph
  • the keyword set of, and the one-hot encoding algorithm is used to process the keyword set to obtain the word vector set.
  • the text semantic model training module 30 is used for inputting the word vector set to a pre-trained text semantic understanding model, and performing activation processing, convolution operation and memory update on the word vector set to obtain a text prediction set.
  • Construct an undirected graph for each word in the updated dialogue text set construct a dependency graph based on the undirected graph, calculate the keyword set in the updated dialogue text set based on the dependency graph, and compare the The keyword set is processed by the one-hot encoding algorithm to obtain the word vector set.
  • the current question input by the user is received, the text with the highest similarity to the current question is calculated from the text prediction set based on the similarity calculation method, and the text is outputted to complete an intelligent text dialogue with the current question.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

一种智能化文本对话生成方法,包括:获取原始对话文本集,对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集(S1);对所述更新对话文本集内每个词语构造无向图,根据所述无向图构建依存关系图,依据所述依存关系图计算得到更新对话文本集中的关键字集,并对所述关键字集利用独热编码算法处理得到词向量集(S2);将所述词向量集输入至预先训练完成的文本语义理解模型,对词向量集经过激活处理、卷积操作和记忆更新得到文本预测集(S3);接收用户输入的当前问题,基于相似度计算方法从所述文本预测集中计算所述与当前问题相似度最高的文本并输出所述文本,完成与所述当前问题的智能化文本对话(S4)。所述方法可以实现精准高效的文本对话生成功能。

Description

智能化文本对话生成方法、装置及计算机可读存储介质
本申请要求于2020年01月09日提交中国专利局、申请号为202010025823.5、发明名称为“智能化文本对话生成方法、装置及计算机可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种智能化文本对话生成的方法、装置及计算机可读存储介质。
背景技术
目前多数基于人工智能的文本对话方法都是通过撷取输入的关键字,再从数据库中寻找与所述关键字最合适的应答句。此外,在实现多轮对话时,现有方法多采用将历史对话信息输入一个模型中,以让该模型选择倾向于和历史对话信息更有关联的回答。
发明人意识到由于传统的关键字抽取过程,仅仅通过匹配原则,无法达到精确的关键字定位,此外在模型设计中只使用了传统的机器学习算法,并仅通过相似度找寻最优的对话,因此综合来说对话的语义信息不够丰富,准确率不高。
发明内容
本申请提供一种智能化文本对话生成方法、装置及计算机可读存储介质,其主要目的在于提供一种准确度高的文本智能对话方案。
为实现上述目的,本申请提供的一种智能化文本对话生成方法,包括:
获取原始对话文本集,并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集;
对所述更新对话文本集内每个词语构造无向图,根据所述无向图构建依存关系图,根据所述依存关系图计算得到所述更新对话文本集中的关键字集,并对所述关键字集利用独热编码算法处理得到词向量集;
将所述词向量集输入至预先训练完成的文本语义理解模型,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集;
接收用户输入的当前问题,基于相似度计算方法从所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本,完成与所述当前问题的智能化文本对话。
可选地,所述分词包括:
根据所述原始对话文本集构建词出现概率;
基于所述词出现概率求解所述原始对话文本集在所述词出现概率下的条件概率;
最大化所述条件概率得到所述原始对话文本集的分词结果。
可选地,所述根据所述依存关系图计算得到所述更新对话文本集中的关键字集,包括:
根据所述依存关系图计算所述对话文本集内词语的重要度得分集;
基于预设阈值遍历所述重要度得分集得到所述关键字集。
可选地,所述根据所述无向图构建依存关系图,包括:
利用词语之间的引力值计算所述无向图中的权重;
将所述权重和所述无向图组合得到所述依存关系图。
可选地,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集,包括:
调取与所述词向量集对应的激活函数对所述词向量集进行激活处理;
将所述激活处理后的词向量集进行卷积操作得到卷积数据集,并将所述卷积数据集伸展为一维数据集;
将所述一维数据集进行记忆更新得到候选数据集;
根据调取的所述激活函数对所述候选数据集执行计算,得到所述文本预测集。
此外,为实现上述目的,本申请还提供一种智能化文本对话生成装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的智能化文本对话生成程序,所述智能化文本对话生成程序被所述处理器执行时实现如下步骤:
获取原始对话文本集,并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集;
对所述更新对话文本集内每个词语构造无向图,根据所述无向图构建依存关系图,根据所述依存关系图计算得到所述更新对话文本集中的关键字集,并对所述关键字集利用独热编码算法处理得到词向量集;
将所述词向量集输入至预先训练完成的文本语义理解模型,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集;
接收用户输入的当前问题,基于相似度计算方法从所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本,完成与所述当前问题的智能化文本对话。
可选地,所述分词包括:
根据所述原始对话文本集构建词出现概率;
基于所述词出现概率求解所述原始对话文本集在所述词出现概率下的条件概率;
最大化所述条件概率得到所述原始对话文本集的分词结果。
可选地,所述根据所述依存关系图计算得到所述更新对话文本集中的关键字集,包括:
根据所述依存关系图计算所述对话文本集内词语的重要度得分集;
基于预设阈值遍历所述重要度得分集得到所述关键字集。
可选地,所述根据所述无向图构建依存关系图,包括:
利用词语之间的引力值计算所述无向图中的权重;
将所述权重和所述无向图组合得到所述依存关系图。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有智能化文本对话生成程序,所述智能化文本对话生成程序可被一个或者多个处理器执行,以实现如上所述的智能化文本对话生成方法的步骤。
本申请通过对原始对话文本集进行清洗及分词等处理,可提高数据的纯洁度,为进一步相似度计算提高了数据基础,通过关键词抽取算法和独热编码算法提取出核心数据,因为独热编码算法不仅加快了文本对话的生成效率并减轻了计算压力,同时结合了关键词抽取算法也可提高对关键字的精确定位,同时基于文本语义理解模型和相似度计算方法预测出最佳的对话文本,由于文本语义理解模型是基于深度学习方法,非传统机器学习,不仅提高智能化程度,同时进一步提高智能对话的准确率。因此本申请提出的智能化文本对话生成方法、装置及计算机可读存储介质,可以实现精准高效的智能文本对话功能。
附图说明
图1为本申请一实施例提供的智能化文本对话生成方法的流程示意图;
图2为本申请一实施例提供的智能化文本对话生成装置的内部结构示意图;
图3为本申请一实施例提供的智能化文本对话生成装置中智能化文本对话生成程序的模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种智能化文本对话生成方法。参照图1所示,为本申请一实施例提供的 智能化文本对话生成方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,智能化文本对话生成方法包括:
S1、获取原始对话文本集,并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集。
本申请较佳实施例中,所述原始对话文本集包括基于不同场景下的用户提出的问题和基于所述问题应该输出的多种回答信息,其中所述回答信息一般存储在回答库里。
由于所述原始对话文本集可能包含大量噪声,例如超链接、网页标签等,这些噪声会对后续数据处理产生影响,因此需要对所述原始对话文本集进行清洗处理。本申请所述清洗处理主要包括:去噪和去停用词等。
所述去噪处理是将所述原始对话文本集中包含的噪声,如数字、表情符号以及特殊符号如URL、“@”、“#”等无用信息过滤掉。本申请较佳实施例可使用正则表达式将噪声信息过滤掉。
所述停用词是文本数据功能词中没有什么实际意义的词,对文本的分类没有什么影响,但是出现频率高,包括常用的代词、介词等。研究表明,没有实际意义的停用词,会降低文本分析效果。
在本申请实施例中,所述去停用词的方法为停用词表过滤,通过已构建好的停用词表和所述原始对话文本集中的词语进行一一匹配,若匹配成功,该词语就是停用词并将该词删除。
进一步地,为了提高智能对话的准确度,本申请进一步对所述原始对话文本集进行分词操作。
本申请实施例所述分词包括:根据所述原始对话文本集构建词出现概率,基于所述词出现概率求解所述原始对话文本集在所述词出现概率下的条件概率,最大化所述条件概率得到所述原始对话文本集的分词结果。
详细地,本申请所述分词包括:在一个由词序列{W 1,W 2…W m}组成的句子S中,在前i-1个词语出现的情况下,计算第i词语出现的词出现概率P:
P(W i|W 1,…W i-1)=P(W i|W i-n+1,…W i-1)
得到所述句子S按照此词序排列的概率为:
P(S)=P(W 1W 2…W m)=P(W 1)P(W 2|W 1)…P(W m|W m-n+1,…W m-1)
进一步所述条件概率P(W m|W m-n+1,…W m-1)表示:在字符串W m-n+1,…W m-1出现的情况下W m出现的概率。在大规模语料库训练的基础上,使用二元语法模型,所述句子S的概率模型为:
Figure PCTCN2020093551-appb-000001
本申请对句子S使用全切分法进行切分,获得所有可能的中文分词方式,然后计算每一种分词方式的概率,选择其中概率最大的一种分词方式,作为最终文本分词结果。其中,所述选择概率最大的一种分词方式过程即求P(S)的极大值:
Figure PCTCN2020093551-appb-000002
S2、对所述更新对话文本集内每个词语构造无向图,根据所述无向图构建依存关系图,根据所述依存关系图计算得到所述更新对话文本集中的关键字集,并对所述关键字集利用独热编码算法处理得到词向量集。
优选地,所述根据所述依存关系图计算得到关键字集,包括:根据所述依存关系图计算所述对话文本集内词语的重要度得分集,基于预设阈值遍历所述重要度得分集得到所述关键字集。
详细地,所述根据所述无向图构建依存关系图,包括:利用词语之间的引力值计算所 述无向图中的权重,将所述权重和所述无向图组合得到所述依存关系图。
较佳地,任意两词W i和W j的所述权重为:
weight(W i,W j)=Dep(W i,W j)*f grav(W i,W j)
其中,tfidf(W)是词W的TF-IDF值,d是词W i和W j之间的欧式距离,f grav(W i,W j)是词W i和W j之间的引力值,具体地为:
Figure PCTCN2020093551-appb-000003
所述无向图G=(V,E),其中V是顶点的集合,E是边的集合。
W i的重要度得分WS(W i)如下所示:
Figure PCTCN2020093551-appb-000004
其中
Figure PCTCN2020093551-appb-000005
是与顶点W i有关的集合,η为阻尼系数。
优选地,所述独热编码算法是词向量表示的一种基本方法,和词袋模型思想类似,先通过提取语料库中所有的词构建一个词典,其中的每个词都用一个词向量表示,该向量的维度和词典规模相等,并且向量中只有当前词对应的维度的值是1,其余维度的值全部为0,基于已提取出的所述语料库遍历所述关键字集得到词向量集。
S3、将所述词向量集输入至预先训练完成的文本语义理解模型,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集。
详细地,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集,包括:调取与所述词向量集对应的激活函数对所述词向量集进行激活处理,将所述激活处理后的词向量集进行卷积操作得到卷积数据集,并将所述卷积数据集伸展为一维数据集,将所述一维数据集进行记忆更新得到候选数据集,根据调取的所述激活函数计算所述候选数据集得到文本预测集。
较佳地,所述激活函数为:
Figure PCTCN2020093551-appb-000006
其中:pw(li)为第i个样本中,所述文本语义理解模型选对文本的概率;pu(li)为第i个样本中,所述文本语义理解模型中选对所述文本的答案的概率;
Figure PCTCN2020093551-appb-000007
为第i个样本中,所述文本语义理解模型中基于所述pw(li)下,选错答案的条件概率;pw(li)为第i个样本中,所述文本语义理解模型中基于所述pu(li)下选对答案的条件概率概率,
Figure PCTCN2020093551-appb-000008
为第i个样本中,所述文本语义理解模型中基于所述
Figure PCTCN2020093551-appb-000009
下进一步选错答案的条件概率。
所述卷积操作的操作方法是预先构建卷积模板和卷积幅度提取词向量特征,如所述词向量为:
Figure PCTCN2020093551-appb-000010
预先构建卷积模板为
Figure PCTCN2020093551-appb-000011
先将所述
Figure PCTCN2020093551-appb-000012
Figure PCTCN2020093551-appb-000013
进行计算,计算方式为:1*0、0*3、1*1等对应维度相乘,最终得到的所述卷积数据集。
所述全连接窗口主要进行一维化,如上述词向量为:
Figure PCTCN2020093551-appb-000014
经过所述一 维化后变为:[0 3 1…… 2 3]。
S4、接收用户输入的当前问题,基于相似度计算方法所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本,完成与所述当前问题的智能化文本对话。
较佳地,所述相似度计算方法为:
Figure PCTCN2020093551-appb-000015
其中,A i,B i分别为用户输入的所述当前问题及所述文本预测集的词向量,n为所述词向量的长度。
发明还提供一种智能化文本对话生成装置。参照图2所示,为本申请一实施例提供的智能化文本对话生成装置的内部结构示意图。
在本实施例中,所述智能化文本对话生成装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该智能化文本对话生成装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是智能化文本对话生成装置1的内部存储单元,例如该智能化文本对话生成装置1的硬盘。存储器11在另一些实施例中也可以是智能化文本对话生成装置1的外部存储设备,例如智能化文本对话生成装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括智能化文本对话生成装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于智能化文本对话生成装置1的应用软件及各类数据,例如智能化文本对话生成程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行智能化文本对话生成程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在智能化文本对话生成装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及智能化文本对话生成程序01的智能化文本对话生成装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对智能化文本对话生成装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有智能化文本对话生成程序01;处理器12执行存储器11中存储的智能化文本对话生成程序01时实现如下步骤:
步骤一、获取原始对话文本集,并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集。
本申请较佳实施例中,其中,所述原始对话文本集包括基于不同场景下的用户提出的问题和基于所述问题应该输出的多种回答信息,其中所述回答信息一般存储在回答库里。
由于所述历史对话信息可能包含大量噪声,例如超链接、网页标签等,这些噪声会对后续数据处理产生影响,因此需要对所述原始对话文本集进行清洗处理。本申请所述清洗处理主要包括:去噪和去停用词等。
所述去噪处理是将所述原始对话文本集中包含的噪声,如数字、表情符号以及特殊符号如URL、“@”、“#”等无用信息过滤掉。本申请较佳实施例可使用正则表达式将噪声信息过滤掉。
所述停用词是文本数据功能词中没有什么实际意义的词,对文本的分类没有什么影响,但是出现频率高,包括常用的代词、介词等。研究表明,没有实际意义的停用词,会降低文本分析效果。
在本申请实施例中,所述去停用词的方法为停用词表过滤,通过已构建好的停用词表和所述原始对话文本集中的词语进行一一匹配,若匹配成功,该词语就是停用词并将该词删除。
进一步地,为了提高智能对话的准确度,本申请进一步对所述原始对话文本集进行分词操作。
本申请实施例所述分词包括:根据所述原始对话文本集构建词出现概率,基于所述词出现概率求解所述原始对话文本集在所述词出现概率下的条件概率,最大化所述条件概率得到所述原始对话文本集的分词结果。
详细地,本申请所述分词包括:在一个由词序列{W 1,W 2…W m}组成的句子S中,在前i-1个词语出现的情况下,计算第i词语出现的词出现概率P:
P(W i|W 1,…W i-1)=P(W i|W i-n+1,…W i-1)
得到所述句子S按照此词序排列的概率为:
P(S)=P(W 1W 2…W m)=P(W 1)P(W 2|W 1)…P(W m|W m-n+1,…W m-1)
进一步所述条件概率P(W m|W m-n+1,…W m-1)表示:在字符串W m-n+1,…W m-1出现的情况下W m出现的概率。在大规模语料库训练的基础上,使用二元语法模型,所述句子S的概率模型为:
Figure PCTCN2020093551-appb-000016
本申请对句子S使用全切分法进行切分,获得所有可能的中文分词方式,然后计算每一种分词方式的概率,选择其中概率最大的一种分词方式,作为最终文本分词结果。其中,所述选择概率最大的一种分词方式过程即求P(S)的极大值:
Figure PCTCN2020093551-appb-000017
步骤二、对所述更新对话文本集内每个词语构造无向图,根据所述无向图构建依存关系图,根据所述依存关系图计算得到所述更新对话文本集中的关键字集,并对所述关键字集利用独热编码算法处理得到词向量集。
优选地,所述根据所述依存关系图计算得到关键字集,包括:根据所述依存关系图计算所述对话文本集内词语的重要度得分集,基于预设阈值遍历所述重要度得分集得到所述关键字集。
详细地,所述根据所述无向图构建依存关系图,包括:利用词语之间的引力值计算所述无向图中的权重,将所述权重和所述无向图组合得到所述依存关系图。
较佳地,任意两词W i和W j的所述权重为:
weight(W i,W j)=Dep(W i,W j)*f grav(W i,W j)
其中,tfidf(W)是词W的TF-IDF值,d是词W i和W j之间的欧式距离,f grav(W i,W j)是词W i和W j之间的引力值,具体地为:
Figure PCTCN2020093551-appb-000018
所述无向图G=(V,E),其中V是顶点的集合,E是边的集合。
W i的重要度得分WS(W i)如下所示:
Figure PCTCN2020093551-appb-000019
其中
Figure PCTCN2020093551-appb-000020
是与顶点W i有关的集合,η为阻尼系数。
优选地,所述独热编码算法是词向量表示的一种基本方法,和词袋模型思想类似,先通过提取语料库中所有的词构建一个词典,其中的每个词都用一个词向量表示,该向量的维度和词典规模相等,并且向量中只有当前词对应的维度的值是1,其余维度的值全部为0,基于已提取出的所述语料库遍历所述关键字集得到词向量集。
步骤三、将所述词向量集输入至预先训练完成的文本语义理解模型,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集。
详细地,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集,包括:调取与所述词向量集对应的激活函数对所述词向量集进行激活处理,将所述激活处理后的词向量集进行卷积操作得到卷积数据集,并将所述卷积数据集伸展为一维数据集,将所述一维数据集进行记忆更新得到候选数据集,根据调取的所述激活函数计算所述候选数据集得到文本预测集。
较佳地,所述激活函数为:
Figure PCTCN2020093551-appb-000021
其中:pw(li)为第i个样本中,所述文本语义理解模型选对文本的概率;pu(li)为第i个样本中,所述文本语义理解模型中选对所述文本的答案的概率;
Figure PCTCN2020093551-appb-000022
为第i个样本中,所述文本语义理解模型中基于所述pw(li)下,选错答案的条件概率;pw(li)为第i个样本中,所述文本语义理解模型中基于所述pu(li)下选对答案的条件概率概率,
Figure PCTCN2020093551-appb-000023
为第i个样本中,所述文本语义理解模型中基于所述
Figure PCTCN2020093551-appb-000024
下进一步选错答案的条件概率。
所述卷积操作的操作方法是预先构建卷积模板和卷积幅度提取词向量特征,如所述词向量为:
Figure PCTCN2020093551-appb-000025
预先构建卷积模板为
Figure PCTCN2020093551-appb-000026
先将所述
Figure PCTCN2020093551-appb-000027
Figure PCTCN2020093551-appb-000028
进行计算,计算方式为:1*0、0*3、1*1等对应维度相乘,最终得到的所述卷积数据集。
所述全连接窗口主要进行一维化,如上述词向量为:
Figure PCTCN2020093551-appb-000029
经过所述一维化后变为:[0 3 1…… 2 3]。
步骤四、接收用户输入的当前问题,基于相似度计算方法所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本,完成与所述当前问题的智能化文本对话。
较佳地,所述相似度计算方法为:
Figure PCTCN2020093551-appb-000030
其中,A i,B i分别为用户输入的所述当前问题及所述文本预测集的词向量,n为所述词向量的长度。
可选地,在其他实施例中,智能化文本对话生成程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本申请,本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述智能化文本对话生成程序在智能化文本对话生成装置中的执行过程。
例如,参照图3所示,为本申请智能化文本对话生成装置一实施例中的智能化文本对话生成程序的程序模块示意图,该实施例中,所述智能化文本对话生成程序可以被分割为数据接收及处理模块10、词性编码模块20、文本语义模型训练模块30、文本对话输出模块40示例性地:
所述数据接收及处理模块10用于:获取原始对话文本集,并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集。
所述词性编码模块20用于:对所述更新对话文本集内每个词语构造无向图,根据所述无向图构建依存关系图,根据所述依存关系图计算得到所述更新对话文本集中的关键字集,并对所述关键字集利用独热编码算法处理得到词向量集。
所述文本语义模型训练模块30用于:将所述词向量集输入至预先训练完成的文本语义理解模型,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集。
所述文本对话输出模块40用于:接收用户输入的当前问题,基于相似度计算方法从所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本,完成与所述当前问题的智能化文本对话。
上述数据接收及处理模块10、词性编码模块20、文本语义模型训练模块30、文本对话输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性。所述计算机可读存储介质上存储有智能化文本对话生成程序,所述智能化文本对话生成程序可被一个或多个处理器执行,以实现如下操作:
获取原始对话文本集,并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集。
对所述更新对话文本集内每个词语构造无向图,根据所述无向图构建依存关系图,根据所述依存关系图计算得到所述更新对话文本集中的关键字集,并对所述关键字集利用独热编码算法处理得到词向量集。
将所述词向量集输入至预先训练完成的文本语义理解模型,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集。
接收用户输入的当前问题,基于相似度计算方法从所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本,完成与所述当前问题的智能化文本对话。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可 借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种智能化文本对话生成方法,其中,所述方法包括:
    获取原始对话文本集,并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集;
    对所述更新对话文本集内每个词语构造无向图,根据所述无向图构建依存关系图,根据所述依存关系图计算得到所述更新对话文本集中的关键字集,并对所述关键字集利用独热编码算法处理得到词向量集;
    将所述词向量集输入至预先训练完成的文本语义理解模型,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集;
    接收用户输入的当前问题,基于相似度计算方法从所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本,完成与所述当前问题的智能化文本对话。
  2. 如权利要求1所述的智能化文本对话生成方法,其中,所述分词包括:
    根据所述原始对话文本集构建词出现概率;
    基于所述词出现概率求解所述原始对话文本集在所述词出现概率下的条件概率;
    最大化所述条件概率得到所述原始对话文本集的分词结果。
  3. 如权利要求1所述的智能化文本对话生成方法,其中,所述根据所述依存关系图计算得到所述更新对话文本集中的关键字集,包括:
    根据所述依存关系图计算所述对话文本集内词语的重要度得分集;
    基于预设阈值遍历所述重要度得分集得到所述关键字集。
  4. 如权利要求1所述的智能化文本对话生成方法,其中,所述根据所述无向图构建依存关系图,包括:
    利用词语之间的引力值计算所述无向图中的权重;
    将所述权重和所述无向图组合得到所述依存关系图。
  5. 如权利要求1至4中任意一项所述的智能化文本对话生成方法,其中,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集,包括:
    调取与所述词向量集对应的激活函数对所述词向量集进行激活处理;
    将所述激活处理后的词向量集进行卷积操作得到卷积数据集,并将所述卷积数据集伸展为一维数据集;
    将所述一维数据集进行记忆更新得到候选数据集;
    根据调取的所述激活函数对所述候选数据集执行计算,得到所述文本预测集。
  6. 如权利要求5所述的智能化文本对话生成方法,其中,所述激活函数为:
    Figure PCTCN2020093551-appb-100001
    其中:pw(li)为第i个样本中,所述文本语义理解模型选对文本的概率;pu(li)为第i个样本中,所述文本语义理解模型中选对所述文本的答案的概率;
    Figure PCTCN2020093551-appb-100002
    为第i个样本中,所述文本语义理解模型中基于所述pw(li)下,选错答案的条件概率;pw(li)为第i个样本中,所述文本语义理解模型中基于所述pu(li)下选对答案的条件概率概率,
    Figure PCTCN2020093551-appb-100003
    为第i个样本中,所述文本语义理解模型中基于所述
    Figure PCTCN2020093551-appb-100004
    下进一步选错答案的条件概率。
  7. 如权利要求1所述的智能化文本对话生成方法,其中,所述相似度计算方法为:
    Figure PCTCN2020093551-appb-100005
    其中,A i,B i分别为用户输入的所述当前问题及所述文本预测集的词向量,n为所述词向量的长度。
  8. 一种智能化文本对话生成装置,其中,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的智能化文本对话生成程序,所述智能化文本对话生成程序被所述处理器执行时实现如下步骤:
    获取原始对话文本集,并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集;
    对所述更新对话文本集内每个词语构造无向图,根据所述无向图构建依存关系图,根据所述依存关系图计算得到所述更新对话文本集中的关键字集,并对所述关键字集利用独热编码算法处理得到词向量集;
    将所述词向量集输入至预先训练完成的文本语义理解模型,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集;
    接收用户输入的当前问题,基于相似度计算方法从所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本,完成与所述当前问题的智能化文本对话。
  9. 如权利要求8所述的智能化文本对话生成装置,其中,所述分词包括:
    根据所述原始对话文本集构建词出现概率;
    基于所述词出现概率求解所述原始对话文本集在所述词出现概率下的条件概率;
    最大化所述条件概率得到所述原始对话文本集的分词结果。
  10. 如权利要求8所述的智能化文本对话生成装置,其中,所述根据所述依存关系图计算得到所述更新对话文本集中的关键字集,包括:
    根据所述依存关系图计算所述对话文本集内词语的重要度得分集;
    基于预设阈值遍历所述重要度得分集得到所述关键字集。
  11. 如权利要求8中所述的智能化文本对话生成装置,其中,所述根据所述无向图构建依存关系图,包括:
    利用词语之间的引力值计算所述无向图中的权重;
    将所述权重和所述无向图组合得到所述依存关系图。
  12. 如权利要求8至11中任意一项所述的智能化文本对话生成装置,其中,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集,包括:
    调取与所述词向量集对应的激活函数对所述词向量集进行激活处理;
    将所述激活处理后的词向量集进行卷积操作得到卷积数据集,并将所述卷积数据集伸展为一维数据集;
    将所述一维数据集进行记忆更新得到候选数据集;
    根据调取的所述激活函数对所述候选数据集执行计算,得到所述文本预测集。
  13. 如权利要求12所述的智能化文本对话生成装置,其中,所述激活函数为:
    Figure PCTCN2020093551-appb-100006
    其中:pw(li)为第i个样本中,所述文本语义理解模型选对文本的概率;pu(li)为第i个样本中,所述文本语义理解模型中选对所述文本的答案的概率;
    Figure PCTCN2020093551-appb-100007
    为第i个样本中,所述文本语义理解模型中基于所述pw(li)下,选错答案的条件概率;pw(li)为第i个样本中,所述文本语义理解模型中基于所述pu(li)下选对答案的条件概率概率,
    Figure PCTCN2020093551-appb-100008
    为第i个样本中,所述文本语义理解模型中基于所述
    Figure PCTCN2020093551-appb-100009
    下进一步选错答案的条件概率。
  14. 如权利要求8所述的智能化文本对话生成装置,其中,所述相似度计算方法为:
    Figure PCTCN2020093551-appb-100010
    其中,A i,B i分别为用户输入的所述当前问题及所述文本预测集的词向量,n为所述词向量的长度。
  15. 一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有智能化文本对话生成程序,所述智能化文本对话生成程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的智能化文本对话生成方法的步骤:
    获取原始对话文本集,并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集;
    对所述更新对话文本集内每个词语构造无向图,根据所述无向图构建依存关系图,根据所述依存关系图计算得到所述更新对话文本集中的关键字集,并对所述关键字集利用独热编码算法处理得到词向量集;
    将所述词向量集输入至预先训练完成的文本语义理解模型,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集;
    接收用户输入的当前问题,基于相似度计算方法从所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本,完成与所述当前问题的智能化文本对话。
  16. 如权利要求15所述的计算机可读存储介质,其中,所述分词包括:
    根据所述原始对话文本集构建词出现概率;
    基于所述词出现概率求解所述原始对话文本集在所述词出现概率下的条件概率;
    最大化所述条件概率得到所述原始对话文本集的分词结果。
  17. 如权利要求15所述的计算机可读存储介质,其中,所述根据所述依存关系图计算得到所述更新对话文本集中的关键字集,包括:
    根据所述依存关系图计算所述对话文本集内词语的重要度得分集;
    基于预设阈值遍历所述重要度得分集得到所述关键字集。
  18. 如权利要求15所述的计算机可读存储介质,其中,所述根据所述无向图构建依存关系图,包括:
    利用词语之间的引力值计算所述无向图中的权重;
    将所述权重和所述无向图组合得到所述依存关系图。
  19. 如权利要求15至18中任意一项所述的计算机可读存储介质,其中,对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集,包括:
    调取与所述词向量集对应的激活函数对所述词向量集进行激活处理;
    将所述激活处理后的词向量集进行卷积操作得到卷积数据集,并将所述卷积数据集伸展为一维数据集;
    将所述一维数据集进行记忆更新得到候选数据集;
    根据调取的所述激活函数对所述候选数据集执行计算,得到所述文本预测集。
  20. 如权利要求19所述的计算机可读存储介质,其中,所述激活函数为:
    Figure PCTCN2020093551-appb-100011
    其中:pw(li)为第i个样本中,所述文本语义理解模型选对文本的概率;pu(li)为第i个样本中,所述文本语义理解模型中选对所述文本的答案的概率;
    Figure PCTCN2020093551-appb-100012
    为第i个样本中,所述文本语义理解模型中基于所述pw(li)下,选错答案的条件概率;pw(li)为第i个样本中,所述文本语义理解模型中基于所述pu(li)下选对答案的条件概率概率,
    Figure PCTCN2020093551-appb-100013
    为第i个样本中,所述文本语义理解模型中基于所述
    Figure PCTCN2020093551-appb-100014
    下进一步选错答案的条件概率。
PCT/CN2020/093551 2020-01-09 2020-05-29 智能化文本对话生成方法、装置及计算机可读存储介质 WO2021139076A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010025823.5A CN111221942A (zh) 2020-01-09 2020-01-09 智能化文本对话生成方法、装置及计算机可读存储介质
CN202010025823.5 2020-01-09

Publications (1)

Publication Number Publication Date
WO2021139076A1 true WO2021139076A1 (zh) 2021-07-15

Family

ID=70810242

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/093551 WO2021139076A1 (zh) 2020-01-09 2020-05-29 智能化文本对话生成方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN111221942A (zh)
WO (1) WO2021139076A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914568B (zh) * 2020-07-31 2024-02-06 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN112085091B (zh) * 2020-09-07 2024-04-26 中国平安财产保险股份有限公司 基于人工智能的短文本匹配方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120189988A1 (en) * 2000-11-15 2012-07-26 International Business Machines Corporation System and Method for Finding the Most Likely Answer to a Natural Language Question
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN110032632A (zh) * 2019-04-04 2019-07-19 平安科技(深圳)有限公司 基于文本相似度的智能客服问答方法、装置及存储介质
CN110232114A (zh) * 2019-05-06 2019-09-13 平安科技(深圳)有限公司 语句意图识别方法、装置及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120189988A1 (en) * 2000-11-15 2012-07-26 International Business Machines Corporation System and Method for Finding the Most Likely Answer to a Natural Language Question
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN110032632A (zh) * 2019-04-04 2019-07-19 平安科技(深圳)有限公司 基于文本相似度的智能客服问答方法、装置及存储介质
CN110232114A (zh) * 2019-05-06 2019-09-13 平安科技(深圳)有限公司 语句意图识别方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN111221942A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN110222160B (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
US20210319051A1 (en) Conversation oriented machine-user interaction
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
WO2021068339A1 (zh) 文本分类方法、装置及计算机可读存储介质
US9052748B2 (en) System and method for inputting text into electronic devices
US10755048B2 (en) Artificial intelligence based method and apparatus for segmenting sentence
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
WO2021139107A1 (zh) 情感智能识别方法、装置、电子设备及存储介质
CN111931500B (zh) 搜索信息的处理方法、装置
CN110442857B (zh) 情感智能判断方法、装置及计算机可读存储介质
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
WO2021042516A1 (zh) 命名实体识别方法、装置及计算机可读存储介质
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
CN110808032B (zh) 一种语音识别方法、装置、计算机设备及存储介质
CN109299235B (zh) 知识库搜索方法、装置及计算机可读存储介质
CN112380319B (zh) 一种模型训练的方法及相关装置
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
WO2021139076A1 (zh) 智能化文本对话生成方法、装置及计算机可读存储介质
CN114912450B (zh) 信息生成方法与装置、训练方法、电子设备和存储介质
CN113806552A (zh) 信息提取方法、装置、电子设备和存储介质
WO2021051934A1 (zh) 基于人工智能的合同关键条款提取方法、装置及存储介质
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20912193

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20912193

Country of ref document: EP

Kind code of ref document: A1