WO2021042543A1 - 基于长短期记忆网络的多轮对话语义分析方法和系统 - Google Patents

基于长短期记忆网络的多轮对话语义分析方法和系统 Download PDF

Info

Publication number
WO2021042543A1
WO2021042543A1 PCT/CN2019/117767 CN2019117767W WO2021042543A1 WO 2021042543 A1 WO2021042543 A1 WO 2021042543A1 CN 2019117767 W CN2019117767 W CN 2019117767W WO 2021042543 A1 WO2021042543 A1 WO 2021042543A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
dialogue
current
information
historical
Prior art date
Application number
PCT/CN2019/117767
Other languages
English (en)
French (fr)
Inventor
金戈
徐亮
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021042543A1 publication Critical patent/WO2021042543A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • the embodiments of the present application relate to the field of computer technology, and in particular to a multi-round dialogue semantic analysis method, system, computer device, and computer-readable storage medium based on a long and short-term memory network.
  • Natural language understanding is a very important part of the dialogue system, especially in the task-based multi-round dialogue system. NLU mainly uses annotating dialogues to understand semantics. The inventor realizes that in the case of multiple rounds of dialogue, the traditional dialogue system handles each round of dialogue separately, ignoring historical dialogue information. First, this system has the problem of error propagation, and secondly, it does not solve the ambiguity problem that often occurs in multiple rounds of dialogue. .
  • the purpose of the embodiments of this application is to provide a multi-round dialogue semantic analysis method, system, computer equipment, and computer-readable storage medium based on a long and short-term memory network.
  • This application can accurately understand dialogue information and can solve many problems. Round dialogues are prone to ambiguity and the problem of poor predictive ability for new dialogues.
  • an embodiment of the present application provides a multi-round dialogue semantic analysis method based on a long and short-term memory network, which includes the following steps:
  • an embodiment of the present application also provides a multi-round dialogue semantic analysis system based on a long and short-term memory network, including:
  • the obtaining module is used to obtain the current dialogue information provided by the client;
  • the first generating module is configured to generate a current dialogue representative vector according to the current dialogue information
  • the second generation module is configured to generate a knowledge encoding representation vector according to the current dialog representative vector and a plurality of pre-acquired historical dialog encoding vectors;
  • a prediction module configured to input the knowledge encoding representation vector and the word vector of each word segmentation in the current dialogue information into the first long and short-term memory model to obtain the predicted sequence label of the current dialogue information;
  • the matching module is configured to obtain corresponding semantic information according to the predicted sequence label, and obtain corresponding operation information according to the matching of the semantic information with preset operation information;
  • the execution module is used to execute the operation corresponding to the corresponding operation information and output the operation result to the client. .
  • an embodiment of the present application further provides a computer device, the computer device including a memory, a processor, and computer-readable instructions stored in the memory and running on the processor, the When the computer-readable instructions are executed by the processor, the following steps are implemented:
  • an embodiment of the present application also provides a computer-readable storage medium having computer-readable instructions stored in the computer-readable storage medium, and the computer-readable instructions may be executed by at least one processor, So that the at least one processor executes the following steps:
  • the multi-round dialogue semantic analysis method, system, computer device, and computer-readable storage medium provided by the embodiments of the present application are based on the long and short-term memory network.
  • the current dialogue representative vector is generated according to the current dialogue information, and then according to the current dialogue
  • the representative vector and multiple historical dialogue encoding vectors obtained in advance are used to generate the knowledge encoding representation vector, and then the knowledge encoding representation vector and the word vector of each word segment in the current dialogue information are input into the long-term short-term memory model to obtain the prediction of the current dialogue information
  • the sequence label obtains the corresponding semantic information according to the predicted sequence label, and executes the corresponding operation according to the semantic information. Therefore, the embodiments of the present application can accurately understand the dialogue information, and can solve the problems of ambiguity in multiple rounds of dialogue and poor predictive ability for new dialogues.
  • FIG. 1 is a flowchart of Embodiment 1 of a multi-round dialogue semantic analysis method based on a long and short-term memory network according to this application.
  • Fig. 2 is a flowchart of step S102 in Fig. 1 of the embodiment of the application.
  • Fig. 3 is a flowchart of step S104 in Fig. 1 of the embodiment of the application.
  • Fig. 4 is a flowchart of another embodiment of step S104 in Fig. 1 of the embodiment of the application.
  • FIG. 5 is a program block diagram of Embodiment 2 of a multi-round dialogue semantic analysis system based on a long and short-term memory network according to the present application.
  • FIG. 6 is a schematic diagram of the hardware structure of the third embodiment of the computer equipment of this application.
  • FIG. 1 there is shown a flow chart of the method for multi-round dialogue semantic analysis based on a long and short-term memory network in the first embodiment of the present application. It can be understood that the flowchart in this method embodiment is not used to limit the order of execution of the steps. details as follows:
  • Step S100 Obtain current dialog information provided by the client.
  • Step S102 Generate a current dialog representative vector according to the current dialog information.
  • step S102 may include steps S102A to S102I.
  • Step S102A Extract multiple keywords from the current dialogue information.
  • multiple keywords are extracted from the current dialogue information according to a preset keyword template.
  • Step S102B Obtain a plurality of corresponding substructures according to the plurality of keywords, and each substructure includes a corresponding keyword and subsequent words of the keyword.
  • a complete sentence includes multiple sub-sentences, each sub-sentence corresponds to a sub-structure, and each sub-structure includes a keyword, that is, each sub-sentence includes a corresponding keyword and the keyword
  • the subsequent words include one or more words adjacent to the keyword in the sub-sentence.
  • the sub-structure disassembles the current dialogue through a grammar tree to form a tree with one or more keywords as the core and a plurality of subsequent words, and the keywords and the subsequent words are processed Combine picks to form multiple substructures.
  • Step S102C Convert each substructure into a corresponding substructure vector to obtain multiple substructure vectors.
  • the multiple substructures are quantized into a substructure vector x'through word2vec.
  • Step S102D input the multiple sub-structure vectors into the second long short-term memory model respectively to obtain multiple corresponding sub-structure encoding vectors.
  • step S102E a word segmentation operation is performed on the current dialogue information to obtain multiple word segments, and the multiple word segments are converted into corresponding multiple word segmentation vectors.
  • a word segmentation operation is performed on the current dialogue in the designated storage area to obtain a plurality of word segments, which are quantified into the current word segmentation vector c through word2vec.
  • Step S102F Input multiple word segmentation vectors into the third long-short-term memory model to obtain the current dialogue coding vector.
  • Step S102G Calculate the current dialogue coding vector and each sub-structure coding vector through a normalization function to obtain a weight vector of each sub-structure.
  • the following normalization function is used as follows:
  • the normalized Softmax function is to perform a normalization operation on multiple values, so that the range of each element is scaled from 0 to 1, and the sum of all elements is 1.
  • the calculation method of the Softmax function is as follows:
  • Step S102H Perform a matrix multiplication operation on the weight vector of each substructure and the corresponding substructure code vector to obtain multiple matrix multiplication operation results.
  • Step S102I Sum the results of the multiple matrix multiplication operations to obtain a substructure representative vector.
  • the substructure weight vector p i ′ and the substructure encoding vector mi ′ are subjected to a matrix multiplication operation to obtain the substructure representative vector h′:
  • each sentence may have multiple substructures, where p′ is a vector distributed in the interval from 0 to 1, which represents the weight ratio of each substructure, multiply the weight ratio by the substructure encoding vector, That is, the weight adjustment is completed, and important substructures will have higher weights.
  • Step S102J Perform a matrix addition operation on the sub-structure representative vector and the current dialogue encoding vector, and input the result of the matrix addition operation into the fourth long and short-term memory model to obtain the current dialogue representative vector.
  • the sub-structure representative vector h'and the current dialogue encoding vector u' are subjected to a matrix addition operation, and h'+u' is input into the fourth RNN (LSTM) model to obtain the current dialogue Represents the vector u.
  • LSTM fourth RNN
  • Step S104 Generate a knowledge encoding representation vector based on the current dialogue representative vector and multiple pre-acquired historical dialogue coding vectors.
  • step S102 may include steps S104A to S104D.
  • Step S104A Obtain an attention distribution according to the historical dialogue encoding vector and the current dialogue representative vector.
  • u T is the transpose of the representative vector u of the current dialogue.
  • the attention object is no longer the current conversation, but the attention calculation is performed by combining the historical conversation code and the current conversation code.
  • step S104B matrix multiplication is performed on the attention distribution to obtain multiple matrix multiplication results.
  • Step S104C Sum the results of the multiple matrix multiplication operations to obtain a historical dialogue representative vector.
  • weight adjustment is performed on the attention distribution p to obtain the historical dialogue representative vector h;
  • mi is the historical dialogue coding vector.
  • Step S104D derive the knowledge encoding representation vector according to the current dialogue representative vector and the historical dialogue representative vector.
  • the knowledge coding representation vector is obtained by the following formula:
  • u is the current dialogue representative vector
  • h is the historical dialogue representative vector
  • o is the knowledge encoding representation vector
  • W kg is the weight matrix of the knowledge encoding representation vector
  • the weight matrix of the knowledge encoding representation vector is used to represent the current dialog
  • the W kg is a set of randomly generated matrices.
  • step S104 may further include steps S1040 to S1044 of obtaining a plurality of historical dialogue coding vectors in advance.
  • Step S1040 Extract multiple pieces of historical dialogue information in the preset database.
  • Step S1042 Perform word segmentation operations on the multiple pieces of historical dialogue information to obtain multiple historical word segments, and convert the multiple historical word segments into corresponding multiple historical word segmentation vectors.
  • the word segmentation in the historical dialogue information in the database is quantified into a historical word segmentation vector x through word2vec.
  • Step S1044 Input the multiple historical word segmentation vectors into the fifth long and short-term memory model to obtain multiple historical dialogue coding vectors.
  • LSTM fifth RNN
  • the Long Short-Term Memory (LSTM) model is a time recurrent neural network, which is suitable for processing and predicting important events with relatively long intervals and delays in a time series.
  • LSTM Long Short-Term Memory
  • the structure of the long and short-term memory network model gate is composed of a basic feed-forward neural network, and the basic concept of the feed-forward structure is to construct a set of weight vectors w for a set of vectors x 1 ...
  • the feedforward neural network contains a large number of hidden variables. This embodiment is about the specific application of the LSTM model. The following is an example of an LSTM model, which is not used to limit the scope of protection of this application.
  • the LSTM model includes forget gate, input gate and output gate:
  • Input gate i t ⁇ (W i [ x t, h t-1] + b i), where i t ⁇ [0,1] denotes the node for the time t option heavy current node information, b i is an input gate
  • C t-1 t-1 represents the memory information of the node
  • f t represents the choice of the node at time t time t-1 of the memory cell weight
  • i t t represents the time node selection Information and the current node
  • the output gate is used to determine the output of the LSTM model
  • Output o t ⁇ (W o [x t ,h t-1 ]+b o ), where o t ⁇ [0,1] represents the selection weight of the node cell memory information at time t, and b o is the bias of the output gate Set, W o is the weight matrix of the output gate, Represents the vector after the splicing of vectors x t and h t-1 , that is
  • the step of optimizing and updating the weight matrix of the knowledge encoding representation vector, the weight matrix in each long and short-term memory model, and the offset term used to represent the function intercept in each long and short-term memory model in this solution includes :
  • the weight matrix of the knowledge encoding representation vector, the weight matrix in each long and short-term memory model, and the bias term in each long and short-term memory model are respectively associated with the cross-entropy loss function, and the cross-entropy loss function is performed by the ADAM optimization algorithm Iteration is to update the weight matrix of the knowledge encoding representation vector, the weight matrix in each long and short-term memory model, and the bias term in each long and short-term memory model according to the optimal solution obtained in the iteration.
  • the cross entropy loss function is:
  • Step S106 Input the knowledge encoding representation vector and the word vector of each word segmentation in the current dialogue information into a first long and short-term memory model to obtain a predicted sequence label of the current dialogue information;
  • the knowledge encoding representation vector o and the word vector W t are input into the fifth RNN (LSTM) model to obtain the predicted sequence label y, and the sequence labeling is completed according to the predicted sequence label y.
  • LSTM fifth RNN
  • the knowledge encoding representation vector o and the word vector W t are spliced together, and then input into the fifth RNN (LSTM) model, namely:
  • the word vector W t is a set of vectors used to express the meaning of a word obtained through the Word2Vec algorithm and training text training.
  • the stuttering thesaurus is used to segment the current dialogue information and convert it into a vector; Chinese words all correspond to a specific 300-dimensional vector; the predicted sequence label y is the result of slot filling.
  • Step S108 Obtain corresponding semantic information according to the predicted sequence label, and obtain corresponding operation information according to the match between the semantic information and preset operation information;
  • the step of matching preset operation information according to the semantic information includes:
  • Step S108a extracting semantic keywords of the semantic information
  • Step S108b generating the information matching instruction according to the semantic keywords
  • Step S108c Determine the target slot according to the pre-configured mapping relationship between the information matching instruction and the slot carried in the operation information, and obtain the operation information according to the target slot, wherein the information matching instruction Correspond to one or more slots.
  • step of step S108c further includes:
  • Step S108c1 obtaining multiple operations in advance, and generating multiple operation information according to the multiple operations;
  • Step S108c2 extract the operation keywords of each operation information
  • Step S108c3 configure a slot for each operation keyword of the plurality of operation keywords, and the slot is a parameter carried by the operation information;
  • Step S108c4 Perform a mapping operation on the multiple slots and multiple information matching instructions to generate a mapping relationship between the slots and the information matching instructions, where the information matching instructions correspond to one or more slots.
  • Step S110 Perform an operation corresponding to the corresponding operation information, and output the operation result to the client.
  • slots such as departure place and destination will be set, and then it will be recognized whether there is a target slot in the current sentence, and the information query output result will be completed according to the target slot.
  • the slot is the parameter of the intention in the task-type dialogue mentioned above.
  • Intention recognition also known as SUC (Spoken Utterance Classification) divides the natural language conversation input by the user, and the classification corresponds to It is the user's intention. For example, “how is the weather today", the intention is “ask the weather”.
  • intent recognition can be regarded as a typical classification problem.
  • the classification and definition of intent can refer to the ISO-24617-2 standard, which has 56 detailed definitions.
  • Intent recognition in task-oriented dialogue systems can usually be regarded as a text classification task.
  • the definition of intention has a lot to do with the positioning of the dialogue system itself and the knowledge base it possesses, that is, the definition of intention has a very strong domain relevance.
  • One intent roughly corresponds to multiple slots. For example, when inquiring about the subway route, you need to provide necessary parameters such as departure place, destination, and time. The above parameters are the slots corresponding to the intention of "asking for subway route".
  • the main goal of the semantic slot filling task is to extract the pre-defined semantic slot values in the semantic frame from the input sentence on the premise that the semantic frame of a specific domain or specific intention is known.
  • the semantic slot filling task can be transformed into a sequence labeling task, that is, using the classic IOB notation method to mark a word as the beginning, continuation (inside), or outside of a semantic slot.
  • the current sentence representation and slot filling based on knowledge guidance can improve the robustness of the model, and have good predictive ability for conversations that do not appear in the training set.
  • the colleague dual knowledge memory network can effectively use the information and history of the sentence itself Dialogue information effectively solves the ambiguity of multiple rounds of dialogue.
  • FIG. 5 shows a schematic diagram of the program modules of the second embodiment of the multi-round dialogue semantic analysis system 20 based on the long and short-term memory network of the present application.
  • the multi-round dialogue semantic analysis system 20 based on the long and short-term memory network may include or be divided into one or more program modules, one or more program modules are stored in a storage medium, and are composed of one or more program modules. It can be executed by two processors to complete the application, and can realize the above-mentioned multi-round dialogue semantic analysis method based on the long and short-term memory network.
  • the program module referred to in the embodiments of the present application refers to a series of computer-readable instruction segments that can complete specific functions. The following description will specifically introduce the functions of each program module in this embodiment:
  • the obtaining module 200 is used to obtain current dialog information provided by the client.
  • the first generating module 202 is configured to generate a current dialogue representative vector according to the current dialogue information.
  • the first generating module 202 is also used for:
  • Extract multiple keywords from the current dialogue information obtain multiple corresponding substructures according to the multiple keywords, each substructure including the corresponding keyword and subsequent words of the keyword; convert each substructure Is the corresponding sub-structure vector to obtain multiple sub-structure vectors; input the multiple sub-structure vectors into the second long short-term memory model to obtain multiple corresponding sub-structure encoding vectors; perform word segmentation operation on the current dialogue information , Obtain multiple word segmentation, and convert the multiple word segmentation into corresponding multiple word segmentation vectors; input the multiple word segmentation vectors into the third long and short-term memory model to obtain the current dialogue coding vector; combine the current dialogue coding vector and each The sub-structure code vector is calculated by a normalization function to obtain the weight vector of each sub-structure; the weight vector of each sub-structure and the corresponding sub-structure code vector are subjected to a matrix multiplication operation to obtain multiple matrix multiplication operation results; Sum the results of the multiple matrix multiplication operations to obtain a sub-structure representative vector; perform a matrix addition operation on the sub-structure
  • the first generating module 202 is further configured to: according to the previous dialogue coding vector and the sub-structure coding vector, by using the normalization function as follows:
  • the second generation module 204 is configured to generate a knowledge encoding representation vector based on the current dialog representative vector and multiple historical dialog encoding vectors obtained in advance.
  • the second generation module 204 is also used for:
  • Extract multiple pieces of historical dialogue information in the preset database perform word segmentation operations on the multiple pieces of historical dialogue information to obtain multiple historical word segments, and convert the multiple historical word segments into corresponding multiple historical word segmentation vectors;
  • the historical word segmentation vectors are input to the fifth long-term short-term memory model, and multiple historical dialogue encoding vectors are obtained.
  • the steps of optimizing and updating the weight matrix of the knowledge encoding representation vector, the weight matrix in each long and short-term memory model, and the bias term in each long and short-term memory model in this solution include:
  • the weight matrix of the knowledge encoding representation vector, the weight matrix in each long and short-term memory model, and the bias term used to represent the function intercept in each long- and short-term memory model are respectively associated with the cross-entropy loss function.
  • the cross-entropy loss function is iterated to update the weight matrix of the knowledge encoding representation vector, the weight matrix in each long and short-term memory model, and the bias term in each long- and short-term memory model according to the optimal solution obtained by the iteration.
  • the cross entropy loss function is:
  • the second generation module 204 is also used for:
  • the second generation module 204 is also used for:
  • the knowledge coding representation vector is obtained by the following formula:
  • u is the current dialogue representative vector
  • h is the historical dialogue representative vector
  • o is the knowledge encoding representation vector
  • W kg is the weight matrix of the knowledge encoding representation vector
  • the weight matrix of the knowledge encoding representation vector is used to represent the current dialog
  • the W kg is a set of randomly generated matrices.
  • the prediction module 206 is configured to input the knowledge encoding representation vector and the word vector of each word segment in the current dialogue information into the first long and short-term memory model to obtain the predicted sequence label of the current dialogue information.
  • the matching module 208 is configured to obtain corresponding semantic information according to the predicted sequence label, and obtain corresponding operation information according to the matching of the semantic information with preset operation information.
  • the execution module 210 is configured to execute an operation corresponding to the corresponding operation information, and output the operation result to the client.
  • the computer device 2 is a device that can automatically perform numerical calculation and/or information processing in accordance with pre-set or stored instructions.
  • the computer device 2 may be a rack server, a blade server, a tower server, or a cabinet server (including an independent server or a server cluster composed of multiple servers).
  • the computer device 2 at least includes, but is not limited to, a memory 21, a processor 22, a network interface 23, and a multi-round dialogue semantic analysis system 20 based on a long and short-term memory network that can communicate with each other through a system bus. among them:
  • the memory 21 includes at least one type of computer-readable storage medium, such as a non-volatile computer-readable storage medium.
  • the readable storage medium includes a flash memory, a hard disk, a multimedia card, and a card-type memory (for example, SD or DX memory, etc.), random access memory (RAM), static random access memory (SRAM), read only memory (ROM), electrically erasable programmable read only memory (EEPROM), programmable read only memory (PROM) , Magnetic storage, magnetic disks, optical disks, etc.
  • the memory 21 may be an internal storage unit of the computer device 2, for example, a hard disk or a memory of the computer device 2.
  • the memory 21 may also be an external storage device of the computer device 2, such as a plug-in hard disk, a smart media card (SMC), and a secure digital (Secure Digital, SMC) equipped on the computer device 2. SD) card, flash card (Flash Card), etc.
  • the memory 21 may also include both the internal storage unit of the computer device 2 and its external storage device.
  • the memory 21 is generally used to store the operating system and various application software installed in the computer device 2, such as the program code of the multi-round dialogue semantic analysis system 20 based on the long and short-term memory network in the second embodiment.
  • the memory 21 can also be used to temporarily store various types of data that have been output or will be output.
  • the processor 22 may be a central processing unit (Central Processing Unit, CPU), a controller, a microcontroller, a microprocessor, or other data processing chips in some embodiments.
  • the processor 22 is generally used to control the overall operation of the computer device 2.
  • the processor 22 is used to run the program code or process data stored in the memory 21, for example, to run the multi-round dialogue semantic analysis system 20 based on the long and short-term memory network, so as to realize the long- and short-term memory network based on the first embodiment. Multi-round dialogue semantic analysis method.
  • the network interface 23 may include a wireless network interface or a wired network interface, and the network interface 23 is generally used to establish a communication connection between the computer device 2 and other electronic devices.
  • the network interface 23 is used to connect the computer device 2 with an external terminal through a network, and establish a data transmission channel and a communication connection between the computer device 2 and the external terminal.
  • the network may be Intranet, Internet, Global System of Mobile Communication (GSM), Wideband Code Division Multiple Access (WCDMA), 4G network, 5G Network, Bluetooth (Bluetooth), Wi-Fi and other wireless or wired networks.
  • FIG. 6 only shows the computer device 2 with components 20-23, but it should be understood that it is not required to implement all the components shown, and more or fewer components may be implemented instead.
  • the long-short-term memory network-based multi-round dialogue semantic analysis system 20 stored in the memory 21 may also be divided into one or more program modules, and the one or more program modules are stored in The memory 21 is executed by one or more processors (the processor 22 in this embodiment) to complete the application.
  • FIG. 5 shows a schematic diagram of the program modules of the second embodiment of the multi-round dialogue semantic analysis system 20 based on the long and short-term memory network.
  • the multi-round dialogue semantic analysis system based on the long short-term memory network 20 can be divided into an acquisition module 200, a first generation module 202, a second generation module 204, a prediction module 206, a matching module 208, and an execution module 210.
  • the program module referred to in this application refers to a series of computer-readable instruction segments that can complete specific functions. The specific functions of the program modules 200-210 have been described in detail in the second embodiment, and will not be repeated here.
  • This embodiment also provides a computer-readable storage medium (for example, a non-volatile computer-readable storage medium), such as flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), random access memory (RAM), static random access memory (SRAM), read only memory (ROM), electrically erasable programmable read only memory (EEPROM), programmable read only memory (PROM), magnetic memory, magnetic disks, optical disks, servers, App application malls, etc., have computer-readable instructions stored thereon, and corresponding functions are realized when the program is executed by the processor.
  • the computer-readable storage medium of this embodiment is used to store the multi-round dialogue semantic analysis system 20 based on the long-term short-term memory network, and the processor executes the following steps:

Abstract

一种基于长短期记忆网络的多轮对话语义分析方法、系统、计算机设备和计算机可读存储介质,所述方法包括:获取当前对话信息;根据当前对话信息生成当前对话代表向量;根据当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量;将知识编码表示向量和当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到当前对话信息的预测序列标签;根据预测序列标签得到对应的语义信息,并根据所述语义信息执行相应的操作。通过上述方式,可以精确理解对话信息,并可以解决多轮对话的歧义以及针对新对话预测能力差的问题。

Description

基于长短期记忆网络的多轮对话语义分析方法和系统
本申请要求于2019年09月04日提交中国专利局、申请号为201910832540.9、发明名称为“基于长短期记忆网络的多轮对话语义分析方法和系统”的中国专利申请的优先权,该中国专利申请的整体内容通过引用结合在本申请中。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种基于长短期记忆网络的多轮对话语义分析方法、系统、计算机设备及计算机可读存储介质。
背景技术
随着人工智能大规模普及和应用,人机对话作为人工智能领域不可或缺的方向,受到了越来越多的重视和关注。
自然语言理解(NLU,natural language understanding)是对话系统中非常重要的一部分,尤其体现在任务型多轮对话系统中。NLU主要是通过将对话进行标注,从而进行语义理解。发明人意识到,对于多轮对话的情形,传统的对话系统将每轮对话单独处理,忽略历史对话信息,首先这种系统存在误差传播问题,其次也没有解决多轮对话的常常出现的歧义问题。
因此,有必要提供一种精确理解对话信息的多轮对话语义分析方法,以解决多轮对话的歧义以及针对新对话预测能力差的问题。
发明内容
有鉴于此,本申请实施例的目的是提供一种基于长短期记忆网络的多轮对话语义分析方法、系统、计算机设备和计算机可读存储介质,本申请可以精确理解对话信息,并可以解决多轮对话的易产生歧义以及针对新对话预测能力差的问题。
为实现上述目的,本申请实施例提供了一种基于长短期记忆网络的多轮对话语义分析方法,包括以下步骤:
获取客户端提供的当前对话信息;
根据所述当前对话信息生成当前对话代表向量;
根据所述当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量;
将所述知识编码表示向量和所述当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到所述当前对话信息的预测序列标签;
根据所述预测序列标签得到对应的语义信息,根据所述语义信息与预设的操作信息匹配,得到对应的操作信息;
执行与对应的操作信息对应的操作,并输出根据所述语义信息执行相应的操作结果至客户端。
为实现上述目的,本申请实施例还提供了一种基于长短期记忆网络的多轮对话语义分析系统,包括:
获取模块,用于获取客户端提供的当前对话信息;
第一生成模块,用于根据所述当前对话信息生成当前对话代表向量;
第二生成模块,用于根据所述当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量;
预测模块,用于将所述知识编码表示向量和所述当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到所述当前对话信息的预测序列标签;
匹配模块,用于根据所述预测序列标签得到对应的语义信息,根据所述语义信息与预设的操作信息匹配,得到对应的操作信息;
执行模块,用于执行与对应的操作信息对应的操作,输出操作结果至客户端。。
为实现上述目的,本申请实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,所述计算机可读指令被处理器执行时实现以下步骤:
获取客户端提供的当前对话信息;
根据所述当前对话信息生成当前对话代表向量;
根据所述当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量;
将所述知识编码表示向量和所述当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到所述当前对话信息的预测序列标签;
根据所述预测序列标签得到对应的语义信息,根据所述语义信息与预设的操作信息匹配,得到对应的操作信息;
执行与对应的操作信息对应的操作,输出操作结果至客户端。
为实现上述目的,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机可读指令,所述计算机可读指令可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
获取客户端提供的当前对话信息;
根据所述当前对话信息生成当前对话代表向量;
根据所述当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量;
将所述知识编码表示向量和所述当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到所述当前对话信息的预测序列标签;
根据所述预测序列标签得到对应的语义信息,根据所述语义信息与预设的操作信息匹配,得到对应的操作信息;
执行与对应的操作信息对应的操作,输出操作结果至客户端。
本申请实施例提供的基于长短期记忆网络的多轮对话语义分析方法、系统、计算机设备及计算机可读存储介质,获取当前对话信息之后,根据当前对话信息生成当前对话代表向量,再根据当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量,再将知识编码表示向量和当前对话信息中各个分词的词向量输入到长短期记忆模型中,以得到当前对话信息的预测序列标签,再根据预测序列标签得到对应的语义信息,并根据语义信息执行相应的操作。因此,本申请实施例可以精确理解对话信息,并可以解决多轮对话的歧义以及针对新对话预测能力差的问题。
附图说明
图1为本申请基于长短期记忆网络的多轮对话语义分析方法实施例一的流程图。
图2为本申请实施例图1中步骤S102的流程图。
图3为本申请实施例图1中步骤S104的流程图。
图4为本申请实施例图1中步骤S104的另一实施例的流程图。
图5为本申请基于长短期记忆网络的多轮对话语义分析系统实施例二的程序方块图。
图6为本申请计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
参阅图1,示出了本申请实施例一之基于长短期记忆网络的多轮对话语义分析方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下:
步骤S100,获取客户端提供的当前对话信息。
步骤S102,根据所述当前对话信息生成当前对话代表向量。
在示例性的实施例中,如图2所示,步骤S102可以包括步骤S102A~S102I。
步骤S102A,从所述当前对话信息中提取多个关键词。
示例性地,根据预设的关键词模版从当前对话信息中提取多个关键词。
步骤S102B,根据所述多个关键词得到对应的多个子结构,每个子结构包括对应的关键词及该关键词的后续词语。
示例性的,在一个完整的句子中包括多个子句子,每个子句子对应一个在子结构,每个子结构中包括一个关键词,即,在每个子句子中包括对应的一个关键词及该关键词的多个后续词语,所述后续词语包括所述关键词在所述子句子中相邻的一个或多个词语。
示例性地,所述子结构通过语法树将所述当前对话进行拆解,形成以一个或多个关键词为核心,多个后续词语组成的树,将所述关键词和所述后续词语进行组合拾取,形成多个子结构。
步骤S102C,将所述每个子结构转换为对应的子结构向量,以得到多个子结构向量。
示例性地,将所述多个子结构通过word2vec量化成子结构向量x'。
步骤S102D,将所述多个子结构向量分别输入到第二长短期记忆模型中,得到对应的多个子结构编码向量。
示例性地,将所述子结构向量x′输入到长短期记忆网络模型中,得到子结构编码向量m',即:
m i'=LSTM 2(x i')
步骤S102E,对所述当前对话信息进行分词操作,得到多个分词,并将多个分词转换为对应的多个分词向量。
示例性地,将指定存储区域中当前对话进行分词操作,得到多个分词,并通过word2vec量化成当前分词向量c。
步骤S102F,将多个分词向量输入到第三长短期记忆模型中,得到当前对话编码向量。
将所述当前分词向量c输入到第三RNN(LSTM)模型中,得到当前对话编码向量u'。
u'=LSTM 3(c)
步骤S102G,将所述当前对话编码向量和各个子结构编码向量通过归一化函数计算,以得到各个子结构的权重向量。
示例性地,根据所述前对话编码向量和所述子结构编码向量,通过以下归一化函数如下:
p i'=soft max(u' Tm i')
其中,u'为当前对话编码向量,u' T为u'的转置向量,m i'为子结构编码向量,p i'为各个子结构的权重向量。
示例性地,所述归一化Softmax函数是将多个值进行归一化运算,使得每一个元素的范围都在小缩放至0到1区间,并且所有元素的和为1,所述归一化Softmax函数的计算方式如下:
Figure PCTCN2019117767-appb-000001
步骤S102H,将所述各个子结构的权重向量与对应的子结构编码向量进行矩阵乘法运算,以得到多个矩阵乘法运算结果。
步骤S102I,对所述多个矩阵乘法运算结果进行求和,以得到子结构代表向量。
示例性地,将子结构的权重向量p i′和子结构编码向量m i′进行矩阵乘法运算,以得到子结构代表向量h':
Figure PCTCN2019117767-appb-000002
示例性地,因为每句话可能有多个子结构,其中p′是一个分布在0至1区间的向量,即代表了每个子结构的权重比例,将所述权重比例乘以子结构编码向量,即完成了权重调整,其中重要的子结构会有更加高的权重。
步骤S102J,将所述子结构代表向量和所述当前对话编码向量进行矩阵加法运算,并将矩阵加法运算的结果输入到第四长短期记忆模型中,以得出当前对话代表向量。
示例性地,将所述子结构代表向量h'和所述当前对话编码向量u'进行矩阵加法运算,将h'+u'输入到第四RNN(LSTM)模型中,从而得出当前对话的代表向量u。
u=LSTM 4(h'+u')
步骤S104,根据所述当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量。
在示例性的实施例中,如图3所示,步骤S102可以包括步骤S104A~S104D。
步骤S104A,根据所述历史对话编码向量和所述当前对话代表向量得到注意力分布。
示例性地,对历史对话编码向量m i和当前对话的代表向量u进行归一化处理,得到注意力分布p i
p i=soft max(u Tm i)
其中,u T为对当前对话的代表向量u进行转置。
具体地,注意力对象不再是当前对话,而是结合历史会话编码与当前会话编码进行注意力计算。
步骤S104B,对所述注意力分布进行矩阵乘法运算,以得到多个矩阵乘法运算结果。
步骤S104C,对所述多个矩阵乘法运算结果进行求和,以得到历史对话代表向量。
示例性地,即对所述注意力分布p进行权重调整,从而得到历史对话代表向量h;
Figure PCTCN2019117767-appb-000003
其中,m i为历史对话编码向量。
步骤S104D,根据所述当前对话代表向量和所述历史对话代表向量,得出所述知识编码表示向量。
示例性地,根据所述当前对话代表向量和所述历史对话代表向量,通过以下公式得出知识编码表示向量:
o=W kg(h+u)
其中,u为当前对话代表向量,h为历史对话代表向量,o为知识编码表示向量,W kg为知识编码表示向量的权重矩阵,所述知识编码表示向量的权重矩阵用于表示所述当前对话代表向量和所述历史对话代表向量在生成所述当前对话代表向量中的影响权重,所述W kg是一组随机生成的矩阵。
在示例性的实施例中,如图4所示,步骤S104还可以包括预先获取多个历史对话编码向量的步骤S1040~S1044。
步骤S1040,提取预设数据库中的多条历史对话信息。
步骤S1042,对所述多条历史对话信息进行分词操作,得到多个历史分词,并将多个历史分词转换为对应的多个历史分词向量。
示例性地,将数据库中的历史对话信息中的分词通过word2vec量化成历史分词向量x。
步骤S1044,将所述多个历史分词向量输入到第五长短期记忆模型中,得到多个历史对话编码向量。
示例性地,将多个历史分词向量x输入到第五RNN(LSTM)模型中,得到多个历史对话编码向量m i
示例性地,所述长短期记忆网络模型(LSTM,Long Short-Term Memory),是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。为了使该长短期记忆网络模型适用于本实施例,还需要根据所述目标设备的历史运行数据和其它设备的海量数据对所述长短期记忆网络模型进行训练操作。其中,所述长短期记忆网络模型门的结构是由基本的前馈神经网络构成,所述前馈结构的基本概念是,对于一组向量x 1...x n,构建一组权重向量w 1...w n,进行相乘运算并求和,最终加上偏置项b输出,即为一个隐变量输出。前馈神经网络包含大量隐变量。本实施例在于对LSTM模型的具体应用。以下是一个LSTM模型示例,其不用于对本申请保护范围构成限制。
LSTM模型中包括遗忘门、输入门和输出门:
(1)遗忘门,会根据上一时刻的输出h t-1和当前输入向量x i(x 0~x n)来产生一个0到1的f t值,来决定是否让上一时刻学到的信息C t-1通过或部分通过;
遗忘门f t=σ(W f[x t,h t-1]+b f),其中f t∈[0,1],表示t时刻的节点对t-1时刻细胞记忆的选择权重,W f为遗忘门的权重矩阵,b f为遗忘门的偏置项,h t-1表示t-1节点的隐层状态信息,非线性函数σ(x)=1/(1+e x);
(2)输入门,通过sigmoid来决定哪些值用来更新,并通过tanh层用来生成新的候选值
Figure PCTCN2019117767-appb-000004
它作为当前层产生的候选值可能会添加到记忆单元状态中,把这两部分产生的值结合来进行更新;
输入门i t=σ(W i[x t,h t-1]+b i),其中i t∈[0,1]表示t时刻的节点对当前节点信息的选择权重,b i为输入门的偏置项,W i为输入门的权重矩阵,非线性函数σ(x)=1/(1+e x);
当前节点输入信息
Figure PCTCN2019117767-appb-000005
其中
Figure PCTCN2019117767-appb-000006
为偏置项,
Figure PCTCN2019117767-appb-000007
表示待更新信息的权重矩阵,tanh为双曲正切激活函数,x t表示t时刻LSTM神经网络节点的输入向量,h t-1表示t-1节点的隐层状态信息;
对旧的记忆单元状态进行更新,添加新信息:
输出记忆信息
Figure PCTCN2019117767-appb-000008
其中C t-1表示t-1节点的记忆信息,f t表示t时刻的节点对t-1时刻细胞记忆的选择权重,i t表示t时刻的节点对当前节点信息的选择权重;
(3)输出门,用于决定LSTM模型的输出;
输出o t=σ(W o[x t,h t-1]+b o),其中o t∈[0,1]表示t时刻的节点细胞记忆信息的选择权重,b o为输出门的偏置,W o为输出门的权重矩阵,
Figure PCTCN2019117767-appb-000009
表示向量x t和h t-1拼接后的向量,即|x t|+|h t-1|维的向量,x t表示t时刻LSTM神经网络节点的输入向量,最终得到历史对话编码向量m i(m 0~m n)。
示例性地,对本方案中出现的知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中用于表示函数截距的偏置项进行优化更新的步骤,包括:
将知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中的偏置项分别与交叉熵损失函数进行关联,通过ADAM优化算法将所述交叉熵损失函数进行迭代,以根据迭代得到的最优解更新知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中的偏置项。
所述交叉熵损失函数为:
Figure PCTCN2019117767-appb-000010
其中p为真实分布,q为非真实分布,这一公式可以度量模型输入结果与真实结果差异性。
步骤S106,将所述知识编码表示向量和所述当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到所述当前对话信息的预测序列标签;
示例性地,将所述知识编码表示向量o和词向量W t输入到第五RNN(LSTM)模型中,从而得到预测序列标签y,根据预测序列标签y完成序列标注。
先将所述知识编码表示向量o与词向量W t进行拼接后,再输入到第五RNN(LSTM)模型中,即:
y=LSTM 5(o;W t)
其中,所述词向量W t是通过Word2Vec算法利用训练文本训练得到的一组用于表示词义的向量,例如结巴词库对当前对话信息进行分词并转化成向量等;在本方案中,每一个中文词语均对应特定的300维向量;所述预测序列标签y是槽位填充的结果。
步骤S108,根据所述预测序列标签得到对应的语义信息,根据所述语义信息与预设的操作信息匹配,得到对应的操作信息;
示例性的,所述根据所述语义信息与预设的操作信息匹配的步骤,包括:
步骤S108a,提取所述语义信息的语义关键词;
步骤S108b,根据所述语义关键词生成所述信息匹配指令;
步骤S108c,根据所述信息匹配指令与所述操作信息携带的槽位之间预先配置的映射关系,以确定目标槽位,并根据目标槽位获取所述操作信息,其中,所述信息匹配指令对应一个或多个槽位。
示例性的,所述步骤S108c的步骤,还包括:
步骤S108c1,预先获取多个操作,并根据所述多个操作生成多个操作信息;
步骤S108c2,提取每个操作信息的操作关键词;
步骤S108c3,将所述多个操作关键词中的每个操作关键词分别配置一个槽位,所述槽位为所述操作信息携带的参数;
步骤S108c4,将所述多个槽位与多个信息匹配指令进行映射操作,生成所述槽位与所述信息匹配指令的映射关系,其中,所述信息匹配指令对应一个或多个槽位。
步骤S110,执行与对应的操作信息对应的操作,输出操作结果至客户端。
示例性的,对于任务型对话,以航班信息查询为例,就会设置出发地、目的地等槽位,再识别当前语句中是否存在目标槽位,根据目标槽位完成信息查询输出结果。
示例性地,槽位即上述任务型对话中的意图所带的参数,意图识别,也被称为SUC(Spoken Utterance Classification),是将用户输入的自然语言会话进行划分,类别(classification)对应的就是用户意图。例如“今天天气如何”,其意图为“询问天气”。显然,可以将意图识别当作一个典型的分类问题。意图的分类和定义可参考ISO-24617-2标准,其中共有56种详细的定义。面向任务的对话系统中的意图识别通常可以视为文本分类任务。同时,意图的定义与对话系统自身的定位和所具有的知识库有很大关系,即意图的定义具有非常强的领域相关性。一个意图大概对应多个槽位,例如询问地铁路线时,需要给出出发地、目的地、时间等必要参数。以上参数即“询问地铁路线”这一意图对应的槽位。语义槽位填充任务的主要目标是在已知特定领域或特定意图的语义框架(semantic frame)的前提下,从输入语句中抽取该语义框架中预先定义好的语义槽的值。语义槽位填充任务可以转化为序列标注任务,即运用经典的IOB标记法,标记某一个词是某一语义槽的开始(begin)、延续(inside),或是非语义槽(outside)。
示例性地,基于知识指导的当前语句表示和槽填充能够提高模型鲁棒性,对未出现在训练集中的对话也有良好的预测能力,同事双重知识记忆网络能够有效的利用句子本身的信息和历史对话信息,有效解决多轮对话的歧义问题。
实施例二
请继续参阅图5,示出了本申请基于长短期记忆网络的多轮对话语义分析系统20实施例二的程序模块示意图。在本实施例中,基于长短期记忆网络的多轮对话语义分析系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请,并可实现上述基于长短期记忆网络的多轮对话语义分析方法。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机可读指令段。以下描述将具体介绍本实施例各程序模块的功能:
获取模块200,用于获取客户端提供的当前对话信息。
第一生成模块202,用于根据所述当前对话信息生成当前对话代表向量。
进一步地,所述第一生成模块202还用于:
从所述当前对话信息中提取多个关键词;根据所述多个关键词得到对应的多个子结构,每个子结构包括对应的关键词及该关键词的后续词语;将所述每个子结构转换为对应的子结构向量,以得到多个子结构向量;将所述多个子结构向量分别输入到第二长短期记忆模型中,得到对应的多个子结构编码向量;对所述当前对话信息进行分词操作,得到多个分词,并将多个分词转换为对应的多个分词向量;将多个分词向量输入到第三长短期记忆模型中,得到当前对话编码向量;将所述当前对话编码向量和各个子结构编码向量通过归一 化函数计算,以得到各个子结构的权重向量;将所述各个子结构的权重向量与对应的子结构编码向量进行矩阵乘法运算,以得到多个矩阵乘法运算结果;对所述多个矩阵乘法运算结果进行求和,以得到子结构代表向量;将所述子结构代表向量和所述当前对话编码向量进行矩阵加法运算,并将矩阵加法运算的结果输入到第四长短期记忆模型中,以得出当前对话代表向量。
进一步地,所述第一生成模块202还用于:根据所述前对话编码向量和子结构编码向量,通过以所述归一化函数如下:
p i'=soft max(u' Tm i')
其中,u'为当前对话编码向量,u' T为u'的转置向量,m i'为子结构编码向量,p i'为各个子结构的权重向量。
第二生成模块204,用于根据所述当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量。
进一步地,所述第二生成模块204还用于:
提取预设数据库中的多条历史对话信息;对所述多条历史对话信息进行分词操作,得到多个历史分词,并将多个历史分词转换为对应的多个历史分词向量;将所述多个历史分词向量输入到第五长短期记忆模型中,得到多个历史对话编码向量。
示例性地,对本方案中出现的知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中的偏置项进行优化更新的步骤,包括:
将知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中用于表示函数截距的偏置项分别与交叉熵损失函数进行关联,通过ADAM优化算法将所述交叉熵损失函数进行迭代,以根据迭代得到的最优解更新知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中的偏置项。
所述交叉熵损失函数为:
Figure PCTCN2019117767-appb-000011
其中p为真实分布,q为非真实分布,这一公式可以度量模型输入结果与真实结果差异性。
进一步地,所述第二生成模块204还用于:
根据所述历史对话编码向量和所述当前对话代表向量得到注意力分布;对所述注意力分布进行矩阵乘法运算,以得到多个矩阵乘法运算结果;对所述多个矩阵乘法运算结果进行求和,以得到历史对话代表向量;根据所述当前对话代表向量和所述历史对话代表向量,得出所述知识编码表示向量。
进一步地,所述第二生成模块204还用于:
根据所述当前对话代表向量和所述历史对话代表向量,通过以下公式得出知识编码表示向量:
o=W kg(h+u)
其中,u为当前对话代表向量,h为历史对话代表向量,o为知识编码表示向量,W kg为知识编码表示向量的权重矩阵,所述知识编码表示向量的权重矩阵用于表示所述当前对话代表向量和所述历史对话代表向量在生成所述当前对话代表向量中的影响权重,所述W kg是一组随机生成的矩阵。
预测模块206,用于将所述知识编码表示向量和所述当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到所述当前对话信息的预测序列标签。
匹配模块208,用于根据所述预测序列标签得到对应的语义信息,根据所述语义信息与预设的操作信息匹配,得到对应的操作信息。
执行模块210,用于执行与对应的操作信息对应的操作,输出操作结果至客户端。
实施例三
参阅图6,是本申请实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及基于长短期记忆网络的多轮对话语义分析系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,如非易失性计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的基于长短期记忆网络的多轮对话语义分析系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于长短期记忆网络的多轮对话语义分析系统20,以实现实施例一的基于长短期记忆网络的多轮对话语义分析方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图6仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述基于长短期记忆网络的多轮对话语义分析系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本申请。
例如,图5示出了所述实现基于长短期记忆网络的多轮对话语义分析系统20实施例二的程序模块示意图,该实施例中,所述基于长短期记忆网络的多轮对话语义分析系统20可以被划分为获取模块200、第一生成模块202、第二生成模块204、预测模块206、匹配模块208和执行模块210。其中,本申请所称的程序模块是指能够完成特定功能的一系列计算机可读指令段。所述程序模块200-210的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质(如,非易失性计算机可读存储介质),如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机可读指令,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于长短期记忆网络的多轮对话语义分析系统20,被处理器执行如下步骤:
获取客户端提供的当前对话信息;
根据所述当前对话信息生成当前对话代表向量;
根据所述当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量;
将所述知识编码表示向量和所述当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到所述当前对话信息的预测序列标签;
根据所述预测序列标签得到对应的语义信息,根据所述语义信息与预设的操作信息匹配,得到对应的操作信息;
执行与对应的操作信息对应的操作,输出操作结果至客户端。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种基于长短期记忆网络的多轮对话语义分析方法,所述方法包括:
    获取客户端提供的当前对话信息;
    根据所述当前对话信息生成当前对话代表向量;
    根据所述当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量;
    将所述知识编码表示向量和所述当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到所述当前对话信息的预测序列标签;
    根据所述预测序列标签得到对应的语义信息,根据所述语义信息与预设的操作信息匹配,得到对应的操作信息;
    执行与对应的操作信息对应的操作,输出操作结果至客户端。
  2. 根据权利要求1所述的基于长短期记忆网络的多轮对话语义分析方法,所述根据所述当前对话信息生成当前对话代表向量的步骤,包括:
    从所述当前对话信息中提取多个关键词;
    根据所述多个关键词得到对应的多个子结构,每个子结构包括对应的关键词及该关键词的后续词语;
    将所述每个子结构转换为对应的子结构向量,以得到多个子结构向量;
    将所述多个子结构向量分别输入到第二长短期记忆模型中,得到对应的多个子结构编码向量;
    对所述当前对话信息进行分词操作,得到多个分词,并将多个分词转换为对应的多个分词向量;
    将多个分词向量输入到第三长短期记忆模型中,得到当前对话编码向量;
    将所述当前对话编码向量和各个子结构编码向量通过归一化函数计算,以得到各个子结构的权重向量;
    将所述各个子结构的权重向量与对应的子结构编码向量进行矩阵乘法运算,以得到多个矩阵乘法运算结果;
    对所述多个矩阵乘法运算结果进行求和,以得到子结构代表向量;
    将所述子结构代表向量和所述当前对话编码向量进行矩阵加法运算,并将矩阵加法运算的结果输入到第四长短期记忆模型中,以得出当前对话代表向量。
  3. 根据权利要求2所述的基于长短期记忆网络的多轮对话语义分析方法,所述归一化函数如下:
    Figure PCTCN2019117767-appb-100001
    其中,u'为当前对话编码向量,
    Figure PCTCN2019117767-appb-100002
    为u'的转置向量,m i′为子结构编码向量,p i′为各个子结构的权重向量。
  4. 根据权利要求1所述的基于长短期记忆网络的多轮对话语义分析方法,所述预先获取多个历史对话编码向量的步骤,包括:
    提取预设数据库中的多条历史对话信息;
    对所述多条历史对话信息进行分词操作,得到多个历史分词,并将多个历史分词转换为对应的多个历史分词向量;
    将所述多个历史分词向量输入到第五长短期记忆模型中,得到多个历史对话编码向量。
  5. 根据权利要求1所述的基于长短期记忆网络的多轮对话语义分析方法,所述根据所述当前对话代表向量和预先获取的历史对话编码向量,生成知识编码表示向量的步骤,包括:
    根据所述历史对话编码向量和所述当前对话代表向量得到注意力分布;
    对所述注意力分布进行矩阵乘法运算,以得到多个矩阵乘法运算结果;
    对所述多个矩阵乘法运算结果进行求和,以得到历史对话代表向量;
    根据所述当前对话代表向量和所述历史对话代表向量,得出所述知识编码表示向量。
  6. 根据权利要求5所述的基于长短期记忆网络的多轮对话语义分析方法,所述根据所述当前对话代表向量和所述历史对话代表向量,得出知识编码表示向量的步骤,包括:
    根据所述当前对话代表向量和所述历史对话代表向量,通过以下公式得出知识编码表示向量:
    o=W kg(h+u)
    其中,u为当前对话代表向量,h为历史对话代表向量,o为知识编码表示向量,W kg为知识编码表示向量的权重矩阵,所述知识编码表示向量的权重矩阵用于表示所述当前对话代表向量和所述历史对话代表向量在生成所述当前对话代表向量中的影响权重。
  7. 根据权利要求2所述的基于长短期记忆网络的多轮对话语义分析方法,还包括对知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中用于表示函数截距的偏置项进行优化更新的步骤,包括:
    将知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中的偏置项分别与交叉熵损失函数进行关联,通过优化算法将所述交叉熵损失函数进行迭代,以根据迭代得到的最优解更新知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中的偏置项;
    所述交叉熵损失函数为:
    Figure PCTCN2019117767-appb-100003
    其中p为真实分布,q为非真实分布,这一公式可以度量模型输入结果与真实结果差异性。
  8. 一种基于长短期记忆网络的多轮对话语义分析系统,所述系统包括:
    获取模块,用于获取客户端提供的当前对话信息;
    第一生成模块,用于根据所述当前对话信息生成当前对话代表向量;
    第二生成模块,用于根据所述当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量;
    预测模块,用于将所述知识编码表示向量和所述当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到所述当前对话信息的预测序列标签;
    匹配模块,用于根据所述预测序列标签得到对应的语义信息,根据所述语义信息与预设的操作信息匹配,得到对应的操作信息;
    执行模块,用于执行与对应的操作信息对应的操作,输出操作结果至客户端。
  9. 一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,所述计算机可读指令被处理器执行时实现以下步骤:
    获取客户端提供的当前对话信息;
    根据所述当前对话信息生成当前对话代表向量;
    根据所述当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量;
    将所述知识编码表示向量和所述当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到所述当前对话信息的预测序列标签;
    根据所述预测序列标签得到对应的语义信息,根据所述语义信息与预设的操作信息匹配,得到对应的操作信息;
    执行与对应的操作信息对应的操作,输出操作结果至客户端。
  10. 根据权利要求9所述的计算机设备,所述根据所述当前对话信息生成当前对话代表向量的步骤,包括:
    从所述当前对话信息中提取多个关键词;
    根据所述多个关键词得到对应的多个子结构,每个子结构包括对应的关键词及该关键词的后续词语;
    将所述每个子结构转换为对应的子结构向量,以得到多个子结构向量;
    将所述多个子结构向量分别输入到第二长短期记忆模型中,得到对应的多个子结构编 码向量;
    对所述当前对话信息进行分词操作,得到多个分词,并将多个分词转换为对应的多个分词向量;
    将多个分词向量输入到第三长短期记忆模型中,得到当前对话编码向量;
    将所述当前对话编码向量和各个子结构编码向量通过归一化函数计算,以得到各个子结构的权重向量;
    将所述各个子结构的权重向量与对应的子结构编码向量进行矩阵乘法运算,以得到多个矩阵乘法运算结果;
    对所述多个矩阵乘法运算结果进行求和,以得到子结构代表向量;
    将所述子结构代表向量和所述当前对话编码向量进行矩阵加法运算,并将矩阵加法运算的结果输入到第四长短期记忆模型中,以得出当前对话代表向量。
  11. 根据权利要求10所述的计算机设备,所述归一化函数如下:
    Figure PCTCN2019117767-appb-100004
    其中,u'为当前对话编码向量,
    Figure PCTCN2019117767-appb-100005
    为u'的转置向量,m i′为子结构编码向量,p i′为各个子结构的权重向量。
  12. 根据权利要求9所述的计算机设备,所述预先获取多个历史对话编码向量的步骤,包括:
    提取预设数据库中的多条历史对话信息;
    对所述多条历史对话信息进行分词操作,得到多个历史分词,并将多个历史分词转换为对应的多个历史分词向量;
    将所述多个历史分词向量输入到第五长短期记忆模型中,得到多个历史对话编码向量。
  13. 根据权利要求9所述的计算机设备,所述根据所述当前对话代表向量和预先获取的历史对话编码向量,生成知识编码表示向量的步骤,包括:
    根据所述历史对话编码向量和所述当前对话代表向量得到注意力分布;
    对所述注意力分布进行矩阵乘法运算,以得到多个矩阵乘法运算结果;
    对所述多个矩阵乘法运算结果进行求和,以得到历史对话代表向量;
    根据所述当前对话代表向量和所述历史对话代表向量,得出所述知识编码表示向量。
  14. 根据权利要求13所述的计算机设备,所述根据所述当前对话代表向量和所述历史对话代表向量,得出知识编码表示向量的步骤,包括:
    根据所述当前对话代表向量和所述历史对话代表向量,通过以下公式得出知识编码表示向量:
    o=W kg(h+u)
    其中,u为当前对话代表向量,h为历史对话代表向量,o为知识编码表示向量,W kg为知识编码表示向量的权重矩阵,所述知识编码表示向量的权重矩阵用于表示所述当前对话代表向量和所述历史对话代表向量在生成所述当前对话代表向量中的影响权重。
  15. 根据权利要求10所述的计算机设备,还包括对知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中用于表示函数截距的偏置项进行优化更新的步骤,包括:
    将知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中的偏置项分别与交叉熵损失函数进行关联,通过优化算法将所述交叉熵损失函数进行迭代,以根据迭代得到的最优解更新知识编码表示向量的权重矩阵、各个长短期记忆模型中的权重矩阵及各个长短期记忆模型中的偏置项;
    所述交叉熵损失函数为:
    Figure PCTCN2019117767-appb-100006
    其中p为真实分布,q为非真实分布,这一公式可以度量模型输入结果与真实结果差异性。
  16. 一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机可读指令,所述计算机可读指令可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    获取客户端提供的当前对话信息;
    根据所述当前对话信息生成当前对话代表向量;
    根据所述当前对话代表向量和预先获取的多个历史对话编码向量,生成知识编码表示向量;
    将所述知识编码表示向量和所述当前对话信息中各个分词的词向量输入到第一长短期记忆模型中,以得到所述当前对话信息的预测序列标签;
    根据所述预测序列标签得到对应的语义信息,根据所述语义信息与预设的操作信息匹配,得到对应的操作信息;
    执行与对应的操作信息对应的操作,输出操作结果至客户端。
  17. 根据权利要求16所述的计算机可读存储介质,所述根据所述当前对话信息生成当前对话代表向量的步骤,包括:
    从所述当前对话信息中提取多个关键词;
    根据所述多个关键词得到对应的多个子结构,每个子结构包括对应的关键词及该关键词的后续词语;
    将所述每个子结构转换为对应的子结构向量,以得到多个子结构向量;
    将所述多个子结构向量分别输入到第二长短期记忆模型中,得到对应的多个子结构编 码向量;
    对所述当前对话信息进行分词操作,得到多个分词,并将多个分词转换为对应的多个分词向量;
    将多个分词向量输入到第三长短期记忆模型中,得到当前对话编码向量;
    将所述当前对话编码向量和各个子结构编码向量通过归一化函数计算,以得到各个子结构的权重向量;
    将所述各个子结构的权重向量与对应的子结构编码向量进行矩阵乘法运算,以得到多个矩阵乘法运算结果;
    对所述多个矩阵乘法运算结果进行求和,以得到子结构代表向量;
    将所述子结构代表向量和所述当前对话编码向量进行矩阵加法运算,并将矩阵加法运算的结果输入到第四长短期记忆模型中,以得出当前对话代表向量。
  18. 根据权利要求17所述的计算机可读存储介质,所述归一化函数如下:
    Figure PCTCN2019117767-appb-100007
    其中,u'为当前对话编码向量,
    Figure PCTCN2019117767-appb-100008
    为u'的转置向量,m i′为子结构编码向量,p i′为各个子结构的权重向量。
  19. 根据权利要求16所述的计算机可读存储介质,所述预先获取多个历史对话编码向量的步骤,包括:
    提取预设数据库中的多条历史对话信息;
    对所述多条历史对话信息进行分词操作,得到多个历史分词,并将多个历史分词转换为对应的多个历史分词向量;
    将所述多个历史分词向量输入到第五长短期记忆模型中,得到多个历史对话编码向量。
  20. 根据权利要求16所述的计算机可读存储介质,所述根据所述当前对话代表向量和预先获取的历史对话编码向量,生成知识编码表示向量的步骤,包括:
    根据所述历史对话编码向量和所述当前对话代表向量得到注意力分布;
    对所述注意力分布进行矩阵乘法运算,以得到多个矩阵乘法运算结果;
    对所述多个矩阵乘法运算结果进行求和,以得到历史对话代表向量;
    根据所述当前对话代表向量和所述历史对话代表向量,得出所述知识编码表示向量。
PCT/CN2019/117767 2019-09-04 2019-11-13 基于长短期记忆网络的多轮对话语义分析方法和系统 WO2021042543A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910832540.9 2019-09-04
CN201910832540.9A CN110704588B (zh) 2019-09-04 2019-09-04 基于长短期记忆网络的多轮对话语义分析方法和系统

Publications (1)

Publication Number Publication Date
WO2021042543A1 true WO2021042543A1 (zh) 2021-03-11

Family

ID=69194376

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/117767 WO2021042543A1 (zh) 2019-09-04 2019-11-13 基于长短期记忆网络的多轮对话语义分析方法和系统

Country Status (2)

Country Link
CN (1) CN110704588B (zh)
WO (1) WO2021042543A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158062A (zh) * 2021-05-08 2021-07-23 清华大学深圳国际研究生院 一种基于异构图神经网络的用户意图识别方法及装置
CN113377933A (zh) * 2021-04-27 2021-09-10 中国联合网络通信集团有限公司 多轮对话的意图分类方法及装置
CN113537593A (zh) * 2021-07-15 2021-10-22 之江实验室 预测议员投票倾向的方法及其装置
CN113641792A (zh) * 2021-08-13 2021-11-12 南开大学 基于并行化零冗余长短期记忆网络的文本处理方法及系统
CN113673257A (zh) * 2021-08-18 2021-11-19 山东新一代信息产业技术研究院有限公司 一种多轮问答语义生成方法、设备及介质
CN113705652A (zh) * 2021-08-23 2021-11-26 西安交通大学 一种基于指针生成网络的任务型对话状态追踪系统及方法
CN113792741A (zh) * 2021-09-17 2021-12-14 平安普惠企业管理有限公司 文字识别方法、装置、设备及存储介质
CN113918729A (zh) * 2021-10-08 2022-01-11 肇庆学院 一种基于知识树的任务协同方法及系统
CN113673257B (zh) * 2021-08-18 2024-05-14 浪潮智能物联技术有限公司 一种多轮问答语义生成方法、设备及介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475616B (zh) * 2020-03-13 2023-08-22 平安科技(深圳)有限公司 基于对话状态预测的多轮对话方法、装置和计算机设备
CN111414466A (zh) * 2020-03-17 2020-07-14 杭州博拉哲科技有限公司 一种基于深度模型融合的多轮对话建模方法
CN111476642A (zh) * 2020-04-14 2020-07-31 广东技术师范大学 一种基于社交平台用户头像分析的保险推荐方法及系统
CN111651573B (zh) * 2020-05-26 2023-09-05 上海智臻智能网络科技股份有限公司 一种智能客服对话回复生成方法、装置和电子设备
CN113836275B (zh) * 2020-06-08 2023-09-05 菜鸟智能物流控股有限公司 对话模型建立方法、装置、非易失性存储介质和电子装置
CN111950275B (zh) * 2020-08-06 2023-01-17 平安科技(深圳)有限公司 基于循环神经网络的情绪识别方法、装置及存储介质
CN112183105A (zh) * 2020-08-28 2021-01-05 华为技术有限公司 人机交互方法及装置
CN112069300A (zh) * 2020-09-04 2020-12-11 中国平安人寿保险股份有限公司 任务型对话的语义识别方法、装置、电子设备及存储介质
CN112199482B (zh) * 2020-09-30 2023-07-21 平安科技(深圳)有限公司 一种对话生成方法、装置、设备及可读存储介质
CN112182191B (zh) * 2020-10-16 2022-08-30 西北师范大学 多轮口语理解的结构化记忆图网络模型
CN112613308B (zh) * 2020-12-17 2023-07-25 中国平安人寿保险股份有限公司 用户意图识别方法、装置、终端设备及存储介质
CN112528655B (zh) 2020-12-18 2023-12-29 北京百度网讯科技有限公司 关键词生成方法、装置、设备及存储介质
CN112818098B (zh) * 2021-01-29 2023-11-24 深圳平安智慧医健科技有限公司 基于知识库的对话生成方法、装置、终端及存储介质
CN112884440A (zh) * 2021-03-02 2021-06-01 岭东核电有限公司 核电试验中的试验工序执行方法、装置和计算机设备
CN112632961B (zh) * 2021-03-04 2021-06-18 支付宝(杭州)信息技术有限公司 基于上下文推理的自然语言理解处理方法、装置以及设备
CN113239152B (zh) * 2021-05-18 2023-07-25 平安科技(深圳)有限公司 适用于多轮对话的对话修复方法、装置、设备及存储介质
CN113435196B (zh) * 2021-06-22 2022-07-29 平安科技(深圳)有限公司 意图识别方法、装置、设备及存储介质
CN113486674A (zh) * 2021-06-30 2021-10-08 河南光悦网络科技有限公司 基于人工智能的针对多轮对话进行语义分析的方法和装置
CN113838461B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 智能语音交互方法、装置、设备和计算机存储介质
CN115174949B (zh) * 2022-06-30 2024-02-23 广州汇才创新科技有限公司 一种基于投影的远程直播的互动方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805087A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN108829667A (zh) * 2018-05-28 2018-11-16 南京柯基数据科技有限公司 一种基于记忆网络的多轮对话下的意图识别方法
CN109800294A (zh) * 2019-01-08 2019-05-24 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置
US20190251431A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask Learning As Question Answering

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107231401B (zh) * 2016-03-25 2021-02-09 华为技术有限公司 一种会话监控的方法、装置和系统
CN106776578B (zh) * 2017-01-03 2020-03-17 竹间智能科技(上海)有限公司 用于提升对话系统对话性能的方法及装置
CN107369443B (zh) * 2017-06-29 2020-09-25 北京百度网讯科技有限公司 基于人工智能的对话管理方法及装置
CN109727041B (zh) * 2018-07-03 2023-04-18 平安科技(深圳)有限公司 智能客服多轮问答方法、设备、存储介质及装置
CN110096516B (zh) * 2019-03-25 2022-01-28 北京邮电大学 自定义的数据库交互的对话生成方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190251431A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask Learning As Question Answering
CN108829667A (zh) * 2018-05-28 2018-11-16 南京柯基数据科技有限公司 一种基于记忆网络的多轮对话下的意图识别方法
CN108805087A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN109800294A (zh) * 2019-01-08 2019-05-24 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377933A (zh) * 2021-04-27 2021-09-10 中国联合网络通信集团有限公司 多轮对话的意图分类方法及装置
CN113377933B (zh) * 2021-04-27 2023-05-30 中国联合网络通信集团有限公司 多轮对话的意图分类方法及装置
CN113158062A (zh) * 2021-05-08 2021-07-23 清华大学深圳国际研究生院 一种基于异构图神经网络的用户意图识别方法及装置
CN113537593A (zh) * 2021-07-15 2021-10-22 之江实验室 预测议员投票倾向的方法及其装置
CN113641792B (zh) * 2021-08-13 2023-11-21 南开大学 基于并行化零冗余长短期记忆网络的文本处理方法及系统
CN113641792A (zh) * 2021-08-13 2021-11-12 南开大学 基于并行化零冗余长短期记忆网络的文本处理方法及系统
CN113673257A (zh) * 2021-08-18 2021-11-19 山东新一代信息产业技术研究院有限公司 一种多轮问答语义生成方法、设备及介质
CN113673257B (zh) * 2021-08-18 2024-05-14 浪潮智能物联技术有限公司 一种多轮问答语义生成方法、设备及介质
CN113705652A (zh) * 2021-08-23 2021-11-26 西安交通大学 一种基于指针生成网络的任务型对话状态追踪系统及方法
CN113792741A (zh) * 2021-09-17 2021-12-14 平安普惠企业管理有限公司 文字识别方法、装置、设备及存储介质
CN113792741B (zh) * 2021-09-17 2023-08-11 平安普惠企业管理有限公司 文字识别方法、装置、设备及存储介质
CN113918729B (zh) * 2021-10-08 2024-04-16 肇庆学院 一种基于知识树的任务协同方法及系统
CN113918729A (zh) * 2021-10-08 2022-01-11 肇庆学院 一种基于知识树的任务协同方法及系统

Also Published As

Publication number Publication date
CN110704588B (zh) 2023-05-30
CN110704588A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
WO2021042543A1 (zh) 基于长短期记忆网络的多轮对话语义分析方法和系统
US11487945B2 (en) Predictive similarity scoring subsystem in a natural language understanding (NLU) framework
US11681877B2 (en) Systems and method for vocabulary management in a natural learning framework
WO2020140386A1 (zh) 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
US20210141799A1 (en) Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
US20220171936A1 (en) Analysis of natural language text in document
US20210357762A1 (en) Transfer learning system for automated software engineering tasks
CN111061847A (zh) 对话生成及语料扩充方法、装置、计算机设备和存储介质
WO2019174450A1 (zh) 一种对话生成的方法和装置
WO2019154411A1 (zh) 词向量更新方法和装置
US9298693B2 (en) Rule-based generation of candidate string transformations
WO2021174871A1 (zh) 数据查询方法、系统、计算机设备及存储介质
CN109616093A (zh) 端对端语音合成方法、装置、设备及存储介质
WO2022141864A1 (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
WO2023024349A1 (zh) 纵向联邦预测优化方法、设备、介质及计算机程序产品
JP2022169743A (ja) 情報抽出方法、装置、電子機器及び記憶媒体
US20230073052A1 (en) Neural transformer code completion for command line interface
WO2022164668A1 (en) Natural language source code search using using neural transformers
CN112988753A (zh) 一种数据搜索方法和装置
CN111797204A (zh) 文本匹配方法、装置、计算机设备及存储介质
JP2022529268A (ja) 音声を認識する方法及び装置
CN114265921A (zh) 问答知识库构建方法及其装置、设备、介质、产品
CN111078202A (zh) 业务架构模型维护方法、装置、电子设备和介质
JP6973192B2 (ja) 言語モデルを利用する装置、方法及びプログラム
CN111209746A (zh) 自然语言处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19943981

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19943981

Country of ref document: EP

Kind code of ref document: A1