WO2019024704A1 - 实体标注方法、意图识别方法及对应装置、计算机存储介质 - Google Patents

实体标注方法、意图识别方法及对应装置、计算机存储介质 Download PDF

Info

Publication number
WO2019024704A1
WO2019024704A1 PCT/CN2018/096640 CN2018096640W WO2019024704A1 WO 2019024704 A1 WO2019024704 A1 WO 2019024704A1 CN 2018096640 W CN2018096640 W CN 2018096640W WO 2019024704 A1 WO2019024704 A1 WO 2019024704A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
vector
word
words
entity
Prior art date
Application number
PCT/CN2018/096640
Other languages
English (en)
French (fr)
Inventor
胡于响
Original Assignee
阿里巴巴集团控股有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集团控股有限公司 filed Critical 阿里巴巴集团控股有限公司
Publication of WO2019024704A1 publication Critical patent/WO2019024704A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Definitions

  • the present invention relates to the field of computer application technologies, and in particular, to an entity labeling method, an intent identification method, a corresponding device, and a computer storage medium.
  • Natural language processing is an important and even core part of artificial intelligence. Its purpose is to understand what a sentence should express. It mainly consists of two major tasks: entity annotation and intent recognition.
  • entity annotation is an attribute label of the entity word in a sentence
  • intent recognition is to identify what intention or purpose a sentence wants to achieve. For example, if there is such a sentence "what movie Jay Chou has played", the task of entity annotation is to mark the entity word "Jay Chou" as the Movie_actor tag, Movie_actor refers to the film and television actor; and the intent recognition is to identify the sentence is to obtain Which movie an actor has played.
  • the present invention provides an entity annotation method, an intent recognition method, and a corresponding device, and a computer storage medium, in order to improve the accuracy of entity annotation and intent recognition.
  • the invention provides an entity labeling method, the method comprising:
  • the first expression vector and the second expression vector are fused to obtain an entity labeling result for the sentence.
  • the invention also provides an intent identification method, the method comprising:
  • the first sentence vector and the second sentence vector of the sentence are merged to obtain an intent recognition result for the sentence.
  • the invention provides an entity marking device, the device comprising:
  • a first word coding unit configured to perform word coding on an attribute tag of at least part of the words in the sentence by using a knowledge map to obtain a first expression vector of at least part of the words
  • a second word coding unit configured to perform word coding on at least part of the words in the sentence based on the sentence structure, to obtain a second expression vector of at least part of the words
  • the vector fusion unit is configured to fuse the first expression vector and the second expression vector to obtain an entity labeling result of the sentence.
  • the invention also provides an intent identification device, the device comprising:
  • a first sentence coding unit configured to use a knowledge map to combine and encode attribute tags of at least some words in the sentence to obtain a first sentence vector of the sentence;
  • a second sentence coding unit configured to encode the sentence based on a sentence structure to obtain a second sentence vector of the sentence
  • a vector fusion unit is configured to fuse the first sentence vector and the second sentence vector of the sentence to obtain an intention recognition result for the sentence.
  • the invention provides an apparatus, including
  • Memory including one or more programs
  • One or more processors coupled to the memory, executing the one or more programs to perform the operations performed in the methods described above.
  • the present invention also provides a computer storage medium encoded with a computer program that, when executed by one or more computers, causes the one or more computers to perform operations performed in the above method .
  • the present invention introduces the knowledge map into the entity annotation and the intent recognition, that is, the entity annotation and the intention recognition are performed by fusing the attribute information of the entity in the knowledge map with the sentence structure-based manner, and comparing the present There are techniques based solely on sentence structure to improve accuracy.
  • FIG. 1 is a flowchart of a method for marking an entity according to an embodiment of the present invention
  • FIG. 2 is a schematic diagram of word coding using a knowledge map according to an embodiment of the present invention
  • FIG. 3 is a schematic diagram of word coding based on a sentence structure according to an embodiment of the present invention.
  • FIG. 4 is a schematic diagram of entity mapping by using a fusion knowledge map and a sentence structure manner according to an embodiment of the present invention
  • FIG. 5 is a flowchart of a method for intent recognition according to an embodiment of the present invention.
  • FIG. 6 is a schematic diagram of sentence encoding using a knowledge map according to an embodiment of the present invention.
  • FIG. 7 is a schematic diagram of intent recognition of a fusion knowledge map and a sentence structure manner according to an embodiment of the present invention.
  • FIG. 8 is a structural diagram of an entity labeling apparatus according to an embodiment of the present invention.
  • FIG. 9 is a structural diagram of an intent recognition device according to an embodiment of the present invention.
  • FIG. 10 is a structural diagram of an example device according to an embodiment of the present invention.
  • the core idea of the present invention is to introduce the knowledge map into the entity annotation and the intention recognition, that is, the attribute information of the entity in the knowledge map is merged with the sentence structure-based manner to perform the entity annotation and the intention recognition, thereby improving the accuracy.
  • the method and apparatus provided by the present invention are described in detail below in conjunction with the embodiments.
  • FIG. 1 is a flowchart of a method for entity labeling according to an embodiment of the present invention. As shown in FIG. 1 , the method may include the following steps:
  • the knowledge map is preprocessed.
  • the knowledge map In the knowledge map, attribute information corresponding to each entity and each entity, and relationships between the entities are stored.
  • knowledge maps are usually divided by fields/categories. For example, in the music field/category, the entity “Jay Chou” corresponds to attribute tags: “singer”, “composer” and “word author”, and in the field of film and television There is also the entity “Jay Chou”, which corresponds to the attribute tag "actor".
  • the knowledge map may be preprocessed first. Specifically, the following steps may be included:
  • the entities After obtaining the attribute tags corresponding to the entities, the entities are respectively used as keys, the attribute tags corresponding to the entities are used as values, and then the key-value pairs are stored in the key value storage engine.
  • preprocessing the knowledge map is to facilitate the quick search of the attribute label of the entity in the knowledge map, but it is not a step that must be performed by the present invention.
  • pre-processing the knowledge map can also be used.
  • the attribute map of the words in the sentence is coded using the knowledge map to obtain a first expression vector of each word.
  • the first expression vector of each word obtained by using the knowledge map is used for the first expression vector of each word to include the attribute information of the entity in the knowledge map. Specifically, it can be achieved by the following steps:
  • the sentence can be matched in the knowledge map by using the longest matching principle to identify the entity in the sentence.
  • each n-gram (n-gram) of the sentence is obtained.
  • the n-gram refers to a combination of consecutive n words, where n is a value of 1 or more.
  • take the longest n-gram As the identified entity.
  • the key value storage engine may be queried to find the value corresponding to the entity as the key.
  • the “words” in the sentence are taken as an example, but the “at least part of the words” in the sentence is not excluded.
  • the obtained at least part of the word is labeled with an attribute label, such as labeling the attribute label only for the entity in the indication map.
  • S23 Perform word coding on attribute tags of each word, and perform conversion of the coding result into a fully connected layer to obtain a first expression vector of each word.
  • the attribute tags of each word are coded, and the purpose is to convert the attribute tag set of each word into a string of codes that the computer can recognize.
  • the encoding method used in this embodiment may include, but is not limited to, one-hot encoding.
  • the length of the coding result may be the total number of attribute tags. For example, there are M attribute tags in the knowledge map, and the coding result is M bits, and each bit corresponds to one attribute tag. The value of each bit in the coding result is used to indicate whether there is an attribute tag corresponding to the bit. For example, in the result of the word encoding of "Jay Chou", 4 digits are 1, indicating that "Jay Chou" has attribute labels corresponding to the four positions.
  • the translation of the full connection layer is performed, and the purpose is to map the coding result of the attribute tag of each word to the entity tag, which is a tag for entity tagging the words in the sentence.
  • the entity tag which is a tag for entity tagging the words in the sentence.
  • the above fully connected layer may be trained in advance.
  • the training process may include: prescribing a sentence marked with an entity tag as a training sample, and using the knowledge map to perform the above entity recognition, word segmentation, attribute tag labeling, and one-hot encoding on the sentence in the training sample, as the full connection layer
  • the input, the first expression vector formed by the entity tag corresponding to each word in the sentence is the target output of the fully connected layer, and the fully connected layer is trained.
  • the fully connected layer obtained by the training is actually used for mapping the encoded result to the entity tag after one-hot encoding.
  • the one-hot coding result corresponding to each word is converted into a full connection layer, and the first expression vector of each word is obtained, which is represented as: T-dict1, T-dict2, T-dict3, T -dict4 and T-dict5.
  • words are coded for each word in the sentence based on the sentence structure, and a second expression vector of each word is obtained.
  • the existing word vector generation tool for example, word2vec, etc.
  • word2vec may be used to pre-train word2vec based on semantics, and then the word2vec can be used to generate word vectors for each word, each word corresponding The word vector is the same length.
  • This way of determining the word vector is based on semantics, which enables the distance between the word vectors to reflect the degree of association between the semantics of the words. The higher the degree of association between the semantics, the smaller the distance between the corresponding word vectors.
  • the currently existing technology can be used, and will not be described in detail herein.
  • the word vectors are entered into a pre-trained neural network in order to encode the sentences according to word granularity.
  • the above neural network may employ, for example, a bidirectional RNN (Circular Neural Network), a one-way RNN, a CNN (Convolutional Neural Network), and the like.
  • a bidirectional RNN is preferred because the bidirectional RNN is capable of cyclically encoding sentences.
  • the basic idea of a two-way RNN is to propose that each training sequence is two RNNs forward and backward, and that the two RNNs are connected to an output layer. This structure provides context information for each point in the input sequence to the output layer.
  • the output vector of the last word is also called the "sentence vector" because theoretically it contains information about all the previous words.
  • processing based on the knowledge map and the sentence structure in the above steps 102 and 103 may be performed sequentially in any order, or may be performed simultaneously.
  • the order shown in this embodiment is only one of the execution modes.
  • the first expression vector and the second expression vector are fused to obtain an entity labeling result for the sentence.
  • the fusion of the first expression vector and the second expression vector in this step is actually the fusion of the entity annotation based on the knowledge map and the entity annotation based on the sentence structure. Specifically, the following steps can be specifically performed:
  • two vectors can be spliced in a preset order to obtain a longer vector, which is a third expression vector.
  • the third expression vector of each word is input into the pre-trained fully connected layer for conversion, thereby mapping each third expression vector to the entity label, and after conversion, the result vector is obtained.
  • the length of the result vector is the total number of corresponding entity tags, and each bit of the result vector corresponds to each entity tag, and the value of each bit corresponds to the score of each entity tag.
  • the above fully connected layer may be trained in advance.
  • the training process may include: prescribing a sentence marked with an entity tag as a training sample, respectively performing the steps in steps 102 and 103 above, that is, obtaining a first expression vector and a second expression vector of each word for the sentence in the training sample respectively. Then, the result of splicing the first expression vector and the second expression vector (ie, the third expression vector) is taken as the input of the fully connected layer, and the entity tag of the sentence is trained as the output of the fully connected layer.
  • the fully connected layer obtained by the training is used to perform mapping of the third expression vector of each word in the sentence to the physical tag.
  • Each word corresponds to a result vector. According to the score of each entity tag in the result vector, the entity tag with the highest score is selected to perform physical tagging of each word in the sentence.
  • the first expression vector and the second expression vector of each word are respectively spliced to obtain a third expression vector.
  • the first expression vector T-dict1 of "Jay Chou” is spliced with the second expression vector Output1 to obtain a third expression vector K1, and other words are similar.
  • the third expression vectors K1, K2, ... K5 of the respective words are then input to the fully connected layers, respectively, to obtain the result vectors of the respective words.
  • the entity tag "Actor_name” has the highest score. You can use "Actor_name” to mark the word "Jay Chou”.
  • the highest-scoring entity tag is " O"
  • the indication is not an entity, so the other words are labeled with the entity tag "O".
  • FIG. 5 is a flowchart of a method for intent recognition according to an embodiment of the present invention. As shown in FIG. 5, the method may include the following steps:
  • the attribute map of each word in the sentence is combined and encoded using the knowledge map to obtain the first sentence vector of the sentence.
  • the knowledge map can be pre-processed before this step.
  • the pre-processing process is not described in detail. See the related description of 101 in Figure 1.
  • the first sentence vector of the sentence is obtained by using the knowledge map, so that the first sentence vector contains the attribute information of the entity in the knowledge map. Specifically, it can be achieved by the following steps:
  • step S21 For detailed implementation of this step, refer to step S21 in the embodiment shown in FIG. 1, and details are not described herein again.
  • S52 Combine and encode attribute tags of each word, and convert the coding result into a fully connected layer to obtain a first sentence vector of the sentence.
  • the attribute labels of each word are collectively encoded to obtain a coding result.
  • the coding result is a vector, the length of the vector corresponds to the total number of attribute labels, and each bit corresponds to an attribute label, and the value of each bit is the weight of the attribute label in the sentence.
  • the weight of the attribute tag in the sentence it may be determined according to the number of occurrences of the attribute tag in the sentence and the number of attribute tags corresponding to the same entity of the attribute tag. Specifically, the weight of the attribute label labeli It can be determined by the following formula:
  • a im indicates the value of the label labeli for the mth word. If labeli is not the attribute label of the mth word, the value of a im is 0. If labeli is the attribute label of the mth word, the value of a im is Where count(label m ) is the number of attribute labels for the mth word.
  • the coding result is converted into a full connection layer, and the purpose is to map the attribute label-based coding result of the sentence to the entity label.
  • the entity tag is a tag that physically labels the words in the sentence.
  • the first sentence vector of the sentence is obtained.
  • the length of the first sentence vector corresponds to the total number of physical tags, and the value of each bit of the first sentence vector is the weight of the entity tag corresponding to the bit in the sentence.
  • the above fully connected layer may be trained in advance.
  • the training process may include: prescribing a sentence marked with an entity tag as a training sample, and using the knowledge map to perform the above entity recognition, word segmentation, attribute tag labeling, and combination coding on the sentence in the training sample, and the obtained coding result is used as the whole
  • the input of the connection layer, the first sentence vector formed by the physical tag corresponding to each word in the sentence is used as the target output of the fully connected layer, and the fully connected layer is trained.
  • the fully connected layer obtained by the training is actually used to perform mapping of the encoded result to the physical tag after the combined encoding.
  • the process in this step can be as shown in Fig. 6.
  • the attribute tag of each word in "Which movie played by Jay Chou” is combined and encoded, and the obtained encoded result is passed through the fully connected layer, and finally the first sentence vector is obtained, which is expressed as S- Dict.
  • the sentence is encoded based on the sentence structure to obtain a second sentence vector of the sentence.
  • a second expression vector of each word is obtained, and the second expression vector of the last word is used as the second sentence vector of the sentence.
  • the first sentence vector and the second sentence vector of the sentence are merged to obtain an intention recognition result for the sentence.
  • the fusion of the first sentence vector and the second sentence vector in this step is actually the fusion of the intention information obtained based on the knowledge map and the intention information obtained based on the sentence structure.
  • the result of entity annotation based on knowledge map has a great influence on the intent recognition. For example, "Which movies played by Jay Chou” is taken as an example, and “Jay Chou” is correctly labeled as "actor” for the correct intention to identify the result "an actor Which movies have had a great influence. If the entity "Jay Chou” is mistakenly labeled as "singer”, it is very likely that the above intent recognition result will not be obtained.
  • this step may include the following steps:
  • two vectors can be spliced in a preset order to obtain a longer vector, which is a third sentence vector.
  • the splicing method can separately consider the influence based on the knowledge map and the influence based on the sentence structure, respectively, different parameters are adopted in the subsequent conversion process of the full connection layer, so the splicing method is preferred.
  • the third sentence vector is input into the pre-trained fully connected layer for conversion, thereby mapping the third sentence vector to the sentence intention, and after conversion, the result vector is obtained.
  • the length of the result vector corresponds to the number of categories of the sentence intent, and each of the result vectors corresponds to the score of each sentence's intention.
  • the above fully connected layer may be trained in advance.
  • the training process may include: pre-determining the sentence of the sentence intent as a training sample, respectively performing the steps in steps 501 and 502 above, and obtaining the first sentence vector and the second sentence vector respectively for the sentences in the training sample, and then The result of splicing a sentence vector and a second sentence vector (ie, the third sentence vector) is input to the fully connected layer, and the sentence of the sentence is intended to be trained as an output of the fully connected layer.
  • the fully connected layer obtained by the training is used to map the third sentence vector of the sentence to the sentence intention.
  • the sentence intention can be determined according to the score of each sentence intent category in the result vector, for example, the sentence with the highest score is intended as the intent of the recognized sentence.
  • the first sentence vector S-dict of the sentence is spliced with the second sentence vector Output5 to obtain a third sentence vector K.
  • the third sentence vector K is then input into the fully connected layer, and finally a result vector is obtained.
  • the sentence with the highest score in the result vector is intended to be: "Which movie did an actor play?"
  • FIG. 8 is a structural diagram of an entity labeling apparatus according to an embodiment of the present invention.
  • the apparatus may include: a first word encoding unit 10, a second word encoding unit 20, and a vector fusion unit 30, and may further include Map preprocessing unit 40.
  • Map preprocessing unit 40 The main functions of each component are as follows:
  • the first word encoding unit 10 is responsible for word encoding the attribute labels of the words in the sentence by using the knowledge map to obtain the first expression vector of each word.
  • the first word encoding unit 10 may include a matching subunit 11, a word segment subunit 12, and a first word encoding subunit 13.
  • the matching sub-unit 11 is responsible for identifying the entity in the sentence and the attribute tag corresponding to the entity by using the knowledge map. Specifically, the matching sub-unit 11 can match the sentences in the knowledge map by using the longest matching principle, and identify the entities in the sentence. For example, each n-gram of a sentence can be obtained, where n is a value of 1 or more. Match each n-gram to the knowledge map to see which n-grams match the entities in the knowledge map. When there are multiple n-grams that overlap to match the entity, take the longest n-gram. As the identified entity.
  • the word segmentation sub-unit 12 is responsible for segmenting the sentence by the recognition result of the matching sub-unit 11, and labeling the obtained words with attribute tags.
  • the word segment sub-unit performs word segmentation on the sentence, the entity recognized by the matching sub-unit 11 can be regarded as an independent word.
  • the first word encoding sub-unit 13 is responsible for word encoding the attribute tags of each word.
  • the attribute tag of each word may be one-hot encoded, and the encoding result is converted into a fully connected layer to obtain a first expression of each word. vector.
  • the translation of the full connection layer is performed, and the purpose is to map the coding result of the attribute tag of each word to the entity tag, which is a tag for entity tagging the words in the sentence.
  • the entity tag which is a tag for entity tagging the words in the sentence.
  • the above fully connected layer may be trained in advance.
  • the training process may include: prescribing a sentence marked with an entity tag as a training sample, and using the knowledge map to perform the above entity recognition, word segmentation, attribute tag labeling, and one-hot encoding on the sentence in the training sample, as the full connection layer
  • the input, the first expression vector formed by the entity tag corresponding to each word in the sentence is the target output of the fully connected layer, and the fully connected layer is trained.
  • the fully connected layer obtained by the training is actually used for mapping the encoded result to the entity tag after one-hot encoding.
  • the map pre-processing unit 40 is responsible for integrating the attribute tags of each entity in the knowledge map in each domain to obtain a set of attribute tags corresponding to each entity; and storing the attribute tag sets corresponding to the entities in the key value storage engine. Accordingly, the matching sub-unit 11 can match the sentences in the key-value storage engine using the longest matching algorithm.
  • the second word encoding unit 20 is responsible for word encoding each word in the sentence based on the sentence structure to obtain a second expression vector of each word. Specifically, the second word encoding unit 20 may first determine the word vector of each word in the sentence; then input the word vector into the pre-trained neural network to obtain the second expression vector of each word, respectively.
  • the second word encoding unit 20 may use an existing word vector generation tool, such as word2vec, etc., based on semantic pre-training word2vec, and then use the word2vec to generate words for each word.
  • Word2vec the length of the word vector corresponding to each word is the same. This way of determining the word vector is based on semantics, which enables the distance between the word vectors to reflect the degree of association between the semantics of the words. The higher the degree of association between the semantics, the smaller the distance between the corresponding word vectors.
  • the above neural network may employ, for example, a bidirectional RNN (Circular Neural Network), a one-way RNN, a CNN (Convolutional Neural Network), and the like. Among them, a bidirectional RNN is preferred.
  • the vector fusion unit 30 is responsible for fusing the first expression vector and the second expression vector to obtain an entity labeling result for the sentence.
  • the vector fusion unit 30 may separately splicing the first expression vector and the second expression vector of each word to obtain a third expression vector of each word; and then converting the third expression vector of each word into a fully connected layer to each The result vector of the word, wherein the length of the result vector corresponds to the total number of the entity tags, and the bits of the result vector correspond to the tags of the entities, and the values of the bits represent the scores of the corresponding entity tags; finally, the sentences are physically labeled according to the result vector of each word .
  • the vector fusion unit 30 may perform physical annotation on the sentences according to the result vector of each word, and respectively perform entity annotation on each word in the sentence according to the highest-scoring entity label in the result vector of each word.
  • FIG. 9 is a structural diagram of an intent recognition apparatus according to an embodiment of the present invention.
  • the apparatus may include: a first sentence encoding unit 50, a second sentence encoding unit 60, and a vector fusion unit 70, and may further include a map pre- Processing unit 80.
  • the main functions of each component are as follows:
  • the first sentence encoding unit 50 is responsible for combining and encoding the attribute labels of the words in the sentence by using the knowledge map to obtain the first sentence vector of the sentence.
  • the first sentence encoding unit 50 may specifically include: a matching subunit 51, a word segment subunit 52, and a combined encoding subunit 53.
  • the matching sub-unit 51 is responsible for identifying the entity in the sentence and the attribute tag corresponding to the entity by using the knowledge map. Specifically, the matching sub-unit 51 can use the longest matching algorithm to match the sentences in the knowledge map to identify the entities in the sentence.
  • the word segmentation sub-unit 52 is responsible for segmenting the sentence using the recognition result, and labeling the obtained words with attribute tags. Among them, the entity identified by the matching subunit 51 is used as an independent word at the time of word segmentation.
  • the combined coding sub-unit 53 is responsible for combining and encoding the attribute tags of each word, and converting the coding result into a fully connected layer to obtain a first sentence vector of the sentence, the length of the first sentence vector corresponding to the total number of physical tags, first The value of each bit of the sentence vector is the weight of the entity tag corresponding to the bit in the sentence.
  • the map pre-processing unit 80 is responsible for integrating the attribute tags of each entity in the knowledge map in each domain to obtain a set of attribute tags corresponding to each entity; and storing the attribute tag set corresponding to each entity in the key value storage engine. Accordingly, the matching sub-unit 51 described above can match the sentences in the key-value storage engine using the longest matching algorithm.
  • the second sentence encoding unit 60 is responsible for encoding the sentence based on the sentence structure to obtain the second sentence vector of the sentence. Specifically, the second sentence encoding unit 60 may first determine the word vector of each word in the sentence; then input the word vector into the pre-trained neural network to obtain the second sentence vector of the sentence.
  • the second sentence encoding unit 60 determines the word vector of each word in the sentence.
  • the above neural network may employ, for example, a bidirectional RNN (Circular Neural Network), a one-way RNN, a CNN (Convolutional Neural Network), and the like. Among them, a bidirectional RNN is preferred.
  • the word vector may be specifically input into the pre-trained neural network to obtain the second expression vector of each word respectively;
  • the second expression vector of a word is used as the second sentence vector of the sentence.
  • the vector fusion unit 70 is responsible for fusing the first sentence vector and the second sentence vector of the sentence to obtain an intent recognition result for the sentence.
  • the first sentence vector and the second sentence vector may be spliced to obtain a third sentence vector; the third sentence vector is converted into a result vector through the fully connected layer, wherein the length of the result vector corresponds to the number of categories of the sentence intention, and the result
  • Each of the vectors corresponds to the intent of each sentence, and the value of each character reflects the score corresponding to the intent of the sentence; the intent of the sentence is determined according to the result vector.
  • the vector fusion unit 70 determines the sentence intention according to the result vector, the sentence with the highest score in the result vector can be used as the sentence intention of the sentence.
  • the user enters the question “Which movie Jay Chou played” on the smart question and answer client on the mobile phone.
  • the entity “Jay Chou” is marked as “Actor_name”.
  • the intention is "what movie an actor has played.”
  • the processing logic corresponding to the intent is to find the movie name corresponding to the entity marked "Actor_name” in the sentence in the movie database.
  • FIG. 10 exemplarily illustrates an example device 1000 in accordance with various embodiments.
  • Apparatus 1000 can include one or more processors 1002 coupled to at least one processor 1002, non-volatile memory (NMV)/memory 1004 coupled to system control logic 1001, network interface 1006 Coupled to system control logic 1001.
  • NMV non-volatile memory
  • Processor 1002 can include one or more single core processors or multi-core processors.
  • Processor 1002 can include any general purpose processor or combination of special purpose processors (eg, image processors, application processor baseband processors, etc.).
  • System control logic 1001 in one embodiment may include any suitable interface controller to provide any suitable interface to at least one of processors 1002 and/or to any suitable communication in communication with system control logic 1001. Any suitable interface to the device or component.
  • System control logic 1001 in one embodiment may include one or more memory controllers to provide an interface to system memory 1003.
  • System memory 1003 is used to load and store data and/or instructions.
  • corresponding device 1000 in one embodiment, system memory 1003 can include any suitable volatile memory.
  • NVM/memory 1004 can include one or more tangible, non-transitory computer readable media for storing data and/or instructions.
  • NVM/memory 1004 can include any suitable non-volatile storage device, such as one or more hard disk devices (HDDs), one or more compact disks (CDs), and/or one or more Digital versatile disk (DVD).
  • HDDs hard disk devices
  • CDs compact disks
  • DVD Digital versatile disk
  • the NVM/memory 1004 can include storage resources that are physically part of the device that the system is installed on or can be accessed, but is not necessarily part of the device.
  • NVM/memory 1004 can be accessed by the network via network interface 1006.
  • System memory 1003 and NVM/memory 1004 can each include a copy of a temporary or persistent instruction 1010.
  • the instructions 1010 can include instructions that, when executed by at least one of the processors 1002, cause the device 1000 to implement one or a combination of the methods described in FIG. 1 or FIG.
  • instructions 1010 or hardware, firmware, and/or software components may additionally/alternatively be placed in system control logic 1001, network interface 1006, and/or processor 1002.
  • Network interface 1006 can include a receiver to provide device 1000 with a wireless interface to communicate with one or more networks and/or any suitable device.
  • Network interface 1006 can include any suitable hardware and/or firmware.
  • Network interface 1006 can include multiple antennas to provide a multiple input multiple output wireless interface.
  • network interface 1006 can include a network adapter, a wireless network adapter, a telephone modem, and/or a wireless modem.
  • At least one of the processors 1002 may be packaged with logic for one or more controllers of system control logic. In one embodiment, at least one of the processors may be packaged with logic for one or more controllers of system control logic to form a system level package. In one embodiment, at least one of the processors can be integrated on the same die as the logic of one or more controllers for system control logic. In one embodiment, at least one of the processors can be integrated on the same die as the logic of one or more controllers for system control logic to form a system chip.
  • Apparatus 1000 can further include an input/output device 1005.
  • the input/output device 1005 can include a user interface intended to enable a user to interact with the device 1000, can include a peripheral component interface designed to enable peripheral components to interact with the system, and/or can include sensors for determining environmental conditions And/or location information about the device 1000.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, may be located in one place, or may be distributed to multiple network units. Some or all of the units may be selected according to actual needs to achieve the purpose of the solution of the embodiment.
  • each functional unit in each embodiment of the present invention may be integrated into one processing unit, or each unit may exist physically separately, or two or more units may be integrated into one unit.
  • the above integrated unit can be implemented in the form of hardware or in the form of hardware plus software functional units.
  • the above-described integrated unit implemented in the form of a software functional unit can be stored in a computer readable storage medium.
  • the above software functional unit is stored in a storage medium and includes instructions for causing a computer device (which may be a personal computer, a server, or a network device, etc.) or a processor to perform the methods of the various embodiments of the present invention. Part of the steps.
  • the foregoing storage medium includes: a U disk, a mobile hard disk, a read-only memory (ROM), a random access memory (RAM), a magnetic disk, or an optical disk, and the like, which can store program codes. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种实体标注方法、意图识别方法及对应装置、计算机存储介质。其中方法包括:利用知识图谱对句子中各词语的属性标签进行词编码,得到各词语的第一表达向量(102);基于句子结构对句子中各词语进行词编码,得到各词语的第二表达向量(103);将第一表达向量和第二表达向量进行融合,得到对句子的实体标注结果(104)。意图识别方法包括:利用知识图谱对句子中至少部分词语的属性标签进行组合编码,得到所述句子的第一句向量;基于句子结构对所述句子进行编码,得到所述句子的第二句向量;将所述句子的第一句向量和第二句向量进行融合,得到对所述句子的意图识别结果。能够提高实体标注和意图识别的准确性。

Description

实体标注方法、意图识别方法及对应装置、计算机存储介质
本申请要求2017年08月03日递交的申请号为201710655187.2、发明名称为“实体标注方法、意图识别方法及对应装置、计算机存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及计算机应用技术领域,特别涉及一种实体标注方法、意图识别方法及对应装置、计算机存储介质。
背景技术
自然语言处理是人工智能的一个重要甚至核心的部分,其目的是理解一句话要表达什么,主要包含两大任务:实体标注和意图识别。其中实体标注是标注一句话中实体词的属性标签,意图识别是识别一句话想要实现什么意图或目的。举个例子,如果有这么一句话“周杰伦演过哪些电影”,实体标注的任务是把实体词“周杰伦”标记为Movie_actor标签,Movie_actor指代影视演员;而意图识别是识别该句话是要获取一个演员演过哪些电影。
目前的实体标注和意图识别方法都只是基于句子结构,这种单纯基于句子结构的方式往往会造成意图识别和实体标注准确率低等问题。
发明内容
有鉴于此,本发明提供了一种实体标注方法、意图识别方法及对应装置、计算机存储介质,以便于提高实体标注和意图识别的准确率。
具体技术方案如下:
本发明提供了一种实体标注方法,该方法包括:
利用知识图谱对句子中至少部分词语的属性标签进行词编码,得到至少部分词语的第一表达向量;
基于句子结构对所述句子中至少部分词语进行词编码,得到至少部分词语的第二表达向量;
将第一表达向量和第二表达向量进行融合,得到对所述句子的实体标注结果。
本发明还提供了一种意图识别方法,该方法包括:
利用知识图谱对句子中至少部分词语的属性标签进行组合编码,得到所述句子的第一句向量;
基于句子结构对所述句子进行编码,得到所述句子的第二句向量;
将所述句子的第一句向量和第二句向量进行融合,得到对所述句子的意图识别结果。
本发明提供了一种实体标注装置,该装置包括:
第一词编码单元,用于利用知识图谱对句子中至少部分词语的属性标签进行词编码,得到至少部分词语的第一表达向量;
第二词编码单元,用于基于句子结构对所述句子中至少部分词语进行词编码,得到至少部分词语的第二表达向量;
向量融合单元,用于将第一表达向量和第二表达向量进行融合,得到对所述句子的实体标注结果。
本发明还提供了一种意图识别装置,该装置包括:
第一句编码单元,用于利用知识图谱对句子中至少部分词语的属性标签进行组合编码,得到所述句子的第一句向量;
第二句编码单元,用于基于句子结构对所述句子进行编码,得到所述句子的第二句向量;
向量融合单元,用于将所述句子的第一句向量和第二句向量进行融合,得到对所述句子的意图识别结果。
本发明提供了一种设备,包括
存储器,包括一个或者多个程序;
一个或者多个处理器,耦合到所述存储器,执行所述一个或者多个程序,以实现上述方法中执行的操作。
本发明还提供了一种计算机存储介质,所述计算机存储介质被编码有计算机程序,所述程序在被一个或多个计算机执行时,使得所述一个或多个计算机执行上述方法中执行的操作。
由以上技术方案可以看出,本发明将知识图谱引入实体标注和意图识别,即通过将知识图谱中实体的属性信息与基于句子结构的方式进行融合,来进行实体标注和意图识别,相比较现有技术单纯基于句子结构的方式提高了准确性。
附图说明
图1为本发明实施例提供的实体标注的方法流程图;
图2为本发明实施例提供的利用知识图谱进行词编码的示意图;
图3为本发明实施例提供的基于句子结构进行词编码的示意图;
图4为本发明实施例提供的融合知识图谱和句子结构方式进行实体标注的示意图;
图5为本发明实施例提供的意图识别的方法流程图;
图6为本发明实施例提供的利用知识图谱进行句编码的示意图;
图7为本发明实施例提供的融合知识图谱和句子结构方式进行意图识别的示意图;
图8为本发明实施例提供的实体标注装置的结构图;
图9为本发明实施例提供的意图识别装置结构图;
图10为本发明实施例提供的示例设备的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明的核心思想在于,将知识图谱引入实体标注和意图识别,即将知识图谱中实体的属性信息与基于句子结构的方式进行融合,来进行实体标注和意图识别,从而提高准确性。下面结合实施例分别对本发明提供的方法和装置进行详细描述。
图1为本发明实施例提供的实体标注的方法流程图,如图1中所示,该方法可以包括以下步骤:
在101中,对知识图谱进行预处理。
知识图谱中,存储有各实体以及各实体对应的属性信息、各实体之间的关系。但知识图谱通常是以领域/类别划分的,例如,在音乐领域/类别中,实体“周杰伦”对应有属性标签:“歌手”、“作曲者”和“词作者”,同时在影视领域/类别中,也存在实体“周杰伦”,其对应有属性标签“演员”。本发明实施例中为了方便对知识图谱的利用,可以首先对知识图谱进行预处理。具体地,可以包括以下步骤:
S11、首先将知识图谱中各实体在各领域中的属性标签进行整合,得到各实体对应的属性标签。
仍以上述实体“周杰伦”为例,将其在各领域中的属性标签分别进行整合后,得到该实体“周杰伦”对应的所有属性标签为:“歌手”、“作曲者”、“词作者”、“演员”。
S12、将各实体对应的属性标签存储于键值存储引擎。
在得到各实体对应的属性标签后,分别将实体作为键(key),将实体对应的属性标签作为值(value),然后将各键值(key-value)对存储于键值存储引擎中。
需要说明的是,上述对知识图谱的预处理目的是为了后续方便对实体在知识图谱中的属性标签进行快速查找,但并不是本发明所必须执行的步骤。当然,也可以采用其他对知识图谱进行预处理的方式。
在102中,利用知识图谱对句子中各词语的属性标签进行词编码,得到各词语的第一表达向量。
本步骤中,采用知识图谱得到的各词语的第一表达向量,其目的是为了让各词语的第一表达向量中包含知识图谱中实体的属性信息。具体地,可以通过以下步骤实现:
S21、利用知识图谱识别句子中的实体以及该实体对应的属性标签。
本步骤中可以采用最长匹配原则将句子在知识图谱中进行匹配,识别出句子中的实体。具体地,获取句子的各n-gram(n元语法),在本发明实施例中,n-gram指的是连续n个词语构成的搭配,其中n为1以上的各值。将各n-gram分别与知识图谱进行匹配,看哪些n-gram在知识图谱中匹配到实体,当有发生重叠的多个n-gram都匹配到实体时,取其中长度最长的n-gram作为识别出的实体。
例如,对“周杰伦演过哪些电影”这句话中,分别得到各n-gram包括:
1-gram:“周”、“杰”、“伦”、…、“影”;
2-gram:“周杰”、“杰伦”、“伦演”、…、“电影”;
3-gram:“周杰伦”、“杰伦演”、“伦演过”、…、“些电影”;
……
其中“周杰”能够在知识图谱中匹配到实体,“周杰伦”也能够在知识图谱中匹配到实体,且两者存在重叠,那么取长度最长的“周杰伦”作为识别出的实体。
在确定各实体对应的属性标签时,可以查询键值存储引擎,查找以实体作为key对应的value。
S22、利用识别结果对句子进行分词,对得到的各词语标注属性标签。
在对句子进行分词时,将识别出的实体作为独立的词语,然后对句子的其他内容进行分词。仍以“周杰伦演过哪些电影”为例,进行分词后,得到:“周杰伦”、“演”、“过”、“哪些”、“电影”。
对各词语标注属性标签后,“周杰伦”标注“歌手”、“作曲者”、“词作者”、 “演员”,由于“演”、“过”、“哪些”、“电影”均不是知识图谱的实体,因此可以均标注“O”指示没有对应的属性标签。
需要说明的是,在本发明实施例中均以句子中的“各词语”为例进行描述,但也不排除采用句子中的“至少部分词语”进行处理。例如,在本步骤中,对句子进行分词后,对得到的至少部分词语标注属性标签,诸如仅对指示图谱中的实体标注属性标签。
S23、对各词语的属性标签进行词编码,并将编码结果进行全连接层的转换,得到各词语的第一表达向量。
本步骤中,对各词语的属性标签进行词编码,目的是将各词语的属性标签集合转换为一串计算机能够识别的编码。本实施例中采用的编码方式可以包括但不限于one-hot(独热)编码。
如图2所示,每个词语对应的属性标签集合分别进行one-hot编码后,分别得到一个编码结果。该编码结果的长度可以为属性标签的总数量,例如知识图谱中存在M个属性标签,那么编码结果就是M位,每一位对应一个属性标签。编码结果中各位的取值用以表明是否具有该位所对应的属性标签。例如“周杰伦”进行词编码的结果中,有4位为1,表明“周杰伦”存在这4个位置对应的属性标签。
对于one-hot的编码结果,进行全连接层的转换,目的是将各词语的属性标签的编码结果映射至实体标签上,该实体标签就是对句子中词语进行实体标注的标签。经过全连接层转换后,得到各词语的第一表达向量。
在本发明实施例中,可以预先对上述全连接层进行训练。训练过程可以包括:预先将已标注有实体标签的句子作为训练样本,利用知识图谱对训练样本中的句子进行上述实体识别、分词、属性标签的标注、one-hot编码后,作为该全连接层的输入,该句子中各词语对应的实体标签构成的第一表达向量为该全连接层的目标输出,对全连接层进行训练。训练得到的全连接层实际上用以进行one-hot编码后编码结果到实体标签的映射。
继续如图2所示,各词语对应的one-hot编码结果分别经过全连接层转换后,得到各词语的第一表达向量,分别表示为:T-dict1,T-dict2,T-dict3,T-dict4和T-dict5。
在103中,基于句子结构对句子中各词语进行词编码,得到各词语的第二表达向量。
本步骤中,具体可以执行以下步骤:
S31、确定句子中各词语的词向量。
在确定句子中各词语的词向量时,可以采用现有的词向量生成工具,例如word2vec等,基于基于语义预先训练word2vec,然后利用该word2vec就能够针对各词语分别生成 词向量,每个词对应的词向量长度相同。这种确定词向量的方式是基于语义的,能够使得词向量之间的距离体现词语语义间的关联程度,语义之间关联程度越高的词语,其对应的词向量之间的距离越小。鉴于基于语义的词向量确定方式可以采用目前已有的技术,在此不做详述。
S32、将词向量输入预先训练的神经网络,分别得到各词语的第二表达向量。
将各词向量输入预先训练的神经网络,目的是对句子按照词语粒度进行编码。上述神经网络可以采用诸如双向RNN(循环神经网络)、单向RNN、CNN(卷积神经网络)等等。其中优选双向RNN,因为双向RNN能够循环对句子进行编码。双向RNN的基本思想是提出每一个训练序列向前和向后分别是两个RNN,且这两个RNN都连接着一个输出层。这种结构能够将输入序列中每一个点的前后上下文信息都提供给输出层。具体到本发明,当输入一个分词好的句子,假设该句子中包含n个词,那么经过双向RNN后,将会有n个输出向量,每个词对应一个向量。由于RNN的记忆性,第i个向量包含了前面所有词的信息,因此最后一个词的输出向量也被称为“句向量”,因为理论上它包含了前面所有词的信息。
仍以“周杰伦演过哪些电影”为例,如图3所示,分词后得到的各词语“周杰伦”、“演”、“过”、“哪些”、“电影”分别确定出对应的词向量后,将词向量输入双向RNN,这样分别得到歌词与的第二表达向量,分别记为:output1、output2、output3、output4、output5,每个词语的第二表达向量都包含了上下文信息,即重分考虑了句子结构的影响,包含了句子结构信息。其中output5包含了整个句子的信息,可以被称为句向量。
需要说明的是,上述步骤102和103中基于知识图谱和基于句子结构进行的处理可以以任意的顺序先后执行,也可以同时执行。本实施例中所示的顺序仅为其中一种执行方式。
在104中,将第一表达向量和第二表达向量进行融合,得到对句子的实体标注结果。
本步骤中对第一表达向量和第二表达向量的融合实际上就是对基于知识图谱得到的实体标注和基于句子结构得到的实体标注进行融合。具体地,可以具体执行以下步骤:
S41、分别将各词语的第一表达向量和第二表达向量进行拼接,得到各词语的第三表达向量。
本步骤中,可以将两个向量按照预设的顺序进行拼接,从而得到一个更长的向量,该向量为第三表达向量。
需要说明的是,除了将第一表达向量和第二表达向量进行拼接的方式之外,还可以 采用将第一表达向量和第二表达向量进行叠加等其他融合方式,但由于拼接的方式能够分开考虑基于知识图谱的影响和基于句子结构的影响,从而在后续全连接层的转换过程中分别采用不同的参数,因此优选拼接的方式。
S42、将各词语的第三表达向量经过全连接层转换为各词语的结果向量。
将各词语的第三表达向量输入预先训练的全连接层进行转换,从而将各第三表达向量映射至实体标签,经过转换后得到结果向量。其中结果向量的长度为对应实体标签的总数量,结果向量的各位对应各实体标签,各位的取值对应各实体标签的得分。
在本发明实施例中,可以预先对上述全连接层进行训练。训练过程可以包括:预先将已标注有实体标签的句子作为训练样本,分别执行上述步骤102和103中的步骤,即针对训练样本中的句子分别得到各词语的第一表达向量和第二表达向量,然后将第一表达向量和第二表达向量拼接后的结果(即第三表达向量)作为该全连接层的输入,该句子的实体标签作为全连接层的输出进行训练。训练得到的全连接层用以进行句子中各词语的第三表达向量至实体标签的映射。
S43、依据各词语的结果向量对句子进行实体标注。
每个词语均对应有一个结果向量,可以依据结果向量中各实体标签的得分,选择得分最高的实体标签对句子中的各词语进行实体标注。
仍以“周杰伦演过哪些电影”为例,如图4所示,将各词语的第一表达向量和第二表达向量分别进行拼接,得到第三表达向量。图4中,“周杰伦”的第一表达向量T-dict1与第二表达向量Output1进行拼接后,得到第三表达向量K1,其他词语类似。然后将各词语的第三表达向量K1、K2、…K5分别输入全连接层,分别得到各词语的结果向量。词语“周杰伦”对应的结果向量中实体标签“Actor_name(演员名字)”的得分最高,可以采用“Actor_name”对词语“周杰伦”进行标注,其他词语对应的结果向量中,得分最高的实体标签为“O”,指示不是实体,因此采用实体标签“O”对其他词语进行标注。
图5为本发明实施例提供的意图识别的方法流程图,如图5所示,该方法可以包括以下步骤:
在501中,利用知识图谱对句子中各词语的属性标签进行组合编码,得到句子的第一句向量。
与实体标注类似地,在本步骤之前可以首先对知识图谱进行预处理,预处理的过程不再详述,可以参见图1中101的相关描述。
本步骤中,采用知识图谱得到句子的第一句向量,目的是为了让第一句向量中包含知识图谱中实体的属性信息。具体地,可以通过以下步骤实现:
S51、利用知识图谱识别句子中的实体以及该实体对应的属性标签。
本步骤的详细实现参见图1所示实施例中,102中的步骤S21,在此不再赘述。
S52、对各词语的属性标签进行组合编码,并将编码结果进行全连接层的转换,得到句子的第一句向量。
在得到句子中各词语的属性标签后,统一对各词语的属性标签进行组合编码,得到一个编码结果。该编码结果是一个向量,该向量的长度对应属性标签的总数量,每一位对应一个属性标签,各位的取值为该属性标签在句子中的权值。
其中,在确定属性标签在句子中的权值时,可以依据该句子中属性标签出现的次数以及与该属性标签对应相同实体的属性标签数量确定。具体地,属性标签labeli的权值
Figure PCTCN2018096640-appb-000001
可以采用以下公式确定:
Figure PCTCN2018096640-appb-000002
其中,m表示句子中的第m个词语,M表示句子中词语的个数。a im表示标签labeli对于第m个词语的取值,若labeli不是第m词语的属性标签,则a im的值取0,若labeli是第m个词语的属性标签,则a im的取值为
Figure PCTCN2018096640-appb-000003
其中count(label m)为第m个词语的属性标签数目。
仍以句子“周杰伦演过哪些电影”为例,“周杰伦”对应的所有属性标签为:“歌手”、“作曲者”、“词作者”、“演员”,其他词语在知识图谱中均不存在对应的属性标签。那么对于“歌手”这个属性标签而言,其在句子中的权值为:
Figure PCTCN2018096640-appb-000004
那么在编码结果中,“歌手”对应的位取值为0.25。同理,“作曲者”、“词作者”、“演员”在编码结果中分别对应的位取值为0.25,而编码结果中其他属性标签对应的位取值为0。
在得到上述编码结果后,将编码结果经过全连接层转换,目的是将句子的基于属性标签的编码结果映射至实体标签上。该实体标签就是对句子中词语进行实体标注的标签。经过全连接层转换后,得到句子的第一句向量。该第一句向量的长度对应实体标签的总 数量,第一句向量的各位取值为该位所对应实体标签在句子中的权值。
在本发明实施例中,可以预先对上述全连接层进行训练。训练过程可以包括:预先将已标注有实体标签的句子作为训练样本,利用知识图谱对训练样本中的句子进行上述实体识别、分词、属性标签的标注、组合编码后,得到的编码结果作为该全连接层的输入,该句子中各词语对应的实体标签构成的第一句向量作为该全连接层的目标输出,对全连接层进行训练。训练得到的全连接层实际上用以进行组合编码后编码结果到实体标签的映射。
本步骤中的过程可以如图6所示,“周杰伦演过哪些电影”中各词语的属性标签经过组合编码后,得到的编码结果经过全连接层,最终得到第一句向量,表示为S-dict。
在502中,基于句子结构对句子进行编码,得到句子的第二句向量。
本步骤中,具体可以执行以下步骤:
S61、确定句子中各词语的词向量。
S62、将各词语的词向量输入预先训练的神经网络,得到句子的第二句向量。
具体地,将各词语的词向量输入预先训练的神经网络后,分别得到各词语的第二表达向量,将最后一个词语的第二表达向量作为句子的第二句向量。
上述确定句子中各词语的词向量,以及将各词语的词向量输入预先训练的神经网络的处理过程与图1所示实施例中步骤103中的相应实现一致,在此不再赘述。只是在得到各词语的第二表达向量后,将最后一个词语的第二表达向量作为句子的第二句向量,而其他词语的第二表达向量在句子意图识别中并未使用。也就是说,采用了图3中的output5作为该句子的第二句向量。
在503中,将句子的第一句向量和第二句向量进行融合,得到对句子的意图识别结果。
本步骤中对第一句向量和第二句向量的融合实际上就是对基于知识图谱得到的意图信息和基于句子结构得到的意图信息进行融合。其中基于知识图谱的实体标注结果对意图识别具有非常大的影响,仍以“周杰伦演过哪些电影”为例,将“周杰伦”正确地标注为“演员”对正确地意图识别结果“一个演员演过哪些电影”影响很大,若将实体“周杰伦”错误地标注为“歌手”,则就很可能无法得到上述意图识别结果。
具体地,本步骤可以包括以下步骤:
S71、将第一句向量和第二句向量进行拼接,得到第三句向量。
本步骤中,可以将两个向量按照预设的顺序进行拼接,从而得到一个更长的向量, 该向量为第三句向量。
需要说明的是,除了将第一句向量和第二句向量进行拼接的方式之外,还可以采用将第一句向量和第二句向量进行叠加等其他融合方式。但由于拼接的方式能够分开考虑基于知识图谱的影响和基于句子结构的影响,从而在后续全连接层的转换过程中分别采用不同的参数,因此优选拼接的方式。
S72、将第三句向量经过全连接层转换为结果向量。
将第三句向量输入预先训练的全连接层进行转换,从而将第三句向量映射至句子意图,经过转换后得到结果向量。该结果向量的长度对应句子意图的类别数量,结果向量的各位对应各类句子意图的得分。
在本发明实施例中,可以预先对上述全连接层进行训练。训练过程可以包括:预先将已确定句子意图的句子作为训练样本,分别执行上述步骤501和502中的步骤,及针对训练样本中的句子分别得到第一句向量和第二句向量,然后将第一句向量和第二句向量拼接后的结果(即第三句向量)作为全连接层的输入,该句子的句子意图作为全连接层的输出,进行训练。训练得到的全连接层用以进行句子的第三句向量至句子意图的映射。
S73、依据结果向量确定句子意图。
在本步骤中,可以依据结果向量中各句子意图类别的分值来确定句子意图,例如将分值最高的句子意图作为识别出的该句子的意图。
仍以“周杰伦演过哪些电影”为例,如图7所示,将句子的第一句向量S-dict与第二句向量Output5进行拼接后,得到第三句向量K。然后将第三句向量K输入全连接层,最后得到一个结果向量。该结果向量中最高分值的句子意图为:“一个演员演过哪些电影”。
以上是对本发明所提供方法进行的详细描述,下面结合实施例对本发明提供的装置进行详细描述。
图8为本发明实施例提供的实体标注装置的结构图,如图8所示,该装置可以包括:第一词编码单元10、第二词编码单元20和向量融合单元30,还可以进一步包括图谱预处理单元40。其中各组成单元的主要功能如下:
第一词编码单元10负责利用知识图谱对句子中各词语的属性标签进行词编码,得到各词语的第一表达向量。
具体地,第一词编码单元10可以包括:匹配子单元11、分词子单元12和第一词编 码子单元13。
其中,匹配子单元11负责利用知识图谱识别句子中的实体以及该实体对应的属性标签。具体地,匹配子单元11可以采用最长匹配原则将句子在知识图谱中进行匹配,识别出句子中的实体。例如,可以获取句子的各n-gram,其中n为1以上的各值。将各n-gram分别与知识图谱进行匹配,看哪些n-gram在知识图谱中匹配到实体,当有发生重叠的多个n-gram都匹配到实体时,取其中长度最长的n-gram作为识别出的实体。
分词子单元12负责利用匹配子单元11的识别结果对句子进行分词,并对得到的各词语标注属性标签。分词子单元在对句子进行分词时,可以将匹配子单元11识别出的实体作为独立的词语。
第一词编码子单元13负责对各词语的属性标签进行词编码,例如可以对各词语的属性标签进行one-hot编码,并将编码结果进行全连接层的转换,得到各词语的第一表达向量。
对于one-hot的编码结果,进行全连接层的转换,目的是将各词语的属性标签的编码结果映射至实体标签上,该实体标签就是对句子中词语进行实体标注的标签。经过全连接层转换后,得到各词语的第一表达向量。
在本发明实施例中,可以预先对上述全连接层进行训练。训练过程可以包括:预先将已标注有实体标签的句子作为训练样本,利用知识图谱对训练样本中的句子进行上述实体识别、分词、属性标签的标注、one-hot编码后,作为该全连接层的输入,该句子中各词语对应的实体标签构成的第一表达向量为该全连接层的目标输出,对全连接层进行训练。训练得到的全连接层实际上用以进行one-hot编码后编码结果到实体标签的映射。
图谱预处理单元40负责将知识图谱中各实体在各领域中的属性标签进行整合,得到各实体对应的属性标签集合;将各实体对应的属性标签集合存储于键值存储引擎。相应地,匹配子单元11可以采用最长匹配算法将句子在键值存储引擎中进行匹配。
第二词编码单元20负责基于句子结构对句子中各词语进行词编码,得到各词语的第二表达向量。具体地,第二词编码单元20可以首先确定句子中各词语的词向量;然后将词向量输入预先训练的神经网络,分别得到各词语的第二表达向量。
第二词编码单元20在确定句子中各词语的词向量时,可以采用现有的词向量生成工具,例如word2vec等,基于基于语义预先训练word2vec,然后利用该word2vec就能够针对各词语分别生成词向量,每个词对应的词向量长度相同。这种确定词向量的方式是基于语义的,能够使得词向量之间的距离体现词语语义间的关联程度,语义之间关联程 度越高的词语,其对应的词向量之间的距离越小。
上述神经网络可以采用诸如双向RNN(循环神经网络)、单向RNN、CNN(卷积神经网络)等等。其中优选双向RNN。
向量融合单元30负责将第一表达向量和第二表达向量进行融合,得到对句子的实体标注结果。
具体地,向量融合单元30可以将各词语的第一表达向量和第二表达向量分别进行拼接,得到各词语的第三表达向量;然后将各词语的第三表达向量经过全连接层转换为各词语的结果向量,其中,结果向量的长度对应实体标签的总数量,结果向量的各位对应各实体标签,各位的取值体现对应实体标签的得分;最后依据各词语的结果向量对句子进行实体标注。
其中,向量融合单元30在依据各词语的结果向量对句子进行实体标注时,可以分别按照各词语的结果向量中得分最高的实体标签对句子中的各词语进行实体标注。
图9为本发明实施例提供的意图识别装置结构图,如图9所示,该装置可以包括:第一句编码单元50、第二句编码单元60和向量融合单元70,还可以包括图谱预处理单元80。其中各组成单元的主要功能如下:
第一句编码单元50负责利用知识图谱对句子中各词语的属性标签进行组合编码,得到句子的第一句向量。
其中,第一句编码单元50可以具体包括:匹配子单元51、分词子单元52和组合编码子单元53。
其中,匹配子单元51负责利用知识图谱识别句子中的实体以及该实体对应的属性标签。具体地,匹配子单元51可以采用最长匹配算法将句子在知识图谱中进行匹配,识别出句子中的实体。
分词子单元52负责利用识别结果对句子进行分词,并对得到的各词语标注属性标签。其中,在分词时将匹配子单元51识别出的实体作为独立的词语。
组合编码子单元53负责对各词语的属性标签进行组合编码,并将编码结果进行全连接层的转换,得到句子的第一句向量,第一句向量的长度对应实体标签的总数量,第一句向量的各位取值为该位所对应实体标签在句子中的权值。
图谱预处理单元80负责将知识图谱中各实体在各领域中的属性标签进行整合,得到各实体对应的属性标签集合;将各实体对应的属性标签集合存储于键值存储引擎。相应地,上述匹配子单元51可以采用最长匹配算法将句子在键值存储引擎中进行匹配。
第二句编码单元60负责基于句子结构对句子进行编码,得到句子的第二句向量。具体地,第二句编码单元60可以首先确定句子中各词语的词向量;然后将词向量输入预先训练的神经网络,得到句子的第二句向量。
其中在确定句子中各词语的词向量时,第二句编码单元60利用基于语义预先训练的word2vec,针对句子中各词语分别生成词向量。
上述神经网络可以采用诸如双向RNN(循环神经网络)、单向RNN、CNN(卷积神经网络)等等。其中优选双向RNN。
第二句编码单元60在将词向量输入预先训练的神经网络,得到句子的第二句向量时,可以具体将词向量输入预先训练的神经网络,分别得到各词语的第二表达向量;将最后一个词语的第二表达向量作为句子的第二句向量。
向量融合单元70负责将句子的第一句向量和第二句向量进行融合,得到对句子的意图识别结果。具体地,可以将第一句向量和第二句向量进行拼接,得到第三句向量;将第三句向量经过全连接层转换为结果向量,其中结果向量的长度对应句子意图的类别数量,结果向量的各位对应各类句子意图,各位的取值体现对应句子意图的得分;依据结果向量确定句子意图。
其中,向量融合单元70在依据结果向量确定句子意图时,可以将结果向量中得分最高的句子意图作为句子的句子意图。
上述实体标注和意图识别的方法可以应用于基于自然语言处理的多种场景,在此举一个应用场景的例子:
在智能问答领域,例如用户在手机上的智能问答类客户端输入问题“周杰伦演过哪些电影”,经过上述实体标注和意图识别后,标注出实体“周杰伦”为“Actor_name(演员名字)”,意图为“一个演员演过哪些电影”。那么该意图对应的处理逻辑是,在电影数据库中查找该句子中标注为“Actor_name(演员名字)”的实体对应的电影名称。假设在电影数据库中找到“周杰伦”对应的电影名称为:“不能说的秘密”、“刺陵”、“天台爱情”、“满城尽带黄金甲”……,那么智能问答类客户端可以直接向用户返回答案:“不能说的秘密”、“刺陵”、“天台爱情”、“满城尽带黄金甲”……。
图10示例性地示出了根据各种实施例的示例设备1000。设备1000可包括一个或多个处理器1002,系统控制逻辑1001耦合于至少一个处理器1002,非易失性存储器(non-volatile memory,NMV)/存储器1004耦合于系统控制逻辑1001,网络接口1006耦合于系统控制逻辑1001。
处理器1002可包括一个或多个单核处理器或多核处理器。处理器1002可包括任何一般用途处理器或专用处理器(如图像处理器、应用处理器基带处理器等)的组合。
一个实施例中的系统控制逻辑1001,可包括任何适当的接口控制器,以提供到处理器1002中的至少一个的任何合适的接口,和/或提供到与系统控制逻辑1001通信的任何合适的设备或组件的任何合适的接口。
一个实施例中的系统控制逻辑1001,可包括一个或多个内存控制器,以提供到系统内存1003的接口。系统内存1003用来加载以及存储数据和/或指令。例如,对应设备1000,在一个实施例中,系统内存1003可包括任何合适的易失性存储器。
NVM/存储器1004可包括一个或多个有形的非暂时的计算机可读介质,用于存储数据和/或指令。例如,NVM/存储器1004可包括任何合适的非易失性存储装置,如一个或多个硬盘(hard disk device,HDD),一个或多个光盘(compact disk,CD),和/或一个或多个数字通用盘(digital versatile disk,DVD)。
NVM/存储器1004可包括存储资源,该存储资源物理上是该系统所安装的或者可以被访问的设备的一部分,但不一定是设备的一部分。例如,NVM/存储器1004可经由网络接口1006被网络访问。
系统内存1003以及NVM/存储器1004可分别包括临时的或持久的指令1010的副本。指令1010可包括当由处理器1002中的至少一个执行时导致设备1000实现图1或图5描述的方法之一或组合的指令。各实施例中,指令1010或硬件、固件,和/或软件组件可另外地/可替换地被置于系统控制逻辑1001,网络接口1006和/或处理器1002。
网络接口1006可包括一个接收器来为设备1000提供无线接口来与一个或多个网络和/或任何合适的设备进行通信。网络接口1006可包括任何合适的硬件和/或固件。网络接口1006可包括多个天线来提供多输入多输出无线接口。在一个实施例中,网络接口1006可包括一个网络适配器、一个无线网络适配器、一个电话调制解调器,和/或无线调制解调器。
在一个实施例中,处理器1002中的至少一个可以与用于系统控制逻辑的一个或多个控制器的逻辑一起封装。在一个实施例中,处理器中的至少一个可以与用于系统控制逻辑的一个或多个控制器的逻辑一起封装以形成系统级封装。在一个实施例中,处理器中的至少一个可以与用于系统控制逻辑的一个或多个控制器的逻辑集成在相同的管芯上。在一个实施例中,处理器中的至少一个可以与用于系统控制逻辑的一个或多个控制器的逻辑集成在相同的管芯上以形成系统芯片。
设备1000可进一步包括输入/输出装置1005。输入/输出装置1005可包括用户接口旨在使用户与设备1000进行交互,可包括外围组件接口,其被设计为使得外围组件能够与系统交互,和/或,可包括传感器,旨在确定环境条件和/或有关设备1000的位置信息。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (46)

  1. 一种实体标注方法,其特征在于,该方法包括:
    利用知识图谱对句子中至少部分词语的属性标签进行词编码,得到至少部分词语的第一表达向量;
    基于句子结构对所述句子中至少部分词语进行词编码,得到至少部分词语的第二表达向量;
    将第一表达向量和第二表达向量进行融合,得到对所述句子的实体标注结果。
  2. 根据权利要求1所述的方法,其特征在于,所述利用知识图谱对句子中至少部分词语的属性标签进行词编码包括:
    利用知识图谱识别所述句子中的实体以及该实体对应的属性标签;
    利用所述识别结果对所述句子进行分词,并对得到的至少部分词语标注属性标签;
    对至少部分词语的属性标签进行词编码,并将编码结果进行全连接层的转换,得到至少部分词语的第一表达向量。
  3. 根据权利要求2所述的方法,其特征在于,利用知识图谱识别所述句子中的实体包括:
    采用最长匹配原则将所述句子在知识图谱中进行匹配,识别出所述句子中的实体。
  4. 根据权利要求3所述的方法,其特征在于,该方法还包括:将知识图谱中各实体在各领域中的属性标签进行整合,得到各实体对应的属性标签集合;将各实体对应的属性标签集合存储于键值存储引擎;
    所述采用最长匹配算法将所述句子在知识图谱中进行匹配包括:所述采用最长匹配算法将所述句子在所述键值存储引擎中进行匹配。
  5. 根据权利要求2所述的方法,其特征在于,利用所述识别结果对所述句子进行分词包括:
    对句子进行分词,其中将识别出的实体作为独立的词语。
  6. 根据权利要求2所述的方法,其特征在于,所述对至少部分词语的属性标签进行词编码包括:
    对至少部分词语的属性标签进行独热one-hot编码。
  7. 根据权利要求1所述的方法,其特征在于,所述基于句子结构对所述句子中至少部分词语进行词编码包括:
    确定所述句子中至少部分词语的词向量;
    将所述词向量输入预先训练的神经网络,分别得到至少部分词语的第二表达向量。
  8. 根据权利要求7所述的方法,其特征在于,确定所述句子中至少部分词语的词向量包括:
    利用基于语义预先训练的word2vec,针对所述句子中至少部分词语分别生成词向量。
  9. 根据权利要求7所述的方法,其特征在于,所述神经网络包括:双向循环神经网络。
  10. 根据权利要求1所述的方法,其特征在于,所述将第一表达向量和第二表达向量进行融合,得到对所述句子的实体标注结果包括:
    将至少部分词语的第一表达向量和第二表达向量分别进行拼接,得到至少部分词语的第三表达向量;
    将至少部分词语的第三表达向量经过全连接层转换为至少部分词语的结果向量,其中,所述结果向量的长度对应实体标签的总数量,所述结果向量的各位对应各实体标签,各位的取值体现对应实体标签的得分;
    依据至少部分词语的结果向量对所述句子进行实体标注。
  11. 根据权利要求10所述的方法,其特征在于,所述依据至少部分词语的结果向量对所述句子进行实体标注包括:
    分别按照至少部分词语的结果向量中得分最高的实体标签对句子中的至少部分词语进行实体标注。
  12. 一种意图识别方法,其特征在于,该方法包括:
    利用知识图谱对句子中至少部分词语的属性标签进行组合编码,得到所述句子的第一句向量;
    基于句子结构对所述句子进行编码,得到所述句子的第二句向量;
    将所述句子的第一句向量和第二句向量进行融合,得到对所述句子的意图识别结果。
  13. 根据权利要求12所述的方法,其特征在于,所述利用知识图谱对句子中至少部分词语的属性标签进行组合编码包括:
    利用知识图谱识别所述句子中的实体以及该实体对应的属性标签;
    利用所述识别结果对所述句子进行分词,并对得到的至少部分词语标注属性标签;
    对至少部分词语的属性标签进行组合编码,并将编码结果进行全连接层的转换,得 到所述句子的第一句向量,所述第一句向量的长度对应实体标签的总数量,所述第一句向量的各位取值为该位所对应实体标签在所述句子中的权值。
  14. 根据权利要求13所述的方法,其特征在于,利用知识图谱识别所述句子中的实体包括:
    采用最长匹配算法将所述句子在知识图谱中进行匹配,识别出所述句子中的实体。
  15. 根据权利要求14所述的方法,其特征在于,该方法还包括:将知识图谱中各实体在各领域中的属性标签进行整合,得到各实体对应的属性标签;将各实体对应的属性标签存储于键值存储引擎;
    所述采用最长匹配算法将所述句子在知识图谱中进行匹配包括:所述采用最长匹配算法将所述句子在所述键值存储引擎中进行匹配。
  16. 根据权利要求12所述的方法,其特征在于,所述基于句子结构对所述句子进行编码,得到所述句子的第二句向量包括:
    确定所述句子中至少部分词语的词向量;
    将所述词向量输入预先训练的神经网络,得到所述句子的第二句向量。
  17. 根据权利要求16所述的方法,其特征在于,确定所述句子中至少部分词语的词向量包括:
    利用基于语义预先训练的word2vec,针对所述句子中至少部分词语分别生成词向量。
  18. 根据权利要求16所述的方法,其特征在于,所述神经网络包括:双向循环神经网络。
  19. 根据权利要求16所述的方法,其特征在于,将所述词向量输入预先训练的神经网络,得到所述句子的第二句向量包括:
    将所述词向量输入预先训练的神经网络,分别得到至少部分词语的第二表达向量;
    将最后一个词语的第二表达向量作为所述句子的第二句向量。
  20. 根据权利要求12所述的方法,其特征在于,将所述句子的第一句向量和第二句向量进行融合,得到对所述句子的意图识别结果包括:
    将所述第一句向量和所述第二句向量进行拼接,得到第三句向量;
    将所述第三句向量经过全连接层转换为结果向量,其中所述结果向量的长度对应句子意图的类别数量,所述结果向量的各位对应各类句子意图,各位的取值体现对应句子意图的得分;
    依据所述结果向量确定所述句子意图。
  21. 根据权利要求20所述的方法,其特征在于,依据所述结果向量确定所述句子意图包括:
    将所述结果向量中得分最高的句子意图作为所述句子的句子意图。
  22. 一种实体标注装置,其特征在于,该装置包括:
    第一词编码单元,用于利用知识图谱对句子中至少部分词语的属性标签进行词编码,得到至少部分词语的第一表达向量;
    第二词编码单元,用于基于句子结构对所述句子中至少部分词语进行词编码,得到至少部分词语的第二表达向量;
    向量融合单元,用于将第一表达向量和第二表达向量进行融合,得到对所述句子的实体标注结果。
  23. 根据权利要求22所述的装置,其特征在于,所述第一词编码单元包括:
    匹配子单元,用于利用知识图谱识别所述句子中的实体以及该实体对应的属性标签;
    分词子单元,用于利用所述匹配子单元的识别结果对所述句子进行分词,并对得到的至少部分词语标注属性标签;
    第一词编码子单元,用于对至少部分词语的属性标签进行词编码,并将编码结果进行全连接层的转换,得到至少部分词语的第一表达向量。
  24. 根据权利要求23所述的装置,其特征在于,所述匹配子单元,具体用于:
    采用最长匹配原则将所述句子在知识图谱中进行匹配,识别出所述句子中的实体。
  25. 根据权利要求24所述的装置,其特征在于,该装置还包括:
    图谱预处理单元,用于将知识图谱中各实体在各领域中的属性标签进行整合,得到各实体对应的属性标签集合;将各实体对应的属性标签集合存储于键值存储引擎;
    所述匹配子单元采用最长匹配算法将所述句子在所述键值存储引擎中进行匹配。
  26. 根据权利要求23所述的装置,其特征在于,所述分词子单元,具体用于:对句子进行分词,其中将所述匹配子单元识别出的实体作为独立的词语。
  27. 根据权利要求23所述的装置,其特征在于,第一词编码子单元在对至少部分词语的属性标签进行词编码时,具体执行:
    对至少部分词语的属性标签进行独热one-hot编码。
  28. 根据权利要求22所述的装置,其特征在于,第二词编码单元,具体用于:
    确定所述句子中至少部分词语的词向量;
    将所述词向量输入预先训练的神经网络,分别得到至少部分词语的第二表达向量。
  29. 根据权利要求28所述的装置,其特征在于,所述第二词编码单元在确定所述句子中至少部分词语的词向量时,具体执行:
    利用基于语义预先训练的word2vec,针对所述句子中至少部分词语分别生成词向量。
  30. 根据权利要求28所述的装置,其特征在于,所述神经网络包括:双向循环神经网络。
  31. 根据权利要求22所述的装置,其特征在于,所述向量融合单元,具体用于:
    将至少部分词语的第一表达向量和第二表达向量分别进行拼接,得到至少部分词语的第三表达向量;
    将至少部分词语的第三表达向量经过全连接层转换为至少部分词语的结果向量,其中,所述结果向量的长度对应实体标签的总数量,所述结果向量的各位对应各实体标签,各位的取值体现对应实体标签的得分;
    依据至少部分词语的结果向量对所述句子进行实体标注。
  32. 根据权利要求31所述的装置,其特征在于,所述向量融合单元在依据至少部分词语的结果向量对所述句子进行实体标注时,具体执行:
    分别按照至少部分词语的结果向量中得分最高的实体标签对句子中的至少部分词语进行实体标注。
  33. 一种意图识别装置,其特征在于,该装置包括:
    第一句编码单元,用于利用知识图谱对句子中至少部分词语的属性标签进行组合编码,得到所述句子的第一句向量;
    第二句编码单元,用于基于句子结构对所述句子进行编码,得到所述句子的第二句向量;
    向量融合单元,用于将所述句子的第一句向量和第二句向量进行融合,得到对所述句子的意图识别结果。
  34. 根据权利要求33所述的装置,其特征在于,所述第一句编码单元具体包括:
    匹配子单元,用于利用知识图谱识别所述句子中的实体以及该实体对应的属性标签;
    分词子单元,用于利用所述识别结果对所述句子进行分词,并对得到的至少部分词 语标注属性标签;
    组合编码子单元,用于对至少部分词语的属性标签进行组合编码,并将编码结果进行全连接层的转换,得到所述句子的第一句向量,所述第一句向量的长度对应实体标签的总数量,所述第一句向量的各位取值为该位所对应实体标签在所述句子中的权值。
  35. 根据权利要求34所述的装置,其特征在于,所述匹配子单元,具体用于利用知识图谱识别所述句子中的实体包括:
    采用最长匹配算法将所述句子在知识图谱中进行匹配,识别出所述句子中的实体。
  36. 根据权利要求35所述的装置,其特征在于,该装置还包括:
    图谱预处理单元,用于将知识图谱中各实体在各领域中的属性标签进行整合,得到各实体对应的属性标签集合;将各实体对应的属性标签集合存储于键值存储引擎;
    所述匹配子单元采用最长匹配算法将所述句子在所述键值存储引擎中进行匹配。
  37. 根据权利要求33所述的装置,其特征在于,所述第二句编码单元,具体用于:
    确定所述句子中至少部分词语的词向量;
    将所述词向量输入预先训练的神经网络,得到所述句子的第二句向量。
  38. 根据权利要求37所述的装置,其特征在于,所述第二句编码单元在确定所述句子中至少部分词语的词向量时,具体执行:
    利用基于语义预先训练的word2vec,针对所述句子中至少部分词语分别生成词向量。
  39. 根据权利要求38所述的装置,其特征在于,所述神经网络包括:双向循环神经网络。
  40. 根据权利要求37所述的装置,其特征在于,所述第二句编码单元,具体用于:
    将所述词向量输入预先训练的神经网络,分别得到至少部分词语的第二表达向量;
    将最后一个词语的第二表达向量作为所述句子的第二句向量。
  41. 根据权利要求33所述的装置,其特征在于,所述向量融合单元,具体用于:
    将所述第一句向量和所述第二句向量进行拼接,得到第三句向量;
    将所述第三句向量经过全连接层转换为结果向量,其中所述结果向量的长度对应句子意图的类别数量,所述结果向量的各位对应各类句子意图,各位的取值体现对应句子意图的得分;
    依据所述结果向量确定所述句子意图。
  42. 根据权利要求41所述的装置,其特征在于,所述向量融合单元在依据所述结 果向量确定所述句子意图时,具体执行:
    将所述结果向量中得分最高的句子意图作为所述句子的句子意图。
  43. 一种设备,包括
    存储器,包括一个或者多个程序;
    一个或者多个处理器,耦合到所述存储器,执行所述一个或者多个程序,以实现如权利要求1至11任一权项所述方法中执行的操作。
  44. 一种设备,包括
    存储器,包括一个或者多个程序;
    一个或者多个处理器,耦合到所述存储器,执行所述一个或者多个程序,以实现如权利要求12至21任一权项所述方法中执行的操作。
  45. 一种计算机存储介质,所述计算机存储介质被编码有计算机程序,所述程序在被一个或多个计算机执行时,使得所述一个或多个计算机执行如权利要求1至11任一权项所述方法中执行的操作。
  46. 一种计算机存储介质,所述计算机存储介质被编码有计算机程序,所述程序在被一个或多个计算机执行时,使得所述一个或多个计算机执行如权利要求12至21任一权项所述方法中执行的操作。
PCT/CN2018/096640 2017-08-03 2018-07-23 实体标注方法、意图识别方法及对应装置、计算机存储介质 WO2019024704A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710655187.2A CN109388793B (zh) 2017-08-03 2017-08-03 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN201710655187.2 2017-08-03

Publications (1)

Publication Number Publication Date
WO2019024704A1 true WO2019024704A1 (zh) 2019-02-07

Family

ID=65233308

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/096640 WO2019024704A1 (zh) 2017-08-03 2018-07-23 实体标注方法、意图识别方法及对应装置、计算机存储介质

Country Status (2)

Country Link
CN (1) CN109388793B (zh)
WO (1) WO2019024704A1 (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840280A (zh) * 2019-03-05 2019-06-04 百度在线网络技术(北京)有限公司 一种文本分类方法、装置及计算机可读存储介质
CN110245198A (zh) * 2019-06-18 2019-09-17 北京百度网讯科技有限公司 多源售票数据管理方法及系统、服务器和计算机可读介质
CN110597961A (zh) * 2019-09-18 2019-12-20 腾讯科技(深圳)有限公司 一种文本类目标注方法、装置、电子设备及存储介质
CN111104803A (zh) * 2019-12-31 2020-05-05 科大讯飞股份有限公司 语义理解处理方法、装置、设备及可读存储介质
CN111124350A (zh) * 2019-12-20 2020-05-08 科大讯飞股份有限公司 技能确定方法及相关设备
CN111160033A (zh) * 2019-12-18 2020-05-15 车智互联(北京)科技有限公司 一种基于神经网络的命名实体识别方法、计算设备及存储介质
CN111160034A (zh) * 2019-12-31 2020-05-15 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111368527A (zh) * 2020-02-28 2020-07-03 上海汇航捷讯网络科技有限公司 一种键值匹配方法
CN111400480A (zh) * 2020-04-21 2020-07-10 支付宝(杭州)信息技术有限公司 针对多轮对话的用户意图识别方法和装置
CN111695345A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 文本中实体识别方法、以及装置
CN111708873A (zh) * 2020-06-15 2020-09-25 腾讯科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN111753495A (zh) * 2019-11-07 2020-10-09 北京沃东天骏信息技术有限公司 意图语句预测模型构建方法及装置、设备及存储介质
CN111767726A (zh) * 2020-06-24 2020-10-13 北京奇艺世纪科技有限公司 数据处理方法及装置
CN111797245A (zh) * 2020-07-27 2020-10-20 中国平安人寿保险股份有限公司 基于知识图谱模型的信息匹配方法及相关装置
CN111832282A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备
CN111859976A (zh) * 2019-04-30 2020-10-30 广东小天才科技有限公司 一种基于知识图谱扩充正则表达式的方法和装置
CN111914568A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN111950288A (zh) * 2020-08-25 2020-11-17 海信视像科技股份有限公司 一种命名实体识别中的实体标注方法及智能设备
CN112015921A (zh) * 2020-09-15 2020-12-01 重庆广播电视大学重庆工商职业学院 一种基于学习辅助知识图谱的自然语言处理方法
CN112100397A (zh) * 2020-09-07 2020-12-18 南京航空航天大学 基于双向门控循环单元的电力预案知识图谱构建方法及系统
CN112101009A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112699685A (zh) * 2021-01-08 2021-04-23 北京工业大学 基于标签引导的字词融合的命名实体识别方法
WO2021081837A1 (zh) * 2019-10-30 2021-05-06 深圳市欢太科技有限公司 模型构建方法、分类方法、装置、存储介质及电子设备
CN113064997A (zh) * 2021-04-22 2021-07-02 中国平安财产保险股份有限公司 基于bert模型的意图分析方法、装置、设备及介质
CN113343692A (zh) * 2021-07-15 2021-09-03 杭州网易云音乐科技有限公司 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN113378574A (zh) * 2021-06-30 2021-09-10 武汉大学 一种基于kgann的命名实体识别方法
CN113505587A (zh) * 2021-06-23 2021-10-15 科大讯飞华南人工智能研究院(广州)有限公司 实体抽取方法及相关装置、设备和存储介质
CN113642302A (zh) * 2020-04-27 2021-11-12 阿里巴巴集团控股有限公司 文本填充模型的训练方法及装置、文本处理方法及装置
CN113657092A (zh) * 2021-06-30 2021-11-16 北京声智科技有限公司 识别标签的方法、装置、设备以及介质
CN113742523A (zh) * 2020-05-29 2021-12-03 北京百度网讯科技有限公司 文本核心实体的标注方法及装置
US11379666B2 (en) 2020-04-08 2022-07-05 International Business Machines Corporation Suggestion of new entity types with discriminative term importance analysis
CN111680207B (zh) * 2020-03-11 2023-08-04 华中科技大学鄂州工业技术研究院 一种用于确定用户搜索意图的方法及装置

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992671A (zh) * 2019-04-10 2019-07-09 出门问问信息科技有限公司 意图识别方法、装置、设备及存储介质
CN111813447B (zh) * 2019-04-12 2022-11-08 杭州中天微系统有限公司 一种数据拼接指令的处理方法和处理装置
CN110059320B (zh) * 2019-04-23 2021-03-16 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN110188362B (zh) * 2019-06-10 2021-04-20 北京百度网讯科技有限公司 文本处理方法及装置
CN110472230B (zh) * 2019-07-11 2023-09-05 平安科技(深圳)有限公司 中文文本的识别方法及装置
CN110377691A (zh) * 2019-07-23 2019-10-25 上海应用技术大学 文本分类的方法、装置、设备及存储介质
CN110738041B (zh) * 2019-10-16 2023-12-01 天津市爱贝叶斯信息技术有限公司 一种语句标注方法、装置、服务器及存储介质
CN111027667B (zh) * 2019-12-06 2023-10-17 北京金山安全软件有限公司 意图类别的识别方法和装置
CN111159546B (zh) * 2019-12-24 2023-10-24 深圳市雅阅科技有限公司 事件推送方法、装置、计算机可读存储介质和计算机设备
CN111274815B (zh) * 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
CN112543932A (zh) * 2020-01-22 2021-03-23 华为技术有限公司 语义分析方法、装置、设备及存储介质
CN111353310B (zh) * 2020-02-28 2023-08-11 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备
CN113360751B (zh) * 2020-03-06 2024-07-09 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备和介质
CN111309872B (zh) * 2020-03-26 2023-08-08 北京百度网讯科技有限公司 搜索处理方法、装置及设备
CN111613341B (zh) * 2020-05-22 2024-02-02 云知声智能科技股份有限公司 基于语义成分的实体链接方法及装置
CN111753024B (zh) * 2020-06-24 2024-02-20 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN112749556B (zh) * 2020-08-04 2022-09-13 腾讯科技(深圳)有限公司 多语言模型的训练方法和装置、存储介质和电子设备
CN112201250B (zh) * 2020-09-30 2024-03-19 中移(杭州)信息技术有限公司 一种语义分析方法、装置、电子设备及存储介质
CN112364664B (zh) * 2020-11-19 2023-12-05 北京京东尚科信息技术有限公司 意图识别模型的训练及意图识别方法、装置、存储介质
CN112905884B (zh) * 2021-02-10 2024-05-31 北京百度网讯科技有限公司 生成序列标注模型的方法、设备、介质及程序产品
CN113705236B (zh) * 2021-04-02 2024-06-11 腾讯科技(深圳)有限公司 实体比较方法、装置、设备及计算机可读存储介质
CN113157892A (zh) * 2021-05-24 2021-07-23 中国平安人寿保险股份有限公司 用户意图处理方法、装置、计算机设备及存储介质
CN113377969B (zh) * 2021-08-16 2021-11-09 中航信移动科技有限公司 意图识别数据处理系统
CN113723114A (zh) * 2021-08-31 2021-11-30 平安普惠企业管理有限公司 基于多意图识别的语义分析方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106815192A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和语句情感识别方法及装置
CN106875940A (zh) * 2017-03-06 2017-06-20 吉林省盛创科技有限公司 一种基于神经网络的机器自学习构建知识图谱训练方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367608B1 (en) * 2009-01-07 2016-06-14 Guangsheng Zhang System and methods for searching objects and providing answers to queries using association data
US10509889B2 (en) * 2014-11-06 2019-12-17 ezDI, Inc. Data processing system and method for computer-assisted coding of natural language medical text
CN105095195B (zh) * 2015-07-03 2018-09-18 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统
CN105117487B (zh) * 2015-09-19 2018-11-16 杭州电子科技大学 一种基于内容结构的图书语义检索方法
CN106649394A (zh) * 2015-11-03 2017-05-10 中兴通讯股份有限公司 融合知识库处理方法和装置,以及知识库管理系统
CN105335519B (zh) * 2015-11-18 2021-08-17 百度在线网络技术(北京)有限公司 模型生成方法及装置、推荐方法及装置
CN106815252B (zh) * 2015-12-01 2020-08-25 阿里巴巴集团控股有限公司 一种搜索方法和设备
CN106776562B (zh) * 2016-12-20 2020-07-28 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取系统
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815192A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和语句情感识别方法及装置
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106875940A (zh) * 2017-03-06 2017-06-20 吉林省盛创科技有限公司 一种基于神经网络的机器自学习构建知识图谱训练方法

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840280A (zh) * 2019-03-05 2019-06-04 百度在线网络技术(北京)有限公司 一种文本分类方法、装置及计算机可读存储介质
CN109840280B (zh) * 2019-03-05 2023-07-18 百度在线网络技术(北京)有限公司 一种文本分类方法、装置及计算机可读存储介质
CN111859976A (zh) * 2019-04-30 2020-10-30 广东小天才科技有限公司 一种基于知识图谱扩充正则表达式的方法和装置
CN110245198A (zh) * 2019-06-18 2019-09-17 北京百度网讯科技有限公司 多源售票数据管理方法及系统、服务器和计算机可读介质
CN110597961A (zh) * 2019-09-18 2019-12-20 腾讯科技(深圳)有限公司 一种文本类目标注方法、装置、电子设备及存储介质
CN110597961B (zh) * 2019-09-18 2023-10-27 腾讯云计算(北京)有限责任公司 一种文本类目标注方法、装置、电子设备及存储介质
WO2021081837A1 (zh) * 2019-10-30 2021-05-06 深圳市欢太科技有限公司 模型构建方法、分类方法、装置、存储介质及电子设备
CN111753495A (zh) * 2019-11-07 2020-10-09 北京沃东天骏信息技术有限公司 意图语句预测模型构建方法及装置、设备及存储介质
CN111160033A (zh) * 2019-12-18 2020-05-15 车智互联(北京)科技有限公司 一种基于神经网络的命名实体识别方法、计算设备及存储介质
CN111160033B (zh) * 2019-12-18 2024-02-27 车智互联(北京)科技有限公司 一种基于神经网络的命名实体识别方法、计算设备及存储介质
CN111124350A (zh) * 2019-12-20 2020-05-08 科大讯飞股份有限公司 技能确定方法及相关设备
CN111124350B (zh) * 2019-12-20 2023-10-27 科大讯飞股份有限公司 技能确定方法及相关设备
CN111160034B (zh) * 2019-12-31 2024-02-27 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111160034A (zh) * 2019-12-31 2020-05-15 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111104803B (zh) * 2019-12-31 2024-02-13 科大讯飞股份有限公司 语义理解处理方法、装置、设备及可读存储介质
CN111104803A (zh) * 2019-12-31 2020-05-05 科大讯飞股份有限公司 语义理解处理方法、装置、设备及可读存储介质
CN111368527A (zh) * 2020-02-28 2020-07-03 上海汇航捷讯网络科技有限公司 一种键值匹配方法
CN111368527B (zh) * 2020-02-28 2023-06-20 上海汇航捷讯网络科技有限公司 一种键值匹配方法
CN111680207B (zh) * 2020-03-11 2023-08-04 华中科技大学鄂州工业技术研究院 一种用于确定用户搜索意图的方法及装置
US11379666B2 (en) 2020-04-08 2022-07-05 International Business Machines Corporation Suggestion of new entity types with discriminative term importance analysis
CN111400480A (zh) * 2020-04-21 2020-07-10 支付宝(杭州)信息技术有限公司 针对多轮对话的用户意图识别方法和装置
CN111400480B (zh) * 2020-04-21 2023-05-12 支付宝(杭州)信息技术有限公司 针对多轮对话的用户意图识别方法和装置
CN113642302B (zh) * 2020-04-27 2024-04-02 阿里巴巴集团控股有限公司 文本填充模型的训练方法及装置、文本处理方法及装置
CN113642302A (zh) * 2020-04-27 2021-11-12 阿里巴巴集团控股有限公司 文本填充模型的训练方法及装置、文本处理方法及装置
CN113742523A (zh) * 2020-05-29 2021-12-03 北京百度网讯科技有限公司 文本核心实体的标注方法及装置
CN113742523B (zh) * 2020-05-29 2023-06-27 北京百度网讯科技有限公司 文本核心实体的标注方法及装置
CN111695345B (zh) * 2020-06-12 2024-02-23 腾讯科技(深圳)有限公司 文本中实体识别方法、以及装置
CN111695345A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 文本中实体识别方法、以及装置
CN111708873B (zh) * 2020-06-15 2023-11-24 腾讯科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN111708873A (zh) * 2020-06-15 2020-09-25 腾讯科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN111767726A (zh) * 2020-06-24 2020-10-13 北京奇艺世纪科技有限公司 数据处理方法及装置
CN111767726B (zh) * 2020-06-24 2024-02-06 北京奇艺世纪科技有限公司 数据处理方法及装置
CN111832282B (zh) * 2020-07-16 2023-04-14 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备
CN111832282A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备
CN111797245A (zh) * 2020-07-27 2020-10-20 中国平安人寿保险股份有限公司 基于知识图谱模型的信息匹配方法及相关装置
CN111797245B (zh) * 2020-07-27 2023-07-25 中国平安人寿保险股份有限公司 基于知识图谱模型的信息匹配方法及相关装置
CN111914568A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN111914568B (zh) * 2020-07-31 2024-02-06 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN111950288A (zh) * 2020-08-25 2020-11-17 海信视像科技股份有限公司 一种命名实体识别中的实体标注方法及智能设备
CN111950288B (zh) * 2020-08-25 2024-02-23 海信视像科技股份有限公司 一种命名实体识别中的实体标注方法及智能设备
CN112100397A (zh) * 2020-09-07 2020-12-18 南京航空航天大学 基于双向门控循环单元的电力预案知识图谱构建方法及系统
CN112015921A (zh) * 2020-09-15 2020-12-01 重庆广播电视大学重庆工商职业学院 一种基于学习辅助知识图谱的自然语言处理方法
CN112015921B (zh) * 2020-09-15 2024-04-16 重庆广播电视大学重庆工商职业学院 一种基于学习辅助知识图谱的自然语言处理方法
CN112101009A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112101009B (zh) * 2020-09-23 2024-03-26 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112699685B (zh) * 2021-01-08 2024-03-29 北京工业大学 基于标签引导的字词融合的命名实体识别方法
CN112699685A (zh) * 2021-01-08 2021-04-23 北京工业大学 基于标签引导的字词融合的命名实体识别方法
CN113064997A (zh) * 2021-04-22 2021-07-02 中国平安财产保险股份有限公司 基于bert模型的意图分析方法、装置、设备及介质
CN113064997B (zh) * 2021-04-22 2024-05-07 中国平安财产保险股份有限公司 基于bert模型的意图分析方法、装置、设备及介质
CN113505587A (zh) * 2021-06-23 2021-10-15 科大讯飞华南人工智能研究院(广州)有限公司 实体抽取方法及相关装置、设备和存储介质
CN113505587B (zh) * 2021-06-23 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 实体抽取方法及相关装置、设备和存储介质
CN113378574A (zh) * 2021-06-30 2021-09-10 武汉大学 一种基于kgann的命名实体识别方法
CN113657092A (zh) * 2021-06-30 2021-11-16 北京声智科技有限公司 识别标签的方法、装置、设备以及介质
CN113378574B (zh) * 2021-06-30 2023-10-24 武汉大学 一种基于kgann的命名实体识别方法
CN113343692A (zh) * 2021-07-15 2021-09-03 杭州网易云音乐科技有限公司 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN113343692B (zh) * 2021-07-15 2023-09-12 杭州网易云音乐科技有限公司 搜索意图的识别方法、模型训练方法、装置、介质及设备

Also Published As

Publication number Publication date
CN109388793A (zh) 2019-02-26
CN109388793B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
WO2019024704A1 (zh) 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN111563208B (zh) 一种意图识别的方法、装置及计算机可读存储介质
US11216504B2 (en) Document recommendation method and device based on semantic tag
US10437929B2 (en) Method and system for processing an input query using a forward and a backward neural network specific to unigrams
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
AU2017425675B2 (en) Extracting domain-specific actions and entities in natural language commands
CA3065764C (en) Extracting domain-specific actions and entities in natural language commands
WO2021212601A1 (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN107112009B (zh) 用于生成混淆网络的方法、系统和计算机可读存储设备
CN113268586A (zh) 文本摘要生成方法、装置、设备及存储介质
US20190042560A1 (en) Extracting domain-specific actions and entities in natural language commands
US10885281B2 (en) Natural language document summarization using hyperbolic embeddings
WO2021159812A1 (zh) 癌症分期信息处理方法、装置及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
US11170765B2 (en) Contextual multi-channel speech to text
WO2022141872A1 (zh) 文献摘要生成方法、装置、计算机设备及存储介质
CN114036955A (zh) 中心词跨句事件论元检测方法
CN116681083A (zh) 文本数据涉敏检测方法、装置、设备及介质
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
CN115906855A (zh) 一种字词信息融合的中文地址命名实体识别方法及装置
US20220254351A1 (en) Method and system for correcting speaker diarization using speaker change detection based on text
CN113392649B (zh) 一种识别方法、装置、设备及存储介质
CN115631746B (zh) 热词识别方法、装置、计算机设备及存储介质
CN117669588A (zh) 一种摘要生成方法、装置、电子设备和存储介质
CN117763195A (zh) 视频定位方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18841632

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18841632

Country of ref document: EP

Kind code of ref document: A1