WO2021147726A1 - 信息抽取方法、装置、电子设备及存储介质 - Google Patents

信息抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
WO2021147726A1
WO2021147726A1 PCT/CN2021/071485 CN2021071485W WO2021147726A1 WO 2021147726 A1 WO2021147726 A1 WO 2021147726A1 CN 2021071485 W CN2021071485 W CN 2021071485W WO 2021147726 A1 WO2021147726 A1 WO 2021147726A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
model
text
triplet
neural network
Prior art date
Application number
PCT/CN2021/071485
Other languages
English (en)
French (fr)
Inventor
王炳乾
Original Assignee
京东方科技集团股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京东方科技集团股份有限公司 filed Critical 京东方科技集团股份有限公司
Priority to US17/425,556 priority Critical patent/US11922121B2/en
Publication of WO2021147726A1 publication Critical patent/WO2021147726A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present disclosure relates to the field of information processing technology, and in particular to an information extraction method, device, electronic equipment, and storage medium.
  • the knowledge graph consists of entities, attributes and relationships. It is essentially a semantic network.
  • the nodes in the network represent entities or attribute values that exist in the real world, and the edges between nodes represent the relationship between two entities.
  • knowledge graph technology is mainly used in intelligent semantic search, mobile personal assistants and question answering systems.
  • the present disclosure provides an information extraction method, device, electronic equipment, and storage medium to improve the efficiency and accuracy of information extraction.
  • an information extraction method which includes:
  • the text data into a pre-trained information extraction model to obtain triple information contained in the text data.
  • the triple information includes the subject, predicate, and object in the text data; wherein, the
  • the information extraction model includes a binary classification sub-model and a multi-label classification sub-model.
  • the binary classification sub-model is used to extract the subject in the text data
  • the multi-label classification sub-model is used to extract the subject and the text data according to the subject and the text data. , Extract the predicate and object corresponding to the subject in the text data.
  • the method before the step of inputting the text data into the pre-trained information extraction model to obtain the triple information contained in the text data, the method further includes: obtaining the information The extraction model, wherein the step of obtaining the information extraction model includes:
  • Obtaining a sample set including a plurality of texts to be trained and triplet labeling information of each text to be trained, the triples labeling information including subject labeling information, predicate labeling information, and object labeling information;
  • the output information of the first neural network model, the output information of the second neural network model, and the triplet tagging information, the first pre-training language model, the first neural network model, and the The second pre-training language model and the second neural network model are trained to obtain the information extraction model, wherein the trained first pre-training language model and the first neural network model constitute the two-class sub-model, The trained second pre-training language model and the second neural network model constitute the multi-label classification sub-model.
  • the first pre-training is performed based on the output information of the first neural network model, the output information of the second neural network model, and the triplet label information
  • the step of training the language model, the first neural network model, the second pre-training language model, and the second neural network model to obtain the information extraction model includes:
  • the parameters in the first pre-training language model, the first neural network model, the second pre-training language model, and the second neural network model are optimized to obtain the information extraction model so that the The sum of the first loss function and the second loss function is the smallest.
  • the first loss function and the second loss function are both cross-entropy loss functions.
  • the step of obtaining a sample set includes:
  • the step of obtaining the sample set further includes:
  • the first triplet information is triplet information that appears in the triplet prediction information but does not appear in the triplet tagging information of the text to be tagged;
  • the second triplet information is deleted from the triplet tagging information of the text to be tagged, wherein, the first The two-triple information is the triplet information that appears in the triplet tagging information of the text to be tagged but does not appear in the triplet prediction information;
  • K is greater than or equal to 5 and less than or equal to 10.
  • the method before the step of using pre-trained K prediction models to predict the to-be-labeled text to obtain K triples prediction information, the method includes:
  • the K-fold cross-validation method is adopted to obtain K prediction models.
  • an information extraction device which includes:
  • the obtaining module is configured to obtain text data
  • the extraction module is configured to input the text data into a pre-trained information extraction model to obtain triple information contained in the text data.
  • the triple information includes subject, predicate, and Object; wherein, the information extraction model includes a two-class classification sub-model and a multi-label classification sub-model, the two-class classification sub-model is used to extract the subject in the text data, the multi-label classification sub-model is used according to the The subject and the text data, and the predicate and object corresponding to the subject in the text data are extracted.
  • an electronic device which includes:
  • a memory for storing executable instructions of the processor
  • the processor is configured to execute the instructions to implement the information extraction method described in any embodiment.
  • the present disclosure also discloses a storage medium.
  • the instructions in the storage medium are executed by the processor of the electronic device, the electronic device can execute the information extraction method described in any embodiment.
  • Figure 1 shows a flow chart of the steps of an information extraction method provided by an embodiment of the present disclosure
  • Figure 2 shows a flow chart of steps for obtaining an information extraction model provided by an embodiment of the present disclosure
  • FIG. 3 shows a format of triplet tagging information provided by an embodiment of the present disclosure
  • FIG. 4 shows a training framework of an information extraction model provided by an embodiment of the present disclosure
  • FIG. 5 shows a flow chart of the steps of a method for automatically labeling data provided by an embodiment of the present disclosure
  • FIG. 6 shows a schematic flowchart of an automated labeling provided by an embodiment of the present disclosure
  • FIG. 7 shows a schematic flowchart of an information extraction method provided by an embodiment of the present disclosure
  • FIG. 8 shows a structural block diagram of an information extraction device provided by an embodiment of the present disclosure
  • FIG. 9 is a structural block diagram of a model acquisition module of an information extraction device provided by an embodiment of the present disclosure and the units contained therein;
  • FIG. 10 schematically shows a block diagram of an electronic device for executing the method according to the present disclosure.
  • FIG. 11 schematically shows a storage unit for holding or carrying program codes for implementing the method according to the present disclosure.
  • Domain knowledge graph extracts entities and relationships between entities from specific resources in a specific field to build a knowledge base.
  • the knowledge system it contains usually has a strong domain specificity and professionalism.
  • the domain knowledge graph is constructed from top to bottom, including schema design, entity recognition, relationship extraction, entity linking, knowledge fusion, and knowledge calculation.
  • the key is how to automatically extract information to obtain candidate knowledge units.
  • the techniques involved include entity extraction, relationship extraction and attribute extraction, collectively referred to as information extraction.
  • Information extraction is also called triple (S, P, O) extraction, where S and O are the subject and object of the sentence, corresponding to the entity or attribute value in the knowledge graph, and P is the predicate, corresponding to the relationship between the entities.
  • an embodiment of the present disclosure provides an information extraction method.
  • the method may include:
  • Step 101 Obtain text data.
  • the execution subject can obtain the data to be processed.
  • the data to be processed may include, for example, data obtained by the execution subject (for example, a server) instantly from a database, or data pre-stored in the storage unit of the execution subject. , Or data imported from a third party, etc.
  • the text data may include unstructured text, etc. In some embodiments, the text data is unstructured text.
  • text data can also be derived from text information extracted from pictures or files in other formats.
  • the file to be processed is a picture or a PDF file.
  • the text data can be extracted from the picture or PDF file by means of OCR recognition, etc., and processed.
  • Step 102 Input the text data into the pre-trained information extraction model to obtain the triple information contained in the text data.
  • the triple information includes the subject, predicate, and object in the text data; wherein, the information extraction model includes a binary classifier
  • the model and the multi-label classification sub-model, the two-class classification sub-model is used to extract the subject in the text data
  • the multi-label classification sub-model is used to extract the predicate and object corresponding to the subject in the text data according to the subject and the text data.
  • domain knowledge graphs are usually constructed using a top-down approach, that is, the top-level design is first performed: determine the types of entities, attributes, and relationships that the knowledge graph needs to include. There is no fixed standard for this part, and it is usually designed according to business needs. For example, in the field of art, it may be necessary to obtain entities such as paintings, painters, and art institutions. There are many attribute values and relationships between these entities and entities. Paints have attributes such as creation time and creation medium, and there are creation relationships between painters and paintings, etc. Based on this, the following information extraction schema can be constructed:
  • subject represents the subject s in the triple
  • predicate represents the predicate p in the triple, which is also called relationship
  • object represents the object o in the triple
  • subject_type is the entity type of the subject
  • object_type is the entity type of the object.
  • the subject s is predicted, then the subject s is passed in to predict the object o corresponding to the subject s, and then the subject s and object o are passed in to predict the relational predicate p.
  • the prediction of the object o and the object p can be combined into one step, that is, the subject s is predicted first, and then the subject s is passed in to predict the object o and the predicate p corresponding to the subject s, as shown in the following formula:
  • the binary classification sub-model and the multi-label classification sub-model in the information extraction model can be obtained by jointly training the pre-trained language model and the neural network model by using unstructured text labeled with triple information.
  • the training process of the information extraction model and the process of labeling unstructured text will be described in detail.
  • the text data is first input into the two-classification sub-model, and all subjects in the text data are extracted by the two-classification sub-model, and then each subject and text data are sent to the multi-label classification sub-model in pairs, and the multi-label classification is performed
  • the sub-model extracts the predicate and object corresponding to the subject in the text data.
  • the relationship joint extraction model replaces the traditional entity recognition and relationship extraction pipeline extraction methods, and improves the efficiency and accuracy of information extraction.
  • a step of obtaining the information extraction model may also be included.
  • the steps of obtaining the information extraction model may specifically include:
  • Step 201 Obtain a sample set.
  • the sample set includes multiple texts to be trained and triplet labeling information of each text to be trained.
  • the triplet labeling information includes subject labeling information, predicate labeling information, and object labeling information.
  • the text to be trained may be, for example: "The Mona Lisa is an oil painting created by the Italian Renaissance painter Leonardo da Vinci, which is now in the Louvre Museum in France.”
  • the triple information of the text to be trained includes (Mona Lisa, author, Leonardo da Vinci), (Mona Lisa, collection site, Louvre Museum, France), (Da Vinci, nationality, Italy) and (Mona Lisa, creation category, oil painting) .
  • the triple information can be labeled in a specific format.
  • the starting and ending positions of the subject S in the sentence can be marked. For example, when labeling (Mona Lisa, author, Leonardo da Vinci), (Mona Lisa, creation category, oil painting), (Da Vinci, nationality, Italy), the subjects Mona Lisa and Leonardo da Vinci The starting and ending positions of Odd in the sentence are marked with two sequences, namely, 1 is marked at the corresponding starting and ending positions, and 0 is marked at the other positions. Refer to Figure 3 to show the subject marking information of the text to be trained.
  • Step 202 Input the text to be trained into the first pre-training language model, and input the output information of the first pre-training language model into the first neural network model.
  • Step 203 Input the output information of the first neural network model and the text to be trained into the second pre-training language model, and send the output information of the second pre-training language model into the second neural network model.
  • Step 204 According to the output information of the first neural network model, the output information of the second neural network model, and the triplet label information, perform a comparison of the first pre-training language model, the first neural network model, the second pre-training language model, and the first
  • the second neural network model is trained to obtain an information extraction model, where the first pre-trained language model and the first neural network model after training constitute a two-class sub-model, and the second pre-trained language model and the second neural network model after training Form a multi-label classification sub-model.
  • the first loss function can be determined according to the output information of the first neural network model and subject labeling information
  • the second loss function can be determined according to the output information of the second neural network model, predicate labeling information, and object labeling information
  • the first pre-training language model and the second pre-training language model may be a BERT model, an ERNIE model, a Span BERT model, and so on.
  • the first pre-training language model and the second pre-training language model are both BERT models as an example.
  • the first neural network model is the Dense layer + sigmod
  • the second neural network model is the Dense layer + softmax
  • the first loss function Both and the second loss function are cross-entropy loss functions. It should be noted that the minimum sum of the first loss function and the second loss function is not limited to one value, but a range of values.
  • the training framework of the information extraction model is shown.
  • the specific steps of model training are as follows: First, send the text X to be trained, that is [CLS] "Mona Lisa” is an oil painting created by Italian Renaissance painter Leonardo...[SEP], and send it to the BERT model with single input ,
  • the encoding of the output information of the BERT model is sent to the Dense layer + sigmod, and the first loss function loss_s (cross entropy loss function) is used as a two-class training to predict the start and end position of the subject labeling model.
  • the first neural network model constitute a two-class sub-model subject_model.
  • the output information of the BERT model namely the vector corresponding to [CLS], is sent to the Dense layer + softmax, and the second loss function loss_o (cross entropy loss function) is used for multi-class training of prediction predicates and objects, and the second pre-training language after training
  • the model (BERT) and the second neural network model (Dense layer + softmax) constitute a multi-label classification sub-model object_model.
  • the two-class classification sub-model subject_model and the multi-label classification sub-model object_model can be jointly trained.
  • the first pre-training language model the first neural
  • the parameters in the network model, the second pre-training language model, and the second neural network model are iteratively optimized to obtain an information extraction model.
  • the output information of the input sample X after being encoded by BERT can be expressed as:
  • L represents Transformer layers.
  • W start is the trainable weight vector
  • b start is the bias term
  • is the sigmoid activation function
  • W s is the sentence embedding matrix
  • two sequences can also be used to determine the start and end positions of the object.
  • the multi-label classification method can be used to determine the start and end position and relationship of the object at the same time, that is The probability of determining the relationship label at the start and end positions of
  • the parameter to be optimized in the model training process is the above-mentioned trainable weight vector, and the loss function loss is minimized by iteratively updating and optimizing the parameters.
  • the current mainstream relationship extraction methods are supervised learning methods, semi-supervised learning methods and unsupervised learning methods. Compared with semi-supervised learning methods and unsupervised learning methods, supervised learning methods have higher accuracy and recall rates, so they have received more and more attention.
  • the supervised learning method requires a large amount of data annotation. If the efficiency of data annotation is improved, it is also an urgent problem to be solved.
  • step 201 may include:
  • Step 501 Process the unstructured text sample to obtain the text to be labeled.
  • Step 502 Obtain the labeled text to be trained and the triplet label information of the text to be trained.
  • Step 503 In response to the subject label information and object label information in the triple label information contained in the text to be labelled, label the text to be labelled according to the triple label information.
  • the labeling information marks the text to be labelled. In this way, by using the existing knowledge base to automatically label data, the cost of corpus labeling can be reduced.
  • ⁇ 'text':'"Mona Lisa” is an oil painting created by Italian Renaissance painter Leonardo da Vinci, now in the collection of the Louvre Museum in France','spo_list':[(Mona Lisa, author, Leonardo Qi), (Mona Lisa, collection place, Louvre Museum in France), (Da Vinci, nationality, Italy), (Mona Lisa, creation category, oil painting)] ⁇ .
  • the method of knowledge distillation can be used to reduce the noise of the automatically labeled data.
  • the foregoing implementation manner may also include:
  • Step 504 Prediction of the to-be-labeled text is performed using K prediction models obtained by pre-training to obtain K triplet prediction information.
  • the K prediction models can be trained by using K-fold cross-validation based on the finished labeling text to be trained and the triplet label information of the text to be trained.
  • the training samples are equally divided into K parts, K-1 parts of the training model are taken in turn, and the other 1 part is used as the sample to be predicted. If it can be divided into [D1,D2,D3,...,DK], take [D1,D2,...,Dk-1,Dk+1,...,DK] as the training sample, Dk as the sample to be predicted, and k ⁇ [ 1,K].
  • Step 505 When the ratio of the quantity of the first triple information to K is greater than the first preset threshold, the first triple information is added to the sample set as the triple annotation information of the text to be annotated.
  • a triplet information is the triplet information that appears in the triplet prediction information but does not appear in the triplet tagging information of the text to be tagged.
  • Step 506 When the ratio of the quantity of the second triplet information to K is greater than the second preset threshold, delete the second triplet information from the triplet tagging information of the text to be tagged, where the second triplet
  • the group information is the triplet information that appears in the triplet tagging information of the text to be tagged but does not appear in the triplet prediction information.
  • the K value can be greater than or equal to 5 and less than or equal to 10, or it can be set by itself according to the data scale.
  • the first preset threshold and the second preset threshold may be the same or different, and the specific value may be determined according to actual needs.
  • K-fold cross-validation can be used to train K models with labeled data, and then use the trained K models to predict the text to be labeled.
  • first triplet information Ti in K triples prediction information that is not in R_s, this first triplet information Ti appears M times in K triples prediction information, and K triples There may be N results in the prediction information that do not contain the second triplet information Tj, and the second triplet information Tj exists in R_s.
  • both the first preset threshold and the second preset threshold can be set to Score.
  • M/K>Score the first triplet information Ti is considered to be the missing label data of the text to be labeled, so the first The triplet information Ti is added to the triplet label information R_s.
  • N/K>Score the second triplet information Tj is considered to be mislabeled data. Therefore, the second triplet information Tj needs to be changed from the triplet Delete the group label information R_s. In this way, by repeating training and prediction many times, the training sample set can be continuously revised.
  • the existing knowledge base is used to automatically label data, which can reduce the cost of expected labeling.
  • manual review is performed, and the method of knowledge distillation is used to denoise the labeled data in the later stage.
  • the information extraction method provided by this embodiment mainly involves several main parts such as data annotation method, schema construction, information extraction algorithm model, data noise reduction, etc.
  • the solution uses an end-to-end entity relationship joint extraction method from non-structure Knowledge is extracted from the text, while ensuring the accuracy of information extraction, it reduces the cost of constructing a knowledge graph, improves the efficiency of information extraction, and saves labor costs.
  • the device may include:
  • the obtaining module 801 is configured to obtain text data
  • the extraction module 802 is configured to input the text data into a pre-trained information extraction model to obtain triple information contained in the text data, and the triple information includes subject and predicate in the text data And objects; wherein the information extraction model includes a binary classification sub-model and a multi-label classification sub-model, the binary classification sub-model is used to extract the subject in the text data, the multi-label classification sub-model is used to The subject and the text data are extracted, and the predicate and object corresponding to the subject in the text data are extracted.
  • the information extraction model includes a binary classification sub-model and a multi-label classification sub-model, the binary classification sub-model is used to extract the subject in the text data, the multi-label classification sub-model is used to The subject and the text data are extracted, and the predicate and object corresponding to the subject in the text data are extracted.
  • the apparatus may further include: a model acquisition module 800 configured to acquire the information extraction model, and the model acquisition module includes:
  • the first unit 8001 is configured to obtain a sample set, the sample set includes a plurality of texts to be trained and the triplet tagging information of each text to be trained, the triplet tagging information includes subject tagging information and predicate Labeling information and object labeling information;
  • the second unit 8002 is configured to input the text to be trained into a first pre-training language model, and send output information of the first pre-training language model into the first neural network model;
  • the third unit 8003 is configured to input the output information of the first neural network model and the text to be trained into a second pre-training language model, and send the output information of the second pre-training language model to the second neural network.
  • Network model
  • the fourth unit 8004 is configured to, according to the output information of the first neural network model, the output information of the second neural network model, and the triplet tagging information, perform the evaluation on the first pre-training language model, the The first neural network model, the second pre-training language model, and the second neural network model are trained to obtain the information extraction model, wherein the trained first pre-training language model and the first neural network model The two-classification sub-model is formed, and the second pre-training language model and the second neural network model after training constitute the multi-label classification sub-model.
  • the fourth unit is specifically configured as:
  • the parameters in the first pre-training language model, the first neural network model, the second pre-training language model, and the second neural network model are optimized to obtain the information extraction model so that the The sum of the first loss function and the second loss function is the smallest.
  • the first loss function and the second loss function are both cross-entropy loss functions.
  • the first unit is specifically configured as:
  • the first unit is further configured to:
  • the first triplet information is triplet information that appears in the triplet prediction information but does not appear in the triplet tagging information of the text to be tagged;
  • the second triplet information is deleted from the triplet tagging information of the text to be tagged, wherein, the first The two-triple information is the triplet information that appears in the triplet tagging information of the text to be tagged but does not appear in the triplet prediction information.
  • the K value can be greater than or equal to 5 and less than or equal to 10, or it can be set by itself according to the data scale.
  • the first unit is further configured to:
  • the K-fold cross-validation method is adopted to obtain K prediction models.
  • Another embodiment of the present disclosure also provides an electronic device, which includes:
  • a memory for storing executable instructions of the processor
  • the processor is configured to execute the instructions to implement the information extraction method described in any embodiment.
  • Another embodiment of the present disclosure further provides a storage medium.
  • the electronic device can execute the information extraction method described in any embodiment.
  • the device embodiments described above are merely illustrative.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, they may be located in One place, or it can be distributed to multiple network units.
  • Some or all of the modules can be selected according to actual needs to achieve the objectives of the solutions of the embodiments. Those of ordinary skill in the art can understand and implement it without creative work.
  • the various component embodiments of the present disclosure may be implemented by hardware, or by software modules running on one or more processors, or by a combination of them.
  • a microprocessor or a digital signal processor (DSP) may be used in practice to implement some or all of the functions of some or all of the components in the electronic device according to the embodiments of the present disclosure.
  • DSP digital signal processor
  • the present disclosure can also be implemented as a device or device program (for example, a computer program and a computer program product) for executing part or all of the methods described herein.
  • Such a program for realizing the present disclosure may be stored on a computer-readable medium, or may have the form of one or more signals.
  • Such a signal can be downloaded from an Internet website, or provided on a carrier signal, or provided in any other form.
  • FIG. 10 shows an electronic device that can implement the method according to the present disclosure.
  • the electronic device traditionally includes a processor 1010 and a computer program product in the form of a memory 1020 or a computer-readable medium.
  • the memory 1020 may be an electronic memory such as flash memory, EEPROM (Electrically Erasable Programmable Read Only Memory), EPROM, hard disk, or ROM.
  • the memory 1020 has a storage space 1030 for executing program codes 1031 of any method steps in the above methods.
  • the storage space 1030 for program codes may include various program codes 1031 respectively used to implement various steps in the above method. These program codes can be read from or written into one or more computer program products.
  • These computer program products include program code carriers such as hard disks, compact disks (CDs), memory cards, or floppy disks.
  • Such a computer program product is usually a portable or fixed storage unit as described with reference to FIG. 11.
  • the storage unit may have storage segments, storage spaces, etc. arranged similarly to the memory 1020 in the electronic device of FIG. 10.
  • the program code can be compressed in an appropriate form, for example.
  • the storage unit includes computer readable codes 1031', that is, codes that can be read by, for example, a processor such as 1010. When run by an electronic device, these codes cause the electronic device to execute each of the methods described above. step.
  • the information extraction method, device, electronic equipment, and storage medium proposed in the embodiments of the present invention at least include the following advantages:
  • the technical solution of this application provides an information extraction method, device, electronic equipment, and storage medium.
  • source data is obtained, and then the source data is input into a pre-trained information extraction model to obtain the triplet information contained in the source data.
  • Tuple information includes the subject, predicate, and object in the source data; among them, the information extraction model includes a two-class sub-model and a multi-label classification sub-model.
  • the two-class sub-model is used to extract the subject in the source data
  • the multi-label classification sub-model is used Based on the subject and the source data, extract the predicate and object corresponding to the subject in the source data.
  • the technical solution of the present application adopts an end-to-end information extraction model to jointly extract triple information in the source data, instead of the traditional pipeline extraction method of entity recognition and relationship extraction, and can improve the efficiency and accuracy of information extraction.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种信息抽取方法、装置、电子设备及存储介质,信息抽取方法包括首先获取文本数据(101),然后将文本数据输入预先训练得到的信息抽取模型,得到文本数据所包含的三元组信息,三元组信息包括文本数据中的主语、谓语和宾语;其中,信息抽取模型包括二分类子模型和多标签分类子模型,二分类子模型用于抽取文本数据中的主语,多标签分类子模型用于根据主语和所述文本数据,抽取文本数据中与主语对应的谓语和宾语(102)。

Description

信息抽取方法、装置、电子设备及存储介质
本公开要求在2020年01月21日提交中国专利局、申请号为202010071824.3、名称为“信息抽取方法、装置、电子设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本公开中。
技术领域
本公开涉及信息处理技术领域,特别是涉及一种信息抽取方法、装置、电子设备及存储介质。
背景技术
随着深度学习等领域的持续发展,人工智能逐渐涉足各个领域,致力于改善人们的生活,在图像识别、语音识别等领域已经超越了人类的水平。然而在自然语言处理领域,由于人类语言的复杂性以及事物的多样性,目前的技术尚不能达到完全理解语义的程度,因此需要一个语义连接的桥梁——知识图谱。
知识图谱由实体、属性和关系组成,其本质上来讲是一种语义网络,网络中的节点表示现实世界存在的实体或者属性值,节点之间的边表示两个实体之间的关系。目前知识图谱技术主要用于智能语义搜索、移动个人助理以及问答系统中。
概述
本公开提供一种信息抽取方法、装置、电子设备及存储介质,以提高信息抽取的效率和精度。
为了解决上述问题,本公开公开了一种信息抽取方法,所述方法包括:
获取文本数据;
将所述文本数据输入预先训练得到的信息抽取模型,得到所述文本数据所包含的三元组信息,所述三元组信息包括所述文本数据中的主语、谓语和宾语;其中,所述信息抽取模型包括二分类子模型和多标签分类子模型,所述二分类子模型用于抽取所述文本数据中的主语,所述多标签分类子模型用于根据所述主语和所述文本数据,抽取所述文本数据中与所述主语对应的谓语和宾语。
在一种可选的实现方式中,在所述将所述文本数据输入预先训练得到的信息抽取模型,得到所述文本数据所包含的三元组信息的步骤之前,还包括:获得所述信息抽取模型,其中,所述获得所述信息抽取模型的步骤,包括:
获得样本集合,所述样本集合中包括多个待训练文本以及各所述待训练文本的三元组标注信息,所述三元组标注信息包括主语标注信息、谓语标注信息和宾语标注信息;
将所述待训练文本输入第一预训练语言模型,将所述第一预训练语言模型的输出信息送入第一神经网络模型;
将所述第一神经网络模型的输出信息以及所述待训练文本输入第二预训练语言模型,将所述第二预训练语言模型的输出信息送入第二神经网络模型;
根据所述第一神经网络模型的输出信息、所述第二神经网络模型的输出信息以及所述三元组标注信息,对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型进行训练,得到所述信息抽取模型,其中,训练后的第一预训练语言模型和第一神经网络模型构成所述二分类子模型,训练后的第二预训练语言模型和第二神经网络模型构成所述多标签分类子模型。
在一种可选的实现方式中,所述根据所述第一神经网络模型的输出信息、所述第二神经网络模型的输出信息以及所述三元组标注信息,对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型进行训练,得到所述信息抽取模型的步骤,包括:
根据所述第一神经网络模型的输出信息以及所述主语标注信息,确定第一损失函数;
根据所述第二神经网络模型的输出信息、所述谓语标注信息以及所述宾语标注信息,确定第二损失函数;
对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型中的参数进行优化,得到所述信息抽取模型,使得所述第一损失函数与所述第二损失函数之和最小。
在一种可选的实现方式中,所述第一损失函数和所述第二损失函数均为交叉熵损失函数。
在一种可选的实现方式中,所述获得样本集合的步骤,包括:
获取非结构化文本样本;
对所述非结构化文本样本进行处理,得到待标注文本;
获取已完成标注的待训练文本以及所述待训练文本的三元组标注信息;
响应于所述待标注文本中包含所述三元组标注信息中的主语标注信息和宾语标注信息,按照所述三元组标注信息对所述待标注文本进行标注。
在一种可选的实现方式中,所述获得样本集合的步骤,还包括:
采用预先训练得到的K个预测模型对所述待标注文本进行预测,得到K个三元组预测信息;
当第一三元组信息的数量与K的比值大于第一预设阈值时,将所述第一三元组信息作为所述待标注文本的三元组标注信息添加至所述样本集合中,其中,所述第一三元组信息为出现在所述三元组预测信息中但未出现在所述待标注文本的三元组标注信息中的三元组信息;
当第二三元组信息的数量与K的比值大于第二预设阈值时,将所述第二三元组信息从所述待标注文本的三元组标注信息中删除,其中,所述第二三元组信息为出现在所述待标注文本的三元组标注信息中但未出现在所述三元组预测信息中的三元组信息;
其中,K大于或等于5且小于或等于10。
在一种可选的实现方式中,在所述采用预先训练得到的K个预测模型对所述待标注文本进行预测,得到K个三元组预测信息的步骤之前,包括:
根据已完成标注的待训练文本以及所述待训练文本的三元组标注信息,采用K折交叉验证的方式获得K个预测模型。
为了解决上述问题,本公开还公开了一种信息抽取装置,所述装置包括:
获取模块,被配置为获取文本数据;
抽取模块,被配置为将所述文本数据输入预先训练得到的信息抽取模型,得到所述文本数据所包含的三元组信息,所述三元组信息包括所述文本数据中的主语、谓语和宾语;其中,所述信息抽取模型包括二分类子模型和多标签分类子模型,所述二分类子模型用于抽取所述文本数据中的主语,所述多标签分类子模型用于根据所述主语和所述文本数据,抽取所述文本数据中与所述主语对应的谓语和宾语。
为了解决上述问题,本公开还公开了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现任一实施例所述的信 息抽取方法。
为了解决上述问题,本公开还公开了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行任一实施例所述的信息抽取方法。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图简述
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开一实施例提供的一种信息抽取方法的步骤流程图;
图2示出了本公开一实施例提供的一种获得信息抽取模型的步骤流程图;
图3示出了本公开一实施例提供的一种三元组标注信息的格式;
图4示出了本公开一实施例提供的一种信息抽取模型的训练框架;
图5示出了本公开一实施例提供的一种数据自动标注方法的步骤流程图;
图6示出了本公开一实施例提供的一种自动化标注的流程示意图;
图7示出了本公开一实施例提供的一种信息抽取方法的流程示意图;
图8示出了本公开一实施例提供的一种信息抽取装置的结构框图;
图9所示为本公开一实施例提供的信息抽取装置的模型获取模块及其所包含的单元的结构框图;
图10示意性地示出了用于执行根据本公开的方法的电子设备的框图;以及
图11示意性地示出了用于保持或者携带实现根据本公开的方法的程序代码的存储单元。
详细描述
为使本公开的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本公开作进一步详细的说明。显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
领域知识图谱是从特定领域的特定资源中抽取实体和实体之间的关系,从而构建知识库,它包含的知识体系通常具有很强的领域针对性和专业性。领域知识图谱自上而下进行构建,主要包括schema设计,实体识别、关系抽取、实体链接、知识融合、知识计算等几个环节。其关键是如何自动抽取信息得到候选知识单元,其中涉及的技术包括:实体抽取、关系抽取和属性抽取,统称为信息抽取。信息抽取也称三元组(S,P,O)抽取,其中S和O为句子的主语和宾语,对应知识图谱中的实体或者属性值,P为谓语,对应实体之间的关系。发明人发现,现有方法大多数将信息抽取分成两个步骤来做,即先进行实体识别,然后抽取实体之间的关系,然而这样做效率低,实体识别的误差会传递到关系抽取部分,导致最终的结果精度较低。
为了提高信息抽取的效率和精度,本公开一实施例提供了一种信息抽取方法,参照图1,该方法可以包括:
步骤101:获取文本数据。
在具体实现中,执行主体可以获得待处理的数据,所述待处理的数据例如可以包括执行主体(例如服务器)从数据库中即时获得的数据,或者是预先存储在执行主体的存储单元中的数据,或者是从第三方导入的数据等等。文本数据可以包含非结构化文本等,在一些实施例中,所述文本数据为非结构化文本。
另外,文本数据还可以来源于从图片或者其他格式的文件中所提取的文本信息等。例如所需要处理的文件为图片或者PDF文件,则在这一步骤中,可以从图片或者PDF文件中利用OCR识别等方式提取出文本数据,进行处理。
步骤102:将文本数据输入预先训练得到的信息抽取模型,得到文本数据所包含的三元组信息,三元组信息包括文本数据中的主语、谓语和宾语;其中,信息抽取模型包括二分类子模型和多标签分类子模型,二分类子模型用于抽取文本数据中的主语,多标签分类子模型用于根据主语和文本数据,抽取文本数据中与主语对应的谓语和宾语。
在实际应用中,领域知识图谱通常采用自上而下的方法进行构建,即首先进行顶层设计:确定知识图谱需包含的实体、属性和关系种类。这一部分没有固定标准,通常根据业务需求来进行设计。例如,在艺术领域,可能需要获取画作、画家、艺术机构等实体,这些实体和实体之间存在很多属性值和关系,画作存在创作时间、创作媒介等属性,而画家与画作中间存在创作关系等,基于此,可以构建如下信息抽取schema:
{‘subject’:画作,‘predicate’:创作年份,‘object’:年份,‘subject_type’:art_work,‘object_type’:time};
{‘subject’:画作,‘predicate’:创作媒介,‘object’:媒介,‘subject_type’:art_work,‘object_type’:medium};
{‘subject’:画作,‘predicate’:收藏地,‘object’:艺术机构,‘subject_type’:art_work,‘object_type’:institution};……
其中,subject代表三元组中的主语s,predicate代表三元组中的谓语p也称关系,object代表三元组中的宾语o,subject_type为主语的实体类型,object_type为宾语的实体类型。每一条关系确定一条schema信息,主谓宾确定后,其中的主语s和宾语o的实体也就确定,所以上述schema可以简化为:(画作,创作年份,年份),(画作,创作媒介,媒介),(画作,收藏地,技术机构),……。
当文本数据为“《蒙娜丽莎》是意大利文艺复兴时期画家达芬奇创作的油画,现收藏于法国卢浮宫博馆”时,该非结构化文本中存在多个三元组:(蒙娜丽莎,作者,达芬奇)、(蒙娜丽莎,收藏地,法国卢浮宫博物馆)、(达芬奇,国籍,意大利)以及(蒙娜丽莎,创作类别,油画),并且存在一个主语对应多个不同宾语的情况,采用传统的管道式抽取无法同时提取句子中多个三元组。本实施例中可以采用条件概率的思想,首先预测主语s,然后传入主语s来预测该主语s对应的宾语o,然后再传入主语s和宾语o来预测关系谓语p,实际应用中,可以把宾语o和宾语p的预测合并为一步,即:先预测主语s,然后传入主语s来预测该主语s所对应的宾语o及谓语p,如以下公式所示:
P(s,p,o)=P(s)P(o|s)P(p|s,o)
其中,信息抽取模型中的二分类子模型和多标签分类子模型可以采用标注好三元组信息的非结构化文本对预训练语言模型和神经网络模型进行联 合训练得到。后续实施例中会对信息抽取模型的训练过程以及对非结构化文本进行标注的过程进行详细介绍。
在具体实现中,首先将文本数据输入二分类子模型,由二分类子模型抽取文本数据中的所有主语,然后再将各主语和文本数据成对送入多标签分类子模型,由多标签分类子模型抽取文本数据中与主语对应的谓语和宾语。这样,只需要将文本数据输入信息抽取模型,经信息抽取模型中的二分类子模型和多标签分类子模型处理,就可以输出信息文本数据中的三元组信息,即通过端到端的实体和关系联合抽取模型,替代传统的实体识别和关系抽取管道式抽取方法,提高信息抽取的效率和准确率。
为了获取信息抽取模型,在一种可选的实现方式中,在步骤102之前还可以包括:获得信息抽取模型的步骤。参照图2,获得信息抽取模型的步骤具体可以包括:
步骤201:获得样本集合,样本集合中包括多个待训练文本以及各待训练文本的三元组标注信息,三元组标注信息包括主语标注信息、谓语标注信息和宾语标注信息。
其中,待训练文本例如可以为:“《蒙娜丽莎》是意大利文艺复兴时期画家达芬奇创作的油画,现收藏于法国卢浮宫博馆”,该待训练文本的三元组信息包括(蒙娜丽莎,作者,达芬奇)、(蒙娜丽莎,收藏地,法国卢浮宫博物馆)、(达芬奇,国籍,意大利)以及(蒙娜丽莎,创作类别,油画)。
在具体实现中,在将待训练文本及对应的三元组信息输入模型之前,可以按照特定的格式标注三元组信息。具体地,在预测主语时,可以标出主语S在句子中的起止位置。例如,在标注(蒙娜丽莎,作者,达芬奇),(蒙娜丽莎,创作类别,油画),(达芬奇,国籍,意大利)时,会将主语蒙娜丽莎和达芬奇在句子中的起止位置分别用两个序列标注出来,即在相应的起始和终止位置标1,其他位置标0,参照图3示出了上述待训练文本的主语标注信息。在预测时,可以可以通过二分类(区分0和1)便可以确定主语的起止位置。在得到主语后,可以利用得到的主语去预测关系(谓语)和宾语,宾语的标注方式和主语相似,区别是,可以在宾语的起止位置标上谓语对应的索引ID,可以预先为每一个谓语建立一个索引,如{1:收藏地,2:作者,3:创作类别,4:国籍,……},参照图3示出了上述待训练文本的谓语和宾语标注信息。在预测谓语和宾语时只需要做一个多标签分类即可。
步骤202:将待训练文本输入第一预训练语言模型,将第一预训练语言 模型的输出信息输入第一神经网络模型。
步骤203:将第一神经网络模型的输出信息以及待训练文本输入第二预训练语言模型,将第二预训练语言模型的输出信息送入第二神经网络模型。
步骤204:根据第一神经网络模型的输出信息、第二神经网络模型的输出信息以及三元组标注信息,对第一预训练语言模型、第一神经网络模型、第二预训练语言模型以及第二神经网络模型进行训练,得到信息抽取模型,其中,训练后的第一预训练语言模型和第一神经网络模型构成二分类子模型,训练后的第二预训练语言模型和第二神经网络模型构成多标签分类子模型。
在具体实现中,可以根据第一神经网络模型的输出信息以及主语标注信息,确定第一损失函数;根据第二神经网络模型的输出信息、谓语标注信息以及宾语标注信息,确定第二损失函数;对第一预训练语言模型、第一神经网络模型、第二预训练语言模型以及第二神经网络模型中的参数进行优化,得到信息抽取模型,使得第一损失函数与第二损失函数之和最小。
其中,第一预训练语言模型和第二预训练语言模型可以为BERT模型、ERNIE模型或Span BERT模型等等。下面以第一预训练语言模型和第二预训练语言模型均为BERT模型为例进行说明,第一神经网络模型为Dense层+sigmod,第二神经网络模型为Dense层+softmax,第一损失函数和第二损失函数均为交叉熵损失函数。需要说明的是,第一损失函数和第二损失函数之和最小并不仅限于一个数值,而是一个数值范围。
参照图4示出了信息抽取模型的训练框架。模型训练的具体步骤为:首先将待训练文本X,即[CLS]《蒙娜丽莎》是意大利文艺复兴时期画家达芬奇创作的油画……[SEP],用单输入方式送入BERT模型,将BERT模型输出信息的编码送入Dense层+sigmod,用第一损失函数loss_s(交叉熵损失函数)做二分类训练预测主语起止位置的标注模型,训练后的第一预训练语言模型(BERT)和第一神经网络模型(Dense层+sigmod)构成二分类子模型subject_model。然后随机选取一个主语,如蒙娜丽莎,将其和待训练文本组合成句子对Y,采用双输入方式成对送入BERT模型,如[CLS]《蒙娜丽莎》是意大利文艺复兴时期画家达芬奇创作的油画[SEP]蒙娜丽莎[SEP],其中[CLS]为分类用的特殊标记位,它表示文本进过BERT后的向量表示,[SEP]为句子间分隔符。将BERT模型的输出信息即[CLS]对应的向量送入Dense层 +softmax,用第二损失函数loss_o(交叉熵损失函数)做预测谓语和宾语的多分类训练,训练后的第二预训练语言模型(BERT)和第二神经网络模型(Dense层+softmax)构成多标签分类子模型object_model。在实际应用中,可以对二分类子模型subject_model和多标签分类子模型object_model进行联合训练,联合训练的目标是最小化联合损失函数loss=loss_s+loss_o,对第一预训练语言模型、第一神经网络模型、第二预训练语言模型以及第二神经网络模型中的参数进行迭代优化,从而得到信息抽取模型。
具体的,在主语抽取任务上,输入样本X经BERT编码后的输出信息可以表示为:
h 0=XW t+W p
h l=Transformer(l-1)l∈[1,L]       (1)
其中W t为词嵌入矩阵,h i隐藏层向量(即第i层Transformer网络的输出),L表示Transformer的层数。
这里可以采用两个二分类来判断输入序列在当前位置上是0/1的可能性来确定主语的起止位置,即通过主语起始位置序列S s和主语终止位置序列S e中每个位置上可能为一个主语起止位置的置信度来确定一个主语,如某个主语的起始位置可能在S s中每个位置上出现的概率分布
Figure PCTCN2021071485-appb-000001
(置信度)可以表示为:
Figure PCTCN2021071485-appb-000002
其中W start为可训练权重向量,b start为偏置项,σ为sigmoid激活函数,
Figure PCTCN2021071485-appb-000003
为第i个输入序列经过BERT后的编码表示,由(1)式获得。同理,其终止位置在S e中每个位置出现的概率分布
Figure PCTCN2021071485-appb-000004
可以表示为:
Figure PCTCN2021071485-appb-000005
最终得到两个向量
Figure PCTCN2021071485-appb-000006
训练的目标函数为:
Figure PCTCN2021071485-appb-000007
同理,在进行宾语和关系(谓语)抽取时,可以从主语中随机采样一个主语,将其与句子组合成句子对嵌入的方式,用BERT进行编码得到编码表示:
h 0=YW t+W s+W p
h l=Transformer(h l-1),l∈[1,L]     (5)
其中W s为句子嵌入矩阵。
进一步地,可以同样用两个序列来确定宾语的起止位置,如图3所示,与主语抽取方式不同的是,可以用多标签分类的方式同时确定宾语的起止的位置和关系,即在宾语的起止位置上确定关系标签的概率
Figure PCTCN2021071485-appb-000008
Figure PCTCN2021071485-appb-000009
Figure PCTCN2021071485-appb-000010
其中
Figure PCTCN2021071485-appb-000011
为可训练权重向量,
Figure PCTCN2021071485-appb-000012
为偏置项,α为softmax激活函数。训练的目标函数为:
Figure PCTCN2021071485-appb-000013
其中,
Figure PCTCN2021071485-appb-000014
为真实的关系标签,R为关系标签的数量。
模型训练过程中待优化的参数为上述的可训练权重向量,通过对参数进行迭代更新优化,使损失函数loss最小化。
目前主流的关系抽取方法是有监督的学习方法、半监督的学习方法和无监督的学习方法三种。与半监督的学习方法和无监督的学习方法相比,有监督的学习方法准确率与召回率更高,因此受到越来越多的关注。有监督的学习方法需要大量的数据标注,如果提高数据标注效率也是一个急需解决的问题。
为了提高数据标注效率,在一种可选的实现方式中,参照图5,步骤201可以包括:
步骤501:对非结构化文本样本进行处理,得到待标注文本。
步骤502:获取已完成标注的待训练文本以及待训练文本的三元组标注信息。
步骤503:响应于待标注文本中包含三元组标注信息中的主语标注信息和宾语标注信息,按照三元组标注信息对待标注文本进行标注。
采用有监督方法进行信息抽取需要大量的标注数据,这需要消耗大量的人力和财力成本进行数据标注。当具有一定规模的知识库时,可以采用远程监督的方法进行语料的自动化标注,在此基础上进行人工审核,处理错标和漏标问题。参照图6示出了自动化标注的流程图,其中的非结构化数据可以从艺术领域网站通过爬虫方式抓取,也可以从当前知识图谱中的非结构化信息中获取。当然,也可以利用实体词直接从wikipedia、google、百度百科等搜索引擎中搜索得到。在实际应用中,可以首先对从网页上利用爬虫方式获取到的非结构数据进行处理如数据清洗等,从而去除无用的标点符号和脚本 等无用信息,得到待标注文本Sentence,然后再利用预先定义好的schema和知识图谱中的三元组标注信息进行远程监督方式标注。
在具体实现中,可以判断待标注文本Sentence中是否存在现有知识图谱中的三元组标注信息中的主语e1和宾语e2,如果二者同时存在,则按照现有知识图谱中的三元组标注信息对待标注文本进行标注。这样,通过利用已有知识库自动化标注数据,可以减轻语料标注的成本。
当待标注文本为“《蒙娜丽莎》是意大利文艺复兴时期画家达芬奇创作的油画,现收藏于法国卢浮宫博物馆”时,该待标注文本的标注格式如下:
{’text’:‘《蒙娜丽莎》是意大利文艺复兴时期画家达芬奇创作的油画,现收藏于法国卢浮宫博物馆’,‘spo_list’:[(蒙娜丽莎,作者,达芬奇),(蒙娜丽莎,收藏地,法国卢浮宫博物馆),(达芬奇,国籍,意大利),(蒙娜丽莎,创作类别,油画)]}。
另外,为了尽可能降低训练数据中的噪音和漏标数据,可以采用知识蒸馏的方法对自动标注数据进行降噪。上述实现方式还可以包括:
步骤504:采用预先训练得到的K个预测模型对待标注文本进行预测,得到K个三元组预测信息。
其中,K个预测模型可以根据已完成标注的待训练文本以及待训练文本的三元组标注信息,采用K折交叉验证的方式训练得到。
具体为:将训练样本等分为K份,依次取其中的K-1份训练模型,另外1份作为待预测样本。如可分为[D1,D2,D3,…,DK],依次取[D1,D2,…,Dk-1,Dk+1,…,DK]为训练样本,Dk为待预测样本,k∈[1,K]。
步骤505:当第一三元组信息的数量与K的比值大于第一预设阈值时,将第一三元组信息作为待标注文本的三元组标注信息添加至样本集合中,其中,第一三元组信息为出现在三元组预测信息中但未出现在待标注文本的三元组标注信息中的三元组信息。
步骤506:当第二三元组信息的数量与K的比值大于第二预设阈值时,将第二三元组信息从待标注文本的三元组标注信息中删除,其中,第二三元组信息为出现在待标注文本的三元组标注信息中但未出现在三元组预测信息中的三元组信息。
其中,K值可以大于或等于5且小于或等于10,也可以依据数据规模自行设定。第一预设阈值和第二预设阈值可以相同或不同,具体数值可以根据实际需求确定。
在具体实现中,可以采用K折交叉验证的方式用已标注数据训练出K个模型,然后用训练好的K个模型去预测待标注文本。模型预测出来的结果和原始标注结果会有偏差,例如在某个待标注文本S中,被标注出了{T1,T2,T3,…..Tk}K个三元组标注信息,记R_s={T1,T2,T3,…..Tk},然后可以用K个模型去预测待标注文本S,得到K个三元组预测信息。K个三元组预测信息中可能存在某个第一三元组信息Ti不在R_s中,该第一三元组信息Ti在K个三元组预测信息中出现了M次,K个三元组预测信息中可能有N个结果不包含第二三元组信息Tj,而第二三元组信息Tj存在于R_s中。此时,可以设置第一预设阈值和第二预设阈值均为Score,当M/K>Score时,认为第一三元组信息Ti为待标注文本的漏标数据,因此可以将第一三元组信息Ti添加到三元组标注信息R_s中,当N/K>Score时,认为第二三元组信息Tj为错标数据,因此,需要将第二三元组信息Tj从三元组标注信息R_s中删除。按照此方式重复训练和预测多次,可以不断修正训练样本集合。
本实现方式中,利用已有知识库自动化标注数据,从而可以降低预料标注的成本,在此基础上进行人工审核,并在后期利用知识蒸馏的方法对标注的数据进行降噪处理。
本实施例提供的信息抽取方法,参照图7,主要涉及数据标注方法、schema构建、信息抽取算法模型、数据降噪等几个主要部分,该方案运用端到端的实体关系联合抽取方法从非结构化文本中抽取知识,在保证信息抽取精度的同时,降低构建知识图谱的代价,提升信息抽取效率,节约人力成本。
本公开另一实施例还提供了一种信息抽取装置,参照图8,该装置可以包括:
获取模块801,被配置为获取文本数据;
抽取模块802,被配置为将所述文本数据输入预先训练得到的信息抽取模型,得到所述文本数据所包含的三元组信息,所述三元组信息包括所述文本数据中的主语、谓语和宾语;其中,所述信息抽取模型包括二分类子模型和多标签分类子模型,所述二分类子模型用于抽取所述文本数据中的主语,所述多标签分类子模型用于根据所述主语和所述文本数据,抽取所述文本数据中与所述主语对应的谓语和宾语。
在一种可选的实现方式中,如图9所示,所述装置还可以包括:模型获取模块800,被配置为获得所述信息抽取模型,所述模型获取模块包括:
第一单元8001,被配置为获得样本集合,所述样本集合中包括多个待训 练文本以及各所述待训练文本的三元组标注信息,所述三元组标注信息包括主语标注信息、谓语标注信息和宾语标注信息;
第二单元8002,被配置为将所述待训练文本输入第一预训练语言模型,将所述第一预训练语言模型的输出信息送入第一神经网络模型;
第三单元8003,被配置为将所述第一神经网络模型的输出信息以及所述待训练文本输入第二预训练语言模型,将所述第二预训练语言模型的输出信息送入第二神经网络模型;
第四单元8004,被配置为根据所述第一神经网络模型的输出信息、所述第二神经网络模型的输出信息以及所述三元组标注信息,对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型进行训练,得到所述信息抽取模型,其中,训练后的第一预训练语言模型和第一神经网络模型构成所述二分类子模型,训练后的第二预训练语言模型和第二神经网络模型构成所述多标签分类子模型。
在一种可选的实现方式中,所述第四单元具体被配置为:
根据所述第一神经网络模型的输出信息以及所述主语标注信息,确定第一损失函数;
根据所述第二神经网络模型的输出信息、所述谓语标注信息以及所述宾语标注信息,确定第二损失函数;
对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型中的参数进行优化,得到所述信息抽取模型,使得所述第一损失函数与所述第二损失函数之和最小。
在一种可选的实现方式中,所述第一损失函数和所述第二损失函数均为交叉熵损失函数。
在一种可选的实现方式中,所述第一单元具体被配置为:
获取非结构化文本样本;
对所述非结构化文本样本进行处理,得到待标注文本;
获取已完成标注的待训练文本以及所述待训练文本的三元组标注信息;
响应于所述待标注文本中包含所述三元组标注信息中的主语标注信息和宾语标注信息,按照所述三元组标注信息对所述待标注文本进行标注。
在一种可选的实现方式中,所述第一单元还被配置为:
采用预先训练得到的K个预测模型对所述待标注文本进行预测,得到K个三元组预测信息;
当第一三元组信息的数量与K的比值大于第一预设阈值时,将所述第一三元组信息作为所述待标注文本的三元组标注信息添加至所述样本集合中,其中,所述第一三元组信息为出现在所述三元组预测信息中但未出现在所述待标注文本的三元组标注信息中的三元组信息;
当第二三元组信息的数量与K的比值大于第二预设阈值时,将所述第二三元组信息从所述待标注文本的三元组标注信息中删除,其中,所述第二三元组信息为出现在所述待标注文本的三元组标注信息中但未出现在所述三元组预测信息中的三元组信息。
其中,K值可以大于或等于5且小于或等于10,也可以依据数据规模自行设定。
在一种可选的实现方式中,所述第一单元还被配置为:
根据已完成标注的待训练文本以及所述待训练文本的三元组标注信息,采用K折交叉验证的方式获得K个预测模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在应用于服务器的信息抽取方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开另一实施例还提供了一种电子设备,该电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现任一实施例所述的信息抽取方法。
本公开另一实施例还提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行任一实施例所述的信息抽取方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员 应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的电子设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图10示出了可以实现根据本公开的方法的电子设备。该电子设备传统上包括处理器1010和以存储器1020形式的计算机程序产品或者计算机可读介质。存储器1020可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器1020具有用于执行上述方法中的任何方法步骤的程序代码1031的存储空间1030。例如,用于程序代码的存储空间1030可以包括分别用于实现上面的方法中的各种步骤的各个程序代码1031。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图11所述的便携式或者固定存储单元。该存储单元可以具有与图10的电子设备中的存储器1020类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括计算机可读代码1031’,即可以由例如诸如1010之类的处理器读取的代码,这些代码当由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤。
与现有技术相比,本发明实施例提出的信息抽取方法、装置、电子设备及存储介质至少包括以下优点:
本申请技术方案提供了一种信息抽取方法、装置、电子设备及存储介质,首先获取源数据,然后将源数据输入预先训练得到的信息抽取模型,得到源数据所包含的三元组信息,三元组信息包括源数据中的主语、谓语和宾语;其中,信息抽取模型包括二分类子模型和多标签分类子模型,二分类子模型用于抽取源数据中的主语,多标签分类子模型用于根据主语和所述源数据,抽取源数据中与主语对应的谓语和宾语。本申请技术方案采用端到端的信息抽取模型联合抽取源数据中的三元组信息,替代传统的实体识别和关系抽取的管道式抽取方法,可以提高信息抽取的效率和准确 率。
本公开的说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本公开所提供的一种信息抽取方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。

Claims (20)

  1. 一种信息抽取方法,其中,所述方法包括:
    获取文本数据;
    将所述文本数据输入预先训练得到的信息抽取模型,得到所述文本数据所包含的三元组信息,所述三元组信息包括所述文本数据中的主语、谓语和宾语;
    其中,所述信息抽取模型包括二分类子模型和多标签分类子模型,所述二分类子模型用于抽取所述文本数据中的主语,所述多标签分类子模型用于根据所述主语和所述文本数据,抽取所述文本数据中与所述主语对应的谓语和宾语。
  2. 根据权利要求1所述的信息抽取方法,其中,在所述将所述文本数据输入预先训练得到的信息抽取模型,得到所述文本数据所包含的三元组信息的步骤之前,还包括:
    获得所述信息抽取模型。
  3. 根据权利要求2所述的信息抽取方法,其中,所述获得所述信息抽取模型的步骤,包括:
    获得样本集合,所述样本集合中包括多个待训练文本以及各所述待训练文本的三元组标注信息,所述三元组标注信息包括主语标注信息、谓语标注信息和宾语标注信息;
    将所述待训练文本输入第一预训练语言模型,将所述第一预训练语言模型的输出信息送入第一神经网络模型;
    将所述第一神经网络模型的输出信息以及所述待训练文本输入第二预训练语言模型,将所述第二预训练语言模型的输出信息送入第二神经网络模型;
    根据所述第一神经网络模型的输出信息、所述第二神经网络模型的输出信息以及所述三元组标注信息,对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型进行训练,得到所述信息抽取模型,其中,训练后的第一预训练语言模型和第一神经网络模型构成所述二分类子模型,训练后的第二预训练语言模型和第二神经网络模型构成所述多标签分类子模型。
  4. 根据权利要求3所述的信息抽取方法,其中,所述根据所述第一神经网络模型的输出信息、所述第二神经网络模型的输出信息以及所述三 元组标注信息,对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型进行训练,得到所述信息抽取模型的步骤,包括:
    根据所述第一神经网络模型的输出信息以及所述主语标注信息,确定第一损失函数;
    根据所述第二神经网络模型的输出信息、所述谓语标注信息以及所述宾语标注信息,确定第二损失函数;
    对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型中的参数进行优化,得到所述信息抽取模型,使得所述第一损失函数与所述第二损失函数之和最小。
  5. 根据权利要求4所述的信息抽取方法,其中,所述第一损失函数和所述第二损失函数均为交叉熵损失函数。
  6. 根据权利要求3-5中任一项所述的信息抽取方法,其中,所述获得样本集合的步骤,包括:
    获取非结构化文本样本;
    对所述非结构化文本样本进行处理,得到待标注文本;
    获取已完成标注的待训练文本以及所述待训练文本的三元组标注信息;
    响应于所述待标注文本中包含所述三元组标注信息中的主语标注信息和宾语标注信息,按照所述三元组标注信息对所述待标注文本进行标注。
  7. 根据权利要求6所述的信息抽取方法,其中,所述获得样本集合的步骤,还包括:
    采用预先训练得到的K个预测模型对所述待标注文本进行预测,得到K个三元组预测信息;
    当第一三元组信息的数量与K的比值大于第一预设阈值时,将所述第一三元组信息作为所述待标注文本的三元组标注信息添加至所述样本集合中,其中,所述第一三元组信息为出现在所述三元组预测信息中但未出现在所述待标注文本的三元组标注信息中的三元组信息;
    当第二三元组信息的数量与K的比值大于第二预设阈值时,将所述第二三元组信息从所述待标注文本的三元组标注信息中删除,其中,所述第二三元组信息为出现在所述待标注文本的三元组标注信息中但未出现 在所述三元组预测信息中的三元组信息。
  8. 根据权利要求7所述的信息抽取方法,其中,K大于或等于5且小于或等于10。
  9. 根据权利要求7或8所述的信息抽取方法,其中,在所述采用预先训练得到的K个预测模型对所述待标注文本进行预测,得到K个三元组预测信息的步骤之前,包括:
    根据已完成标注的待训练文本以及所述待训练文本的三元组标注信息,采用K折交叉验证的方式获得K个预测模型。
  10. 一种电子设备,包括:
    处理器;
    用于存储所述处理器可执行指令的存储器;
    其中,所述处理器被配置为执行所述指令,以实现如下信息抽取操作,包括:
    获取文本数据;
    将所述文本数据输入预先训练得到的信息抽取模型,得到所述文本数据所包含的三元组信息,所述三元组信息包括所述文本数据中的主语、谓语和宾语;
    其中,所述信息抽取模型包括二分类子模型和多标签分类子模型,所述二分类子模型用于抽取所述文本数据中的主语,所述多标签分类子模型用于根据所述主语和所述文本数据,抽取所述文本数据中与所述主语对应的谓语和宾语。
  11. 根据权利要求10所述的电子设备,其中,在所述将所述文本数据输入预先训练得到的信息抽取模型,得到所述文本数据所包含的三元组信息的操作之前,还包括:
    获得所述信息抽取模型。
  12. 根据权利要求11所述的电子设备,其中,所述获得所述信息抽取模型的操作,包括:
    获得样本集合,所述样本集合中包括多个待训练文本以及各所述待训练文本的三元组标注信息,所述三元组标注信息包括主语标注信息、谓语标注信息和宾语标注信息;
    将所述待训练文本输入第一预训练语言模型,将所述第一预训练语言模型的输出信息送入第一神经网络模型;
    将所述第一神经网络模型的输出信息以及所述待训练文本输入第二预训练语言模型,将所述第二预训练语言模型的输出信息送入第二神经网络模型;
    根据所述第一神经网络模型的输出信息、所述第二神经网络模型的输出信息以及所述三元组标注信息,对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型进行训练,得到所述信息抽取模型,其中,训练后的第一预训练语言模型和第一神经网络模型构成所述二分类子模型,训练后的第二预训练语言模型和第二神经网络模型构成所述多标签分类子模型。
  13. 根据权利要求12所述的电子设备,其中,所述根据所述第一神经网络模型的输出信息、所述第二神经网络模型的输出信息以及所述三元组标注信息,对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型进行训练,得到所述信息抽取模型的操作,包括:
    根据所述第一神经网络模型的输出信息以及所述主语标注信息,确定第一损失函数;
    根据所述第二神经网络模型的输出信息、所述谓语标注信息以及所述宾语标注信息,确定第二损失函数;
    对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型中的参数进行优化,得到所述信息抽取模型,使得所述第一损失函数与所述第二损失函数之和最小。
  14. 根据权利要求13所述的电子设备,其中,所述第一损失函数和所述第二损失函数均为交叉熵损失函数。
  15. 根据权利要求12-14中任一项所述的电子设备,其中,所述获得样本集合的操作,包括:
    获取非结构化文本样本;
    对所述非结构化文本样本进行处理,得到待标注文本;
    获取已完成标注的待训练文本以及所述待训练文本的三元组标注信息;
    响应于所述待标注文本中包含所述三元组标注信息中的主语标注信息和宾语标注信息,按照所述三元组标注信息对所述待标注文本进行标注。
  16. 根据权利要求15所述的电子设备,其中,所述获得样本集合的操作,还包括:
    采用预先训练得到的K个预测模型对所述待标注文本进行预测,得到K个三元组预测信息;
    当第一三元组信息的数量与K的比值大于第一预设阈值时,将所述第一三元组信息作为所述待标注文本的三元组标注信息添加至所述样本集合中,其中,所述第一三元组信息为出现在所述三元组预测信息中但未出现在所述待标注文本的三元组标注信息中的三元组信息;
    当第二三元组信息的数量与K的比值大于第二预设阈值时,将所述第二三元组信息从所述待标注文本的三元组标注信息中删除,其中,所述第二三元组信息为出现在所述待标注文本的三元组标注信息中但未出现在所述三元组预测信息中的三元组信息。
  17. 根据权利要求16所述的电子设备,其中,K大于或等于5且小于或等于10。
  18. 根据权利要求16或17所述的电子设备,其中,在所述采用预先训练得到的K个预测模型对所述待标注文本进行预测,得到K个三元组预测信息的操作之前,包括:
    根据已完成标注的待训练文本以及所述待训练文本的三元组标注信息,采用K折交叉验证的方式获得K个预测模型。。
  19. 一种非易失性计算机可读存储介质,其中,当所述存储介质中的计算机程序代码由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至10中任一项所述的信息抽取方法。
  20. 一种计算机程序产品,其中,包含计算机程序代码,当所述计算机程序代码由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至10中任一项所述的信息抽取方法。
PCT/CN2021/071485 2020-01-21 2021-01-13 信息抽取方法、装置、电子设备及存储介质 WO2021147726A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/425,556 US11922121B2 (en) 2020-01-21 2021-01-13 Method and apparatus for information extraction, electronic device, and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010071824.3A CN111291185B (zh) 2020-01-21 2020-01-21 信息抽取方法、装置、电子设备及存储介质
CN202010071824.3 2020-01-21

Publications (1)

Publication Number Publication Date
WO2021147726A1 true WO2021147726A1 (zh) 2021-07-29

Family

ID=71025634

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/071485 WO2021147726A1 (zh) 2020-01-21 2021-01-13 信息抽取方法、装置、电子设备及存储介质

Country Status (3)

Country Link
US (1) US11922121B2 (zh)
CN (1) CN111291185B (zh)
WO (1) WO2021147726A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821602A (zh) * 2021-09-29 2021-12-21 平安银行股份有限公司 基于图文聊天记录的自动答疑方法、装置、设备及介质
CN114266258A (zh) * 2021-12-30 2022-04-01 北京百度网讯科技有限公司 一种语义关系提取方法、装置、电子设备及存储介质
US20220129633A1 (en) * 2020-10-23 2022-04-28 Target Brands, Inc. Multi-task learning of query intent and named entities
CN115759098A (zh) * 2022-11-14 2023-03-07 中国科学院空间应用工程与技术中心 一种航天文本数据的中文实体和关系联合抽取方法、系统

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291185B (zh) * 2020-01-21 2023-09-22 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN112052681A (zh) * 2020-08-20 2020-12-08 中国建设银行股份有限公司 信息抽取模型训练方法、信息抽取方法、装置及电子设备
CN112000808B (zh) * 2020-09-29 2024-04-16 迪爱斯信息技术股份有限公司 一种数据处理方法及装置、可读存储介质
CN112380356A (zh) * 2020-11-30 2021-02-19 百度国际科技(深圳)有限公司 用于构建配餐知识图谱的方法、装置、电子设备及介质
CN112507125A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN112528641A (zh) * 2020-12-10 2021-03-19 北京百度网讯科技有限公司 建立信息抽取模型的方法、装置、电子设备和可读存储介质
CN112528600B (zh) * 2020-12-15 2024-05-07 北京百度网讯科技有限公司 文本数据处理方法、相关装置及计算机程序产品
CN112613315B (zh) * 2020-12-29 2024-06-07 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN113158671B (zh) * 2021-03-25 2023-08-11 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN112818138B (zh) * 2021-04-19 2021-10-15 中译语通科技股份有限公司 知识图谱本体构建方法、装置、终端设备及可读存储介质
CN113051356B (zh) * 2021-04-21 2023-05-30 深圳壹账通智能科技有限公司 开放关系抽取方法、装置、电子设备及存储介质
CN113254429B (zh) * 2021-05-13 2023-07-21 东北大学 一种用于远程监督关系抽取的基于bert和mlm的降噪方法
CN113160917B (zh) * 2021-05-18 2022-11-01 山东浪潮智慧医疗科技有限公司 一种电子病历实体关系抽取方法
CN113486189A (zh) * 2021-06-08 2021-10-08 广州数说故事信息科技有限公司 一种开放性知识图谱挖掘方法及系统
CN113420120B (zh) * 2021-06-24 2024-05-31 平安科技(深圳)有限公司 关键信息提取模型的训练方法、提取方法、设备及介质
CN113590810B (zh) * 2021-08-03 2023-07-14 北京奇艺世纪科技有限公司 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN113779260B (zh) * 2021-08-12 2023-07-18 华东师范大学 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN113468344B (zh) * 2021-09-01 2021-11-30 北京德风新征程科技有限公司 实体关系抽取方法、装置、电子设备和计算机可读介质
CN115544626B (zh) * 2022-10-21 2023-10-20 清华大学 子模型抽取方法、装置、计算机设备及介质
CN116340552B (zh) * 2023-01-06 2024-07-02 北京达佳互联信息技术有限公司 一种标签排序方法、装置、设备及存储介质
CN116415005B (zh) * 2023-06-12 2023-08-18 中南大学 一种面向学者学术网络构建的关系抽取方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100185700A1 (en) * 2007-09-17 2010-07-22 Yan Bodain Method and system for aligning ontologies using annotation exchange
CN106709006A (zh) * 2016-12-23 2017-05-24 武汉科技大学 一种对查询友好的关联数据压缩方法
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
KR20180108257A (ko) * 2017-03-24 2018-10-04 (주)아크릴 온톨로지에 의해 표현되는 자원들을 이용하여 상기 온톨로지를 확장하는 방법
CN108694208A (zh) * 2017-04-11 2018-10-23 富士通株式会社 用于构造数据库的方法和装置
CN108874778A (zh) * 2018-06-15 2018-11-23 广东蔚海数问大数据科技有限公司 语义实体关系抽取方法、装置及电子设备
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
US11222052B2 (en) * 2011-02-22 2022-01-11 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and
US10303999B2 (en) * 2011-02-22 2019-05-28 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and search engines
US10325106B1 (en) * 2013-04-04 2019-06-18 Marklogic Corporation Apparatus and method for operating a triple store database with document based triple access security
US10977573B1 (en) * 2015-05-07 2021-04-13 Google Llc Distantly supervised wrapper induction for semi-structured documents
CN106055536B (zh) * 2016-05-19 2018-08-21 苏州大学 一种中文事件联合推理方法
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
KR101983455B1 (ko) * 2017-09-21 2019-05-28 숭실대학교산학협력단 지식베이스 구축 방법 및 그 서버
US10824962B2 (en) * 2017-09-29 2020-11-03 Oracle International Corporation Utterance quality estimation
CN108073711B (zh) 2017-12-21 2022-01-11 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和系统
US11288294B2 (en) * 2018-04-26 2022-03-29 Accenture Global Solutions Limited Natural language processing and artificial intelligence based search system
CN109597855A (zh) 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
US10825449B1 (en) * 2019-09-27 2020-11-03 CrowdAround Inc. Systems and methods for analyzing a characteristic of a communication using disjoint classification models for parsing and evaluation of the communication
CN113204649A (zh) * 2021-05-11 2021-08-03 西安交通大学 基于实体关系联合抽取的法律知识图谱构建方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100185700A1 (en) * 2007-09-17 2010-07-22 Yan Bodain Method and system for aligning ontologies using annotation exchange
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN106709006A (zh) * 2016-12-23 2017-05-24 武汉科技大学 一种对查询友好的关联数据压缩方法
KR20180108257A (ko) * 2017-03-24 2018-10-04 (주)아크릴 온톨로지에 의해 표현되는 자원들을 이용하여 상기 온톨로지를 확장하는 방법
CN108694208A (zh) * 2017-04-11 2018-10-23 富士通株式会社 用于构造数据库的方法和装置
CN108874778A (zh) * 2018-06-15 2018-11-23 广东蔚海数问大数据科技有限公司 语义实体关系抽取方法、装置及电子设备
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220129633A1 (en) * 2020-10-23 2022-04-28 Target Brands, Inc. Multi-task learning of query intent and named entities
US11934785B2 (en) * 2020-10-23 2024-03-19 Target Brands, Inc. Multi-task learning of query intent and named entities
CN113821602A (zh) * 2021-09-29 2021-12-21 平安银行股份有限公司 基于图文聊天记录的自动答疑方法、装置、设备及介质
CN113821602B (zh) * 2021-09-29 2024-05-24 平安银行股份有限公司 基于图文聊天记录的自动答疑方法、装置、设备及介质
CN114266258A (zh) * 2021-12-30 2022-04-01 北京百度网讯科技有限公司 一种语义关系提取方法、装置、电子设备及存储介质
CN114266258B (zh) * 2021-12-30 2023-06-23 北京百度网讯科技有限公司 一种语义关系提取方法、装置、电子设备及存储介质
CN115759098A (zh) * 2022-11-14 2023-03-07 中国科学院空间应用工程与技术中心 一种航天文本数据的中文实体和关系联合抽取方法、系统

Also Published As

Publication number Publication date
CN111291185A (zh) 2020-06-16
CN111291185B (zh) 2023-09-22
US20230153526A1 (en) 2023-05-18
US11922121B2 (en) 2024-03-05

Similar Documents

Publication Publication Date Title
WO2021147726A1 (zh) 信息抽取方法、装置、电子设备及存储介质
CN108875051B (zh) 面向海量非结构化文本的知识图谱自动构建方法及系统
CN107783960B (zh) 用于抽取信息的方法、装置和设备
US20220050967A1 (en) Extracting definitions from documents utilizing definition-labeling-dependent machine learning background
US20220171936A1 (en) Analysis of natural language text in document
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
WO2021042516A1 (zh) 命名实体识别方法、装置及计算机可读存储介质
US20240004677A1 (en) Machine-Learned Models for User Interface Prediction, Generation, and Interaction Understanding
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112989841A (zh) 一种用于突发事件新闻识别与分类的半监督学习方法
CN111026880B (zh) 基于联合学习的司法知识图谱构建方法
CN115238690A (zh) 一种基于bert的军事领域复合命名实体识别方法
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN112101031A (zh) 一种实体识别方法、终端设备及存储介质
CN114416995A (zh) 信息推荐方法、装置及设备
CN115203507A (zh) 一种面向文书领域的基于预训练模型的事件抽取方法
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN115688920A (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
CN116150361A (zh) 一种财务报表附注的事件抽取方法、系统及存储介质
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
Li et al. Multi-task deep learning model based on hierarchical relations of address elements for semantic address matching
CN112632223B (zh) 案事件知识图谱构建方法及相关设备
CN116384403A (zh) 一种基于场景图的多模态社交媒体命名实体识别方法
CN109582958A (zh) 一种灾难故事线构建方法及装置
CN114417016A (zh) 一种基于知识图谱的文本信息匹配方法、装置及相关设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21745039

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21745039

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 21745039

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 27/03/2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21745039

Country of ref document: EP

Kind code of ref document: A1