WO2020119075A1 - 通用文本信息提取方法、装置、计算机设备和存储介质 - Google Patents

通用文本信息提取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2020119075A1
WO2020119075A1 PCT/CN2019/093158 CN2019093158W WO2020119075A1 WO 2020119075 A1 WO2020119075 A1 WO 2020119075A1 CN 2019093158 W CN2019093158 W CN 2019093158W WO 2020119075 A1 WO2020119075 A1 WO 2020119075A1
Authority
WO
WIPO (PCT)
Prior art keywords
labeling
target
text
model
syntactic
Prior art date
Application number
PCT/CN2019/093158
Other languages
English (en)
French (fr)
Inventor
郑子欧
刘媛源
张翔
于修铭
汪伟
肖京
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020119075A1 publication Critical patent/WO2020119075A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Definitions

  • the present application relates to a general text information extraction method, device, computer equipment and storage medium.
  • a general text information extraction method including:
  • the target extraction information corresponding to the text to be processed is determined according to the annotated text and the syntactic and semantic analysis results.
  • a general text information extraction device including:
  • a rule acquisition module which is used to input the model training samples into a labeling model for labeling to obtain labeling rules corresponding to the model training samples;
  • the text labeling module is used to establish a basic labeling model according to the labeling rules, input the text to be processed into the basic labeling model for labeling, and obtain a labeling sequence;
  • the text determination module is used to obtain a sequence digestion rule corresponding to the annotation sequence, and determine the annotation text corresponding to the annotation sequence according to the sequence digestion rule;
  • a feature acquisition module for acquiring target syntactic features and target semantic features in the annotated text
  • a syntactic and semantic analysis module used to input the target syntactic features and the target semantic features into a trained syntactic and semantic analysis model for analysis to obtain syntactic and semantic analysis results corresponding to the marked text;
  • the target information extraction module is configured to determine target extraction information corresponding to the text to be processed according to the marked text and the syntactic and semantic analysis results.
  • a computer device includes a memory and one or more processors.
  • the memory stores computer-readable instructions.
  • the one or more processors are executed The following steps:
  • the target extraction information corresponding to the text to be processed is determined according to the annotated text and the syntactic and semantic analysis results.
  • One or more non-volatile computer-readable storage media storing computer-readable instructions.
  • the computer-readable instructions When executed by one or more processors, the one or more processors perform the following steps:
  • the target extraction information corresponding to the text to be processed is determined according to the annotated text and the syntactic and semantic analysis results.
  • FIG. 1 is an application environment diagram of a general text information extraction method according to one or more embodiments
  • FIG. 2 is a method flowchart of a general text information extraction method according to one or more embodiments
  • FIG. 3 is a flowchart of a method for acquiring an annotation sequence in a general text information extraction method according to one or more embodiments
  • FIG. 4 is a flowchart of a method for acquiring target features in a general text information extraction method according to one or more embodiments
  • FIG. 5 is a schematic structural diagram of a general text information extraction method device according to one or more embodiments.
  • Figure 6 is a block diagram of a computer device in accordance with one or more embodiments.
  • the general text information extraction method provided in the embodiment of the present invention can be applied to the application environment shown in FIG. 1.
  • the server 120 obtains model training samples and text to be processed.
  • the model training samples and text to be processed can be input to the terminal 110 or
  • the server 120 inputs the model training samples into the labeling model for labeling, and can obtain labeling rules corresponding to the model training samples.
  • the server 120 establishes a basic labeling model according to the labeling rules, and inputs the text to be processed into the basic labeling model for labeling.
  • the server 120 obtains the sequence digestion rule corresponding to the labeling sequence, determines the labeling text corresponding to the labeling sequence according to the sequence digestion rule, obtains the target syntactic features and target semantic features in the labeling text through the server 120, and then sets the target syntactic features Input the trained syntactic and semantic analysis model with the target semantic feature and analyze to obtain the syntactic and semantic analysis result corresponding to the marked text.
  • the server 120 determines the target extraction information corresponding to the text to be processed according to the marked text and the syntactic and semantic analysis result.
  • the following embodiment uses the general text information extraction method applied to the server 102 in FIG. 1 as an example for description, but it should be noted that, in actual application, the method is not limited to the above server.
  • FIG. 2 it is a flowchart of a general text information extraction method in an embodiment. The method specifically includes the following steps:
  • Step 202 Obtain model training samples and text to be processed.
  • Model training samples are used to obtain labeling rules and establish basic labeling models.
  • the number of model training samples is less than a preset threshold. In one of the embodiments, there may be 3 to 5 model training samples.
  • the text to be processed is a sample of the same type as the model training sample, and the target extraction information exists in the text to be processed.
  • the training sample and the text to be processed may be text information in various fields, such as various types of contracts, resumes, and web page source text information.
  • the model training sample and the text to be processed may be samples input by end users, such as end users. Text entered through user interactive devices such as keyboards and touch screens can also be samples obtained online.
  • step 204 the model training samples are input into the labeling model for labeling, and labeling rules corresponding to the model training samples are obtained.
  • the labeling rules are used for transfer learning of the text to be processed.
  • the text to be processed is a text of a major contract
  • the user provides a sample, extracts the information for the required field (such as Party A) as a task, and online A small number of samples (such as 5) are labeled, and after learning modeling, the information of the same field (such as Party A) can be extracted from other contract samples provided by the user.
  • the labeling method adopted by the trained labeling model is sequence labeling, which converts the problem of text information extraction into sequence labeling, marking all unrelated text in the text as O, and marking the first character of the correct label as B-target. Others are marked as I-target.
  • Step 206 Establish a basic labeling model according to the labeling rules, input the text to be processed into the basic labeling model for labeling, and obtain a labeling sequence.
  • the basic labeling model includes the labeling rules used to label the model training samples.
  • the process of entering the text to be processed into the basic labeling model for labeling is the process of transfer learning. Further learning the rules used for labeling the model training samples, that is, applying the labeling rules to the text to be processed for labeling can improve the efficiency of the labeling process and obtain 'S labeling sequence is more accurate.
  • Step 208 Acquire sequence digestion rules corresponding to the annotation sequence, and determine the annotation text corresponding to the annotation sequence according to the sequence digestion rules.
  • the annotated text is the field information corresponding to the annotated sequence and existing in the text to be processed.
  • the sequence digestion rule refers to the digestion rule, and the annotation sequence is obtained by annotating the text to be processed, and then the annotation sequence is used to further locate each annotation text. For example, when the obtained labeling sequence is "this (O) year (O) sea (O) fishing (O) than (O) game (O) in (O) building (B-LOC) gate (I-LOC) city Between (E-LOC) and (O)Gold (B-LOC) gate (E-LOC), between (O) (O) sea (O) domain (O) (O) line (O).
  • the labeling text corresponding to the names of people, places, organizations and other information is obtained through the labeling sequence, that is, the labeling text "This year's sea fishing competition will be held in the waters between Xiamen and Kinmen.” Specifically, confirm The annotated text corresponding to the to-be-processed text is the actual object of finding the pronouns in the contract announcement using the referential resolution.
  • the referential resolution is the problem of determining which noun phrase the pronoun points to in the chapter.
  • the referent can be understood as being present in the annotation sequence
  • the actual object is the label text.
  • Step 210 Obtain target syntactic features and target semantic features in the marked text.
  • the target syntactic features and target semantic features are the feature information existing in the text to be processed, which is used to input the trained syntactic semantic analysis model for syntactic analysis and semantic analysis.
  • Step 212 Input the target syntactic features and target semantic features into the trained syntactic and semantic analysis model for analysis, and obtain the syntactic and semantic analysis results corresponding to the marked text.
  • the trained syntactic and semantic analysis models include syntactic feature analysis and shallow semantic feature analysis.
  • Syntactic feature analysis is the process of analyzing the input text sentence to get the sentence syntactic structure.
  • Syntactic analysis can be divided into the following three types: (1) Phrase structure syntactic analysis, the function is to identify the phrase structure in the sentence and the hierarchical syntactic relationship between the phrases; (2) Dependency syntactic analysis, the function is to identify the vocabulary and vocabulary in the sentence The interdependence between; (3) Deep grammatical syntax analysis, deep syntax and semantic analysis of sentences.
  • Shallow semantic feature analysis refers to the use of various machine learning methods to learn and understand the semantic content represented by a paragraph of text. A piece of text is usually composed of words, sentences, and paragraphs.
  • semantic analysis can be further decomposed into lexical-level semantic analysis, sentence-level semantic analysis, and chapter-level semantic analysis.
  • lexical-level semantic analysis focuses on how to obtain or distinguish the semantics of words.
  • Sentence-level semantic analysis attempts to analyze the semantics expressed by the entire sentence, while textual semantic analysis studies the internal structure of the text and understands the text unit (which can be a sentence) Semantic relations between clauses or paragraphs).
  • target syntactic features and target semantic features into the trained syntactic semantic analysis model for analysis, the results of syntactic semantic analysis corresponding to the marked text can be obtained.
  • Step 214 Determine target extraction information corresponding to the text to be processed according to the marked text and the results of syntactic and semantic analysis.
  • the target extraction information is field information existing in the text to be processed.
  • the target extraction information may be the field of “Party A”.
  • the model training sample and the text to be processed are obtained, and then the model training sample is input into the labeling model for labeling to obtain a labeling rule corresponding to the model training sample.
  • the labeling rule can migrate and label the text to be processed, and then according to the labeling rule Establish a basic labeling model, input the text to be processed into the basic labeling model for labeling, and obtain a labeling sequence, which can provide prerequisites for subsequent syntactic and semantic analysis. Marked text, and then obtain the target syntactic features and target semantic features in the marked text.
  • target syntactic features and target semantic features can extract different types of text under the annotation of only a small number of samples, and then the target syntactic features and targets Semantic features are input to the trained syntactic and semantic analysis model for analysis to obtain syntactic and semantic analysis results corresponding to the marked text, which can generate accurate syntactic analysis and semantic analysis corresponding to the marked text, and finally determine based on the marked text and syntactic semantic analysis results.
  • the target extraction information corresponding to the text to be processed can realize the extraction of various types of text information with only a small number of samples.
  • the method further includes the following steps:
  • Step 302 Input the text to be processed into the trained word segmentation model for word segmentation to obtain a word segmentation result.
  • Step 304 Obtain word segmentation error resolution rules corresponding to the text to be processed.
  • Word segmentation error resolution rules are used to resolve errors that occur in the process of word segmentation.
  • Word segmentation error resolution rules include word segmentation ambiguity resolution, new word recognition, and standardization of erroneous words (and homophonic characters).
  • Word segmentation ambiguity resolution refers to a word string can have different segmentation methods in a sentence.
  • tablette/racket/sold out can be divided into “pingpong/racket/sold/finished/sold", or “table tennis/auction/done/finished”, the new word recognition refers to not being in the training data Words that have appeared in, including people's new words and old words, new words, homonyms are standardized, and there will inevitably be some typos or deliberate homonyms in the input sentence (such as " ⁇ " -> "want to cry”; “Blue Slim” -> “Uncomfortable”; “Blue Mushroom” -> “Sad” and so on).
  • the target word segmentation information is obtained through the word segmentation error elimination rules, and then the target word segmentation information is annotated, which can better label the text information, so as to achieve the purpose of extracting the text information more accurately.
  • Step 306 Filter the word segmentation results according to the word segmentation error elimination rules to obtain target word segmentation information.
  • word segmentation error resolution process there will be a variety of word segmentation results, such as "table tennis racket / sold out”, “ping pong / racket / sold / finished / finished", "table tennis / auction / finished / finished”.
  • the word segmentation results are filtered by the word segmentation error elimination rules to obtain the target word segmentation information.
  • the above word segmentation results are filtered by the word segmentation error elimination rules to obtain the target word segmentation information: ping pong/racket/sell/finished/.
  • Step 308 Input the target word segmentation information into the basic labeling model for labeling to obtain a labeling sequence.
  • Inputting the target word segmentation information obtained by filtering into the basic labeling model for labeling can obtain a more accurate labeling sequence, which will be more accurate when the target extraction information is subsequently extracted.
  • the word segmentation results are obtained by inputting the text to be processed into the trained word segmentation model, and then the word segmentation results are filtered using the word segmentation error resolution rules to obtain the target word segmentation information.
  • the target text segmentation process is the target text segmentation process Information input to the basic labeling model for labeling can obtain a more accurate labeling sequence and improve the efficiency and accuracy of information extraction.
  • the method further includes: displaying the target extraction information, obtaining the information update result corresponding to the target extraction information; inputting the information update result into the syntax analysis model for analysis to obtain the updated syntax analysis result;
  • the updated syntax and semantic analysis results update the syntax analysis rules and semantic analysis rules; store the updated syntax analysis rules and semantic analysis rules to the syntax analysis model.
  • the information update result is text information obtained after the target extraction information is modified, added, and deleted by the terminal when the target extraction information is displayed on the terminal. Enter the modified, added, and deleted text information into the syntactic and semantic analysis model for analysis to obtain the updated syntactic and semantic analysis results. Update the syntactic analysis rules and semantic analysis rules through the updated syntactic and semantic analysis results, and enter the updated syntax
  • the analysis rules and the semantic analysis rules are stored in the syntactic and semantic analysis model, which can realize the online learning process, and further update the syntactic and semantic analysis model through the active modification of the terminal, so as to improve the accuracy rate in the extraction of general text information.
  • the method further includes the following steps:
  • Step 402 Obtain syntactic and semantic features in the marked text.
  • Syntactic features include phrase structure: verb phrases, noun phrases. Syntactic features also include syntactic dependence: subject components such as subject-predicate-object. Semantic features include lexical-level semantics, sentence-level semantics, and chapter-level semantics.
  • Step 404 input the syntactic features and semantic features into the trained feature thinning model for feature thinning, to obtain thinned syntactic features and thinned semantic features.
  • the trained feature refinement model is used to extract the features of smaller categories of syntactic and semantic features.
  • Refinement syntactic features are features of a smaller class in syntactic features
  • refining semantic features are features of a smaller class in semantic features.
  • Step 406 input the refined text syntactic features and the refined text semantic features into the decision tree model corresponding to the text to be processed, and perform importance ranking to obtain the feature ranking result.
  • Decision tree model is used to obtain the importance ranking of features.
  • Decision tree model is a very common classification method.
  • the decision tree model is a kind of supervised learning. Supervised learning is given a bunch of samples, each sample has a set of attributes and a category, these categories are determined in advance, then through learning to get a classifier, this classifier can The emerged objects are given correct classification. Specifically, the importance ranking is sorted by the importance threshold. When the importance is greater than the preset importance threshold, the refined text syntax features and the refined text semantic features are filtered to obtain the feature ranking results. .
  • Step 408 Determine the target syntactic features and target semantic features according to the feature ranking results.
  • the result of feature ranking further determines the target syntactic features and target semantic features. Using target syntactic features and target semantic features to analyze the annotated text can extract text information more accurately.
  • the syntactic features and semantic features in the marked text by obtaining the syntactic features and semantic features in the marked text, and then input the syntactic features and semantic features into the trained feature refinement model for feature refinement, it is possible to obtain refined syntactic features and refined semantic features, and then Further, the refined text syntactic features and refined text semantic features are input into the decision tree model corresponding to the text to be processed, and the feature ranking results are obtained. Finally, according to the feature ranking results, the target syntactic features and target semantic features can be determined. Using syntactic and semantic analysis can extract different types of text information.
  • the method further includes: dividing the model training samples into training samples, verification samples, and test samples; inputting the training samples into the training set corresponding to the basic labeling model for training to obtain target training samples; and converting the target
  • the training sample is input into the verification set corresponding to the basic annotation model for verification to obtain the target verification sample
  • the target verification sample is input into the test set corresponding to the basic annotation model for testing to obtain the target test sample
  • the basic annotation model is updated according to the target test sample.
  • the model training samples can be divided into training samples, verification samples and test samples.
  • verification set: test set 6:2:2-> all samples, the samples between training, verification, test set and the sample The text types do not coincide. It can be understood that the training set is used to train the basic labeling model, and the subsequent combination of the role of the verification set will select different values of the same parameter. Input training samples into the training set for training, you can get the target training samples.
  • the validation set is to train multiple models through the training set. In order to find out the most effective basic labeling model, use each basic labeling model to predict the validation set data, and record the model accuracy rate to select the best effect.
  • the parameters corresponding to the basic labeling model are used to adjust the model parameters, that is, the target training sample is input into the verification set corresponding to the basic labeling model for verification to obtain the target verification sample.
  • the test set uses the training set and the verification set to obtain the optimal basic labeling model, and then uses the test set to make model predictions to measure the performance and classification ability of the optimal basic labeling model. That is, the test set can be regarded as never existing.
  • After the model parameters have been determined use the test set to evaluate the model performance, and use the target test samples obtained after the test set test to update the basic annotation model.
  • the target training samples can be obtained, and then the target training samples are input
  • the verification set corresponding to the basic annotation model is verified to further obtain the target verification sample.
  • the target verification sample is input into the test set corresponding to the basic annotation model for testing to obtain the target test sample, and then the basic annotation model is updated according to the target test sample. Updating the basic annotation model is conducive to extracting different types of text information.
  • steps in the flowcharts of FIGS. 2-4 are displayed in order according to the arrows, the steps are not necessarily executed in the order indicated by the arrows. Unless clearly stated in this article, the execution of these steps is not strictly limited in order, and these steps can be executed in other orders. Moreover, at least some of the steps in FIGS. 2-4 may include multiple sub-steps or multiple stages. These sub-steps or stages are not necessarily executed at the same time, but may be executed at different times. These sub-steps or stages The execution order of is not necessarily sequential, but may be executed in turn or alternately with at least a part of other steps or sub-steps or stages of other steps.
  • FIG. 5 it is a schematic diagram of a general text information extraction device in an embodiment.
  • the device includes:
  • the information obtaining module 502 is used to obtain model training samples and text to be processed
  • the rule acquisition module 504 is used to input model training samples into the labeling model for labeling to obtain labeling rules corresponding to the model training samples;
  • the text labeling module 506 is used to establish a basic labeling model according to the labeling rules, input the text to be processed into the basic labeling model for labeling, and obtain a labeling sequence;
  • the text determination module 508 is used to obtain a sequence digestion rule corresponding to the annotation sequence, and determine the annotation text corresponding to the annotation sequence according to the sequence digestion rule;
  • the feature obtaining module 510 is used to obtain target syntactic features and target semantic features in the marked text
  • Syntactic and semantic analysis module 512 which is used to input the target syntactic features and target semantic features into the trained syntactic and semantic analysis model for analysis to obtain the syntactic and semantic analysis results corresponding to the marked text;
  • the target information extraction module 514 is used to determine target extraction information corresponding to the text to be processed according to the marked text and the results of syntactic and semantic analysis.
  • the text labeling module includes: a text word segmentation module for inputting the text to be processed into a trained word segmentation model for word segmentation to obtain a word segmentation result; a text digestion module for acquiring word segmentation errors corresponding to the text to be processed Digestion rules; target word segmentation acquisition module, used to filter word segmentation results according to word segmentation error digestion rules to obtain target word segmentation information; sequence acquisition module, used to input target word segmentation information into the basic labeling model for labeling to obtain labeling sequences.
  • the target information extraction module includes: an information update module for displaying the target extraction information and obtaining information update results corresponding to the target extraction information; and an information analysis module for inputting the information update results into the syntax analysis model Perform analysis to obtain updated syntax and semantic analysis results; rule update module, which is used to update syntax analysis rules and semantic analysis rules based on the updated syntax and semantic analysis results; rule storage module, which is used to update the updated syntax analysis rules and semantics The analysis rules are stored in the syntax analysis model.
  • the target syntactic feature and target semantic feature determination module is used to obtain the syntactic and semantic features in the annotated text; input the syntactic and semantic features into the trained feature thinning model for feature thinning to obtain fine Syntactic features and refined semantic features; input the refined text syntactic features and refined text semantic features into the decision tree model corresponding to the text to be processed, and obtain feature ranking results; determine the target syntactic features according to the feature ranking results And target semantic features.
  • the basic labeling model update module is used to divide the model training samples into training samples, verification samples and test samples; input the training samples into the training set corresponding to the basic labeling model for training to obtain target training samples; Enter the target training sample into the verification set corresponding to the basic labeling model to obtain the target verification sample; enter the target verification sample into the test set corresponding to the basic labeling model to test to obtain the target test sample; update the basic labeling model according to the target test sample .
  • Each module in the above-mentioned general text information extraction device can be implemented in whole or in part by software, hardware, and a combination thereof.
  • the above modules may be embedded in the hardware or independent of the processor in the computer device, or may be stored in the memory in the computer device in the form of software, so that the processor can call and execute the operations corresponding to the above modules.
  • the processor may be a central processing unit (CPU), a microprocessor, a single-chip microcomputer, or the like.
  • the above general text information extraction device may be implemented in a form of computer readable instructions.
  • a computer device is provided, and the computer device may be a server or a terminal.
  • the computer device When the computer device is a terminal, its internal structure diagram may be as shown in FIG. 6.
  • the computer device includes a processor, memory, and network interface connected by a system bus.
  • the processor of the computer device is used to provide computing and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system and computer-readable instructions.
  • the internal memory provides an environment for the operation of the operating system and computer-readable instructions in the non-volatile storage medium.
  • the network interface of the computer device is used to communicate with external terminals through a network connection.
  • the computer-readable instructions are executed by the processor to implement a general text information extraction method.
  • FIG. 6 is only a block diagram of a part of the structure related to the solution of the present application, and does not constitute a limitation on the computer equipment to which the solution of the present application is applied.
  • the specific computer equipment may It includes more or fewer components than shown in the figure, or some components are combined, or have a different component arrangement.
  • a computer device includes a memory and one or more processors.
  • the memory stores computer-readable instructions.
  • the one or more processors perform the following steps:
  • the syntactic and semantic analysis model analyzes to obtain the syntactic and semantic analysis results corresponding to the marked text; and determines the target extraction information corresponding to the text to be processed according to the marked text and the syntactic and semantic analysis results.
  • the processor may also implement the following steps when executing the computer-readable instructions: input the text to be processed into the trained word segmentation model for word segmentation to obtain a word segmentation result; obtain a word segmentation error resolution rule corresponding to the text to be processed; Filter word segmentation results according to word segmentation error elimination rules to obtain target word segmentation information; and input target word segmentation information into the basic labeling model for labeling to obtain labeling sequences.
  • the processor can also implement the following steps when executing the computer-readable instructions: display the target extraction information, obtain the information update result corresponding to the target extraction information; enter the information update result into the syntax analysis model for analysis, and obtain The updated syntactic and semantic analysis results; update the syntactic analysis rules and semantic analysis rules according to the updated syntactic and semantic analysis results; and store the updated syntactic analysis rules and semantic analysis rules to the syntactic and semantic analysis model.
  • the processor when the processor executes the computer-readable instructions, the following steps may also be implemented: obtaining syntactic and semantic features in the labeled text; inputting the syntactic and semantic features into the trained feature refinement model for feature refinement , Get the refined syntactic features and refined semantic features; input the refined text syntactic features and refined text semantic features into the decision tree model corresponding to the text to be processed to obtain importance ranking results; and according to the feature ranking results Determine the target syntactic features and target semantic features.
  • the model training samples are divided into training samples, verification samples, and test samples; the training samples are input into the training set corresponding to the basic annotation model for Training to get the target training samples; input the target training samples into the verification set corresponding to the basic annotation model for verification to obtain target verification samples; enter the target verification samples into the test set corresponding to the basic annotation model for testing to obtain target test samples; and Update the basic annotation model based on the target test sample.
  • One or more non-volatile computer-readable storage media storing computer-readable instructions, which when executed by one or more processors, cause the one or more processors to perform the following steps: obtain model training samples And the text to be processed; input the model training sample into the labeling model for labeling to obtain the labeling rule corresponding to the model training sample; establish a basic labeling model according to the labeling rule, input the text to be processed into the basic labeling model for labeling, and obtain the labeling sequence; obtain and Sequence digestion rules corresponding to annotated sequences, determine the annotated text corresponding to annotated sequences according to the sequence digestion rules; obtain target syntactic features and target semantic features in annotated texts; input target syntactic features and target semantic features into a trained syntactic semantic analysis model The analysis is performed to obtain the syntax and semantic analysis results corresponding to the marked text; and the target extraction information corresponding to the text to be processed is determined according to the marked text and the syntax and semantic analysis results.
  • the following steps may also be implemented: input the text to be processed into a trained word segmentation model for word segmentation, and obtain a word segmentation result; obtain a word segmentation error resolution corresponding to the text to be processed Rules; filter word segmentation results according to word segmentation error elimination rules to obtain target word segmentation information; and input target word segmentation information into the basic labeling model for labeling to obtain labeling sequences.
  • the following steps may be implemented: displaying the target extraction information, obtaining the information update result corresponding to the target extraction information; and inputting the information update result into a syntax analysis model for analysis To get the updated syntax and semantic analysis results; update the syntax analysis rules and semantic analysis rules according to the updated syntax and semantic analysis results; and store the updated syntax analysis rules and semantic analysis rules to the syntax and semantic analysis model.
  • the following steps may also be implemented: obtaining syntactic and semantic features in the marked text; inputting the syntactic and semantic features into the trained feature refinement model for features Refinement to obtain refined syntactic features and refined semantic features; input refined text syntactic features and refined text semantic features into the decision tree model corresponding to the text to be processed to obtain importance ranking results; and according to the features
  • the sorting result determines the target syntactic features and target semantic features.
  • the model training samples are divided into training samples, verification samples, and test samples; the training samples are input to the training corresponding to the basic labeling model Set training to get the target training sample; enter the target training sample into the verification set corresponding to the basic annotation model to verify to obtain the target verification sample; enter the target verification sample into the test set corresponding to the basic annotation model to test to obtain the target test sample ; And update the basic annotation model based on the target test sample.
  • the storage medium may be a magnetic disk, an optical disk, a read-only memory (Read-Only Memory, ROM), or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种通用文本信息提取方法,包括:将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则;根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列;获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本;获取标注文本中的目标句法特征和目标语义特征;将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果;根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。

Description

通用文本信息提取方法、装置、计算机设备和存储介质
本申请要求于2018年12月10日提交中国专利局,申请号为2018115043864,申请名称为“通用文本信息提取方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及一种通用文本信息提取方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术领域和信息时代的高速发展,人们每天需要面对海量的信息,其中文本信息几乎每天都需接触。在面对海量文本信息的同时,人们常常需要花费大量的时间进行查找以及提取。
然而,发明人意识到,传统的对于不同类型文本信息的提取需要针对所提取文本所在领域进行建模,并且在建模前需要提前定义所需提取的字段,并获得大量相关标注数据集进行建模,在仅需少量样本的情况下无法实现对各种类型的文本信息进行提取。
发明内容
根据本申请公开的各种实施例,提供一种通用文本信息提取方法、装置、计算机设备和存储介质。一种通用文本信息提取方法,包括:
获取模型训练样本和待处理文本;
将所述模型训练样本输入标注模型进行标注,得到与所述模型训练样本对应的标注规则;
根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列;
获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
获取所述标注文本中的目标句法特征和目标语义特征;
将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;及
根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
一种通用文本信息提取装置,包括:
信息获取模块,用于获取模型训练样本和待处理文本;
规则获取模块,用于将所述模型训练样本输入标注模型进行标注,得到与所述模型 训练样本对应的标注规则;
文本标注模块,用于根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列;
文本确定模块,用于获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
特征获取模块,用于获取所述标注文本中的目标句法特征和目标语义特征;
句法语义分析模块,用于将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;及
目标信息提取模块,用于根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
一种计算机设备,包括存储器和一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述一个或多个处理器执行以下步骤:
获取模型训练样本和待处理文本;
将所述模型训练样本输入标注模型进行标注,得到与所述模型训练样本对应的标注规则;
根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列;
获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
获取所述标注文本中的目标句法特征和目标语义特征;
将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;及
根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
获取模型训练样本和待处理文本;
将所述模型训练样本输入标注模型进行标注,得到与所述模型训练样本对应的标注规则;
根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列;
获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
获取所述标注文本中的目标句法特征和目标语义特征;
将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;及
根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。·
图1为根据一个或多个实施例中通用文本信息提取方法的应用环境图;
图2为根据一个或多个实施例中通用文本信息提取方法的方法流程图;
图3为根据一个或多个实施例中通用文本信息提取方法中获取标注序列的方法流程图;
图4为根据一个或多个实施例中通用文本信息提取方法中获取目标特征的方法流程图;
图5为根据一个或多个实施例中通用文本信息提取方法装置的结构示意图;
图6为根据一个或多个实施例中计算机设备的框图。
具体实施方式
为了使本申请的技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明实施例中所提供的通用文本信息提取方法可以应用于如图1所示的应用环境中,服务器120获取模型训练样本和待处理文本,模型训练样本和待处理文本可为终端110输入或上传的文本,服务器120将模型训练样本输入标注模型进行标注,能够得到与模型训练样本对应的标注规则,然后服务器120根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列,服务器120再获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本,通过服务器120获取标注文本中的目标句法特征和目标语义特征,再将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果,服务器120根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。
下述实施方式以通用文本信息提取方法应用于图1的服务器102为例进行说明,但需要说明的是,实际应用中该方法并不仅限应用于上述服务器。
如图2所示,为一个实施例中的通用文本信息提取方法的流程图,该方法具体包括以下步骤:
步骤202,获取模型训练样本和待处理文本。
模型训练样本是用于获取标注规则以及建立基础标注模型的样本,模型训练样本的数量少于预设阈值。在其中一个实施例中,模型训练样本可为3至5篇。待处理文本是与模型训练样本同类型的样本,目标提取信息存在于待处理文本中。具体地,训练样本和待处理文本可为各个领域的文本信息,例如各种类型的合同、简历、网页源文本信息等,模型训练样本和待处理文本可以是终端用户输入的样本,例如终端用户通过键盘、触摸屏等用户交互式设备输入的文本,也可以是在线获取的样本。
步骤204,将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则。
标注规则用于对待处理文本进行迁移学习,例如,当待处理文本为重大合同这一类型文本时,用户提供样本,针对所需字段(比如甲方)作为一个任务进行信息提取,在线对其中的少量样本(比如5篇)进行标注,学习建模后,能对用户提供的其他合同样本提取相同字段(比如甲方)的信息。已训练好的标注模型所采用的标注方法为序列标注,将文本信息抽取问题转化为序列标注问题,将文本中无关的文字都标为O,正确的标注第一个字符标为B-target,其他标为I-target。假设有如下句子:今年海钓比赛在厦门市与金门之间的海域举行。那么对这句话进行序列标注之后的得到的标注序列为“今(O)年(O)海(O)钓(O)比(O)赛(O)在(O)厦(B-LOC)门(I-LOC)市(E-LOC)与(O)金(B-LOC)门(E-LOC)之(O)间(O)的(O)海(O)域(O)举(O)行(O)。(O)”这段标注采用的是BIEO标注方式,即Begin,Intermediate,End,Other,针对不同的标注任务标注方式也各不相同。将文本中无关的文字都标为O,正确的标注第一个字符标为B-target,其他标为I-target。
步骤206,根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列。
基础标注模型中包括对模型训练样本进行标注所采用的标注规则。将待处理文本输入基础标注模型进行标注的过程即为迁移学习的过程,进一步学习模型训练样本进行标注时采用的规则,即将标注规则运用到对待处理文本进行标注,能够提高标注过程的效率且得到的标注序列更加准确。
步骤208,获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本。
标注文本是与标注序列所对应的,存在于待处理文本中的字段信息。序列消解规则为指代消解规则,通过对待处理文本进行标注得到标注序列,再利用标注序列进一步定位各个标注文本。例如,当得到的标注序列为“今(O)年(O)海(O)钓(O)比(O)赛(O)在(O)厦(B-LOC)门(I-LOC)市(E-LOC)与(O)金(B-LOC)门(E-LOC)之(O)间(O)的(O)海(O)域(O)举(O)行(O)。(O)”时,通过标注序列获取与人名、地名、组织名以及其他信息对应的标注文本, 即获得标注文本“今年海钓比赛在厦门市与金门之间的海域举行。”具体地,确定与待处理文本对应的标注文本是利用指代消解找到合同公告中的指代词的实际对象,指代消解为在篇章中确定代词指向哪个名词短语的问题,指代词即可理解为存在于标注序列中的信息,实际对象为标注文本。
步骤210,获取标注文本中的目标句法特征和目标语义特征。
目标句法特征和目标语义特征是存在于待处理文本中的特征信息,用于输入已训练的句法语义分析模型进行句法分析和语义分析。
步骤212,将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果。
已训练的句法语义分析模型包括句法特征分析和浅层语义特征分析。句法特征分析是对输入的文本句子进行分析以得到句子的句法结构的处理过程。句法分析可以分为以下三种:(1)短语结构句法分析,作用是识别出句子中的短语结构以及短语之间的层次句法关系;(2)依存句法分析,作用是识别句子中词汇与词汇之间的相互依存关系;(3)深层文法句法分析,对句子进行深层的句法以及语义分析。浅层语义特征分析指运用各种机器学习方法,学习与理解段文本所表示的语义内容。一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同,语义分析又可进一步分解为词汇级语义分析、句子级语义分析以及篇章级语义分析。一般来说,词汇级语义分析关注的是如何获取或区别单词的语义,句子级语义分析则试图分析整个句子所表达的语义,而篇章语义分析研究文本的内在结构并理解文本单元(可以是句子从句或段落)间的语义关系。通过将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,能够得到与标注文本对应的句法语义分析结果。
步骤214,根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。
目标提取信息是存在于待处理文本中的字段信息,例如需要提取合同这一文本类型信息时,目标提取信息可以为“甲方”这一字段。通过利用模型训练样本建立基础标注模型,将待处理文本输入基础标注模型中得到标注文本,再对标注文本进行句法语义分析能够准确的提取目标提取信息。
本实施例中,通过获取模型训练样本和待处理文本,再将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则,标注规则能够对待处理文本进行迁移标注,再根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列,能够为后续句法语义分析提供前提条件,再获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本,然后获取标注文本中的目标句法特征和目标语义特征,利用目标句法特征和目标语义特征能够在仅需少量样本的标注下实现对不同类型文本的提取,再将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果,能够生成与标注文本对应的准确的句法分析和语义分析,最后根据标注文本和句法语义分析结果确定与待处理文本对应 的目标提取信息,能够实现在仅需少量样本的情况下提取各种类型的文本信息。
在其中一个实施例中,如图3所示,该方法还包括以下步骤:
步骤302,将待处理文本输入已训练的分词模型进行分词,得到分词结果。
和大部分西方语言不同,汉语书面词语之间没有明显的空格标记,文本中的句子以字串的形式出现。因此需要将输入的字串切分为单独的词语,然后在此基础进行其他更高级的分析,这一过程就是分词。将待处理文本输入已训练的分词模型进行分词后,能在后续更精确的对待处理文本进行标注。
步骤304,获取与待处理文本对应的分词错误消解规则。
分词错误消解规则用于消解分词过程中所出现的错误。分词错误消解规则包括分词歧义消解、新词识别和错误字(以及谐音字)规范化,分词歧义消解是指在一个句子中,一个字串可以有不同的切分方法。例如,“乒乓球拍/卖完了”,可以切分为“乒乓/球拍/卖/完/了”,也可以切分为“乒乓球/拍卖/完/了”,新词识别指未在训练数据中出现过的词,包括人们新创的词以及旧词新意,错别字/谐音字规范化,输入的句子中不可避免会存在一些错别字或者刻意的谐音词(如“香菇”->“想哭”;“蓝瘦”->“难受”;“蓝菇”->“难过”等等)。经过分词错误消解规则得到目标分词信息,再将目标分词信息进行标注,能够更好的对文本信息进行标注,以达到更准确抽取文本信息的目的。
步骤306,根据分词错误消解规则筛选分词结果,得到目标分词信息。
由于在分词错误消解过程中会出现多种分词结果,例如“乒乓球拍/卖完了”、“乒乓/球拍/卖/完/了”、“乒乓球/拍卖/完/了”。通过分词错误消解规则对分词结果进行筛选,得到目标分词信息,例如通过分词错误消解规则对上述分词结果进行筛选,可得到目标分词信息:乒乓/球拍/卖/完/了。
步骤308,将目标分词信息输入基础标注模型进行标注,得到标注序列。
将筛选得到的目标分词信息输入基础标注模型进行标注,能够得到更为准确的标注序列,在后续进行目标提取信息的提取时将更加精确。
本实施例中,通过将待处理文本输入已训练的分词模型进行分词,得到分词结果,再利用分词错误消解规则筛选分词结果,能够得到目标分词信息,将经过分词过程的待处理文本即目标分词信息输入基础标注模型进行标注,能够得到更为准确的标注序列,提高信息提取的效率和准确率。
在其中一个实施例中,该方法还包括:显示目标提取信息,获取与目标提取信息对应的信息更新结果;将信息更新结果输入句法语义分析模型进行分析,得到更新后的句法语义分析结果;根据更新后的句法语义分析结果更新句法分析规则和语义分析规则;将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。
信息更新结果是在将目标提取信息显示至终端时,终端对于目标提取信息进行的修改、增加和删除等操作后得到的文本信息。将修改、增加和删除后的文本信息输入句法语义分析模型进行分析,得到更新后的句法语义分析结果,通过更新后的句法语义分析结果 更新句法分析规则和语义分析规则,并将更新后的句法分析规则和语义分析规则存储至句法语义分析模型,能够实现在线学习的过程,通过终端的主动修正进一步更新句法语义分析模型,以用于提高在通用文本信息抽取时的准确率。
在其中一个实施例中,如图4所示,该方法还包括以下步骤:
步骤402,获取标注文本中的句法特征和语义特征。
句法特征包括短语结构:动词短语、名词短语。句法特征还包括句法依存:主谓宾等句子成分。语义特征包括词汇级语义、句子级语义以及篇章级语义等。
步骤404,将句法特征和语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征。
已训练的特征细化模型是用于提取句法特征和语义特征中更为小类的特征。细化句法特征为句法特征中更为小类的特征,细化语义特征为语义特征中更为小类的特征。
步骤406,将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果。
决策树模型用于获得特征的重要性排序,决策树模型是一种十分常用的分类方法。决策树模型为一种监管学习,监管学习是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类,具体地,重要性排序通过重要性阈值进行排序,当重要性大于预设的重要性阈值时,筛选细化文本句法特征和细化文本语义特征得到特征排序结果。
步骤408,根据特征排序结果确定目标句法特征和目标语义特征。
通过特征排序结果进一步确定目标句法特征和目标语义特征,利用目标句法特征和目标语义特征对标注文本进行分析能够在提取文本信息时,更加准确。
本实施例中,通过获取标注文本中的句法特征和语义特征,再将句法特征和语义特征输入已训练的特征细化模型进行特征细化,能够得到细化句法特征和细化语义特征,再进一步将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到了特征排序结果,最后根据特征排序结果能够确定目标句法特征和目标语义特征,利用句法以及语义分析能够提取各个不同类型的文本信息。
在其中一个实施例中,该方法还包括:将模型训练样本切分为训练样本、验证样本和测试样本;将训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;将目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;将目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;根据目标测试样本更新基础标注模型。
模型训练样本中可切分为训练样本、验证样本和测试样本,当训练集:验证集:测试集=6:2:2->所有样本,训练、验证、测试集之间样本及样本中的文本类型不重合。可以理解的是,训练集是用于训练基础标注模型,后续结合验证集作用,会选出同一参数的不同取值。将训练样本输入训练集进行训练,就能够得到目标训练样本。验证集是当通过训练 集训练出多个模型后,为了能找出效果最佳的基础标注模型,使用各个基础标注模型对验证集数据进行预测,并记录模型准确率,选出效果最佳的基础标注模型所对应的参数,即用来调整模型参数,即将目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本。测试集是通过训练集和验证集得出最优基础标注模型后,使用测试集进行模型预测,用来衡量该最优基础标注模型的性能和分类能力,即可以把测试集当作从来不存在的数据集,当已经确定模型参数后,使用测试集进行模型性能评价,利用测试集测试后得到的目标测试样本更新基础标注模型。
本实施例中,通过将模型训练样本切分为训练样本、验证样本和测试样本,再将训练样本输入与基础标注模型对应的训练集进行训练,能够得到目标训练样本,然后将目标训练样本输入与基础标注模型对应的验证集进行验证,进一步得到目标验证样本,最后将目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本,再根据目标测试样本更新基础标注模型,能够对基础标注模型进行更新,有利于提取各个不同类型的文本信息。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图5所示,为一实施例中的通用文本信息提取装置的示意图,该装置包括:
信息获取模块502,用于获取模型训练样本和待处理文本;
规则获取模块504,用于将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则;
文本标注模块506,用于根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列;
文本确定模块508,用于获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本;
特征获取模块510,用于获取标注文本中的目标句法特征和目标语义特征;
句法语义分析模块512,用于将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果;
目标信息提取模块514,用于根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。
在其中一个实施例中,文本标注模块包括:文本分词模块,用于将待处理文本输入已训练的分词模型进行分词,得到分词结果;文本消解模块,用于获取与待处理文本对应的 分词错误消解规则;目标分词获取模块,用于根据分词错误消解规则筛选分词结果,得到目标分词信息;序列获取模块,用于将目标分词信息输入基础标注模型进行标注,得到标注序列。
在其中一个实施例中,目标信息提取模块包括:信息更新模块,用于显示目标提取信息,获取与目标提取信息对应的信息更新结果;信息分析模块,用于将信息更新结果输入句法语义分析模型进行分析,得到更新后的句法语义分析结果;规则更新模块,用于根据更新后的句法语义分析结果更新句法分析规则和语义分析规则;规则存储模块,用于将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。
在其中一个实施例中,目标句法特征和目标语义特征确定模块用于获取标注文本中的句法特征和语义特征;将句法特征和语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征;将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;根据特征排序结果确定目标句法特征和目标语义特征。
在其中一个实施例中,基础标注模型更新模块用于将模型训练样本切分为训练样本、验证样本和测试样本;将训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;将目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;将目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;根据目标测试样本更新基础标注模型。
关于通用文本信息提取装置的具体限定可以参见上文中对于通用文本信息提取方法的限定,在此不再赘述。上述通用文本信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。上述通用文本信息提取装置可以实现为一种计算机可读指令的形式。
在其中一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端。当该计算机设备为终端时,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种通用文本信息提取方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机设备,包括存储器和一个或多个处理器,存储器中储存有计算机可读指令, 计算机可读指令被处理器执行时,使得一个或多个处理器执行以下步骤:
获取模型训练样本和待处理文本;将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则;根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列;获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本;获取标注文本中的目标句法特征和目标语义特征;将目标句法特征和目标语义特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果;及根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。
在其中一个实施例中,处理器执行计算机可读指令时还可以实现以下步骤:将待处理文本输入已训练的分词模型进行分词,得到分词结果;获取与待处理文本对应的分词错误消解规则;根据分词错误消解规则筛选分词结果,得到目标分词信息;及将目标分词信息输入基础标注模型进行标注,得到标注序列。
在其中一个实施例中,处理器执行计算机可读指令时还可以实现以下步骤:显示目标提取信息,获取与目标提取信息对应的信息更新结果;将信息更新结果输入句法语义分析模型进行分析,得到更新后的句法语义分析结果;根据更新后的句法语义分析结果更新句法分析规则和语义分析规则;及将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。
在其中一个实施例中,处理器执行计算机可读指令时还可以实现以下步骤:获取标注文本中的句法特征和语义特征;将句法特征和语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征;将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;及根据特征排序结果确定目标句法特征和目标语义特征。
在其中一个实施例中,处理器执行计算机可读指令时还可以实现以下步骤:将模型训练样本切分为训练样本、验证样本和测试样本;将训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;将目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;将目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;及根据目标测试样本更新基础标注模型。
上述对于计算机设备的限定可以参见上文中对于通用文本信息提取方法的具体限定,在此不再赘述。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取模型训练样本和待处理文本;将模型训练样本输入标注模型进行标注,得到与模型训练样本对应的标注规则;根据标注规则建立基础标注模型,将待处理文本输入基础标注模型进行标注,得到标注序列;获取与标注序列对应的序列消解规则,根据序列消解规则确定与标注序列对应的标注文本;获取标注文本中的目标句法特征和目标语义特征;将目标句法特征和目标语义 特征输入已训练的句法语义分析模型进行分析,得到与标注文本对应的句法语义分析结果;及根据标注文本和句法语义分析结果确定与待处理文本对应的目标提取信息。
在其中一个实施例中,该计算机可读指令被处理器执行时还可以实现以下步骤:将待处理文本输入已训练的分词模型进行分词,得到分词结果;获取与待处理文本对应的分词错误消解规则;根据分词错误消解规则筛选分词结果,得到目标分词信息;及将目标分词信息输入基础标注模型进行标注,得到标注序列。
在其中一个实施例中,该计算机可读指令被处理器执行时还可以实现以下步骤:显示目标提取信息,获取与目标提取信息对应的信息更新结果;将信息更新结果输入句法语义分析模型进行分析,得到更新后的句法语义分析结果;根据更新后的句法语义分析结果更新句法分析规则和语义分析规则;及将更新后的句法分析规则和语义分析规则存储至句法语义分析模型。
在其中一个实施例中,该计算机可读指令被处理器执行时还可以实现以下步骤:获取标注文本中的句法特征和语义特征;将句法特征和语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征;将细化文本句法特征和细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;及根据特征排序结果确定目标句法特征和目标语义特征。
在其中一个实施例中,该计算机可读指令被处理器执行时还可以实现以下步骤:将模型训练样本切分为训练样本、验证样本和测试样本;将训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;将目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;将目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;及根据目标测试样本更新基础标注模型。
上述对于非易失性计算机可读存储介质的限定可以参见上文中对于通用文本信息提取方法的具体限定,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (23)

  1. 一种通用文本信息提取方法,包括:
    获取模型训练样本和待处理文本;
    将所述模型训练样本输入标注模型进行标注,得到与所述模型训练样本对应的标注规则;
    根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列;
    获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
    获取所述标注文本中的目标句法特征和目标语义特征;
    将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;及
    根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
  2. 根据权利要求1所述的方法,其特征在于,所述根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列包括:
    将所述待处理文本输入已训练的分词模型进行分词,得到分词结果;
    获取与所述待处理文本对应的分词错误消解规则;
    根据所述分词错误消解规则筛选所述分词结果,得到目标分词信息;及
    将所述目标分词信息输入所述基础标注模型进行标注,得到所述标注序列。
  3. 根据权利要求1所述的方法,所述句法语义分析模型包括句法分析规则和语义分析规则,其特征在于,在根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息之后,所述方法还包括:
    显示所述目标提取信息,获取与所述目标提取信息对应的信息更新结果;
    将所述信息更新结果输入所述句法语义分析模型进行分析,得到更新后的句法语义分析结果;
    根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则;及
    将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
  4. 根据权利要求1所述的方法,其特征在于,所述获取所述标注文本中的目标句法特征和目标语义特征包括:
    获取所述标注文本中的句法特征和语义特征;
    将所述句法特征和所述语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征;
    将所述细化文本句法特征和所述细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;及
    根据所述特征排序结果确定所述目标句法特征和所述目标语义特征。
  5. 根据权利要求4所述的方法,其特征在于,所述句法特征包括短语结构和句法依存;所述语义特征包括词汇级语义、句子级语义以及篇章级语义。
  6. 根据权利要求1所述的方法,其特征在于,所述将所述模型训练样本输入标注模型进行标注包括:
    将所述模型训练样本切分为训练样本、验证样本和测试样本;
    将所述训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;
    将所述目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;
    将所述目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;及
    根据所述目标测试样本更新所述基础标注模型。
  7. 根据权利要求1至6任一项所述的方法,其特征在于,所述训练样本和待处理文本为终端用户输入的样本或在线获取的样本。
  8. 根据权利要求1至6任一项所述的方法,其特征在于,所述训练样本和待处理文本为各种类型的合同、简历和网页源文本信息中的至少一种。
  9. 一种通用文本信息提取装置,包括:
    信息获取模块,用于获取模型训练样本和待处理文本;
    规则获取模块,用于将所述模型训练样本输入标注模型进行标注,得到与所述模型训练样本对应的标注规则;
    文本标注模块,用于根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列;
    文本确定模块,用于获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
    特征获取模块,用于获取所述标注文本中的目标句法特征和目标语义特征;
    句法语义分析模块,用于将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;及
    目标信息提取模块,用于根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
  10. 根据权利要求9所述的装置,其特征在于,所述文本标注模块包括:
    文本分词模块,用于将所述待处理文本输入已训练的分词模型进行分词,得到分词结果;
    文本消解模块,用于获取与所述待处理文本对应的分词错误消解规则;
    目标分词获取模块,用于根据所述分词错误消解规则筛选所述分词结果,得到目标分词信息;及
    序列获取模块,用于将所述目标分词信息输入所述基础标注模型进行标注,得到所述标注序列。
  11. 根据权利要求9所述的装置,其特征在于,所述目标信息提取模块包括:
    信息更新模块,用于显示所述目标提取信息,获取与所述目标提取信息对应的信息更新结果;
    信息分析模块,用于将所述信息更新结果输入所述句法语义分析模型进行分析,得到更新后的句法语义分析结果;
    规则更新模块,用于根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则;及
    规则存储模块,用于将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
  12. 根据权利要求9所述的装置,其特征在于,所述装置还包括目标句法特征和目标语义特征确定模块,用于:
    获取所述标注文本中的句法特征和语义特征;
    将所述句法特征和所述语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征;
    将所述细化文本句法特征和所述细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;及
    根据所述特征排序结果确定所述目标句法特征和所述目标语义特征。
  13. 根据权利要求9所述的装置,其特征在于,所述装置还包括基础标注模型更新模块,用于:
    将所述模型训练样本切分为训练样本、验证样本和测试样本;
    将所述训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;
    将所述目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;
    将所述目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;及
    根据所述目标测试样本更新所述基础标注模型。
  14. 一种计算机设备,包括存储器和一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    获取模型训练样本和待处理文本;
    将所述模型训练样本输入标注模型进行标注,得到与所述模型训练样本对应的标注规则;
    根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行 标注,得到标注序列;
    获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
    获取所述标注文本中的目标句法特征和目标语义特征;
    将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;及
    根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
  15. 根据权利要求14所述的计算机设备,其特征在于,所述根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列包括:
    将所述待处理文本输入已训练的分词模型进行分词,得到分词结果;
    获取与所述待处理文本对应的分词错误消解规则;
    根据所述分词错误消解规则筛选所述分词结果,得到目标分词信息;及
    将所述目标分词信息输入所述基础标注模型进行标注,得到所述标注序列。
  16. 根据权利要求14所述的计算机设备,所述句法语义分析模型包括句法分析规则和语义分析规则,其特征在于,所述计算机可读指令被所述一个或多个处理器执行时,使得所述一个或多个处理器还执行以下步骤:
    显示所述目标提取信息,获取与所述目标提取信息对应的信息更新结果;
    将所述信息更新结果输入所述句法语义分析模型进行分析,得到更新后的句法语义分析结果;
    根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则;及
    将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
  17. 根据权利要求14所述的计算机设备,其特征在于,所述获取所述标注文本中的目标句法特征和目标语义特征包括:
    获取所述标注文本中的句法特征和语义特征;
    将所述句法特征和所述语义特征输入已训练的特征细化模型进行特征细化,得到细化句法特征和细化语义特征;
    将所述细化文本句法特征和所述细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;及
    根据所述特征排序结果确定所述目标句法特征和所述目标语义特征。
  18. 根据权利要求14所述的计算机设备,其特征在于,所述将所述模型训练样本输入标注模型进行标注包括:
    将所述模型训练样本切分为训练样本、验证样本和测试样本;
    将所述训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;
    将所述目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样 本;
    将所述目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;及
    根据所述目标测试样本更新所述基础标注模型。
  19. 一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    获取模型训练样本和待处理文本;
    将所述模型训练样本输入标注模型进行标注,得到与所述模型训练样本对应的标注规则;
    根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列;
    获取与所述标注序列对应的序列消解规则,根据所述序列消解规则确定与所述标注序列对应的标注文本;
    获取所述标注文本中的目标句法特征和目标语义特征;
    将所述目标句法特征和所述目标语义特征输入已训练的句法语义分析模型进行分析,得到与所述标注文本对应的句法语义分析结果;及
    根据所述标注文本和所述句法语义分析结果确定与所述待处理文本对应的目标提取信息。
  20. 根据权利要求19所述的存储介质,其特征在于,所述根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列包括:
    将所述待处理文本输入已训练的分词模型进行分词,得到分词结果;
    获取与所述待处理文本对应的分词错误消解规则;
    根据所述分词错误消解规则筛选所述分词结果,得到目标分词信息;及
    将所述目标分词信息输入所述基础标注模型进行标注,得到所述标注序列。
  21. 根据权利要求19所述的存储介质,其特征在于,所述根据所述标注规则建立基础标注模型,将所述待处理文本输入所述基础标注模型进行标注,得到标注序列包括:
    显示所述目标提取信息,获取与所述目标提取信息对应的信息更新结果;
    将所述信息更新结果输入所述句法语义分析模型进行分析,得到更新后的句法语义分析结果;
    根据所述更新后的句法语义分析结果更新所述句法分析规则和所述语义分析规则;及
    将更新后的句法分析规则和语义分析规则存储至所述句法语义分析模型。
  22. 根据权利要求19所述的存储介质,其特征在于,所述获取所述标注文本中的目标句法特征和目标语义特征包括:
    获取所述标注文本中的句法特征和语义特征;
    将所述句法特征和所述语义特征输入已训练的特征细化模型进行特征细化,得到细化 句法特征和细化语义特征;
    将所述细化文本句法特征和所述细化文本语义特征输入与待处理文本对应的决策树模型中进行重要性排序,得到特征排序结果;及
    根据所述特征排序结果确定所述目标句法特征和所述目标语义特征。
  23. 根据权利要求19所述的存储介质,其特征在于,所述将所述模型训练样本输入标注模型进行标注包括:
    将所述模型训练样本切分为训练样本、验证样本和测试样本;
    将所述训练样本输入与基础标注模型对应的训练集进行训练,得到目标训练样本;
    将所述目标训练样本输入与基础标注模型对应的验证集进行验证,得到目标验证样本;
    将所述目标验证样本输入与基础标注模型对应的测试集进行测试,得到目标测试样本;及
    根据所述目标测试样本更新所述基础标注模型。
PCT/CN2019/093158 2018-12-10 2019-06-27 通用文本信息提取方法、装置、计算机设备和存储介质 WO2020119075A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811504386.4A CN109766540B (zh) 2018-12-10 2018-12-10 通用文本信息提取方法、装置、计算机设备和存储介质
CN201811504386.4 2018-12-10

Publications (1)

Publication Number Publication Date
WO2020119075A1 true WO2020119075A1 (zh) 2020-06-18

Family

ID=66451407

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/093158 WO2020119075A1 (zh) 2018-12-10 2019-06-27 通用文本信息提取方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN109766540B (zh)
WO (1) WO2020119075A1 (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754352A (zh) * 2020-06-22 2020-10-09 平安资产管理有限责任公司 一种观点语句正确性的判断方法、装置、设备和存储介质
CN111797629A (zh) * 2020-06-23 2020-10-20 平安医疗健康管理股份有限公司 医疗文本数据的处理方法、装置、计算机设备和存储介质
CN111814487A (zh) * 2020-07-17 2020-10-23 科大讯飞股份有限公司 一种语义理解方法、装置、设备及存储介质
CN111931515A (zh) * 2020-08-10 2020-11-13 鼎富智能科技有限公司 基于合同纠纷判决书的合同条款效力分析方法及装置
CN111966807A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 问答系统的文本处理方法及装置
CN112036179A (zh) * 2020-08-28 2020-12-04 南京航空航天大学 基于文本分类与语义框架的电力预案信息抽取方法
CN112069319A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质
CN112269884A (zh) * 2020-11-13 2021-01-26 北京百度网讯科技有限公司 信息抽取方法、装置、设备及存储介质
CN112307908A (zh) * 2020-10-15 2021-02-02 武汉科技大学城市学院 一种视频语义提取方法及装置
CN112329427A (zh) * 2020-11-26 2021-02-05 北京百度网讯科技有限公司 短信样本的获取方法和装置
CN112507702A (zh) * 2020-12-03 2021-03-16 北京百度网讯科技有限公司 文本信息的抽取方法、装置、电子设备及存储介质
CN112560497A (zh) * 2020-12-10 2021-03-26 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN112613501A (zh) * 2020-12-21 2021-04-06 深圳壹账通智能科技有限公司 信息审核分类模型的构建方法和信息审核方法
CN112699688A (zh) * 2021-01-08 2021-04-23 北京理工大学 一种篇章关系可控的文本生成方法和系统
CN113222149A (zh) * 2021-05-31 2021-08-06 联仁健康医疗大数据科技股份有限公司 模型训练方法、装置、设备和存储介质
CN113268601A (zh) * 2021-03-02 2021-08-17 安徽淘云科技股份有限公司 信息提取方法、阅读理解模型训练方法及相关装置
CN113408296A (zh) * 2021-06-24 2021-09-17 东软集团股份有限公司 一种文本信息提取方法、装置及设备
CN113487617A (zh) * 2021-07-26 2021-10-08 推想医疗科技股份有限公司 数据处理方法、装置、电子设备以及存储介质
CN113808758A (zh) * 2021-08-31 2021-12-17 联仁健康医疗大数据科技股份有限公司 一种检验数据标准化的方法、装置、电子设备和存储介质
CN113806492A (zh) * 2021-09-30 2021-12-17 中国平安人寿保险股份有限公司 基于语义识别的记录生成方法、装置、设备及存储介质
CN113823271A (zh) * 2020-12-18 2021-12-21 京东科技控股股份有限公司 语音分类模型的训练方法、装置、计算机设备及存储介质
CN114020877A (zh) * 2021-11-18 2022-02-08 中科雨辰科技有限公司 一种用于标注文本的数据处理系统
CN114119976A (zh) * 2021-11-30 2022-03-01 广州文远知行科技有限公司 语义分割模型训练、语义分割的方法、装置及相关设备
CN115495541A (zh) * 2022-11-18 2022-12-20 深译信息科技(珠海)有限公司 语料数据库、语料数据库的维护方法、装置、设备和介质
CN115879421A (zh) * 2023-02-16 2023-03-31 之江实验室 一种增强bart预训练任务的句子排序方法及装置
CN111814487B (zh) * 2020-07-17 2024-05-31 科大讯飞股份有限公司 一种语义理解方法、装置、设备及存储介质

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766540B (zh) * 2018-12-10 2022-05-03 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
CN110413749B (zh) * 2019-07-03 2023-06-20 创新先进技术有限公司 确定标准问题的方法及装置
CN110502745B (zh) * 2019-07-18 2023-04-07 平安科技(深圳)有限公司 文本信息评价方法、装置、计算机设备和存储介质
CN110674633A (zh) * 2019-09-18 2020-01-10 平安科技(深圳)有限公司 文书评审的校对方法及装置、存储介质、电子设备
CN110737646A (zh) * 2019-10-21 2020-01-31 北京明略软件系统有限公司 数据标注方法、装置、设备及可读存储介质
CN110765778B (zh) * 2019-10-23 2023-08-29 北京锐安科技有限公司 一种标签实体处理方法、装置、计算机设备和存储介质
CN110826313A (zh) * 2019-10-31 2020-02-21 北京声智科技有限公司 一种信息提取方法、电子设备及计算机可读存储介质
CN111144127B (zh) * 2019-12-25 2023-07-25 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置
CN111159377B (zh) * 2019-12-30 2023-06-30 深圳追一科技有限公司 属性召回模型训练方法、装置、电子设备以及存储介质
CN111368024A (zh) * 2020-02-14 2020-07-03 深圳壹账通智能科技有限公司 文本语义相似度的分析方法、装置及计算机设备
CN111783424B (zh) * 2020-06-17 2024-02-13 泰康保险集团股份有限公司 一种文本分句方法和装置
CN112528671A (zh) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 语义分析方法、装置以及存储介质
CN112579444B (zh) * 2020-12-10 2024-05-07 华南理工大学 基于文本认知的自动分析建模方法、系统、装置及介质
CN112733551A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 文本分析方法、装置、电子设备及可读存储介质
CN113051910B (zh) * 2021-03-19 2023-05-26 上海森宇文化传媒股份有限公司 一种用于预测人物角色情绪的方法和装置
CN113157949A (zh) * 2021-04-27 2021-07-23 中国平安人寿保险股份有限公司 事件信息的抽取方法、装置、计算机设备及存储介质
CN113361644B (zh) * 2021-07-03 2024-05-14 上海理想信息产业(集团)有限公司 模型训练方法、电信业务特征信息提取方法、装置及设备
CN113609847B (zh) * 2021-08-10 2023-10-27 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备及存储介质
CN115563951A (zh) * 2022-10-14 2023-01-03 美的集团(上海)有限公司 文本序列的标注方法、装置、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697192B1 (en) * 2013-06-28 2017-07-04 Digital Reasoning Systems, Inc. Systems and methods for construction, maintenance, and improvement of knowledge representations
CN107766320A (zh) * 2016-08-23 2018-03-06 中兴通讯股份有限公司 一种中文代词消解模型建立方法及装置
CN107894981A (zh) * 2017-12-13 2018-04-10 武汉烽火普天信息技术有限公司 一种案件语义要素的自动抽取方法
CN109766540A (zh) * 2018-12-10 2019-05-17 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794169B (zh) * 2015-03-30 2018-11-20 明博教育科技有限公司 一种基于序列标注模型的学科术语抽取方法及系统
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN108268875B (zh) * 2016-12-30 2020-12-08 广东精点数据科技股份有限公司 一种基于数据平滑的图像语义自动标注方法及装置
CN107423286A (zh) * 2017-07-05 2017-12-01 华中师范大学 初等数学代数型题自动解答的方法与系统
CN107451295B (zh) * 2017-08-17 2020-06-30 四川长虹电器股份有限公司 一种基于文法网络获取深度学习训练数据的方法
CN108255602B (zh) * 2017-11-01 2020-11-27 平安普惠企业管理有限公司 任务组合方法及终端设备
CN108492118B (zh) * 2018-04-03 2020-09-29 电子科技大学 汽车售后服务质量评价回访文本数据的两阶段抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697192B1 (en) * 2013-06-28 2017-07-04 Digital Reasoning Systems, Inc. Systems and methods for construction, maintenance, and improvement of knowledge representations
CN107766320A (zh) * 2016-08-23 2018-03-06 中兴通讯股份有限公司 一种中文代词消解模型建立方法及装置
CN107894981A (zh) * 2017-12-13 2018-04-10 武汉烽火普天信息技术有限公司 一种案件语义要素的自动抽取方法
CN109766540A (zh) * 2018-12-10 2019-05-17 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANG, WEI ET AL.: "Design and Implementation of Geographical Event Information Extraction based on Gate Framework", MODERN SURVEYING AND MAPPING, vol. 38, no. 4, 31 July 2015 (2015-07-31), ISSN: 1672-4097 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754352A (zh) * 2020-06-22 2020-10-09 平安资产管理有限责任公司 一种观点语句正确性的判断方法、装置、设备和存储介质
CN111797629A (zh) * 2020-06-23 2020-10-20 平安医疗健康管理股份有限公司 医疗文本数据的处理方法、装置、计算机设备和存储介质
CN111814487B (zh) * 2020-07-17 2024-05-31 科大讯飞股份有限公司 一种语义理解方法、装置、设备及存储介质
CN111814487A (zh) * 2020-07-17 2020-10-23 科大讯飞股份有限公司 一种语义理解方法、装置、设备及存储介质
CN111931515A (zh) * 2020-08-10 2020-11-13 鼎富智能科技有限公司 基于合同纠纷判决书的合同条款效力分析方法及装置
CN111966807A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 问答系统的文本处理方法及装置
CN112036179A (zh) * 2020-08-28 2020-12-04 南京航空航天大学 基于文本分类与语义框架的电力预案信息抽取方法
CN112036179B (zh) * 2020-08-28 2024-03-26 南京航空航天大学 基于文本分类与语义框架的电力预案信息抽取方法
CN112069319A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质
CN112069319B (zh) * 2020-09-10 2024-03-22 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质
CN112307908B (zh) * 2020-10-15 2022-07-26 武汉科技大学城市学院 一种视频语义提取方法及装置
CN112307908A (zh) * 2020-10-15 2021-02-02 武汉科技大学城市学院 一种视频语义提取方法及装置
CN112269884B (zh) * 2020-11-13 2024-03-05 北京百度网讯科技有限公司 信息抽取方法、装置、设备及存储介质
CN112269884A (zh) * 2020-11-13 2021-01-26 北京百度网讯科技有限公司 信息抽取方法、装置、设备及存储介质
CN112329427A (zh) * 2020-11-26 2021-02-05 北京百度网讯科技有限公司 短信样本的获取方法和装置
CN112329427B (zh) * 2020-11-26 2023-08-08 北京百度网讯科技有限公司 短信样本的获取方法和装置
CN112507702A (zh) * 2020-12-03 2021-03-16 北京百度网讯科技有限公司 文本信息的抽取方法、装置、电子设备及存储介质
CN112507702B (zh) * 2020-12-03 2023-08-22 北京百度网讯科技有限公司 文本信息的抽取方法、装置、电子设备及存储介质
CN112560497A (zh) * 2020-12-10 2021-03-26 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN112560497B (zh) * 2020-12-10 2024-02-13 中国科学技术大学 语义理解方法、装置、电子设备和存储介质
CN113823271A (zh) * 2020-12-18 2021-12-21 京东科技控股股份有限公司 语音分类模型的训练方法、装置、计算机设备及存储介质
CN112613501A (zh) * 2020-12-21 2021-04-06 深圳壹账通智能科技有限公司 信息审核分类模型的构建方法和信息审核方法
CN112699688A (zh) * 2021-01-08 2021-04-23 北京理工大学 一种篇章关系可控的文本生成方法和系统
CN113268601B (zh) * 2021-03-02 2024-05-14 安徽淘云科技股份有限公司 信息提取方法、阅读理解模型训练方法及相关装置
CN113268601A (zh) * 2021-03-02 2021-08-17 安徽淘云科技股份有限公司 信息提取方法、阅读理解模型训练方法及相关装置
CN113222149B (zh) * 2021-05-31 2024-04-26 联仁健康医疗大数据科技股份有限公司 模型训练方法、装置、设备和存储介质
CN113222149A (zh) * 2021-05-31 2021-08-06 联仁健康医疗大数据科技股份有限公司 模型训练方法、装置、设备和存储介质
CN113408296B (zh) * 2021-06-24 2024-02-13 东软集团股份有限公司 一种文本信息提取方法、装置及设备
CN113408296A (zh) * 2021-06-24 2021-09-17 东软集团股份有限公司 一种文本信息提取方法、装置及设备
CN113487617A (zh) * 2021-07-26 2021-10-08 推想医疗科技股份有限公司 数据处理方法、装置、电子设备以及存储介质
CN113808758A (zh) * 2021-08-31 2021-12-17 联仁健康医疗大数据科技股份有限公司 一种检验数据标准化的方法、装置、电子设备和存储介质
CN113808758B (zh) * 2021-08-31 2024-06-07 联仁健康医疗大数据科技股份有限公司 一种检验数据标准化的方法、装置、电子设备和存储介质
CN113806492B (zh) * 2021-09-30 2024-02-06 中国平安人寿保险股份有限公司 基于语义识别的记录生成方法、装置、设备及存储介质
CN113806492A (zh) * 2021-09-30 2021-12-17 中国平安人寿保险股份有限公司 基于语义识别的记录生成方法、装置、设备及存储介质
CN114020877A (zh) * 2021-11-18 2022-02-08 中科雨辰科技有限公司 一种用于标注文本的数据处理系统
CN114020877B (zh) * 2021-11-18 2024-05-10 中科雨辰科技有限公司 一种用于标注文本的数据处理系统
CN114119976B (zh) * 2021-11-30 2024-05-14 广州文远知行科技有限公司 语义分割模型训练、语义分割的方法、装置及相关设备
CN114119976A (zh) * 2021-11-30 2022-03-01 广州文远知行科技有限公司 语义分割模型训练、语义分割的方法、装置及相关设备
CN115495541A (zh) * 2022-11-18 2022-12-20 深译信息科技(珠海)有限公司 语料数据库、语料数据库的维护方法、装置、设备和介质
CN115879421B (zh) * 2023-02-16 2024-01-09 之江实验室 一种增强bart预训练任务的句子排序方法及装置
CN115879421A (zh) * 2023-02-16 2023-03-31 之江实验室 一种增强bart预训练任务的句子排序方法及装置

Also Published As

Publication number Publication date
CN109766540A (zh) 2019-05-17
CN109766540B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
WO2020119075A1 (zh) 通用文本信息提取方法、装置、计算机设备和存储介质
US20230196127A1 (en) Method and device for constructing legal knowledge graph based on joint entity and relation extraction
TWI636452B (zh) 語音識別方法及系統
US20230142217A1 (en) Model Training Method, Electronic Device, And Storage Medium
JP7228662B2 (ja) イベント抽出方法、装置、電子機器及び記憶媒体
US10157171B2 (en) Annotation assisting apparatus and computer program therefor
JP6909832B2 (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
US10140272B2 (en) Dynamic context aware abbreviation detection and annotation
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
US20180189284A1 (en) System and method for dynamically creating a domain ontology
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
WO2021129123A1 (zh) 语料数据处理方法、装置、服务器和存储介质
WO2020199600A1 (zh) 情感极性分析方法及相关装置
WO2021068684A1 (zh) 文档目录自动生成方法、装置、计算机设备及存储介质
TW201403354A (zh) 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
CN111160041A (zh) 语义理解方法、装置、电子设备和存储介质
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
WO2023184633A1 (zh) 一种中文拼写纠错方法及系统、存储介质及终端
CN109086274A (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
CN108268443B (zh) 确定话题点转移以及获取回复文本的方法、装置
CN113705207A (zh) 语法错误识别方法及装置
CN112599211A (zh) 一种医疗实体关系抽取方法及装置

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 07.10.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19896096

Country of ref document: EP

Kind code of ref document: A1