WO2019174422A1 - 实体关联关系的分析方法及相关装置 - Google Patents

实体关联关系的分析方法及相关装置 Download PDF

Info

Publication number
WO2019174422A1
WO2019174422A1 PCT/CN2019/073664 CN2019073664W WO2019174422A1 WO 2019174422 A1 WO2019174422 A1 WO 2019174422A1 CN 2019073664 W CN2019073664 W CN 2019073664W WO 2019174422 A1 WO2019174422 A1 WO 2019174422A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
vector
predicted
participle
speech
Prior art date
Application number
PCT/CN2019/073664
Other languages
English (en)
French (fr)
Inventor
王天祎
Original Assignee
北京国双科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京国双科技有限公司 filed Critical 北京国双科技有限公司
Publication of WO2019174422A1 publication Critical patent/WO2019174422A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Definitions

  • the present invention relates to the field of text analysis technology, and in particular, to an analysis method and related device of an entity association relationship.
  • Text sentiment analysis is mainly to reflect the emotional orientation of users in certain events, people, companies, products, etc. in social media.
  • Entity sentiment analysis refers to analyzing the sentimental tendency of certain entities in the text, rather than the tendency of the whole text. The advantage of this is to make the analysis of the emotional objects more granular.
  • entity sentiment analysis it is more important to know the relationship between entities and attributes in the text, that is, to determine the entities associated with each attribute (such as interior, engine, etc.) in the text (such as BMW, Mercedes-Benz, Audi). Wait).
  • the present invention has been made in order to provide an analysis method and related apparatus for an entity association relationship that overcomes the above problems or at least partially solves the above problems.
  • An analysis method for entity associations including:
  • the prediction model of the association relationship is constructed based on the first principle; the first principle includes: iteratively updating the parameters in the neural network algorithm until the feature vector of the training text is predicted by using the neural network algorithm after updating the parameter.
  • the prediction result is equivalent to the manual annotation result; the feature vector of the training text is obtained according to the vector of each word segmentation of the part-of-speech sequence of the training text.
  • the obtaining a vector of each participle in the part of speech sequence of the text to be predicted includes: obtaining a word vector of each participle in the part of speech sequence of the text to be predicted;
  • the obtaining a vector of each participle in the part of speech sequence of the text to be predicted includes: obtaining a word vector of each participle in the part of speech sequence of the text to be predicted, and a part of speech sequence of the text to be predicted a part of speech vector and/or a packet vector for each participle; a word vector of each of the participles in the part of speech sequence of the text to be predicted, and a part of speech vector of each part of the part of speech of the text to be predicted and/or Or a packet vector, which obtains a vector of each of the participles in the part of speech sequence of the text to be predicted.
  • the prediction model that uses the entity association relationship predicts a vector of each participle in the part of speech sequence of the text to be predicted, and obtains a prediction relationship between the target entity and the corresponding attribute in the text to be predicted.
  • the results include:
  • the first matrix comprises: a vector of each participle in the part of speech sequence of the text to be predicted;
  • the feature vector is processed by the softmax function to obtain a probability output vector.
  • the probability output vector includes: a probability value of the association relationship between the target entity and the corresponding attribute in the text to be predicted in a preset species category.
  • the process of constructing the prediction model of the entity association relationship includes:
  • the third matrix includes: a vector of each participle in the part of speech sequence of the training text;
  • the probability output vector includes: a probability value of an association relationship between the target entity and the corresponding attribute in the training text in a preset species category;
  • the loss function Optimizing the loss function, and updating the first parameter according to the optimized loss function until the probability output vector obtained by predicting the training text with the feature vector obtained by the updated parameter and the manual labeling of the training text
  • the category is equivalent; wherein the first parameter includes the softmax function and a vector of each participle of the part of speech of the training text;
  • the second parameter comprises: the softmax function.
  • An analysis device for an entity association relationship comprising:
  • An obtaining unit configured to obtain a text to be predicted
  • a word segmentation unit configured to perform word segmentation processing on the text to be predicted, to obtain a part-of-speech sequence of the text to be predicted
  • a generating unit configured to obtain a vector of each participle in the part of speech sequence of the text to be predicted
  • a prediction unit configured to predict, by using a prediction model of the entity association relationship, a vector of each participle in the part of speech sequence of the text to be predicted, and obtain a prediction result of an association relationship between the target entity and the corresponding attribute in the text to be predicted
  • the prediction model of the entity association relationship is constructed based on the first principle; the first principle includes: iteratively updating the parameters in the neural network algorithm, and using the neural network algorithm after updating the parameters to characterize the training text.
  • the vector is predicted, and the predicted result is equivalent to the manual labeling result; the feature vector of the training text is obtained according to the vector of each participle of the part of speech of the training text.
  • the generating unit includes:
  • a first obtaining unit configured to obtain a word vector of each participle in the part of speech sequence of the text to be predicted
  • a second obtaining unit comprising: a second obtaining unit, a word vector for obtaining each participle of the part-of-speech sequence of the text to be predicted, and a part-of-speech vector and/or a word package for each part of the part-of-speech sequence of the text to be predicted And combining the word vector of each participle in the part-of-speech sequence of the text to be predicted, and the part-of-speech vector and/or the word package vector of each part of the part-of-speech sequence of the text to be predicted, to obtain the text to be predicted The vector of each participle in the part of speech.
  • the prediction unit includes:
  • a third obtaining unit configured to perform network characterization of the sequence relationship of the first matrix, to obtain a second matrix, where the first matrix includes: a vector of each participle in the part of speech sequence of the text to be predicted;
  • a fourth obtaining unit configured to perform weighted averaging processing on the second matrix according to a weight corresponding to a value of each position in the second matrix, to obtain a feature vector
  • a prediction subunit configured to process the feature vector by using a softmax function to obtain a probability output vector; wherein the probability output vector comprises: an association relationship between a target entity and a corresponding attribute in the training text under a preset species category Probability value.
  • the word segmentation unit is further configured to perform word segmentation processing on the training text to obtain a part-of-speech sequence of the training text;
  • the generating unit is further configured to obtain a vector of each participle in the part of speech sequence of the training text;
  • the third obtaining unit is further configured to perform network characterization of the sequence relationship of the third matrix to obtain a fourth matrix, where the third matrix includes: a vector of each participle in the part of speech sequence of the training text;
  • the fourth obtaining unit is further configured to perform weighted averaging processing on the fourth matrix according to weights corresponding to values of each position in the fourth matrix to obtain a feature vector;
  • the prediction subunit is further configured to process the feature vector by using a softmax function to obtain a probability output vector, where the probability output vector includes: an association relationship between the target entity and the corresponding attribute in the training text is preset Probability value under the category;
  • the method further includes: a comparing unit, configured to perform cross-entropy operation on the probability output vector and the manual labeling category of the training text to obtain a loss function;
  • an updating unit configured to update the first parameter according to the optimized loss function, and the probability output vector obtained by predicting the training text by using the updated feature parameter is equivalent to the manual labeling category of the training text So far; wherein the first parameter comprises a vector of each of the softmax function and the part of speech of the training text;
  • a building unit configured to use the updated second parameter as a parameter in a prediction model of an entity association relationship; wherein the second parameter comprises: the softmax function.
  • a storage medium comprising a stored program, wherein an apparatus for controlling the entity in which the storage medium is located performs an analysis method of the entity association relationship according to any one of the above items when the program is running.
  • a processor for running a program wherein the program is executed to perform an analysis method of an entity association relationship according to any of the above.
  • the part of speech of the text to be predicted is obtained in the part of speech sequence of the text to be predicted.
  • a vector of each participle predicting a vector of each participle in the part-of-speech sequence of the text to be predicted by a prediction model of the entity association relationship, thereby obtaining an association relationship between the entity and the corresponding attribute in the text to be predicted forecast result.
  • the text to be predicted is subjected to word segmentation to obtain a part of speech sequence, and the vector of each participle in the part of speech sequence is obtained, and the word selection is not selected by manual selection, and the word feature is solved due to manual word selection. And the problem of the accuracy of the test results that affect the relationship between entities and attributes.
  • FIG. 1 is a flow chart showing a process of constructing a prediction model of an entity association relationship disclosed in an embodiment of the present invention
  • FIG. 2 is a flowchart showing a specific implementation manner of step S102 disclosed in the embodiment of the present invention.
  • FIG. 3 is a flowchart of a method for analyzing an entity association relationship disclosed by an embodiment of the present invention
  • FIG. 4 is a flowchart showing a specific implementation manner of step S303 disclosed in the embodiment of the present invention.
  • FIG. 5 is a flowchart of a specific implementation manner of step S304 disclosed in the embodiment of the present invention.
  • FIG. 6 is a schematic structural diagram of an apparatus for analyzing an entity association relationship according to an embodiment of the present invention.
  • FIG. 7 is a schematic structural diagram of a generating unit disclosed in an embodiment of the present invention.
  • FIG. 8 is a schematic structural diagram of a prediction unit disclosed in an embodiment of the present invention.
  • the prediction model of the entity association relationship needs to be used to predict the predicted text. Therefore, before performing the analysis method of the entity association relationship disclosed in the embodiment of the present application, it is necessary to construct a prediction model of the entity association relationship.
  • the construction process of the prediction model of the entity association relationship includes:
  • a training document is prepared, and the training document includes at least one training text.
  • the training text is a user's evaluation statement about certain events, people, businesses, products, and so on.
  • LTP Lianguage Technology Platform
  • LTP Lianguage Technology Platform
  • the part-of-speech sequence includes the word segmentation sequence and the part-of-speech result.
  • the word segmentation sequence includes each segmentation word obtained after segmentation of the training text; the part-of-speech result includes the part of speech of each segmentation word.
  • the dependency sequence is an association relationship between each word segment obtained after the word segmentation of the training text.
  • the word segmentation obtained by the word segmentation process is [Mercedes, De, Front, Face, Power, Domineering.
  • the part-of-speech result is [nz, u, nd, n, a, a, wp]; the part-of-speech result is [n, n, v, a, n], in the obtained part-of-speech result, n stands for general noun, noun; v stands for verb, verb; a stands for adjective, adjective; dependency sequence is [ATT, RAD, ATT, SBV, HED, COO, WP], in the resulting dependency sequence, ATT stands for attribute, centering relationship; RAD stands for right Adjunct, right attached relationship; SBV stands for, HED stands for head, core relationship, COO stands for coordinate, side-by-side relationship, WP stands for punctuation, punctuation.
  • each participle in the part of speech sequence of the training text needs to be expressed by using a feature vector. Therefore, it is necessary to obtain a vector of the word segmentation for each participle in the part of speech sequence of the training text.
  • the training text includes an entity and an attribute of the entity, and the part-of-speech sequence after the word segmentation processing of the training text also includes a word segmentation of the corresponding entity and a word segmentation of the attribute of the corresponding entity.
  • the length of the word segmentation of each training text in the training document is counted, and it is judged whether there is an extra long outlier length text in the training document.
  • the standard deviation of the mean value of the segmentation length of the training text is calculated, and the ultra-long outlier length text is the training text other than the multiple of the standard deviation of the mean value. The specific multiple requirements can be set according to the actual situation.
  • the length of the segmentation of the longest training text in the training document is used as the length of the part of the training document, and then the part of the training text is obtained. Each participle in the sequence. If it is determined that there is an extra long outlier text in the training document, the length of the segmentation of the training text with the longest length of the training text remaining in the training document except for the extra long outlier text is used as the The length of the part of speech sequence of the training document. And, the extra long outlier length text in the training document is intercepted according to the length of the part of speech sequence of the training document.
  • the target entity in the training text is centered, and is extended forward and backward until the length of the word segmentation reaches the length of the part of speech sequence of the training document, and then the word sequence of the text after the interception operation of the training text is obtained.
  • the vector of each participle is obtained.
  • the training document there are 10 training texts in the training document, and the length of the word segmentation of each training text is not equal, but the length of the segmentation of the longest one training text is 50, then 50 is the length of the part-of-speech sequence of the training document. If there is a training text in the training document with a length of 1000, then the training text is an extra long out-of-group text.
  • step S102 includes:
  • a word vector for each of the participles in the part of speech sequence of the training text is obtained.
  • the word vector model is separately screened, and the word vector of the current participle in the word vector model is obtained.
  • the open source tool software is used to segment each text sentence in the text library, and the word vector model is used for word vector training, that is, the word vector model is generated.
  • the text library includes an industry corpus and a general corpus, which refers to a text library that is separated from the industry.
  • the role of the word vector model is to map words to a certain latitude space, which can represent the similarity between words and words.
  • the word vector model contains the low-frequency long tail words appearing in the corpus (low-frequency long-tail words refer to words whose frequency is lower than a certain threshold in all vocabulary), and are collectively recorded as UNK (unknown keyword). UNK has a unique word vector in the word vector model.
  • the word vector of the participle uses the UNK word vector.
  • step S102 includes:
  • S1022 Obtain a word vector of each participle in the part-of-speech sequence of the training text, and a part-of-speech vector and/or a word-packet vector of each participle in the part-of-speech sequence of the training text.
  • a random vector of a certain dimension is used for the part of speech. For example, if there are five kinds of words [a, b, c, d, e], then the random vector Va can be used to represent a. Similarly, the random vector Vb is used to represent b, Va. The dimension of Vb can be arbitrarily specified. For each participle in the part of speech sequence of the training text, a corresponding part of speech vector can be obtained according to its part of speech.
  • the word package to which the word segment belongs also affects the judgment of the prediction result of the relationship between the entity and the corresponding attribute.
  • a part of the participle of the training text does not find a corresponding word in the word vector model.
  • the word vector, through the word packet vector of the word segmentation, can be a comprehensive reflection of the word segmentation.
  • a packet vector for each of the participles in the part of speech sequence of the training text can also be obtained.
  • each word segmentation of the part of speech of the training text and the belonging relationship of the industry domain word package are encoded to obtain a word packet vector of each word segment in the part of speech sequence of the training text. For example, it is determined whether each participle in the part of speech sequence of the training text is in the entity word package and is in the evaluation word package. The result of the judgment is encoded to obtain a packet vector of each part of the part of speech of the training text.
  • the word vector, the part of speech vector and/or the word package vector are respectively spliced and combined to form a vector of the participle.
  • the vector of each participle in the part of speech sequence of the training text is combined to obtain the third matrix.
  • a network representation of the sequence relationship of the third matrix is performed by using a bidirectional Bi-LSTM (Long-Short Term Memory) to obtain the fourth matrix.
  • the neural network algorithm is used to normalize the attention mechanism, and each position of the fourth matrix is given a different weight. Specifically, some participles do not need to be too concerned, the weights are weakened, and some participles should strengthen their attention. A weighted average of the values of each position in the fourth matrix is then performed to obtain a feature vector.
  • S105 Process the feature vector by using a softmax function to obtain a probability output vector.
  • the probability output vector is a two-dimensional vector, including probability values of two categories, and the probability value of each category is used to indicate the probability that the association between the word segmentation of the corresponding entity and the word segmentation of the corresponding attribute belongs to the corresponding category.
  • one of the two categories is a pair, indicating that the word segmentation of the corresponding entity and the word segmentation of the corresponding attribute have an association relationship; one category is unpaired, indicating that the word segmentation of the corresponding entity does not have an association relationship with the word segmentation of the corresponding attribute.
  • the word segmentation of the corresponding entity in the part-of-speech sequence of the training text and the word segment belonging to the entity and corresponding attributes are manually input.
  • the participle of the corresponding entity and the participle belonging to the entity and corresponding attributes are combined to form a positive sample.
  • the word segmentation of each corresponding entity in the training text and the word segment belonging to each entity and corresponding attributes are cross-combined to obtain a negative sample set, and then some or all of the negative samples in the negative sample set are selected.
  • the training text is: GS8 interior in the phase, I heard that there are many problems. In the middle of the Outlander quality but not in his interior.
  • the first entity is GS8, the corresponding attribute is interior, the second entity is Outlander, and the corresponding attribute is quality.
  • the positive sample obtained by combining the first entity and the corresponding attribute is: GS8, interior.
  • the positive sample obtained by combining the second entity and the corresponding attribute is: Outlander, quality.
  • the first entity, the second entity, the attribute corresponding to the first entity, and the attribute corresponding to the second entity are cross-combined, and the obtained negative sample set includes: GS8, quality and Outlander, interior.
  • the feature vectors are processed by a softmax function, corresponding to the probability output vectors of each sample, and the probability values of the two categories in the probability output vector can respectively indicate each
  • the relationship between the entities and attributes included in the sample is the probability value of pairing and unpairing.
  • a special identifier is added on both sides of the participle of the corresponding entity and the participle of the corresponding attribute, and the symbol is used as a special index to indicate the entity and The location of the attribute.
  • special identifier is ⁇ e1> ⁇ e1> ⁇ e2> ⁇ e2> identifies the word segmentation and corresponding attribute of the corresponding entity Participle.
  • S106 Perform a cross-entropy operation on the probability output vector and the manual labeling category of the training text to obtain a loss function.
  • the association relationship between the entity and the attribute in the training text is manually identified, and the manual labeling category of the training text is obtained.
  • the first parameter includes the Bi-LSTM, an attention mechanism of the neural network algorithm, the softmax function, and a vector of each participle of the part of speech of the training text.
  • the loss function can be optimized by using a stochastic gradient descent method or an Adam optimization algorithm, etc., and an optimized loss function is obtained, and the updated parameter is recursively layer by layer according to the optimized loss function.
  • the equivalent meaning is that, from the perspective of those skilled in the art, the probability output vector can be regarded as equivalent to the manual labeling category of the training text.
  • the updated second parameter is used as a parameter in a prediction model of an entity association relationship, where the second parameter includes: the Bi-LSTM, the softmax function, and an attention mechanism of the neural network algorithm. .
  • the entity association relationship can be analyzed by the predicted text.
  • the method for analyzing the entity association relationship includes:
  • the text to be predicted is a user's evaluation statement about certain events, people, businesses, products, and the like.
  • the text to be predicted is obtained to analyze the sentiment orientation of the text with respect to the target entity in the text.
  • the open source tool software is also used for word segmentation, and the part-of-speech sequence of the corresponding word segmentation is obtained.
  • the specific implementation process of this step refer to the content of step S101 in the embodiment corresponding to FIG. 1, and details are not described herein again.
  • step S303 includes:
  • a word vector of each of the participles in the part of speech sequence of the text to be predicted is obtained.
  • step S303 includes:
  • S3031 Obtain a word vector of each participle in the part-of-speech sequence of the text to be predicted, and a part-of-speech vector and/or a word-packet vector of each part of the part-of-speech sequence of the text to be predicted.
  • the prediction model of the entity association relationship is constructed based on the first principle; the first principle includes: iteratively updating the parameters in the neural network algorithm until the feature vector of the training text is predicted by using the neural network algorithm after updating the parameter;
  • the obtained prediction result is equivalent to the manual annotation result;
  • the feature vector of the training text is obtained according to the vector of each word segmentation of the part-of-speech sequence of the training text.
  • the word segment sequence of the text to be predicted is obtained, and then the vector of each word segment in the part of speech sequence of the text to be predicted is obtained by the entity.
  • the prediction model of the association predicts the vector of each participle in the part-of-speech sequence of the text to be predicted, and the prediction result of the association relationship between the entity and the corresponding attribute in the text to be predicted is obtained.
  • the text to be predicted is subjected to word segmentation to obtain a part of speech sequence, and the vector of each participle in the part of speech sequence is obtained, and the word selection is not selected by manual selection, and the word feature is solved due to manual word selection. And the problem of the accuracy of the test results that affect the relationship between entities and attributes.
  • step S304 includes:
  • S3041 Perform network characterization on a sequence relationship of the first matrix to obtain a second matrix, where the first matrix includes: a vector of each participle in the part of speech sequence of the text to be predicted.
  • step S103 For the specific implementation of this step, refer to the content of step S103 in the embodiment corresponding to FIG. 1 , and details are not described herein again.
  • S3042 Perform weighted averaging processing on the second matrix according to weights corresponding to values of each position in the second matrix to obtain a feature vector.
  • step S104 For the specific implementation of this step, refer to the content of step S104 in the embodiment corresponding to FIG. 1 , and details are not described herein again.
  • S3043. Process the feature vector by using a softmax function to obtain a probability output vector.
  • the probability output vector includes: a probability value of an association relationship between a target entity and a corresponding attribute in the text to be predicted in two categories.
  • step S105 For the specific implementation of this step, refer to the content of step S105 in the embodiment corresponding to FIG. 1 , and details are not described herein again.
  • Another embodiment of the present application further discloses an apparatus for analyzing an entity association relationship, and the specific working process of each unit included in the application may refer to the content of the embodiment corresponding to FIG. 3.
  • the analyzing apparatus of the entity association relationship includes:
  • the obtaining unit 601 is configured to obtain the text to be predicted.
  • the word segmentation unit 602 is configured to perform word segmentation processing on the to-be-predicted text to obtain a part-of-speech sequence of the to-be-predicted text.
  • the generating unit 603 is configured to obtain a vector of each participle in the part of speech sequence of the text to be predicted.
  • the generating unit 603, referring to FIG. 7, includes:
  • the first obtaining unit 6031 is configured to obtain a word vector of each part of the part of speech sequence of the text to be predicted.
  • the generating unit 603 includes: a second obtaining unit 6032, a word vector for each word segment in the part-of-speech sequence of the text to be predicted, and a part-of-speech vector sum of each part of the part-of-speech sequence of the text to be predicted a word vector; and combining the word vector of each participle in the part-of-speech sequence of the text to be predicted, and the part-of-speech vector and/or the word-packet vector of each part of the part-of-speech sequence of the text to be predicted, A vector describing each participle in the part-of-speech sequence of the predicted text.
  • the prediction unit 604 is configured to predict, by using a prediction model of the entity association relationship, a vector of each word segment in the part-of-speech sequence of the text to be predicted, and obtain a prediction relationship between the target entity and the corresponding attribute in the text to be predicted. a result; wherein the prediction model of the entity association relationship is constructed based on a first principle; the first principle includes: iteratively updating parameters in the neural network algorithm, so that the neural network algorithm using the updated parameter is used to train the text The feature vector is predicted, and the predicted result is equivalent to the manual labeling result; the feature vector of the training text is obtained according to the vector of each word segment of the part of speech of the training text.
  • the prediction unit 604, as shown in FIG. 8, includes:
  • the third obtaining unit 6041 is configured to perform network characterization of the sequence relationship of the first matrix to obtain a second matrix, where the first matrix includes: a vector of each participle in the part of speech sequence of the text to be predicted.
  • the fourth obtaining unit 6042 is configured to perform weighted averaging processing on the second matrix according to the weight corresponding to the value of each position in the second matrix to obtain a feature vector.
  • a prediction sub-unit 6043 configured to process the feature vector by using a softmax function to obtain a probability output vector, where the probability output vector includes: an association relationship between a target entity and a corresponding attribute in the training text in two categories Probability value.
  • the text to be predicted is processed by the word segmentation unit to obtain a part of speech sequence, and the vector of each word segment in the part of speech sequence is obtained by the generating unit, and the word feature is not selected by the manual word selection, and the manual selection is solved.
  • the word and the question of the accuracy of the test result that affects the relationship between the entity and the attribute caused by the word feature.
  • the analyzing device of the entity association relationship may further predict the training text to obtain a prediction model of the entity association relationship.
  • the word segmentation unit 602 is further configured to perform word segmentation processing on the training text to obtain a part-of-speech sequence of the training text.
  • the generating unit 603 is further configured to obtain a vector of each participle in the part of speech sequence of the training text.
  • the third obtaining unit 6041 is further configured to perform network characterization of the sequence relationship of the third matrix to obtain a fourth matrix, where the third matrix includes: a vector of each participle in the part of speech sequence of the training text.
  • the fourth obtaining unit 6042 is further configured to perform weighted averaging processing on the fourth matrix according to the weight corresponding to the value of each position in the fourth matrix to obtain a feature vector.
  • the prediction sub-unit 6043 is further configured to process the feature vector by using a softmax function to obtain a probability output vector; wherein the probability output vector includes: an association relationship between the target entity and the corresponding attribute in the training text in two categories The probability value below.
  • the analyzing device of the entity association relationship further includes: a comparing unit, configured to perform cross-entropy operation on the probability output vector and the manual labeling category of the training text to obtain a loss function.
  • An optimization unit for optimizing the loss function is an optimization unit for optimizing the loss function.
  • an updating unit configured to update the first parameter according to the optimized loss function, and use the feature vector obtained by using the updated parameter to predict the probability output output vector of the training text and the manual labeling category of the training text. Equivalent; wherein the first parameter comprises a vector of each of the softmax function and the part of speech of the training text.
  • a building unit configured to use the updated second parameter as a parameter in a prediction model of an entity association relationship; wherein the second parameter comprises: the softmax function.
  • the analyzing device of the entity association relationship includes a processor and a memory, and the foregoing acquiring unit, word segmentation unit, generating unit, and prediction unit are all stored as a program unit in a memory, and the processor executes the above-mentioned program unit stored in the memory. Implement the corresponding functions.
  • the processor contains a kernel, and the kernel removes the corresponding program unit from the memory.
  • the kernel may set one or more, and adjust the kernel parameters to implement an analysis process of the association relationship between the entity and the corresponding attribute in the text to be predicted, so as to obtain a prediction result of the relationship between the entity and the corresponding attribute in the text to be predicted. .
  • the memory may include non-persistent memory, random access memory (RAM), and/or non-volatile memory in a computer readable medium, such as read only memory (ROM) or flash memory (flash RAM), the memory including at least one Memory chip.
  • RAM random access memory
  • ROM read only memory
  • flash RAM flash memory
  • Embodiments of the present invention provide a storage medium on which a program is stored, and when the program is executed by a processor, an analysis method of the entity association relationship is implemented.
  • An embodiment of the present invention provides a processor, where the processor is configured to run a program, where the program is executed to perform an analysis method of the entity association relationship.
  • the embodiment of the invention provides a device, which may be a server, a PC, a PAD, a mobile phone or the like.
  • the device includes a processor, a memory, and a program stored on the memory and executable on the processor, and the processor implements the following steps when executing the program:
  • An analysis method for entity associations including:
  • the prediction model of the association relationship is constructed based on the first principle; the first principle includes: iteratively updating the parameters in the neural network algorithm until the feature vector of the training text is predicted by using the neural network algorithm after updating the parameter.
  • the prediction result is equivalent to the manual annotation result; the feature vector of the training text is obtained according to the vector of each word segmentation of the part-of-speech sequence of the training text.
  • the obtaining a vector of each participle in the part of speech sequence of the text to be predicted includes: obtaining a word vector of each participle in the part of speech sequence of the text to be predicted;
  • the obtaining a vector of each participle in the part of speech sequence of the text to be predicted includes: obtaining a word vector of each participle in the part of speech sequence of the text to be predicted, and a part of speech sequence of the text to be predicted a part of speech vector and/or a packet vector for each participle; a word vector of each of the participles in the part of speech sequence of the text to be predicted, and a part of speech vector of each part of the part of speech of the text to be predicted and/or Or a packet vector, which obtains a vector of each of the participles in the part of speech sequence of the text to be predicted.
  • the prediction model that uses the entity association relationship predicts a vector of each participle in the part of speech sequence of the text to be predicted, and obtains a prediction relationship between the target entity and the corresponding attribute in the text to be predicted.
  • the results include:
  • the first matrix comprises: a vector of each participle in the part of speech sequence of the text to be predicted;
  • the feature vector is processed by the softmax function to obtain a probability output vector.
  • the probability output vector includes: a probability value of the association relationship between the target entity and the corresponding attribute in the text to be predicted in a preset species category.
  • the process of constructing the prediction model of the entity association relationship includes:
  • the third matrix includes: a vector of each participle in the part of speech sequence of the training text;
  • the probability output vector includes: a probability value of an association relationship between the target entity and the corresponding attribute in the training text in a preset species category;
  • the loss function Optimizing the loss function, and updating the first parameter according to the optimized loss function until the probability output vector obtained by predicting the training text with the feature vector obtained by the updated parameter and the manual labeling of the training text
  • the category is equivalent; wherein the first parameter includes the softmax function and a vector of each participle of the part of speech of the training text;
  • the second parameter comprises: the softmax function.
  • the invention also provides a computer program product, when executed on a data processing device, adapted to perform a process of initializing the method steps as follows:
  • An analysis method for entity associations including:
  • the prediction model of the association relationship is constructed based on the first principle; the first principle includes: iteratively updating the parameters in the neural network algorithm until the feature vector of the training text is predicted by using the neural network algorithm after updating the parameter.
  • the prediction result is equivalent to the manual annotation result; the feature vector of the training text is obtained according to the vector of each word segmentation of the part-of-speech sequence of the training text.
  • the obtaining a vector of each participle in the part of speech sequence of the text to be predicted includes: obtaining a word vector of each participle in the part of speech sequence of the text to be predicted;
  • the obtaining a vector of each participle in the part of speech sequence of the text to be predicted includes: obtaining a word vector of each participle in the part of speech sequence of the text to be predicted, and a part of speech sequence of the text to be predicted a part of speech vector and/or a packet vector for each participle; a word vector of each of the participles in the part of speech sequence of the text to be predicted, and a part of speech vector of each part of the part of speech of the text to be predicted and/or Or a packet vector, which obtains a vector of each of the participles in the part of speech sequence of the text to be predicted.
  • the prediction model that uses the entity association relationship predicts a vector of each participle in the part of speech sequence of the text to be predicted, and obtains a prediction relationship between the target entity and the corresponding attribute in the text to be predicted.
  • the results include:
  • the first matrix comprises: a vector of each participle in the part-of-speech sequence of the text to be predicted;
  • the feature vector is processed by using a softmax function to obtain a probability output vector.
  • the probability output vector includes: a probability value of the relationship between the target entity and the corresponding attribute in the text to be predicted in two categories.
  • the process of constructing the prediction model of the entity association relationship includes:
  • the third matrix includes: a vector of each participle in the part of speech sequence of the training text;
  • the probability output vector includes: a probability value of an association relationship between the target entity and the corresponding attribute in the training text in a preset species category;
  • the loss function Optimizing the loss function, and updating the first parameter according to the optimized loss function until the probability output vector obtained by predicting the training text with the feature vector obtained by the updated parameter and the manual labeling of the training text
  • the category is equivalent; wherein the first parameter includes the softmax function and a vector of each participle of the part of speech of the training text;
  • the second parameter comprises: the softmax function.
  • embodiments of the present application can be provided as a method, system, or computer program product.
  • the present application can take the form of an entirely hardware embodiment, an entirely software embodiment, or an embodiment in combination of software and hardware.
  • the application can take the form of a computer program product embodied on one or more computer-usable storage media (including, but not limited to, disk storage, CD-ROM, optical storage, etc.) including computer usable program code.
  • the computer program instructions can also be stored in a computer readable memory that can direct a computer or other programmable data processing device to operate in a particular manner, such that the instructions stored in the computer readable memory produce an article of manufacture comprising the instruction device.
  • the apparatus implements the functions specified in one or more blocks of a flow or a flow and/or block diagram of the flowchart.
  • the implemented processing such as instructions executed on a computer or other programmable device, provides steps for implementing the functions specified in one or more blocks of the flowchart or in a block or blocks of the flowchart.
  • a computing device includes one or more processors (CPUs), input/output interfaces, network interfaces, and memory.
  • processors CPUs
  • input/output interfaces network interfaces
  • memory volatile and non-volatile memory
  • the memory may include non-persistent memory, random access memory (RAM), and/or non-volatile memory in a computer readable medium, such as read only memory (ROM) or flash memory.
  • RAM random access memory
  • ROM read only memory
  • Memory is an example of a computer readable medium.
  • Computer readable media includes both permanent and non-persistent, removable and non-removable media.
  • Information storage can be implemented by any method or technology.
  • the information can be computer readable instructions, data structures, modules of programs, or other data.
  • Examples of computer storage media include, but are not limited to, phase change memory (PRAM), static random access memory (SRAM), dynamic random access memory (DRAM), other types of random access memory (RAM), read only memory. (ROM), electrically erasable programmable read only memory (EEPROM), flash memory or other memory technology, compact disk read only memory (CD-ROM), digital versatile disk (DVD) or other optical storage, Magnetic tape cartridges, magnetic tape storage or other magnetic storage devices or any other non-transportable media can be used to store information that can be accessed by a computing device.
  • computer readable media does not include temporary storage of computer readable media, such as modulated data signals and carrier waves.
  • embodiments of the present application can be provided as a method, system, or computer program product.
  • the present application can take the form of an entirely hardware embodiment, an entirely software embodiment or an embodiment in combination of software and hardware.
  • the application can take the form of a computer program product embodied on one or more computer-usable storage media (including but not limited to disk storage, CD-ROM, optical storage, etc.) including computer usable program code.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实体关联关系的分析方法及相关装置,其中,所述实体关联关系的分析方法中,对待预测文本进行分词处理得到所述待预测文本的词性序列后,再得到所述待预测文本的词性序列中的每一个分词的向量,由实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,即可得到所述待预测文本中实体和对应属性间的关联关系的预测结果。由于在上述过程中,对待预测文本是进行分词处理得到词性序列,并得到词性序列中的每一个分词的向量,并不是由人工选词并提取词语特征,解决了由于人工选词且提供词语特征而导致的影响实体和属性之间的关联关系的测试结果的准确性的问题。

Description

实体关联关系的分析方法及相关装置
本申请要求于2018年03月16日提交中国专利局、申请号为201810217272.5、发明名称为“实体关联关系的分析方法及相关装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及文本分析技术领域,尤其涉及一种实体关联关系的分析方法及相关装置。
背景技术
文本情感分析主要是为了反映社交媒体中,用户关于某些事件、人物、企业、产品等的情感倾向性。实体情感分析是指分析文本中关于某些实体的情感倾向性,而非整个文本的倾向性,这样的好处是使得情感对象的分析粒度更加清晰。而在实体情感分析中,更为重要的是获知文本中实体和属性的关联关系,即判断出文本中的每个属性(如内饰、发动机等)所关联的实体(如宝马、奔驰、奥迪等)。
现有方案一般主要依赖于人工提取特征进行传统的机器学习分类算法。具体的,人工选择文本中实体和属性之间的词语,并提取该词语的特征输入至分类器,由分类器进行关联关系的分析,得到文本中实体和属性之间的关联关系的测试结果。
由人工选择词语并提取词语的特征,会使得特征提取过程带有很强的主观性,会影响文本中实体和属性之间的关联关系的测试结果的准确性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的实体关联关系的分析方法及相关装置。
一种实体关联关系的分析方法,包括:
获取待预测文本;
对所述待预测文本进行分词处理,得到所述待预测文本的词性序列;
获得所述待预测文本的词性序列中的每一个分词的向量;
利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一 个分词的向量进行预测,得到所述待预测文本中实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,直至利用更新参数后的神经网络算法对训练文本的特征向量进行预测而得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。
可选地,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量;
或者,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。
可选地,所述利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果,包括:
对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量;
依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量;
采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述待预测文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值。
可选地,所述实体关联关系的预测模型的构建过程,包括:
对训练文本进行分词处理,得到所述训练文本的词性序列;
获得所述训练文本的词性序列中的每一个分词的向量;
对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每一个分词的向量;
依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量;
采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值;
将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数;
优化所述损失函数,并根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别等同为止;其中,所述第一参数包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量;
将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。
一种实体关联关系的分析装置,包括:
获取单元,用于获取待预测文本;
分词单元,用于对所述待预测文本进行分词处理,得到所述待预测文本的词性序列;
生成单元,用于获得所述待预测文本的词性序列中的每一个分词的向量;
预测单元,用于利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,使利用更新参数后的神经网络算法对训练文本的特征向量进行预测,预测得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。
可选地,所述生成单元,包括:
第一获得单元,用于获得所述待预测文本的词性序列中的每一个分词 的词向量;
或者,包括:第二获得单元,用于获得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;并组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。
可选地,所述预测单元,包括:
第三获得单元,用于对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量;
第四获得单元,用于依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量;
预测子单元,用于采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值。
可选地,所述分词单元,还用于对训练文本进行分词处理,得到所述训练文本的词性序列;
所述生成单元还用于获得所述训练文本的词性序列中的每一个分词的向量;
所述第三获得单元,还用于对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每一个分词的向量;
所述第四获得单元,还用于依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量;
所述预测子单元,还用于采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值;
还包括:比较单元,用于将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数;
优化单元,用于优化所述损失函数;
更新单元,用于根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别等同为止;其中,所述第一参数包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量;
构建单元,用于将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。
一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上述任一项所述的实体关联关系的分析方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上述任一项所述的实体关联关系的分析方法。
借由上述技术方案,本发明提供的实体关联关系的分析方法及相关装置中,对待预测文本进行分词处理得到所述待预测文本的词性序列后,再得到所述待预测文本的词性序列中的每一个分词的向量,由实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,即可得到所述待预测文本中实体和对应属性间的关联关系的预测结果。由于在上述过程中,对待预测文本是进行分词处理得到词性序列,并得到词性序列中的每一个分词的向量,并不是由人工选词并提取词语特征,解决了由于人工选词且提供词语特征而导致的影响实体和属性之间的关联关系的测试结果的准确性的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例公开的实体关联关系的预测模型的构建过程的流程图;
图2示出了本发明实施例公开的步骤S102的具体执行方式的流程图;
图3示出了本发明实施例公开的实体关联关系的分析方法的流程图;
图4示出了本发明实施例公开的步骤S303的具体执行方式的流程图;
图5示出了本发明实施例公开的步骤S304的具体执行方式的流程图;
图6示出了本发明实施例公开的实体关联关系的分析装置的结构示意图;
图7示出了本发明实施例公开的生成单元的结构示意图;
图8示出了本发明实施例公开的预测单元的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更
透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例中,需要采用实体关联关系的预测模型对待预测文本进行预测。因此,在执行本申请实施例公开的实体关联关系的分析方法之前,需要先构建所述实体关联关系的预测模型。
参见图1,所述实体关联关系的预测模型的构建过程,包括:
S101、对训练文本进行分词处理,得到所述训练文本的词性序列。
其中,准备训练文档,该训练文档中至少包括一个训练文本。训练文本为用户关于某些事件、人物、企业以及产品等的评价语句。
针对训练文档中的每一个训练文本,采用开源工具软件,如LTP(哈工大语言技术平台,Language Technology Platform)进行分词,并获取相应分词的词性序列,其中,所述词性序列包括分词序列、词性结果和依存关系序列。所述分词序列包括对训练文本进行分词后而得到的各个分词;所述词性结果包括各个分词的词性。所述依存关系序列为所述训练文本进 行分词后而得到的各个分词之间的关联关系。
例如:训练文本为奔驰的前脸威武霸气,则对其进行分词处理得到的分词序列为[奔驰,的,前,脸,威武,霸气,。];词性结果为[nz,u,nd,n,a,a,wp];词性结果为[n,n,v,a,n],在得到的词性结果中,n代表general noun,名词;v代表verb,动词;a代表adjective,形容词;依存关系序列为[ATT,RAD,ATT,SBV,HED,COO,WP],得到的依存关系序列中,ATT代表attribute,定中关系;RAD代表right adjunct,右附加关系;SBV代表,HED代表head,核心关系,COO代表coordinate,并列关系,WP代表punctuation,标点符号。
S102、获得所述训练文本的词性序列中的每一个分词的向量。
其中,所述训练文本的词性序列中的每一个分词,需要采用特征向量的方式来表达。因此,需要针对所述训练文本的词性序列中的每一个分词,获得该分词的向量。所述训练文本包括实体和该实体的属性,对所述训练文本进行分词处理后的词性序列中也包括对应实体的分词和对应实体的属性的分词。
还需要说明的是,针对每一个训练文本,在获得其词性序列中的每一个分词的向量之前,还需要确定其分词长度不能过大。因此,统计训练文档中每一个训练文本的分词长度,判断训练文档中是否存在超长的离群长度文本。具体的,计算训练文本的分词长度的均值的标准差,超长的离群长度文本即为分词长度是否超过所述均值的标准差几个倍数以外的训练文本。可以根据实际情况,来设定具体的倍数要求。
若判断出训练文档中不存在超长的离群长度文本,则将所述训练文档中长度最长的训练文本的分词的长度作为所述训练文档的词性序列的长度,再获得训练文本的词性序列中的每一个分词。若判断出训练文档中存在超长的离群长度文本,则将所述训练文档中除超长的离群长度文本以外而剩余的训练文本中,长度最长的训练文本的分词的长度作为所述训练文档的词性序列的长度。并且,依据所述训练文档的词性序列的长度截取所述训练文档中的超长的离群长度文本。具体的,与所述训练文本中的目标实体为中心,向前、后分别扩展直至分词长度至所述训练文档的词性序列 的长度为止,再获得训练文本还行截取操作后的文本的词性序列中每一个分词的向量。
例如:训练文档中存在10条训练文本,每一条训练文本的分词长度不等,但最长的一条训练文本的分词长度为50,那么取50为所述训练文档的词性序列的长度。若训练文档中存有一条训练文本,其分词长度有1000,那么该训练文本即为超长的离群长度文本。
可选地,步骤S102的一种实现方式中,该步骤包括:
获得所述训练文本的词性序列中的每一个分词的词向量。
其中,对于所述训练文本的词性序列中的每一个分词,分别在词向量模型进行筛查,获取当前分词在词向量模型中的词向量。
使用开源工具软件对文本库中每条文本句子进行分词,并使用词向量模型进行词向量训练,即生成词向量模型。所述文本库包括行业语料库和通用语料库,所述通用语料库指脱离行业个性化的文本库。词向量模型的作用是将词映射到一定纬度的空间内,能表征词与词之间的相似性。同时,词向量模型中包含了出现在语料库中的低频长尾词(低频长尾词指在全部词汇中出现频率低于某个阈值的词汇),统一记为UNK(unknown keyword,未知关键字),UNK在词向量模型中共有唯一的词向量。
若所述训练文本的词性序列中的某个分词,在所述词向量模型中没有对应的词向量,那么该分词的词向量即使用UNK词向量。
可选地,步骤S102的另一种实现方式中,参见图2,该步骤包括:
S1022、获得所述训练文本的词性序列中的每一个分词的词向量、以及所述训练文本的词性序列中的每一个分词的词性向量和/或词包向量。
训练文本的词性序列中的每一个分词,其词性的不同,也会导致实体和对应属性间的关联关系的预测结果的不同。因此,还可以获得所述训练文本的词性序列中的每一个分词的词性向量。
具体的,对词性进行一定维数的随机向量,比如词性共有5种[a,b,c,d,e],那么可以用随机向量Va表示a,同理,用随机向量Vb表示b,Va、Vb的维数可以任意指定。针对所述训练文本的词性序列中的每一个分词,可以根据其词性得到对应的词性向量。
同理,分词所属的词包也会影响对实体和对应属性间的关联关系的预测结果的判断,尤其是训练文本的词性序列中的某一个分词并没有在所述词向量模型中找到对应的词向量,通过分词的词包向量,能够能为全面的反映分词。因此,还可以获得所述训练文本的词性序列中的每一个分词的词包向量。
具体的,将所述训练文本的词性序列中的每一个分词和行业领域词包的所属关系,进行编码,得到所述训练文本的词性序列中的每一个分词的词包向量。例如:判断所述训练文本的词性序列中的每一个分词是否在实体词包里,是否在评价语词包里。将判断结果进行编码,得到所述训练文本的词性序列中的每一个分词的词包向量。
1023、组合所述训练文本的词性序列中的每一个分词的词向量、以及所述训练文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述所述训练文本的词性序列中的每一个分词的向量。
其中,针对所述训练文本的词性序列中的每一个分词,分别将其词向量、词性向量和/或词包向量进行拼接组合,形成该分词的向量。
S103、对第三矩阵进行序列关系的网络表征,得到第四矩阵。
其中,组合所述训练文本的词性序列中每一个分词的向量,得到所述第三矩阵。再利用双向的Bi-LSTM(Long-Short Term Memory)对所述第三矩阵进行一次序列关系的网络表征,得到所述第四矩阵。
S104、依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量。
具体的,结合神经网络算法attention机制归一化,赋予所述第四矩阵每个位置以不同的权重。具体的,有些分词不需要太关注,权重弱化,有些分词则应该强化关注。然后对所述第四矩阵中每个位置的数值做加权平均,得到特征向量。
S105、采用softmax函数处理所述特征向量,得到概率输出向量。
其中,所述概率输出向量是一个二维向量,包括两个类别的概率值,每个类别的概率值用于表示对应实体的分词和对应属性的分词之间的关联关系属于对应类别的概率。具体的,两个类别中,一个类别是配对,表明 对应实体的分词和对应属性的分词具有关联关系;一个类别是不配对,表明对应实体的分词和对应属性的分词不具有关联关系。
在采用softmax函数处理所述特征向量之前,还需要得到训练样本的词性序列中的正样本和负样本。具体的,人工输入训练文本的词性序列中的对应实体的分词和属于该实体、且对应属性的分词。将对应实体的分词和属于该实体、且对应属性的分词进行组合,形成正样本。再将所述训练文本中每一个对应实体的分词和属于每一个实体、且对应属性的分词进行交叉组合,得到负样本集合,再选择所述负样本集合中的部分或全部的负样本。
例如:训练文本为:相中GS8内饰,听说小毛病多。相中欧蓝德质量但看不中他的内饰。该训练文本中,第一个实体为GS8,对应属性为内饰,第二个实体为欧蓝德,对应属性为质量。组合第一个实体和对应属性得到的正样本为:GS8,内饰。组合第二个实体和对应属性得到的正样本为:欧蓝德,质量。将第一个实体、第二个实体、第一个实体对应的属性、以及第二个实体对应的属性交叉组合,得到的负样本集合包括:GS8,质量和欧蓝德,内饰。
针对每一个样本(包括正样本和负样本),采用softmax函数处理所述特征向量,分别对应每一个样本的概率输出向量,该概率输出向量中的两种类别的概率值,可以分别表明每一个样本中包括的实体和属性之间的关联关系是配对和不配对的概率值。
还需要说明的是,对于所述训练文本中的词性序列中的每一个分词,在对应实体的分词和对应属性的分词两侧,添加特殊标识符号,该符号作为特殊索引,用于指示实体和属性所在位置。如“<e1>奔驰<\e1>的<e2>前脸<\e2>威武霸气”,特殊标识为<e1><\e1><e2><\e2>标识对应实体的分词和对应属性的分词。
在采用softmax函数处理所述特征向量,得到概率输出向量的过程中,需要通过识别添加的所述特殊标识符号,来确定出所述训练文本中的词性序列中每一个样本的对应实体的分词和对应属性的分词。
S106、将所述概率输出向量与所述训练文本的人工标注类别进行交叉 熵运算,获得损失函数。
其中,对训练文档中的每一个训练文本,人工识别训练文本中实体和属性的关联关系,得到所述训练文本的人工标注类别。
将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,得到的所述损失函数用于表明所述概率输出向量和所述训练文本的人工标注类别的差异。
S107、优化所述损失函数,并根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别基本同为止。
其中,所述第一参数包括所述Bi-LSTM、所述神经网络算法的attention机制、所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量。
具体的,通过随机梯度下降法或者Adam优化算法等,可以实现对所述损失函数进行优化,得到优化后的损失函数,依据所述优化后的损失函数逐层递推得到更新后的参数。
还需要说明的是,本步骤中,等同的含义是:站在本领域技术人员的角度来看,概率输出向量与训练文本的人工标注类别相比可以当成是等同的。
S108、将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述Bi-LSTM、所述softmax函数以及所述神经网络算法的attention机制。
基于由上述实施例的方法构建得到的实体关联关系的预测模型,可对待预测文本进行实体关联关系的分析。具体的,参见图3,所述实体关联关系的分析方法,包括:
S301、获取待预测文本。
其中,所述待预测文本为用户关于某些事件、人物、企业以及产品等的评价语句。获取该待预测文本,以分析对该文本关于文本中的目标实体的情感倾向性。
S302、对所述待预测文本进行分词处理,得到所述待预测文本的词性 序列。
针对待预测文本,同样采用开源工具软件进行分词处理,并获取相应分词的词性序列。本步骤的具体执行过程可参见对应图1的实施例中,步骤S101的内容,此处不再赘述。
S303、获得所述待预测文本的词性序列中的每一个分词的向量。
可选地,步骤S303的一种实现方式中,该步骤包括:
获得所述待预测文本的词性序列中的每一个分词的词向量。
可选地,步骤S303的另一种实现方式中,参见图4,该步骤包括:
S3031、获得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量。
S3032、组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。
其中,上述两个实现方式的具体内容,可以参见对应图1的实施例中,步骤S102的具体实现方式的内容,此处不再赘述。
S304、利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,直至利用更新参数后的神经网络算法对训练文本的特征向量进行预测而得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。
本实施例公开的实体关联关系的分析方法中,对待预测文本进行分词处理得到所述待预测文本的词性序列后,再得到所述待预测文本的词性序列中的每一个分词的向量,由实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,即可得到所述待预测文本中实体和对应属性间的关联关系的预测结果。由于在上述过程中,对待预测文本是进行分词处理得到词性序列,并得到词性序列中的每一个分词的向量,并不是由人工选词并提取词语特征,解决了由于人工选词且提供词语 特征而导致的影响实体和属性之间的关联关系的测试结果的准确性的问题。
可选地,本申请的另一实施例中,参见图5,步骤S304包括:
S3041、对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量。
其中,本步骤的具体实现方式,可参见对应图1的实施例中,步骤S103的内容,此处不再赘述。
S3042、依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量。
其中,本步骤的具体实现方式,可参见对应图1的实施例中,步骤S104的内容,此处不再赘述。
S3043、采用softmax函数处理所述特征向量,得到概率输出向量。
所述概率输出向量包括:所述待预测文本中目标实体和对应属性之间的关联关系在两种类别下的概率值。
其中,本步骤的具体实现方式,可参见对应图1的实施例中,步骤S105的内容,此处不再赘述。
本申请另一实施例还公开了一种实体关联关系的分析装置,其包括的各个单元的具体工作过程可参见对应图3的实施例内容。具体的,参见图6,所述实体关联关系的分析装置包括:
获取单元601,用于获取待预测文本。
分词单元602,用于对所述待预测文本进行分词处理,得到所述待预测文本的词性序列。
生成单元603,用于获得所述待预测文本的词性序列中的每一个分词的向量。
可选地,本申请的另一实施例中,生成单元603,参见图7,包括:
第一获得单元6031,用于获得所述待预测文本的词性序列中的每一个分词的词向量。
或者,生成单元603包括:第二获得单元6032,用于得所述待预测文 本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;并组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。
其中,本实施例公开的生成单元603中的各个单元的具体工作过程可参见上述对应图4的实施例的内容,此处不再赘述。
预测单元604,用于利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,使利用更新参数后的神经网络算法对训练文本的特征向量进行预测,预测得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。
可选地,本申请的另一实施例中,预测单元604,如图8所示,包括:
第三获得单元6041,用于对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量。
第四获得单元6042,用于依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量。
预测子单元6043,用于采用softmax函数处理所述特征向量,得到概率输出向量,其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在两种类别下的概率值。
其中,本实施例公开的预测单元604中的各个单元的具体工作过程可参见上述对应图5的实施例的内容,此处不再赘述。
本实施例中,对待预测文本,由分词单元进行分词处理得到词性序列,并由生成单元得到词性序列中的每一个分词的向量,并不是由人工选词并提取词语特征,解决了由于人工选词且提供词语特征而导致的影响实体和属性之间的关联关系的测试结果的准确性的问题。
可选地,本申请的另一实施例中,所述实体关联关系的分析装置还可以对训练文本进行预测,得到实体关联关系的预测模型。
具体的:分词单元602,还用于对训练文本进行分词处理,得到所述训练文本的词性序列。
生成单元603,还用于获得所述训练文本的词性序列中的每一个分词的向量。
第三获得单元6041,还用于对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每一个分词的向量。
第四获得单元6042,还用于依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量。
预测子单元6043,还用于采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在两种类别下的概率值。
并且,所述实体关联关系的分析装置还包括:比较单元,用于将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数。
优化单元,用于优化所述损失函数。
更新单元,用于根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别基本等同为止;其中,所述第一参数包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量。
构建单元,用于将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。
其中,上述实施例中的各个单元的具体工作过程可参见上述对应图1的实施例的内容,此处不再赘述。
所述实体关联关系的分析装置包括处理器和存储器,上述的获取单元、分词单元、生成单元和预测单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现待预测文本中实体和对应属性之间的关联关系的分析过程,以得到所述待预测文本中实体和对应属性之间的关联关系的预测结果。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述实体关联关系的分析方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述实体关联关系的分析方法。
本发明实施例提供了一种设备,本文中的设备可以是服务器、PC、PAD、手机等。设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
一种实体关联关系的分析方法,包括:
获取待预测文本;
对所述待预测文本进行分词处理,得到所述待预测文本的词性序列;
获得所述待预测文本的词性序列中的每一个分词的向量;
利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,直至利用更新参数后的神经网络算法对训练文本的特征向量进行预测而得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。
可选地,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量;
或者,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量、以及所 述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。
可选地,所述利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果,包括:
对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量;
依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量;
采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述待预测文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值。
可选地,述实体关联关系的预测模型的构建过程,包括:
对训练文本进行分词处理,得到所述训练文本的词性序列;
获得所述训练文本的词性序列中的每一个分词的向量;
对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每一个分词的向量;
依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量;
采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值;
将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数;
优化所述损失函数,并根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别等同为止;其中,所述第一参数 包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量;
将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
一种实体关联关系的分析方法,包括:
获取待预测文本;
对所述待预测文本进行分词处理,得到所述待预测文本的词性序列;
获得所述待预测文本的词性序列中的每一个分词的向量;
利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,直至利用更新参数后的神经网络算法对训练文本的特征向量进行预测而得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。
可选地,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量;
或者,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。
可选地,所述利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果,包括:
对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第 一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量;
依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量;
采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述待预测文本中目标实体和对应属性之间的关联关系在两种类别下的概率值。
可选地,述实体关联关系的预测模型的构建过程,包括:
对训练文本进行分词处理,得到所述训练文本的词性序列;
获得所述训练文本的词性序列中的每一个分词的向量;
对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每一个分词的向量;
依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量;
采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值;
将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数;
优化所述损失函数,并根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别等同为止;其中,所述第一参数包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量;
将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不 限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机
实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可 擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

  1. 一种实体关联关系的分析方法,其特征在于,包括:
    获取待预测文本;
    对所述待预测文本进行分词处理,得到所述待预测文本的词性序列;
    获得所述待预测文本的词性序列中的每一个分词的向量;
    利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,直至利用更新参数后的神经网络算法对训练文本的特征向量进行预测而得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。
  2. 根据权利要求1所述的方法,其特征在于,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量;
    或者,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。
  3. 根据权利要求1所述的方法,其特征在于,所述利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果,包括:
    对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量;
    依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量;
    采用softmax函数处理所述特征向量,得到概率输出向量;其中,所 述概率输出向量包括:所述待预测文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值。
  4. 根据权利要求1所述的方法,其特征在于,所述实体关联关系的预测模型的构建过程,包括:
    对训练文本进行分词处理,得到所述训练文本的词性序列;
    获得所述训练文本的词性序列中的每一个分词的向量;
    对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每一个分词的向量;
    依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量;
    采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值;
    将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数;
    优化所述损失函数,并根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别等同为止;其中,所述第一参数包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量;
    将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。
  5. 一种实体关联关系的分析装置,其特征在于,包括:
    获取单元,用于获取待预测文本;
    分词单元,用于对所述待预测文本进行分词处理,得到所述待预测文本的词性序列;
    生成单元,用于获得所述待预测文本的词性序列中的每一个分词的向量;
    预测单元,用于利用实体关联关系的预测模型对所述待预测文本的词 性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,使利用更新参数后的神经网络算法对训练文本的特征向量进行预测,预测得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。
  6. 根据权利要求5所述的装置,其特征在于,所述生成单元,包括:
    第一获得单元,用于获得所述待预测文本的词性序列中的每一个分词的词向量;
    或者,包括:第二获得单元,用于获得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;并组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。
  7. 根据权利要求5所述的装置,其特征在于,所述预测单元,包括:
    第三获得单元,用于对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量;
    第四获得单元,用于依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量;
    预测子单元,用于采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值。
  8. 根据权利要求5所述的装置,其特征在于,所述分词单元,还用于对训练文本进行分词处理,得到所述训练文本的词性序列;
    所述生成单元还用于获得所述训练文本的词性序列中的每一个分词的向量;
    所述第三获得单元,还用于对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每 一个分词的向量;
    所述第四获得单元,还用于依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量;
    所述预测子单元,还用于采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值;
    还包括:比较单元,用于将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数;
    优化单元,用于优化所述损失函数;
    更新单元,用于根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别等同为止;其中,所述第一参数包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量;
    构建单元,用于将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。
  9. 一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-4中任一项所述的实体关联关系的分析方法。
  10. 一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-4中任一项所述的实体关联关系的分析方法。
PCT/CN2019/073664 2018-03-16 2019-01-29 实体关联关系的分析方法及相关装置 WO2019174422A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810217272.5A CN110276066B (zh) 2018-03-16 2018-03-16 实体关联关系的分析方法及相关装置
CN201810217272.5 2018-03-16

Publications (1)

Publication Number Publication Date
WO2019174422A1 true WO2019174422A1 (zh) 2019-09-19

Family

ID=67907352

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/073664 WO2019174422A1 (zh) 2018-03-16 2019-01-29 实体关联关系的分析方法及相关装置

Country Status (2)

Country Link
CN (1) CN110276066B (zh)
WO (1) WO2019174422A1 (zh)

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704576A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种基于文本的实体关系抽取方法及装置
CN110795934A (zh) * 2019-10-31 2020-02-14 北京金山数字娱乐科技有限公司 语句分析模型的训练方法及装置、语句分析方法及装置
CN110837731A (zh) * 2019-10-12 2020-02-25 创新工场(广州)人工智能研究有限公司 一种词向量训练方法和装置
CN110908709A (zh) * 2019-11-25 2020-03-24 中山大学 一种基于代码更改关键类判定的代码提交注释预测方法
CN111008279A (zh) * 2019-11-27 2020-04-14 云知声智能科技股份有限公司 一种实体关系抽取方法及装置
CN111027291A (zh) * 2019-11-27 2020-04-17 达而观信息科技(上海)有限公司 文本中标点符号添加、模型训练方法、装置及电子设备
CN111079433A (zh) * 2019-11-29 2020-04-28 北京奇艺世纪科技有限公司 一种事件抽取方法、装置及电子设备
CN111104791A (zh) * 2019-11-14 2020-05-05 北京金堤科技有限公司 行业信息获取方法和装置、电子设备和介质
CN111145906A (zh) * 2019-12-31 2020-05-12 清华大学 项目判定方法、相关设备及可读存储介质
CN111160034A (zh) * 2019-12-31 2020-05-15 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111192692A (zh) * 2020-01-02 2020-05-22 上海联影智能医疗科技有限公司 一种实体关系的确定方法、装置、电子设备及存储介质
CN111210233A (zh) * 2020-01-02 2020-05-29 联想(北京)有限公司 用户特征确定方法、装置和电子设备
CN111444714A (zh) * 2020-02-29 2020-07-24 新华三大数据技术有限公司 一种文本分析装置、方法及模型训练方法
CN111460807A (zh) * 2020-03-13 2020-07-28 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN111462893A (zh) * 2020-03-13 2020-07-28 云知声智能科技股份有限公司 一种提供诊断依据的中文病历辅助诊断方法及系统
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111611810A (zh) * 2020-05-29 2020-09-01 河北数云堂智能科技有限公司 一种多音字读音消歧装置及方法
CN111626291A (zh) * 2020-04-07 2020-09-04 上海交通大学 一种图像视觉关系检测方法、系统及终端
CN111694945A (zh) * 2020-06-03 2020-09-22 北京北大软件工程股份有限公司 基于神经网络的法条关联推荐方法及装置
CN111832290A (zh) * 2020-05-25 2020-10-27 北京三快在线科技有限公司 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN111860981A (zh) * 2020-07-03 2020-10-30 航天信息(山东)科技有限公司 一种基于lstm深度学习的企业国民行业类别预测方法及系统
CN112001178A (zh) * 2020-08-27 2020-11-27 广东工业大学 长尾实体的识别与消歧方法
CN112016299A (zh) * 2020-08-31 2020-12-01 支付宝(杭州)信息技术有限公司 计算机执行、利用神经网络生成依存句法树的方法及装置
CN112069818A (zh) * 2020-08-06 2020-12-11 北京捷通华声科技股份有限公司 三元组预测模型生成方法、关系三元组提取方法和装置
CN112131366A (zh) * 2020-09-23 2020-12-25 腾讯科技(深圳)有限公司 训练文本分类模型及文本分类的方法、装置及存储介质
CN112445876A (zh) * 2020-11-25 2021-03-05 中国科学院自动化研究所 融合结构、属性和关系信息的实体对齐方法和系统
CN112560434A (zh) * 2020-12-16 2021-03-26 北京百度网讯科技有限公司 确定文本中要素属性冲突的方法、装置、设备和介质
CN112560463A (zh) * 2020-12-15 2021-03-26 中国平安人寿保险股份有限公司 文本多标注方法、装置、设备及存储介质
CN112733869A (zh) * 2019-10-28 2021-04-30 中移信息技术有限公司 训练文本识别模型的方法、装置、设备及存储介质
CN112835798A (zh) * 2021-02-03 2021-05-25 广州虎牙科技有限公司 聚类学习方法、测试步骤聚类方法及相关装置
CN112966808A (zh) * 2021-01-25 2021-06-15 咪咕音乐有限公司 数据分析方法、装置、服务器和可读存储介质
CN113535973A (zh) * 2021-06-07 2021-10-22 中国科学院软件研究所 基于知识映射的事件关系抽取、语篇关系分析方法及装置
CN113535912A (zh) * 2021-05-18 2021-10-22 北京邮电大学 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN113553841A (zh) * 2020-04-26 2021-10-26 顺丰科技有限公司 词的表征方法、装置、电子设备及存储介质
CN113569559A (zh) * 2021-07-23 2021-10-29 北京智慧星光信息技术有限公司 短文本实体情感分析方法、系统、电子设备及存储介质
CN113722439A (zh) * 2021-08-31 2021-11-30 福州大学 基于对抗性类别对齐网络的跨领域情感分类方法及系统
CN113792539A (zh) * 2021-09-15 2021-12-14 平安科技(深圳)有限公司 基于人工智能的实体关系分类方法、装置、电子设备及介质
CN114047693A (zh) * 2021-10-22 2022-02-15 合肥工业大学 面向充电过程的汽车电池火灾自适应防范方法及系统
CN114462383A (zh) * 2022-04-12 2022-05-10 江西少科智能建造科技有限公司 建筑图纸设计说明书获取方法、系统、存储介质及设备
CN114548102A (zh) * 2020-11-25 2022-05-27 株式会社理光 实体文本的序列标注方法、装置及计算机可读存储介质
CN114841755A (zh) * 2022-05-30 2022-08-02 北京百度网讯科技有限公司 文案的生成方法、装置、电子设备和存储介质
CN117057345A (zh) * 2023-10-11 2023-11-14 腾讯科技(深圳)有限公司 一种角色关系的获取方法及相关产品

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192682B (zh) * 2019-12-25 2024-04-09 上海联影智能医疗科技有限公司 一种影像操练数据处理方法、系统及存储介质
CN111325016B (zh) * 2020-02-04 2024-02-02 深圳证券信息有限公司 一种文本处理方法、系统、设备、介质
CN111523318A (zh) * 2020-04-02 2020-08-11 言图科技有限公司 一种汉语短语分析方法、系统、存储介质及电子设备
CN111611799B (zh) * 2020-05-07 2023-06-02 北京智通云联科技有限公司 基于字典和序列标注模型实体属性抽取方法、系统及设备
CN111859965A (zh) * 2020-06-11 2020-10-30 北京三快在线科技有限公司 一种实体识别模型训练方法、实体识别方法及装置
CN113468878A (zh) * 2021-07-13 2021-10-01 腾讯科技(深圳)有限公司 词性标注方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160314121A1 (en) * 2012-04-02 2016-10-27 Taiger Spain Sl System and method for natural language querying
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN106970981A (zh) * 2017-03-28 2017-07-21 北京大学 一种基于转移矩阵构建关系抽取模型的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792549B2 (en) * 2014-11-21 2017-10-17 International Business Machines Corporation Extraction of semantic relations using distributional relation detection
CN104899304B (zh) * 2015-06-12 2018-02-16 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN106407211B (zh) * 2015-07-30 2019-08-06 富士通株式会社 对实体词的语义关系进行分类的方法和装置
US10394803B2 (en) * 2015-11-13 2019-08-27 International Business Machines Corporation Method and system for semantic-based queries using word vector representation
CN107562752B (zh) * 2016-06-30 2021-05-28 富士通株式会社 对实体词的语义关系进行分类的方法、装置和电子设备
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法
CN107239446B (zh) * 2017-05-27 2019-12-03 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160314121A1 (en) * 2012-04-02 2016-10-27 Taiger Spain Sl System and method for natural language querying
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN106970981A (zh) * 2017-03-28 2017-07-21 北京大学 一种基于转移矩阵构建关系抽取模型的方法

Cited By (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704576B (zh) * 2019-09-30 2022-07-01 北京邮电大学 一种基于文本的实体关系抽取方法及装置
CN110704576A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种基于文本的实体关系抽取方法及装置
CN110837731A (zh) * 2019-10-12 2020-02-25 创新工场(广州)人工智能研究有限公司 一种词向量训练方法和装置
CN112733869A (zh) * 2019-10-28 2021-04-30 中移信息技术有限公司 训练文本识别模型的方法、装置、设备及存储介质
CN112733869B (zh) * 2019-10-28 2024-05-28 中移信息技术有限公司 训练文本识别模型的方法、装置、设备及存储介质
CN110795934B (zh) * 2019-10-31 2023-09-19 北京金山数字娱乐科技有限公司 语句分析模型的训练方法及装置、语句分析方法及装置
CN110795934A (zh) * 2019-10-31 2020-02-14 北京金山数字娱乐科技有限公司 语句分析模型的训练方法及装置、语句分析方法及装置
CN111104791B (zh) * 2019-11-14 2024-02-20 北京金堤科技有限公司 行业信息获取方法和装置、电子设备和介质
CN111104791A (zh) * 2019-11-14 2020-05-05 北京金堤科技有限公司 行业信息获取方法和装置、电子设备和介质
CN110908709A (zh) * 2019-11-25 2020-03-24 中山大学 一种基于代码更改关键类判定的代码提交注释预测方法
CN110908709B (zh) * 2019-11-25 2023-05-02 中山大学 一种基于代码更改关键类判定的代码提交注释预测方法
CN111027291B (zh) * 2019-11-27 2024-03-26 达观数据有限公司 文本中标点符号添加、模型训练方法、装置及电子设备
CN111027291A (zh) * 2019-11-27 2020-04-17 达而观信息科技(上海)有限公司 文本中标点符号添加、模型训练方法、装置及电子设备
CN111008279B (zh) * 2019-11-27 2023-11-14 云知声智能科技股份有限公司 一种实体关系抽取方法及装置
CN111008279A (zh) * 2019-11-27 2020-04-14 云知声智能科技股份有限公司 一种实体关系抽取方法及装置
CN111079433A (zh) * 2019-11-29 2020-04-28 北京奇艺世纪科技有限公司 一种事件抽取方法、装置及电子设备
CN111079433B (zh) * 2019-11-29 2023-10-27 北京奇艺世纪科技有限公司 一种事件抽取方法、装置及电子设备
CN111145906B (zh) * 2019-12-31 2024-04-30 清华大学 项目判定方法、相关设备及可读存储介质
CN111160034B (zh) * 2019-12-31 2024-02-27 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111145906A (zh) * 2019-12-31 2020-05-12 清华大学 项目判定方法、相关设备及可读存储介质
CN111160034A (zh) * 2019-12-31 2020-05-15 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111192692A (zh) * 2020-01-02 2020-05-22 上海联影智能医疗科技有限公司 一种实体关系的确定方法、装置、电子设备及存储介质
CN111210233B (zh) * 2020-01-02 2023-12-26 联想(北京)有限公司 用户特征确定方法、装置和电子设备
CN111210233A (zh) * 2020-01-02 2020-05-29 联想(北京)有限公司 用户特征确定方法、装置和电子设备
CN111192692B (zh) * 2020-01-02 2023-12-08 上海联影智能医疗科技有限公司 一种实体关系的确定方法、装置、电子设备及存储介质
CN111444714A (zh) * 2020-02-29 2020-07-24 新华三大数据技术有限公司 一种文本分析装置、方法及模型训练方法
CN111444714B (zh) * 2020-02-29 2023-04-07 新华三大数据技术有限公司 一种文本分析装置、方法及模型训练方法
CN111462893B (zh) * 2020-03-13 2023-08-04 云知声智能科技股份有限公司 一种提供诊断依据的中文病历辅助诊断方法及系统
CN111460807A (zh) * 2020-03-13 2020-07-28 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN111460807B (zh) * 2020-03-13 2024-03-12 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN111462893A (zh) * 2020-03-13 2020-07-28 云知声智能科技股份有限公司 一种提供诊断依据的中文病历辅助诊断方法及系统
CN111626291A (zh) * 2020-04-07 2020-09-04 上海交通大学 一种图像视觉关系检测方法、系统及终端
CN111626291B (zh) * 2020-04-07 2023-04-25 上海交通大学 一种图像视觉关系检测方法、系统及终端
CN113553841A (zh) * 2020-04-26 2021-10-26 顺丰科技有限公司 词的表征方法、装置、电子设备及存储介质
CN113553841B (zh) * 2020-04-26 2024-02-20 顺丰科技有限公司 词的表征方法、装置、电子设备及存储介质
CN111476035B (zh) * 2020-05-06 2023-09-05 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111832290B (zh) * 2020-05-25 2024-04-02 北京三快在线科技有限公司 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN111832290A (zh) * 2020-05-25 2020-10-27 北京三快在线科技有限公司 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN111611810B (zh) * 2020-05-29 2023-08-04 河北数云堂智能科技有限公司 一种多音字读音消歧装置及方法
CN111611810A (zh) * 2020-05-29 2020-09-01 河北数云堂智能科技有限公司 一种多音字读音消歧装置及方法
CN111694945A (zh) * 2020-06-03 2020-09-22 北京北大软件工程股份有限公司 基于神经网络的法条关联推荐方法及装置
CN111860981B (zh) * 2020-07-03 2024-01-19 航天信息(山东)科技有限公司 一种基于lstm深度学习的企业国民行业类别预测方法及系统
CN111860981A (zh) * 2020-07-03 2020-10-30 航天信息(山东)科技有限公司 一种基于lstm深度学习的企业国民行业类别预测方法及系统
CN112069818B (zh) * 2020-08-06 2024-05-24 北京捷通华声科技股份有限公司 三元组预测模型生成方法、关系三元组提取方法和装置
CN112069818A (zh) * 2020-08-06 2020-12-11 北京捷通华声科技股份有限公司 三元组预测模型生成方法、关系三元组提取方法和装置
CN112001178A (zh) * 2020-08-27 2020-11-27 广东工业大学 长尾实体的识别与消歧方法
CN112016299B (zh) * 2020-08-31 2023-11-14 支付宝(杭州)信息技术有限公司 计算机执行、利用神经网络生成依存句法树的方法及装置
CN112016299A (zh) * 2020-08-31 2020-12-01 支付宝(杭州)信息技术有限公司 计算机执行、利用神经网络生成依存句法树的方法及装置
CN112131366B (zh) * 2020-09-23 2024-02-09 腾讯科技(深圳)有限公司 训练文本分类模型及文本分类的方法、装置及存储介质
CN112131366A (zh) * 2020-09-23 2020-12-25 腾讯科技(深圳)有限公司 训练文本分类模型及文本分类的方法、装置及存储介质
CN112445876B (zh) * 2020-11-25 2023-12-26 中国科学院自动化研究所 融合结构、属性和关系信息的实体对齐方法和系统
CN114548102A (zh) * 2020-11-25 2022-05-27 株式会社理光 实体文本的序列标注方法、装置及计算机可读存储介质
CN112445876A (zh) * 2020-11-25 2021-03-05 中国科学院自动化研究所 融合结构、属性和关系信息的实体对齐方法和系统
CN112560463B (zh) * 2020-12-15 2023-08-04 中国平安人寿保险股份有限公司 文本多标注方法、装置、设备及存储介质
CN112560463A (zh) * 2020-12-15 2021-03-26 中国平安人寿保险股份有限公司 文本多标注方法、装置、设备及存储介质
CN112560434A (zh) * 2020-12-16 2021-03-26 北京百度网讯科技有限公司 确定文本中要素属性冲突的方法、装置、设备和介质
CN112560434B (zh) * 2020-12-16 2024-05-28 北京百度网讯科技有限公司 确定文本中要素属性冲突的方法、装置、设备和介质
CN112966808A (zh) * 2021-01-25 2021-06-15 咪咕音乐有限公司 数据分析方法、装置、服务器和可读存储介质
CN112835798A (zh) * 2021-02-03 2021-05-25 广州虎牙科技有限公司 聚类学习方法、测试步骤聚类方法及相关装置
CN112835798B (zh) * 2021-02-03 2024-02-20 广州虎牙科技有限公司 聚类学习方法、测试步骤聚类方法及相关装置
CN113535912A (zh) * 2021-05-18 2021-10-22 北京邮电大学 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN113535912B (zh) * 2021-05-18 2023-12-26 北京邮电大学 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN113535973B (zh) * 2021-06-07 2023-06-23 中国科学院软件研究所 基于知识映射的事件关系抽取、语篇关系分析方法及装置
CN113535973A (zh) * 2021-06-07 2021-10-22 中国科学院软件研究所 基于知识映射的事件关系抽取、语篇关系分析方法及装置
CN113569559B (zh) * 2021-07-23 2024-02-02 北京智慧星光信息技术有限公司 短文本实体情感分析方法、系统、电子设备及存储介质
CN113569559A (zh) * 2021-07-23 2021-10-29 北京智慧星光信息技术有限公司 短文本实体情感分析方法、系统、电子设备及存储介质
CN113722439B (zh) * 2021-08-31 2024-01-09 福州大学 基于对抗性类别对齐网络的跨领域情感分类方法及系统
CN113722439A (zh) * 2021-08-31 2021-11-30 福州大学 基于对抗性类别对齐网络的跨领域情感分类方法及系统
CN113792539A (zh) * 2021-09-15 2021-12-14 平安科技(深圳)有限公司 基于人工智能的实体关系分类方法、装置、电子设备及介质
CN113792539B (zh) * 2021-09-15 2024-02-20 平安科技(深圳)有限公司 基于人工智能的实体关系分类方法、装置、电子设备及介质
CN114047693A (zh) * 2021-10-22 2022-02-15 合肥工业大学 面向充电过程的汽车电池火灾自适应防范方法及系统
CN114047693B (zh) * 2021-10-22 2023-12-22 合肥工业大学 面向充电过程的汽车电池火灾自适应防范方法及系统
CN114462383A (zh) * 2022-04-12 2022-05-10 江西少科智能建造科技有限公司 建筑图纸设计说明书获取方法、系统、存储介质及设备
CN114841755A (zh) * 2022-05-30 2022-08-02 北京百度网讯科技有限公司 文案的生成方法、装置、电子设备和存储介质
CN117057345B (zh) * 2023-10-11 2024-01-30 腾讯科技(深圳)有限公司 一种角色关系的获取方法及相关产品
CN117057345A (zh) * 2023-10-11 2023-11-14 腾讯科技(深圳)有限公司 一种角色关系的获取方法及相关产品

Also Published As

Publication number Publication date
CN110276066A (zh) 2019-09-24
CN110276066B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
WO2019174422A1 (zh) 实体关联关系的分析方法及相关装置
WO2019174423A1 (zh) 实体情感分析方法及相关装置
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN112860841B (zh) 一种文本情感分析方法、装置、设备及存储介质
CN107102993B (zh) 一种用户诉求分析方法和装置
TW202030685A (zh) 電腦執行的事件風險評估的方法及裝置
US10067983B2 (en) Analyzing tickets using discourse cues in communication logs
CN109508373B (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
US11556812B2 (en) Method and device for acquiring data model in knowledge graph, and medium
CN112784063B (zh) 一种成语知识图谱构建方法及装置
CN108959474B (zh) 实体关系提取方法
CN111079186B (zh) 数据分析的方法、装置、设备和存储介质
CN110019660A (zh) 一种相似文本检测方法及装置
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN102789473A (zh) 标识符检索方法和设备
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112084448A (zh) 相似信息处理方法以及装置
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN105786929B (zh) 一种信息监测方法及装置
WO2023083176A1 (zh) 样本处理方法、设备及计算机可读存储介质
US20230316301A1 (en) System and method for proactive customer support
CN113239273B (zh) 用于生成文本的方法、装置、设备以及存储介质
CN110728131A (zh) 一种分析文本属性的方法和装置
Zhuo Consumer demand behavior mining and product recommendation based on online product review mining and fuzzy sets

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19768537

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19768537

Country of ref document: EP

Kind code of ref document: A1