WO2018086470A1 - 关键词提取方法、装置和服务器 - Google Patents

关键词提取方法、装置和服务器 Download PDF

Info

Publication number
WO2018086470A1
WO2018086470A1 PCT/CN2017/108262 CN2017108262W WO2018086470A1 WO 2018086470 A1 WO2018086470 A1 WO 2018086470A1 CN 2017108262 W CN2017108262 W CN 2017108262W WO 2018086470 A1 WO2018086470 A1 WO 2018086470A1
Authority
WO
WIPO (PCT)
Prior art keywords
keyword
feature
candidate
sample
target
Prior art date
Application number
PCT/CN2017/108262
Other languages
English (en)
French (fr)
Inventor
鲍晓
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Publication of WO2018086470A1 publication Critical patent/WO2018086470A1/zh
Priority to US16/263,364 priority Critical patent/US10878004B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present application relates to the field of information processing technologies, and in particular, to a keyword extraction method, apparatus, and server.
  • Some mainstream keyword extraction techniques typically extract keywords based on word frequency features. For example, a keyword extraction technique based on the TF-IDF (Term Frequency–Inverse Document Frequency) algorithm and a keyword extraction technique based on the TextRank algorithm. In practical applications, it is found that the accuracy of keywords extracted only by word frequency feature extraction is not high, and the position of words in the text, the correlation between words and text topics, the part of words and other characteristics should be considered. .
  • TF-IDF Term Frequency–Inverse Document Frequency
  • a keyword extraction method based on rule multi-feature fusion is provided, and the specific process is as follows: word segmentation processing on target text to obtain multiple words; using TF-IDF algorithm or TextRank algorithm to calculate each word The keyword score of the word is selected; several words with higher keyword scores are selected as candidate keywords; and then keywords are selected from the candidate keywords according to some manually formulated rules. For example, a candidate keyword with a low frequency of words is recalled, and a candidate keyword with a high frequency of words is recalled; for example, a candidate keyword that is not related to the text topic is filtered, and candidate keywords related to the text topic are recalled; for example, recalling in the title of the text Candidate keywords that appear and are enclosed in the title of the book, and so on. After a series of filtering and recalling of candidate keywords according to manually formulated rules, the final candidate keywords are used as keywords for the text.
  • the embodiment of the present application provides a keyword extraction method, device, and server.
  • the technical solution is as follows:
  • a keyword extraction method comprising:
  • a keyword extraction apparatus comprising:
  • An extraction module configured to extract candidate keywords from the target text
  • a first obtaining module configured to acquire, for each candidate keyword, a valid feature corresponding to the candidate keyword, where the valid feature is a feature for determining whether the keyword is a target keyword;
  • a first determining module configured to calculate, according to the effective feature corresponding to the candidate keyword, a weighting coefficient corresponding to each of the effective features, a probability that the candidate keyword belongs to the target keyword, and determine, according to the probability, whether the The candidate keyword is used as a target keyword of the target text.
  • a server comprising:
  • One or more processors are One or more processors.
  • the memory stores one or more programs, the one or more programs being configured to be executed by the one or more processors to implement a keyword extraction method as described in the first aspect above.
  • the probability that the candidate keyword belongs to the target keyword is obtained by calculating the weighting coefficients corresponding to the effective features and the effective features corresponding to the candidate keywords, and determining whether the candidate keyword is the target key of the target text according to the probability.
  • Words so that the use of features does not need to be achieved through manual rules, thus avoiding the process of keyword extraction due to more artificially-defined rules. Too complicated problems also avoid the problem that the accuracy of keyword extraction is low due to unreasonable and inaccurate defects due to artificially established rules, which reduces the complexity of keyword extraction and improves keyword extraction. The accuracy rate.
  • the keyword determination is performed based on the effective features, and the feature that the determination of the target keyword is invalid is excluded, and on the one hand, the amount of calculation can be reduced, and on the other hand, Helps improve the accuracy of keyword extraction.
  • FIG. 1A is a structural diagram of a server provided by an embodiment of the present application.
  • FIG. 1B is a flowchart of a keyword extraction method provided by an embodiment of the present application.
  • Figure 2A shows a flow chart of the feature screening process
  • 2B is a schematic diagram showing the relationship between sample proportions and feature values corresponding to several candidate features
  • FIG. 3 is a flowchart of a keyword extraction method according to another embodiment of the present application.
  • Figure 4 shows a schematic diagram of the comparison between the artificial feature engineering and the feature processing using the GBDT model
  • Figure 5 shows a flow chart of the model training process
  • Figure 6 shows a schematic diagram of the fusion of the GBDT model and the LR model
  • FIG. 7 is a structural diagram of a technical solution provided by an embodiment of the present application.
  • FIG. 8 is a block diagram of a keyword extracting apparatus provided by an embodiment of the present application.
  • FIG. 9 is a schematic structural diagram of a server provided by an embodiment of the present application.
  • the technical solution provided by the embodiment of the present application is mainly used for extracting keywords in a text.
  • the type of the text is not limited, such as an article, a webpage, a document, and the like.
  • keyword extraction is involved, for example, a keyword extracted from text is used as a label of the text, a category to which the text belongs according to a keyword extracted from the text, and a keyword extracted from the text are used as Index the text to implement searching for the text, and so on.
  • the method provided by the embodiment of the present application may be a server.
  • the server can be a server, a server cluster consisting of multiple servers, or a cloud computing service center.
  • FIG. 1A is a block diagram of a server 100 provided by an embodiment of the present application.
  • the server 100 may include a server for implementing the keyword extraction platform 120.
  • the server 100 may further include a server for implementing the keyword management platform 140.
  • the server 100 further includes A server that implements the keyword application platform 160.
  • the keyword management platform 140 includes: a server for storing and managing keywords of each text extracted by the keyword extraction platform 120.
  • the keyword application platform 160 includes: a server for providing a keyword-related application service to the terminal according to keywords of each text.
  • the wireless or wired network described above uses standard communication techniques and/or protocols.
  • the network is usually the Internet, but can also be any network, including but not limited to a Local Area Network (LAN), a Metropolitan Area Network (MAN), a Wide Area Network (WAN), a mobile, a wired or a wireless. Any combination of networks, private networks, or virtual private networks).
  • data exchanged over a network is represented using techniques and/or formats including Hyper Text Markup Language (HTML), Extensible Markup Language (XML), and the like.
  • SSL Secure Socket Layer
  • TLS Trassport Layer Security
  • VPN Virtual Private Network
  • Internet Internet Protocol Security
  • Conventional encryption technologies such as Protocol Security, IPsec) encrypt all or some links.
  • the above described data communication techniques may also be replaced or supplemented using custom and/or dedicated data communication techniques.
  • FIG. 1B is a flowchart of a keyword extraction method provided by an embodiment of the present application.
  • the method can include the following steps.
  • Step 101 Extract candidate keywords from the target text.
  • the target text refers to the text to be extracted.
  • the target text can be a news article, including the title and body of the news article.
  • the candidate keyword refers to a word that is initially selected from the target text and is likely to be the target keyword.
  • this step includes the following substeps:
  • Step 101a performing word segmentation on the target text to obtain a plurality of words
  • different preset vocabularies may be set corresponding to different classified texts.
  • the classification can include news, entertainment, sports, military, and so on.
  • the preset vocabulary corresponding to each classified text refers to a vocabulary composed of pre-set words that can be selected as keywords of this type of text.
  • the preset vocabulary corresponding to the text of the entertainment classification includes entertainment-related words, such as the name of the entertainment star, the name of the movie drama, the name of the variety show, and the like; and, for example, the preset word corresponding to the text of the sports classification.
  • the library includes sports-related words such as the name of the sports star, the name of the sport, the name of the team, and so on.
  • the step 101b may include: acquiring a category to which the target text belongs, and selecting, from the plurality of words obtained by performing word segmentation on the target text, the points belonging to the target text.
  • the words in the class's default vocabulary are used as candidate keywords. In the above manner, the extracted candidate keywords can be made more relevant to the classification of the text.
  • Step 102 For each candidate keyword, obtain valid features corresponding to the candidate keywords.
  • the effective feature may also be referred to as a distinguishing feature, which refers to a feature that has a distinguishing function on the determination of the target keyword.
  • the effective feature may be used to determine whether a keyword is a target key.
  • the characteristics of the word Among them, keywords generally have the following characteristics: appear in the title of the text, appear multiple times in the text, conform to the semantics of the text expression, and occupy most of the length of the text.
  • the keywords in the text should have positional influence, frequency influence, semantic influence, and coverage influence.
  • the effective features that affect the keyword extraction can be divided into at least four types: word frequency feature, location feature, semantic feature and language feature.
  • the word frequency feature is a feature used to indicate how frequently a word appears in the text.
  • the word frequency feature may include: a TF-IDF corresponding to the word, a ratio of the number of paragraphs in the text in which the word appears to the total number of paragraphs of the text, and the like.
  • a location feature is a feature used to indicate where a word appears in the text.
  • the location feature may include a position between the first occurrence of the word in the text, whether the word appears in the title of the text, a span between the first occurrence of the word in the text, and the last occurrence of the text. The ratio of the total length, and so on.
  • Semantic features are features used to indicate the relevance of a word to a text topic.
  • the semantic features may include: the relevance of the word to the text topic, the relevance of the word to the LDA (Latent Dirichlet Allocation) theme of the text, and the like.
  • a linguistic feature is a feature used to indicate the basic attributes of a word.
  • language features may include: word length, part of speech (such as nouns, verbs, adjectives), word classification (such as names of people, place names), and so on.
  • a large number of candidate features that may affect keyword extraction may be preset, and effective features are selected from among the large number of candidate features in the following manner:
  • Step 21 acquiring a plurality of candidate features and a plurality of annotation samples
  • the label sample refers to the text that has been marked with the target keyword.
  • the candidate feature refers to a feature that is preset to have a distinguishing function for the determination of the target keyword.
  • Step 22 For each candidate feature, count the proportion of samples on each feature value of the candidate feature;
  • the proportion of samples is positive or negative
  • the proportion of positive samples is the ratio of the number of positive samples in the sample of the index to the number of labeled samples.
  • the proportion of negative samples is the number of negative samples in the sample of the indicator.
  • the ratio of the number of labeled samples, the positive sample refers to the target with the eigenvalues that match the candidate features
  • the labeled sample of the keyword, the negative sample refers to the labeled sample of the target keyword that does not have the feature value of the candidate feature.
  • the candidate feature is taken as the first occurrence of the word in the text, and the number of the labeled sample is 100, and the first occurrence of the keyword in the text is the labeled sample of the first segment.
  • the number is 60, the number of the first occurrence of the keyword in the text is 20 in the second paragraph, and the number of the labeled sample in the third paragraph in the first position of the keyword is 20;
  • the eigenvalue is the first segment
  • the number of positive samples is 60 and the number of negative samples is 40, the proportion of positive samples is 0.6 and the proportion of negative samples is 0.4
  • the eigenvalue is the second segment, the number of positive samples It is 20 and the number of negative samples is 80, the proportion of positive samples is 0.2 and the proportion of negative samples is 0.8.
  • Step 23 If the relationship between the sample ratio and the feature value of the candidate feature meets a preset condition, the candidate feature is determined as an effective feature.
  • the foregoing preset condition may be that the relationship between the sample ratio and the feature value of the candidate feature is monotonously increasing or monotonically decreasing. If the candidate feature satisfies the above preset condition, the candidate feature may be considered as an effective feature having a distinguishing function for the determination of the target keyword.
  • each of the determined effective features is used as a basis for determining the target keyword when extracting keywords from any target text. For example, 50 valid features are filtered out from thousands of candidate features in advance through steps 21 to 23, and when the target keywords are subsequently extracted from any target text, the effective features corresponding to each candidate keyword are 50 valid features.
  • FIG. 2B exemplarily shows a schematic diagram of the relationship between sample proportions and feature values corresponding to several candidate features.
  • the abscissa indicates the feature value of the candidate feature
  • the ordinate indicates the sample ratio.
  • curve 1 represents a positive sample ratio
  • curve 2 represents a negative sample ratio. It can be seen from Fig. 2B whether the word appears in the title of the text, the TF-IDF corresponding to the word, the TextRank corresponding to the word, the difference between the first occurrence and the last occurrence of the word in the text.
  • Candidate features such as the relevance of values, words, and LDA topics of text can be selected as valid features.
  • the slope of the curve may also be referred to, and the candidate feature with a larger slope is more valuable, and may be preferentially selected as the effective feature.
  • candidate features for example, may include more than 20 word frequency features and location features, more than 2000 semantic features, and more than 50 language features) may be selected in the above manner. Effective features.
  • Step 103 According to the effective feature corresponding to the candidate keyword and each valid feature respectively The weight coefficient is calculated, and the probability that the candidate keyword belongs to the target keyword is obtained, and whether the candidate keyword is used as the target keyword of the target text is determined according to the probability.
  • the weighting coefficients corresponding to the effective features may be pre-calculated by the algorithm, or may be obtained through training of the model.
  • the feature value of each valid feature corresponding to the candidate keyword may be multiplied by the weighting coefficient corresponding to the valid feature to obtain a multiplication result, and the multiplication results corresponding to the valid features are cumulatively obtained.
  • the probability that the candidate keyword belongs to the target keyword When determining whether the candidate keyword is the target keyword of the target text according to the probability, the candidate keyword whose probability is greater than the probability threshold is determined as the target keyword of the target text, that is, when the probability of one candidate keyword is greater than the probability threshold, The candidate keyword is determined as the target keyword of the target text.
  • the probability threshold may be set according to the extraction precision requirement of the target keyword. If the extraction precision of the target keyword is not high, a low probability threshold may be set; if the extraction precision of the target keyword is high, a high probability threshold may be set.
  • the method provided in this embodiment may further construct a keyword evaluation model in advance, and perform a calculation by using a keyword evaluation model according to each of the effective features corresponding to the candidate keyword and the weighting coefficients corresponding to each effective feature.
  • the keyword belongs to the probability of the target keyword, and determines whether the candidate keyword is the target keyword of the target text based on the probability.
  • the keyword evaluation model may be a classification model.
  • the foregoing step 103 may be implemented by replacing the effective features corresponding to the candidate keywords into the keyword evaluation model, and determining whether the candidate is to be selected by using the keyword evaluation model.
  • the keyword is the target keyword of the target text.
  • the valid feature corresponding to the candidate keyword may be input to the keyword evaluation model in the form of a feature vector.
  • the training process for the keyword evaluation model can be found in the introduction below.
  • the keyword evaluation model is an LR model constructed based on an LR (Logistic Regression) algorithm.
  • the LR model is a linear classification model with simple model structure, good classification effect, and a ready-made lib (library) library.
  • the LR algorithm can be used to train the weighting coefficients corresponding to the effective features, so as to avoid the irrationality of the artificial rules.
  • the method provided in this embodiment is effective by each item corresponding to the candidate keyword.
  • the weighting coefficient corresponding to each effective feature is calculated to obtain the probability that the candidate keyword belongs to the target keyword, and the candidate keyword is determined as the target keyword of the target text according to the probability, so that the use of the feature does not need to be manually
  • the rules are formulated to avoid the problem that the process of keyword extraction is too complicated due to many artificially-defined rules, and the keyword extraction is avoided due to unreasonable and inaccurate defects.
  • the problem of lower accuracy rate reduces the complexity of keyword extraction and improves the accuracy of keyword extraction.
  • the target keyword determination is performed based on the effective features, and the feature that does not have a distinguishing function for the target keyword is excluded, and the amount of calculation can be reduced on the other hand. On the one hand, it also helps to improve the accuracy of keyword extraction.
  • the weighting coefficients corresponding to the effective features can be obtained through the model training, so that the values of the respective weighting coefficients are more accurate, and further Improve the accuracy of keyword extraction.
  • FIG. 3 is a flowchart of a keyword extraction method provided by another embodiment of the present application.
  • the same or similar content as the method shown in FIG. 1B can be referred to the detailed description in FIG. 1B, and details are not described herein.
  • the method can include the following steps.
  • Step 301 Extract candidate keywords from the target text.
  • Step 302 For each candidate keyword, obtain valid features corresponding to the candidate keywords.
  • Step 303 Input each valid feature corresponding to the candidate keyword into the feature processing model, and use the feature processing model to perform predetermined processing on each valid feature corresponding to the candidate keyword, and obtain the processed effective feature corresponding to the candidate keyword.
  • the feature processing model is used to perform predetermined processing on the valid features acquired in step 302 to obtain the processed effective features.
  • the predetermined processing includes, but is not limited to, at least one of a continuous feature discretization process and a feature combination process.
  • the valid features corresponding to the candidate keywords may be input to the feature processing model in the form of feature vectors, predetermined processing is performed by the feature processing model, and the processed effective features corresponding to the candidate keywords are output in the form of feature vectors.
  • the processed effective feature corresponding to the candidate keyword is used as an input of the keyword evaluation model.
  • the feature processing model is a GBDT model built on a GBDT (Gradient Boosting Decision Tree) algorithm.
  • the input parameters of the GBDT model are the effective features corresponding to the words.
  • the GBDT model includes multiple decision trees. Each leaf node of the decision tree corresponds to a processed effective feature.
  • GBDT model can replace complex artificial feature engineering without The features are processed manually to automate the processing of features.
  • Step 304 Input the processed valid feature corresponding to the candidate keyword to the keyword evaluation model, and use the keyword evaluation model to determine whether the candidate keyword is the target keyword of the target text.
  • the keyword evaluation model is configured to calculate a probability that the candidate keyword belongs to the target keyword according to each of the processed effective features corresponding to the candidate keyword and the weighting coefficient corresponding to each processed effective feature, and Whether or not the candidate keyword is the target keyword of the target text is determined based on the calculated probability.
  • the keyword evaluation model can be a classification model.
  • the processed effective features corresponding to the candidate keywords may be input to the keyword evaluation model in the form of feature vectors.
  • the keyword evaluation model can adopt the LR model. Due to the limited learning ability of the LR model, complex artificial feature engineering is required to achieve good classification results, and the GBDT model can replace complex artificial feature engineering. Therefore, this embodiment uses a combination of GBDT model and LR model. Determine the target keyword. Please refer to FIG. 4 , which shows a schematic diagram of the comparison between the artificial feature engineering and the feature processing using the GBDT model. Before the fusion, it is necessary to manually find a raw feature and a cross feature, and directly pass through the fusion. The GBDT model performs automated feature processing.
  • FIG. 5 shows a flowchart of a model training process, which may include the following steps:
  • Step 51 construct a training sample of the GBDT algorithm
  • the training samples of the GBDT algorithm include a first positive sample and a first negative sample.
  • the first positive sample is a word belonging to the target keyword in the sample text, and the first positive sample is represented by a valid feature corresponding to the word belonging to the target keyword in the sample text.
  • the first negative sample is a word in the sample text that does not belong to the target keyword, and the first negative sample is represented by a valid feature corresponding to the word in the sample text that does not belong to the target keyword.
  • the sample text refers to the text that has been marked with the target keyword.
  • the sample text and the label sample can be the same text or different text.
  • Step 52 using the GBDT algorithm to train the training samples of the GBDT algorithm to obtain a GBDT model
  • the GBDT model includes multiple decision trees. Each leaf node of the decision tree corresponds to a processed effective feature, and the GBDT model is a feature processing model.
  • Step 53 Construct a training sample of the LR algorithm according to the prediction result of the training samples of each GBDT algorithm in each decision tree;
  • the training samples of the LR algorithm include a second positive sample and a second negative sample.
  • the second positive sample is the sample text In the text, the word belonging to the target keyword, and the second positive sample is represented by the processed effective feature corresponding to the word belonging to the target keyword in the sample text.
  • the second negative sample is a word in the sample text that does not belong to the target keyword, and the second negative sample is represented by the processed effective feature corresponding to the word in the sample text that does not belong to the target keyword.
  • the LR model is used to calculate the probability that the word belongs to the target keyword according to the weighted coefficient corresponding to each processed effective feature and each processed effective feature, and determine whether the word is based on the probability.
  • the LR model is a keyword evaluation model.
  • FIG. 6 a schematic diagram of the fusion of the GBDT model and the LR model is shown.
  • Decision tree 1 and decision tree 2 in the figure are two decision trees included in the GBDT model trained by GBDT algorithm.
  • x is a training sample of GBDT algorithm. After traversing two decision trees, training samples x fall to two decision trees respectively.
  • each leaf node corresponds to the one-dimensional feature of the LR model, and all the LR features corresponding to the training sample x can be obtained by traversing each decision tree.
  • the training sample x falls on the second leaf node from left to right in decision tree 1, and also falls on the second leaf node from left to right in decision tree 2, then the training sample x corresponds
  • the training samples of the LR algorithm can be expressed as (0, 1, 0, 0, 1). Since each path of the decision tree is a discriminative path that is finally segmented by minimizing the mean square error and the like, the features and feature combinations obtained according to the path are relatively distinguishable, and the effect is theoretically no less than artificial experience. Processing method.
  • the combination of the GBDT algorithm and the LR algorithm is applied to the keyword extraction, thereby converting the keyword extraction problem into a simple two-classification problem, and can replace the complex artificial feature engineering.
  • the keyword evaluation model is the LR model introduced above
  • the LR model is a probability of belonging to the target keyword by calculating the candidate keyword, and determining whether the candidate keyword is the target of the target text according to the probability
  • the probability corresponding to the target keyword reflects the degree of correlation between the target keyword and the text.
  • each target keyword of the target text is sorted, thereby realizing the degree of correlation between each target keyword and the target text.
  • the accuracy rate refers to the ratio of the number of extracted correct target keywords to the total number of extracted target keywords.
  • the recall rate is the ratio of the number of correct target keywords extracted to the total number of manually labeled target keywords.
  • the target keywords manually marked include: A, B, C, and D
  • the target keywords extracted through the above steps 301 to 304 include A, C, D, E, and F.
  • the number of correct target keywords extracted is 3, the accuracy rate is 0.6, and the recall rate is 0.75.
  • the average of the accuracy rates corresponding to each test sample can be obtained, and the average of the obtained accuracy rates is taken as the accuracy of the keyword evaluation model.
  • the average of the recall rates corresponding to each test sample can be obtained, and the average of the recalled rates is taken as the recall rate of the keyword evaluation model.
  • P@N is taken as an example, which indicates the probability that the extracted top N target keywords are correct target keywords.
  • the definition is an arithmetic mean (mean) of average accuracy corresponding to each text.
  • Mean Average Precision is an arithmetic mean (mean) of average accuracy corresponding to each text.
  • Mean Average Precision is an arithmetic mean (mean) of average accuracy corresponding to each text.
  • Mean Average Precision is an arithmetic mean (mean) of average accuracy corresponding to each text.
  • Mean Average Precision is an arithmetic mean (mean) of average accuracy corresponding to each text.
  • Mean Average Precision The MAP metric is relatively simple.
  • the relationship between a text and a target keyword extracted is not 0 or 1.
  • the core is to use the position of the target keyword extracted from the text in the target keyword sequence to accurately rank the result. Evaluation.
  • AP(q) represents the average accuracy of the text q
  • j represents the number of the target keyword extracted from the text q in the target keyword sequence
  • n represents the number of target keywords extracted from the text q, j
  • n is a positive integer. If the jth target keyword is related to the text q (that is, the jth target keyword is the correct target keyword), the value of i corresponding to the jth target keyword is the jth target keyword.
  • MAP(q 1 , q 2 , . . . , q m ) represents the arithmetic mean of the average accuracy of the m texts
  • AP(q k ) represents the average accuracy of the kth text.
  • k is a positive integer and m is an integer greater than one.
  • nDCG is an indicator that comprehensively considers the relationship between model ranking results and real sequences, and is the most commonly used indicator for measuring the accuracy of ranking results. Its calculation formula is as follows:
  • nDCG(q) Z n DCG(q);
  • DCG(q) represents the attenuation cumulative entropy of the target keyword sequence corresponding to the text q
  • j represents the number of the target keyword extracted from the text q in the target keyword sequence
  • r(j) represents the jth target key
  • the base 2 log value comes from the empirical formula, and there is no theoretical basis. In fact, the log base can be modified according to actual needs.
  • Z n represents the reciprocal of the DCG corresponding to the ideal ranking result. The larger the nDCG, the closer the target keyword sequence obtained by the model is to the ideal ranking result. In practical applications, the ideal sorting result can be preset manually.
  • the keyword evaluation model is evaluated by using the test sample, so as to determine whether the trained model satisfies the prediction accuracy requirement according to the quality evaluation parameter. If the prediction accuracy requirement has been met, the model can be used for online prediction; if the prediction accuracy requirement has not been met, the training samples can be adjusted (for example, further training samples are added), and the adjusted training samples are trained to obtain predictions. A model with higher precision.
  • the keyword extraction method based on GBDT+LR provided by the embodiment of the present application is more effective than the rule-based multi-feature fusion keyword extraction method provided by the prior art, and the average quality accuracy is improved on each quality evaluation parameter.
  • the improvement rate to the keyword extraction method based on rule-based multi-feature fusion provided by the prior art is only 62%, and the overall improvement is 18%.
  • the keyword extraction method based on GBDT+LR provided by the embodiment of the present application has a MAP index corresponding to 85% of the keyword evaluation model trained.
  • FIG. 7 is a structural diagram of a technical solution provided by an embodiment of the present application.
  • a plurality of candidate features that may affect the keyword extraction are preset, and an effective feature for determining whether a keyword is a target keyword is selected from the candidate features.
  • the types of valid features include at least word frequency features, location features, semantic features, and linguistic features.
  • the model training phase the training samples are used for model training, and the trained models are tested and evaluated to obtain the model output after meeting the prediction accuracy requirements.
  • the GBDT model and the LR model are employed in this embodiment.
  • the target text of the keyword to be extracted is obtained, the target text is segmented and selected, the candidate keyword is selected, the effective feature corresponding to the candidate keyword is obtained, and the feature vector is input to the output model, and the model is The output result is whether the candidate keyword is the target keyword of the target text.
  • FIG. 8 is a block diagram of a keyword extracting apparatus provided by an embodiment of the present application.
  • the apparatus has a function of implementing the above-described method examples, and the functions may be implemented by hardware or by hardware to execute corresponding software.
  • the apparatus may include an extraction module 810, a first acquisition module 820, and a first determination module 830.
  • the extraction module 810 is configured to perform step 101 or step 301 above.
  • the first obtaining module 820 is configured to perform step 102 or step 302 above.
  • the first determining module 830 is configured to perform step 103 or step 304 above.
  • the processing module is configured to perform step 303 above.
  • the apparatus further includes: a first building block and a first training module.
  • the first training module is configured to perform step 52 above.
  • the device further includes: a second building module and a second training module.
  • the second building module is configured to perform step 53 above.
  • the second training module is configured to perform step 54 above.
  • the device further includes: a test module and a second acquisition module.
  • test module for testing a keyword evaluation model using test samples.
  • the second obtaining module is configured to obtain a quality evaluation parameter of the keyword evaluation model according to the test result.
  • the quality evaluation parameter includes at least one of an accuracy rate, a recall rate, and a sorting accuracy.
  • the device further includes: a third obtaining module, a statistics module, and a second determining module.
  • the third obtaining module is configured to perform step 21 above.
  • the statistics module is configured to perform step 22 above.
  • the second determining module is configured to perform step 23 above.
  • the apparatus further includes: a sorting module.
  • a selection unit is configured to perform the above step 101b.
  • the first determining module when determining, according to the probability, whether the candidate keyword is used as the target keyword of the target text, is specifically configured to: when the probability is greater than a probability threshold, The candidate keyword is determined as the target keyword of the target text.
  • FIG. 9 is a schematic structural diagram of a server provided by an embodiment of the present application. This server is used to implement the keyword extraction method provided in the above embodiment. Specifically:
  • the server 900 includes a central processing unit (CPU) 901, a system memory 904 including a random access memory (RAM) 902 and a read only memory (ROM) 903, and a system bus 905 that connects the system memory 904 and the central processing unit 901.
  • the server 900 also includes a basic input/output system (I/O system) 906 that facilitates transfer of information between various devices within the computer, and mass storage for storing the operating system 913, applications 914, and other program modules 915.
  • I/O system basic input/output system
  • the mass storage device 907 is connected to the central processing unit 901 by a mass storage controller (not shown) connected to the system bus 905.
  • the mass storage device 907 and its associated computer readable medium provide non-volatile storage for the server 900. That is, the mass storage device 907 can include a computer readable medium (not shown) such as a hard disk or a CD-ROM drive.
  • the server 900 may also be operated by a remote computer connected to the network through a network such as the Internet. That is, the server 900 can be connected to the network 912 through a network interface unit 911 connected to the system bus 905, or can also be connected to other types of networks or remote computer systems (not shown) using the network interface unit 911. .
  • the memory also includes one or more programs, the one or more programs being stored in a memory and configured to be executed by one or more processors.
  • the one or more programs described above include instructions for performing the above method.
  • non-transitory computer readable storage medium comprising instructions, such as a memory comprising instructions executable by a processor of a server to perform the various steps of the above method embodiments.
  • the non-transitory computer readable storage medium may be a ROM, a random access memory (RAM), a CD-ROM, a magnetic tape, a floppy disk, and an optical data storage device.
  • a plurality as referred to herein means two or more.
  • "and/or” describing the association relationship of the associated objects, indicating that there may be three relationships, for example, A and/or B, which may indicate that there are three cases where A exists separately, A and B exist at the same time, and B exists separately.
  • the character "/" generally indicates that the contextual object is an "or" relationship.
  • a person skilled in the art may understand that all or part of the steps of implementing the above embodiments may be completed by hardware, or may be instructed by a program to execute related hardware, and the program may be stored in a computer readable storage medium.
  • the storage medium mentioned may be a read only memory, a magnetic disk or an optical disk or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种关键词提取方法、装置和服务器,属于信息处理技术领域。所述方法包括:从目标文本中提取候选关键词(101);对于每一个候选关键词,获取候选关键词对应的有效特征(102),有效特征是用于判定关键词是否为目标关键词的特征;根据候选关键词对应的有效特征和各项有效特征分别对应的加权系数进行计算,获得候选关键词属于关键词的概率,并根据概率确定是否将候选关键词作为目标文本的关键词(103)。其方案使得特征的使用无需通过人工制定的规则来实现,从而解决了现有技术存在的问题,减小了关键词提取的复杂度,且提高了关键词提取的准确率。

Description

关键词提取方法、装置和服务器
本申请要求于2016年11月10日提交中国专利局、申请号为201611039501.6、申请名称为“关键词提取方法和装置”的中国专利申请的优先权,上述申请的全部内容通过引用结合在本申请中。
技术领域
本申请涉及信息处理技术领域,特别涉及一种关键词提取方法、装置和服务器。
背景技术
关键词提取(或称为“关键词抽取”,keywords extraction)技术是指从文本中提取关键词的技术。关键词提取技术在许多业务领域得到了广泛应用,例如资讯业务、搜索业务、广告业务等。
一些主流的关键词提取技术通常基于词频特征提取关键词。例如,基于TF-IDF(Term Frequency–Inverse Document Frequency,词频-反文档频率)算法的关键词提取技术、基于TextRank算法的关键词提取技术。在实际应用中发现,仅考虑词频特征提取得到的关键词准确率并不高,还应当考虑字词在文本中出现的位置、字词与文本主题之间相关性、字词的词性等其它特征。
在相关技术中,提供了一种基于规则的多特征融合的关键词提取方法,其具体流程如下:对目标文本进行分词处理,得到多个字词;采用TF-IDF算法或者TextRank算法计算各个字词的关键词评分;选取关键词评分较高的若干个字词作为候选关键词;而后根据一些由人工制定的规则,从候选关键词中选取关键词。例如,过滤词频低的候选关键词,召回词频高的候选关键词;又例如,过滤与文本主题无关的候选关键词,召回与文本主题相关的候选关键词;再例如,召回在文本的标题中出现且被书名号括出的候选关键词,等等。根据人工制定的规则对候选关键词进行一系列的过滤和召回之后,最终剩下的候选关键词即作为文本的关键词。
在相关技术中,虽然考虑到了关键词提取需要综合考虑多方面的特征,但是由于对候选关键词进行过滤和召回的规则是由人工制定的,如果考虑的特征较多,则需要制定大量的规则,这就导致关键词提取的过程过于复杂。并且, 人工制定的规则难免存在一些问题,例如规则不够合理、准确,这也导致关键词提取的准确率并不高。
发明内容
为了解决相关技术中关键词提取的过程过于复杂且准确率不高的问题,本申请实施例提供了一种关键词提取方法、装置和服务器。所述技术方案如下:
第一方面,提供了一种关键词提取方法,所述方法包括:
从目标文本中提取候选关键词;
对于每一个候选关键词,获取所述候选关键词对应的各项有效特征,所述有效特征是用于判定关键词是否为目标关键词的特征;
根据所述候选关键词对应的各项有效特征和各项所述有效特征分别对应的加权系数进行计算,获得所述候选关键词属于目标关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的目标关键词。
第二方面,提供了一种关键词提取装置,所述装置包括:
提取模块,用于从目标文本中提取候选关键词;
第一获取模块,用于对于每一个候选关键词,获取所述候选关键词对应的有效特征,所述有效特征是用于判定关键词是否为目标关键词的特征;
第一确定模块,用于根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于目标关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的目标关键词。
第三方面,提供一种服务器,所述服务器包括:
一个或多个处理器;和
存储器;
所述存储器存储有一个或多个程序,所述一个或多个程序被配置成由所述一个或多个处理器执行,以实现如上述第一方面所示的关键词提取方法。
本申请实施例提供的技术方案带来的有益效果包括:
通过根据候选关键词对应的各项有效特征和各项有效特征分别对应的加权系数进行计算,获得候选关键词属于目标关键词的概率,并根据概率确定是否将候选关键词作为目标文本的目标关键词,使得特征的使用无需通过人工制定的规则来实现,从而避免了因人工制定的规则较多而导致关键词提取的过程 过于复杂的问题,也避免了因人工制定的规则难免存在不合理、不准确的缺陷而导致关键词提取的准确率较低的问题,减小了关键词提取的复杂度,提高了关键词提取的准确率。并且,通过获取用于判定关键词是否为目标关键词的有效特征,根据这些有效特征进行关键词判定,排除掉对目标关键词的判定无效的特征,一方面能够降低计算量,另一方面也有助于提高关键词提取的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A示出了本申请实施例提供的一种服务器的架构图;
图1B示出了本申请一个实施例提供的关键词提取方法的流程图;
图2A示出了特征筛选过程的流程图;
图2B示出了若干种候选特征对应的样本占比与特征值之间的关系的示意图;
图3示出了本申请另一实施例提供的关键词提取方法的流程图;
图4示出了人工特征工程与使用GBDT模型进行特征处理的比对示意图;
图5示出了模型训练过程的流程图;
图6示出了GBDT模型和LR模型融合的示意图;
图7示出了本申请一个实施例提供的技术方案所涉及的架构图;
图8示出了本申请一个实施例提供的关键词提取装置的框图;
图9示出了本申请一个实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请实施例提供的技术方案,主要用于提取文本中的关键词。在本申请实施例中,对文本的类型不作限定,例如文章、网页、文档等。在许多应用场景中涉及到关键词提取,例如将从文本中提取的关键词作为该文本的标签、根据从文本中提取的关键词确定文本所属的分类、将从文本中提取的关键词作为 该文本的索引以实现搜索该文本,等等。
本申请实施例提供的方法,各步骤的执行主体可以是服务器。例如,该服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。请参考图1A,其示出了本申请实施例提供的一种服务器100的架构图。如图1A所示,服务器100可以包括用于实现关键词提取平台120的服务器,可选的,服务器100还可以包括用于实现关键词管理平台140的服务器;可选的,服务器100还包括用于实现关键词应用平台160的服务器。
可选的,关键词提取平台120包括:用于从文本中提取关键词的服务器。
可选的,关键词管理平台140包括:用于存储和管理关键词提取平台120提取出的各个文本的关键词的服务器。
可选的,关键词应用平台160包括:用于根据各个文本的关键词向终端提供关键词相关的应用服务的服务器。
需要说明的是,上述用于实现关键词提取平台120、关键词管理平台140以及关键词应用平台160的服务器可以是相互之间独立的服务器;或者,上述关键词提取平台120、关键词管理平台140以及关键词应用平台160中的两个平台可以实现在同一个服务器中,而另外一个平台可以实现在另一个服务器中;或者,用于实现上述三个平台的服务器也可以是同一个服务器。当上述三个平台实现在两个或者三个服务器中时,这两个或者三个服务器之间通过通信网络相连。
可选的,该服务器100还可以与管理设备200(图1A未示出),该管理设备200与服务器100之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Trassport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet  Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
为了便于描述,在下述方法实施例中,以各步骤的执行主体为服务器为例进行说明。
请参考图1B,其示出了本申请一个实施例提供的关键词提取方法的流程图。该方法可以包括如下几个步骤。
步骤101,从目标文本中提取候选关键词。
目标文本是指待提取关键词的文本。例如,目标文本可以是一篇资讯文章,包括该资讯文章的标题和正文。候选关键词是指从目标文本中初步筛选出的有可能作为目标关键词的字词。
在一个示例中,本步骤包括如下几个子步骤:
步骤101a、对目标文本进行分词处理得到多个字词;
步骤101b、从多个字词中选取属于预设词库中的字词作为候选关键词。
其中,预设词库中可以包括多个字词。对于目标文本中分词得到的字词,如果该字词存在于预设词库中,则将该字词选取为候选关键词;如果该字词不存在于预设词库中,则确定该字词不是候选关键词。通过上述方式,无需辨别目标文本中的每一个字词是否为目标关键词,而是直接将字词与预设词库中的字词进行比对,有助于减少计算量,提高关键词提取的效率。
预设词库是指由预先设定的可以被选作为目标关键词的字词所组成的词库。在一个示例中,当应用场景为将从文本中提取的目标关键词作为该文本的标签时,如果预先设定可以作为标签的字词,则将这些可以作为标签的字词添加至预设词库中。
可选地,针对不同分类的文本,可以对应设定不同的预设词库。以资讯文章为例,其分类可以包括新闻、娱乐、体育、军事等等。每一种分类的文本对应的预设词库,是指预先设定的可以被选作为这一类文本的关键词的字词所组成的词库。例如,娱乐分类的文本对应的预设词库中包括与娱乐相关的字词,如娱乐明星的姓名、影视剧的名称、综艺节目的名称等;又例如,体育分类的文本对应的预设词库中包括与体育相关的字词,如体育明星的姓名、体育项目的名称、球队的名称等。上述步骤101b可以包括:获取目标文本所属的分类,从对目标文本进行分词处理得到的多个字词中,选取属于该目标文本所属的分 类的预设词库中的字词作为候选关键词。通过上述方式,能够使得提取的候选关键词与文本的分类更具相关性。
步骤102,对于每一个候选关键词,获取候选关键词对应的各项有效特征。
在本申请实施例中,有效特征也可称为有区分性特征,其是指对目标关键词的判定具有区分功能的特征,比如,该有效特征可以是用于判定一个关键词是否为目标关键词的特征。其中,关键词一般具有如下特点:出现在文本的标题中、在文本中多次出现、与文本表达的语义相符、且占文本的大部分篇幅等等。概括来说,文本中的关键词应该具备位置影响力、频度影响力、语义影响力和覆盖影响力。基于对上述特点的分析,可以将影响关键词提取的有效特征至少分成如下4种类型:词频特征、位置特征、语义特征和语言特征。
词频特征是用于指示字词在文本中出现频度的特征。例如,词频特征可以包括:字词对应的TF-IDF、文本中出现该字词的段落数量与文本的段落总数量的比值,等等。位置特征是用于指示字词在文本中出现位置的特征。例如,位置特征可以包括:字词在文本中第一次出现的位置、字词是否在文本的标题中出现、字词在文本中第一次出现和最后一次出现的位置之间的跨度占文本总长度的比值,等等。语义特征是用于指示字词与文本主题之间相关性的特征。例如,语义特征可以包括:字词与文本主题的相关性、字词与文本的LDA(Latent Dirichlet Allocation,文档主题生成模型)主题的相关性,等等。语言特征是用于指示字词的基本属性的特征。例如,语言特征可以包括:词长、词性(如名词、动词、形容词)、词分类(如人名、地名),等等。
在一个示例中,如图2A所示,可以预先设定大量的可能影响关键词提取的候选特征,并采用如下方式从这些大量的候选特征中筛选出有效特征:
步骤21,获取多项候选特征和多个标注样本;
其中,标注样本是指已标注出目标关键词的文本。候选特征是指预先设定的可能对目标关键词的判定具有区分功能的特征。通过对各个标注样本中的目标关键词进行观察并分析其特点,可以总结出一系列的候选特征。
步骤22,对于每一项候选特征,统计在候选特征的各个特征值上的样本占比;
其中,样本占比为正样本占比或负样本占比,正样本占比是指标注样本中正样本的数量与标注样本的数量的比值,负样本占比是指标注样本中负样本的数量与标注样本的数量的比值,正样本是指存在符合候选特征的特征值的目标 关键词的标注样本,负样本是指不存在符合候选特征的特征值的目标关键词的标注样本。
在一个示例中,以候选特征为字词在文本中第一次出现的位置为例,假设标注样本的数量为100,关键词在文本中第一次出现的位置为第1段的标注样本的数量为60,关键词在文本中第一次出现的位置在第2段的标注样本的数量为20,关键词在文本中第一次出现的位置在第3段的标注样本的数量为20;当特征值为第1段时,正样本的数量为60且负样本的数量为40,正样本占比为0.6且负样本占比为0.4;当特征值为第2段时,正样本的数量为20且负样本的数量为80,正样本的占比为0.2且负样本的占比为0.8。
步骤23,如果样本占比与候选特征的特征值之间的关系符合预设条件,则将该候选特征确定为一项有效特征。
可选地,上述预设条件可以为样本占比与候选特征的特征值之间的关系为单调递增或单调递减。如果候选特征满足上述预设条件,则可以认为该候选特征是对目标关键词的判定具有区分功能的有效特征。
其中,每一项确定的有效特征用于在从任一目标文本中提取关键词时作为目标关键词判定的依据。例如,预先通过上述步骤21至步骤23从上千个候选特征中筛选出50个有效特征,在后续从任一目标文本中提取目标关键词时,每一个候选关键词对应的有效特征均是这50项有效特征。
请参考图2B,其示例性示出了若干种候选特征对应的样本占比与特征值之间的关系的示意图。在图2B所示的各个图示中,横坐标表示候选特征的特征值,纵坐标表示样本占比。在图2B所示的各个图示中,曲线1表示正样本占比,曲线2表示负样本占比。由图2B可以看出,字词是否在文本的标题中出现、字词对应的TF-IDF、字词对应的TextRank、字词在文本中第一次出现和最后一次出现的位置之间的差值、字词与文本的LDA主题的相关性等候选特征可以选取为有效特征。此外,在根据样本占比与候选特征的特征值之间的关系选取有效特征时,还可参考曲线的斜率,斜率越大的候选特征更具价值,可以优先选取为有效特征。
在实际应用中,可以通过上述方式从预先设定的2000多个候选特征(比如,可以包括20多个词频特征和位置特征、2000多个语义特征和50多个语言特征)中筛选出几十个有效特征。
步骤103,根据候选关键词对应的有效特征和各项有效特征分别对应的加 权系数进行计算,获得候选关键词属于目标关键词的概率,并根据概率确定是否将候选关键词作为目标文本的目标关键词。
具体实现时,各项有效特征分别对应的加权系数可以通过算法预先计算得到,也可以通过模型进行训练得到。在一个示例中,可以将候选关键词对应的每一项有效特征的特征值与该项有效特征对应的加权系数相乘得到相乘结果,并将各项有效特征对应的相乘结果累加得到该候选关键词属于目标关键词的概率。根据概率确定是否将候选关键词作为目标文本的目标关键词时,将概率大于概率阈值的候选关键词确定为目标文本的目标关键词,即当一个候选关键词的概率大于概率阈值时,将该候选关键词确定为目标文本的目标关键词。其中,概率阈值的大小可以根据目标关键词的提取精度需求进行设置。如果对目标关键词的提取精度需求不高,可以设置偏低的概率阈值;如果对目标关键词的提取精度需求较高,可以设置偏高的概率阈值。
例如,设置概率阈值为0.5,则当候选关键词属于目标关键词的概率大于0.5时,确定将该候选关键词作为目标文本的目标关键词;当候选关键词属于目标关键词的概率小于0.5时,确定不将该候选关键词作为目标文本的目标关键词。
可选地,本实施例提供的方法还可以预先构建关键词评价模型,通过关键词评价模型根据候选关键词对应的各项有效特征和各项有效特征分别对应的加权系数进行计算,以获得候选关键词属于目标关键词的概率,并根据概率确定是否将候选关键词作为目标文本的目标关键词。
其中,关键词评价模型可以是分类模型,此时,上述步骤103可以由如下步骤替换实现:将候选关键词对应的各项有效特征输入至关键词评价模型,采用关键词评价模型确定是否将候选关键词作为目标文本的目标关键词。其中,候选关键词对应的有效特征可以以特征向量的形式输入至关键词评价模型。有关关键词评价模型的训练过程可参见下文的介绍说明。
在一个示例中,关键词评价模型为基于LR(Logistic Regression,逻辑回归)算法构建的LR模型。LR模型是一种线性分类模型,模型结构简单、分类效果较好,且具有现成的lib(library)库。通过LR模型将关键词提取问题转换成二分类问题后,可以使用LR算法训练得到各项有效特征分别对应的加权系数,避免人工制定规则的不合理。
综上所述,本实施例提供的方法,通过根据候选关键词对应的各项有效特 征和各项有效特征分别对应的加权系数进行计算,以获得候选关键词属于目标关键词的概率,并根据概率确定是否将候选关键词作为目标文本的目标关键词,使得特征的使用无需通过人工制定的规则来实现,从而避免了因人工制定的规则较多而导致关键词提取的过程过于复杂的问题,也避免了因人工制定的规则难免存在不合理、不准确的缺陷而导致关键词提取的准确率较低的问题,减小了关键词提取的复杂度,提高了关键词提取的准确率。并且,通过获取用于判定关键词是否为目标关键词的有效特征,根据这些有效特征进行目标关键词判定,排除掉对目标关键词判定不具有区分功能的特征,一方面能够降低计算量,另一方面也有助于提高关键词提取的准确率。
另外,还通过采用关键词评价模型确定是否将候选关键词作为目标文本的目标关键词,各项有效特征分别对应的加权系数可以通过模型进行训练得到,使得各个加权系数的取值更加准确,进而提高关键词提取的准确率。
请参考图3,其示出了本申请另一实施例提供的关键词提取方法的流程图。图3所示的方法中,与图1B所示方法相同或类似的内容可以参考图1B中的详细描述,此处不作赘述。该方法可以包括如下几个步骤。
步骤301,从目标文本中提取候选关键词。
步骤302,对于每一个候选关键词,获取候选关键词对应的各项有效特征。
步骤303,将候选关键词对应的各项有效特征输入至特征处理模型,采用特征处理模型对候选关键词对应的各项有效特征进行预定处理,得到候选关键词对应的处理后的有效特征。
在本申请实施例中,特征处理模型用于对步骤302中获取到的有效特征进行预定处理,得到处理后的有效特征。其中,预定处理包括但不限于连续特征离散化处理、特征组合处理中的至少一种。候选关键词对应的有效特征可以以特征向量的形式输入至特征处理模型,通过特征处理模型进行预定处理,并以特征向量的形式输出候选关键词对应的处理后的有效特征。在本实施例中,候选关键词对应的处理后的有效特征作为关键词评价模型的输入。
在一个示例中,特征处理模型为基于GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法构建的GBDT模型。GBDT模型的输入参数为字词对应的有效特征,GBDT模型包括多棵决策树,决策树的每一个叶子节点对应于一项处理后的有效特征。GBDT模型能够替代复杂的人工特征工程,无需 人工对特征进行处理,实现自动化地对特征进行处理。
步骤304,将候选关键词对应的处理后的有效特征输入至关键词评价模型,采用关键词评价模型确定是否将候选关键词作为目标文本的目标关键词。
在本实施例中,关键词评价模型用于根据候选关键词对应的各项处理后的有效特征和各项处理后的有效特征分别对应的加权系数计算候选关键词属于目标关键词的概率,并根据计算出的概率确定是否将候选关键词作为目标文本的目标关键词。关键词评价模型可以是分类模型。候选关键词对应的处理后的有效特征可以以特征向量的形式输入至关键词评价模型。
在上文已经提到,关键词评价模型可以采用LR模型。由于LR模型的学习能力有限,要想达到好的分类效果,需要进行复杂的人工特征工程,而GBDT模型能够替代复杂的人工特征工程,因此,本实施例采用GBDT模型和LR模型相结合的方式进行目标关键词的确定。请参考图4,其示出了人工特征工程与使用GBDT模型进行特征处理的比对示意图,融合前需要人工寻找有区分性特征(raw feature)、特征组合(cross feature),而融合后直接通过GBDT模型进行自动化的特征处理。
请参考图5,其示出了模型训练过程的流程图,模型训练过程可包括如下几个步骤:
步骤51,构建GBDT算法的训练样本;
GBDT算法的训练样本包括第一正样本和第一负样本。第一正样本为样本文本中属于目标关键词的字词,第一正样本以样本文本中属于目标关键词的字词对应的有效特征表示。第一负样本为样本文本中不属于目标关键词的字词,第一负样本以样本文本中不属于目标关键词的字词对应的有效特征表示。
样本文本是指已标注出目标关键词的文本。样本文本与标注样本可以是相同的文本,也可以是不同的文本。
步骤52,采用GBDT算法对GBDT算法的训练样本进行训练,得到GBDT模型;
GBDT模型包括多棵决策树,决策树的每一个叶子节点对应于一项处理后的有效特征,GBDT模型为特征处理模型。
步骤53,根据各个GBDT算法的训练样本在各棵决策树中的预测结果,构建LR算法的训练样本;
LR算法的训练样本包括第二正样本和第二负样本。第二正样本为样本文 本中属于目标关键词的字词,第二正样本以样本文本中属于目标关键词的字词对应的处理后的有效特征表示。第二负样本为样本文本中不属于目标关键词的字词,第二负样本以样本文本中不属于目标关键词的字词对应的处理后的有效特征表示。
步骤54,采用LR算法对LR算法的训练样本进行训练,得到LR模型;
LR模型用于根据字词对应的各项处理后的有效特征和各项处理后的有效特征分别对应的加权系数,计算字词属于目标关键词的概率,并根据该概率确定是否将该字词作为目标关键词。LR模型为关键词评价模型。
结合参考图6,其示出了GBDT模型和LR模型融合的示意图。图中决策树1和决策树2是通过GBDT算法训练出GBDT模型包括的两棵决策树,x为一个GBDT算法的训练样本,遍历两棵决策树之后,训练样本x分别落到两棵决策树的叶子节点上,每个叶子节点对应LR模型的一维特征,通过遍历各棵决策树即可得到该训练样本x对应的所有LR特征。假设训练样本x在决策树1中落到从左向右的第2个叶子节点上,在决策树2中也落到从左向右的第2个叶子节点上,则该训练样本x对应的LR算法的训练样本可表示为(0,1,0,0,1)。由于决策树的每条路径,是通过最小化均方差等方法最终分割出来的有区分性路径,根据该路径得到的特征、特征组合都相对有区分性,效果理论上不会亚于人工经验的处理方式。
在本实施例中,将GBDT算法和LR算法的结合应用于到关键词提取中,从而将关键词提取问题转换成简单的二分类问题,并且能够替代复杂的人工特征工程。
可选地,上述步骤103或步骤304之后还包括如下步骤:根据目标文本的各个目标关键词以及目标文本的各个目标关键词分别对应的概率,对目标文本的各个目标关键词进行排序,得到目标关键词序列,以通过目标关键词序列展示目标文本的各个目标关键词与目标文本之间的相关程度。
示例性地,当关键词评价模型为上文介绍的LR模型时,由于LR模型是通过计算候选关键词属于目标关键词的概率,并根据该概率确定是否将该候选关键词作为目标文本的目标关键词,因此目标关键词对应的概率反映了目标关键词与文本之间的相关程度。
在一个示例中,按照各个目标关键词分别对应的概率由大到小的顺序,对 目标文本的各个目标关键词进行排序得到关键词序列,也即优先显示与文本之间的相关性大的目标关键词。比如,目标文本包括10个候选关键词,其中4个候选关键词对应的概率大于0.5,另外6个候选关键词对应的概率小于等于0.5,则将上述4个候选关键词确定为该目标文本的目标关键词。假设上述4个关键词中,关键词A、B、C和D对应的概率分别为0.75、0.66、0.94和0.88,则按照各个目标关键词分别对应的概率由大到小的顺序,对目标文本的各个目标关键词进行排序后得到的目标关键词序列依次为:关键词C、关键词D、关键词A和关键词B。
通过上述方式,对目标文本的各个目标关键词进行排序,从而实现将各个目标关键词与目标文本之间的相关程度进行展示。
需要补充说明的是,在训练得到模型之后,还可通过如下步骤对模型进行评测:采用测试样本对关键词评价模型进行测试;根据测试结果获取关键词评价模型的质量评价参数。其中,测试样本是指已标注出目标关键词的文本,测试样本和训练样本应当选择不同的文本。通过关键词评价模型提取测试样本中的目标关键词,并将提取的目标关键词和预先标注的目标关键词进行比对,得到测试结果。在实际应用中,可选取多个测试样本,对该多个测试样本分别对应的测试结果进行统计计算,得到关键词评价模型的质量评价参数。其中,质量评价参数包括准确率、召回率、排序精度中的至少一种。
准确率是指提取的正确的目标关键词的数量与提取的目标关键词的总数的比值。召回率是指提取的正确的目标关键词的数量与人工标注的目标关键词的总数的比值。例如,对于某一测试样本来说,假设其人工标注的目标关键词包括:A、B、C和D,通过上述步骤301至304提取出的目标关键词包括A、C、D、E和F,则提取的正确的目标关键词的数量为3,准确率为0.6,召回率为0.75。当存在多个测试样本时,可求取各个测试样本对应的准确率的均值,并将求取的准确率的均值作为关键词评价模型的准确率。当存在多个测试样本时,可求取各个测试样本对应的召回率的均值,并将求取的召回率的均值作为关键词评价模型的召回率。
由于对各个目标关键词进行排序的精度也在一定程度上反映了模型的质量。因此,模型的质量评价参数还可包括排序精度。排序精度可采用搜索排序中的一些评价指标来表示,例如P@N(Precision@N,在第N个位置上的正确 率)、MAP(Mean Average Precision,平均正确率均值)或nDCG(normalized Discounted Cumulative Gain,归一化的折扣增益值)等。
在一个示例中,以P@N为例,其表示提取的前N个目标关键词中,是正确的目标关键词的概率。其中,N为预先设定的正整数。例如,N设定为5,假设从某一测试样本中提取了7个目标关键词,且按照各个目标关键词对应的概率由大到小的顺序进行排序得到目标关键词序列,从上述目标关键词序列中选取前5个目标关键词(也即对应的概率最大的5个目标关键词),假设其中正确的目标关键词的数量为4个,则该测试样本对应的排序精度可表示为:P@5=4/5=0.8。
在另一示例中,以MAP为例,其定义是求各个文本对应的平均准确率(average precision)的算术平均值(mean)。这里对准确率求了两次平均,因此称为Mean Average Precision。MAP的衡量标准比较单一,一个文本与提取的一个目标关键词之间的关系非0即1,核心是利用从文本中提取的目标关键词在目标关键词序列中的位置对排序结果进行准确性评估。
一个文本对应的平均准确率(AP)的计算公式如下:
Figure PCTCN2017108262-appb-000001
其中,AP(q)表示文本q对应的平均准确率,j表示从文本q中提取的目标关键词在目标关键词序列中的编号,n表示从文本q中提取的目标关键词的数量,j、n为正整数。如果第j个目标关键词与文本q相关(也即第j个目标关键词为正确的目标关键词),则该第j个目标关键词对应的i的取值为该第j个目标关键词是正确的目标关键词的编号(正确的目标关键词的编号从1开始计数);否则,如果第j个目标关键词与文本q不相关(也即第j个目标关键词不是正确的目标关键词),则该第j个目标关键词对应的i的取值为0。
多个文本对应的平均准确率(MAP)的计算公式如下:
Figure PCTCN2017108262-appb-000002
其中,MAP(q1,q2,......,qm)表示m个文本对应的平均准确率的算术平均值,AP(qk)表示第k个文本对应的平均准确率,k为正整数,m为大于1的整数。
例如,假设从文本q1中提取的目标关键词的数量为5,按照各个目标关键词对应的概率由大到小的顺序进行排序得到目标关键词序列,在这个目标关键词序列中,第1、3、5个目标关键词是正确的目标关键词,则 AP(q1)=(1/1+0+2/3+0+3/5)/5=0.45。又例如,假设从文本q2中提取的目标关键词的数量为6,按照各个目标关键词对应的概率由大到小的顺序进行排序得到目标关键词序列,在这个目标关键词序列中,第1、2、4、6个目标关键词是正确的目标关键词,则AP(q2)=(1/1+2/2+0+3/4+0+4/6)/6=0.57。那么,这两个文本(也即文本q1和文本q2)对应的MAP值就是(AP(q1)+AP(q2))/2=(0.45+0.57)/2=0.51。
在又一示例中,以nDCG为例,nDCG是一种综合考虑模型排序结果和真实序列之间的关系的指标,也是最常用的衡量排序结果的准确性的指标。其计算公式如下:
Figure PCTCN2017108262-appb-000003
nDCG(q)=ZnDCG(q);
其中,DCG(q)表示文本q对应的目标关键词序列的衰减累加熵,j表示从文本q中提取的目标关键词在目标关键词序列中的编号,r(j)表示第j个目标关键词对应的概率。取以2为底的log值来自于经验公式,并不存在理论上的依据,实际来说,log的基数可以根据实际需求进行修改。Zn表示理想排序结果对应的DCG的倒数,nDCG越大表示模型得到的目标关键词序列与理想排序结果越接近。在实际应用中,理想排序结果可由人工预先设定。
另外,当存在多个测试样本时,可求取各个测试样本对应的排序精度的均值,并将求取的排序精度的均值作为关键词评价模型的排序精度。
通过上述方式,采用测试样本对关键词评价模型进行评测,以便于根据质量评价参数确定训练得到的模型是否满足预测精度要求。如果已满足预测精度要求,则可将该模型用于线上预测;如果还未满足预测精度要求,则可调整训练样本(例如进一步增加训练样本),并对调整后的训练样本进行训练得到预测精度更高的模型。
通过实验发现,本申请实施例提供的基于GBDT+LR的关键词提取方法较现有技术提供的基于规则的多特征融合的关键词提取方法,在各项质量评价参数上提升明显,平均准确率提升至80%左右,而现有技术提供的基于规则的多特征融合的关键词提取方法的平均准确率仅为62%,总体提升18%。并且,通过实验发现,本申请实施例提供的基于GBDT+LR的关键词提取方法,训练得到的关键词评价模型对应的MAP指标达到85%。
请参考图7,其示出了本申请实施例提供的技术方案所涉及的架构图。预先设定大量的可能影响关键词提取的候选特征,从候选特征中筛选出用于判定一关键词是否为目标关键词的有效特征。有效特征的类型至少包括词频特征、位置特征、语义特征和语言特征。在模型训练阶段,采用训练样本进行模型训练,并对训练完成的模型进行测试评估,得到满足预测精度要求的模型后输出。示例性地,本实施例中采用GBDT模型和LR模型。在线上预测阶段,获取待提取关键词的目标文本,对目标文本进行分词处理并选取候选关键词,获取候选关键词对应的有效特征组成特征向量,将特征向量输入至上述输出的模型,模型的输出结果即为是否将该候选关键词作为目标文本的目标关键词。
下述为本申请的装置实施例,可以用于执行本申请上述的方法实施例。对于本申请的装置实施例中未披露的细节,请参照本申请的方法实施例。
请参考图8,其示出了本申请一个实施例提供的关键词提取装置的框图。该装置具有实现上述方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以包括:提取模块810、第一获取模块820和第一确定模块830。
提取模块810,用于执行上述步骤101或步骤301。
第一获取模块820,用于执行上述步骤102或步骤302。
第一确定模块830,用于执行上述步骤103或步骤304。
可选地,该装置还包括:处理模块。
处理模块,用于执行上述步骤303。
可选地,该装置还包括:第一构建模块和第一训练模块。
第一构建模块,用于执行上述步骤51。
第一训练模块,用于执行上述步骤52。
可选地,该装置还包括:第二构建模块和第二训练模块。
第二构建模块,用于执行上述步骤53。
第二训练模块,用于执行上述步骤54。
可选地,该装置还包括:测试模块和第二获取模块。
测试模块,用于采用测试样本对关键词评价模型进行测试。
第二获取模块,用于根据测试结果获取关键词评价模型的质量评价参数。 其中,质量评价参数包括准确率、召回率、排序精度中的至少一种。
可选地,该装置还包括:第三获取模块、统计模块和第二确定模块。
第三获取模块,用于执行上述步骤21。
统计模块,用于执行上述步骤22。
第二确定模块,用于执行上述步骤23。
可选地,该装置还包括:排序模块。
排序模块,用于根据目标文本的各个目标关键词以及目标文本的各个目标关键词分别对应的概率,对目标文本的各个目标关键词进行排序,得到目标关键词序列,以通过目标关键词序列展示目标文本的各个目标关键词与目标文本之间的相关程度。
可选地,提取模块810,包括:分词单元和选择单元。
分词单元,用于执行上述步骤101a。
选择单元,用于执行上述步骤101b。
可选的,在根据所述概率确定是否将所述候选关键词作为所述目标文本的目标关键词时,所述第一确定模块,具体用于当所述概率大于概率阈值时,将所述候选关键词确定为所述目标文本的目标关键词。
相关细节可参考上述方法实施例。
需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图9,其示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的关键词提取方法。具体来讲:
所述服务器900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。所述服务器900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户 输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说,所述大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
根据本申请的各种实施例,所述服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法的指令。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由服务器的处理器执行以完成上述方法实施例中的各个步骤。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (20)

  1. 一种关键词提取方法,其特征在于,所述方法包括:
    服务器从目标文本中提取候选关键词;
    对于每一个候选关键词,所述服务器获取所述候选关键词对应的各项有效特征,所述有效特征是用于判定关键词是否为目标关键词的特征;
    所述服务器根据所述候选关键词对应的各项有效特征和各项所述有效特征分别对应的加权系数进行计算,获得所述候选关键词属于目标关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的目标关键词。
  2. 根据权利要求1所述的方法,其特征在于,所述服务器根据所述候选关键词对应的各项有效特征和各项所述有效特征分别对应的加权系数进行计算,获得所述候选关键词属于目标关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的目标关键词,包括:
    所述服务器将所述候选关键词对应的各项有效特征输入至关键词评价模型,采用所述关键词评价模型根据所述候选关键词对应的各项有效特征和各项所述有效特征分别对应的加权系数进行计算,获得所述候选关键词属于目标关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的目标关键词。
  3. 根据权利要求2所述的方法,其特征在于,所述服务器将所述候选关键词对应的各项有效特征输入至关键词评价模型之前,还包括:
    所述服务器将所述候选关键词对应的各项有效特征输入至特征处理模型,采用所述特征处理模型对所述候选关键词对应的各项有效特征进行预定处理,得到所述候选关键词对应的处理后的有效特征;
    其中,所述候选关键词对应的处理后的有效特征作为所述关键词评价模型的输入,所述预定处理包括连续特征离散化处理、特征组合处理中的至少一种。
  4. 根据权利要求3所述的方法,其特征在于,所述服务器将所述候选关键词对应的各项有效特征输入至特征处理模型之前,还包括:
    所述服务器构建梯度提升决策树GBDT算法的训练样本;
    所述服务器采用GBDT算法对所述GBDT算法的训练样本进行训练,得到GBDT模型,将所述GBDT作为所述特征处理模型;
    其中,所述GBDT算法的训练样本包括第一正样本和第一负样本;所述第一正样本为样本文本中属于目标关键词的字词,所述第一正样本以所述样本文本中属于目标关键词的字词对应的有效特征表示;所述第一负样本为所述样本文本中不属于目标关键词的字词,所述第一负样本以所述样本文本中不属于目标关键词的字词对应的有效特征表示;所述GBDT模型包括多棵决策树,所述决策树的每一个叶子节点对应于一项处理后的有效特征。
  5. 根据权利要求4所述的方法,其特征在于,所述服务器采用GBDT算法对所述GBDT算法的训练样本进行训练,得到GBDT模型之后,还包括:
    所述服务器根据各个所述GBDT算法的训练样本在各棵所述决策树中的预测结果,构建逻辑回归LR算法的训练样本;
    所述服务器采用LR算法对所述LR算法的训练样本进行训练,得到LR模型,将所述LR模型作为所述关键词评价模型;
    其中,所述LR算法的训练样本包括第二正样本和第二负样本;所述第二正样本为所述样本文本中属于目标关键词的字词,所述第二正样本以所述样本文本中属于目标关键词的字词对应的处理后的有效特征表示;所述第二负样本为所述样本文本中不属于目标关键词的字词,所述第二负样本以所述样本文本中不属于目标关键词的字词对应的处理后的有效特征表示。
  6. 根据权利要求2所述的方法,其特征在于,所述方法还包括:
    所述服务器采用测试样本对所述关键词评价模型进行测试;
    所述服务器根据测试结果获取所述关键词评价模型的质量评价参数;
    其中,所述质量评价参数包括准确率、召回率、排序精度中的至少一种。
  7. 根据权利要求1至6任一项所述的方法,其特征在于,所述有效特征的类型至少包括:词频特征、位置特征、语义特征和语言特征;
    所述词频特征是用于指示字词在文本中出现频度的特征;
    所述位置特征是用于指示字词在文本中出现位置的特征;
    所述语义特征是用于指示字词与文本主题之间相关性的特征;
    所述语言特征是用于指示字词的基本属性的特征。
  8. 根据权利要求1至6任一项所述的方法,其特征在于,所述对于每一个候选关键词,所述服务器获取所述候选关键词对应的有效特征之前,还包括:
    所述服务器获取多项候选特征和多个标注样本,所述标注样本是指已标注出目标关键词的文本;
    所述服务器对于每一项候选特征,统计在所述候选特征的各个特征值上的样本占比;
    如果所述样本占比与所述候选特征的特征值之间的关系符合预设条件,则所述服务器将所述候选特征确定为一项有效特征,每一项确定的有效特征用于在从任一目标文本中提取目标关键词时作为目标关键词判定的依据;
    其中,所述样本占比为正样本占比或负样本占比,所述正样本占比是指所述标注样本中正样本的数量与所述标注样本的数量的比值,所述负样本占比是指所述标注样本中负样本的数量与所述标注样本的数量的比值,所述正样本是指存在符合所述候选特征的特征值的目标关键词的标注样本,所述负样本是指不存在符合所述候选特征的特征值的目标关键词的标注样本。
  9. 根据权利要求1至6任一所述的方法,其特征在于,所述根据所述概率确定是否将所述候选关键词作为所述目标文本的目标关键词,包括:
    当所述概率大于概率阈值时,将所述候选关键词确定为所述目标文本的目标关键词。
  10. 一种关键词提取装置,其特征在于,所述装置包括:
    提取模块,用于从目标文本中提取候选关键词;
    第一获取模块,用于对于每一个候选关键词,获取所述候选关键词对应的各个有效特征,所述有效特征是用于判定关键词是否为目标关键词的特征;
    第一确定模块,用于根据所述候选关键词对应的各个有效特征和各项所述有效特征分别对应的加权系数进行计算,获得所述候选关键词属于目标关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的目标关键词。
  11. 根据权利要求10所述的装置,其特征在于,所述第一确定模块,用于:
    将所述候选关键词对应的各项有效特征输入至关键词评价模型,采用所述关键词评价模型根据所述候选关键词对应的各项有效特征和各项所述有效特征分别对应的加权系数进行计算,获得所述候选关键词属于目标关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的目标关键词。
  12. 根据权利要求11所述的装置,其特征在于,所述装置还包括:
    处理模块,用于将所述候选关键词对应的各项有效特征输入至特征处理模型,采用所述特征处理模型对所述候选关键词对应的各项有效特征进行预定处理,得到所述候选关键词对应的处理后的有效特征;
    其中,所述候选关键词对应的处理后的有效特征作为所述关键词评价模型的输入,所述预定处理包括连续特征离散化处理、特征组合处理中的至少一种。
  13. 根据权利要求12所述的装置,其特征在于,所述装置还包括:
    第一构建模块,用于构建梯度提升决策树GBDT算法的训练样本;
    第一训练模块,用于采用GBDT算法对所述GBDT算法的训练样本进行训练,得到GBDT模型,将所述GBDT作为所述特征处理模型;
    其中,所述GBDT算法的训练样本包括第一正样本和第一负样本;所述第一正样本为样本文本中属于目标关键词的字词,所述第一正样本以所述样本文本中属于目标关键词的字词对应的有效特征表示;所述第一负样本为所述样本文本中不属于目标关键词的字词,所述第一负样本以所述样本文本中不属于目标关键词的字词对应的有效特征表示;所述GBDT模型包括多棵决策树,所述决策树的每一个叶子节点对应于一项处理后的有效特征。
  14. 根据权利要求13所述的装置,其特征在于,所述装置还包括:
    第二构建模块,用于根据各个所述GBDT算法的训练样本在各棵所述决策树中的预测结果,构建逻辑回归LR算法的训练样本;
    第二训练模块,用于采用LR算法对所述LR算法的训练样本进行训练,得到LR模型,将所述LR模型作为所述关键词评价模型;
    其中,所述LR算法的训练样本包括第二正样本和第二负样本;所述第二正样本为所述样本文本中属于目标关键词的字词,所述第二正样本以所述样本文 本中属于目标关键词的字词对应的处理后的有效特征表示;所述第二负样本为所述样本文本中不属于目标关键词的字词,所述第二负样本以所述样本文本中不属于目标关键词的字词对应的处理后的有效特征表示。
  15. 根据权利要求11所述的装置,其特征在于,所述装置还包括:
    测试模块,用于采用测试样本对所述关键词评价模型进行测试;
    第二获取模块,用于根据测试结果获取所述关键词评价模型的质量评价参数;
    其中,所述质量评价参数包括准确率、召回率、排序精度中的至少一种。
  16. 根据权利要求10至15任一项所述的装置,其特征在于,所述有效特征的类型至少包括:词频特征、位置特征、语义特征和语言特征;
    所述词频特征是用于指示字词在文本中出现频度的特征;
    所述位置特征是用于指示字词在文本中出现位置的特征;
    所述语义特征是用于指示字词与文本主题之间相关性的特征;
    所述语言特征是用于指示字词的基本属性的特征。
  17. 根据权利要求10至15任一项所述的装置,其特征在于,所述装置还包括:
    第三获取模块,用于获取多项候选特征和多个标注样本,所述标注样本是指已标注出目标关键词的文本;
    统计模块,用于对于每一项候选特征,统计在所述候选特征的各个特征值上的样本占比;
    第二确定模块,用于如果所述样本占比与所述候选特征的特征值之间的关系符合预设条件,则将所述候选特征确定为一项有效特征,每一项确定的有效特征用于在从任一目标文本中提取目标关键词时作为目标关键词判定的依据;
    其中,所述样本占比为正样本占比或负样本占比,所述正样本占比是指所述标注样本中正样本的数量与所述标注样本的数量的比值,所述负样本占比是指所述标注样本中负样本的数量与所述标注样本的数量的比值,所述正样本是指存在符合所述候选特征的特征值的目标关键词的标注样本,所述负样本是指不存在符合所述候选特征的特征值的目标关键词的标注样本。
  18. 根据权利要求10至15任一所述的装置,其特征在于,在根据所述概率确定是否将所述候选关键词作为所述目标文本的目标关键词时,
    所述第一确定模块,具体用于当所述概率大于概率阈值时,将所述候选关键词确定为所述目标文本的目标关键词。
  19. 一种服务器,其特征在于,所述服务器包括:
    一个或多个处理器;和
    存储器;
    所述存储器存储有一个或多个程序,所述一个或多个程序被配置成由所述一个或多个处理器执行,以实现如权利要求1至9任一所述的关键词提取方法。
  20. 一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由服务器中的处理器加载并执行,以实现如权利要求1至9任一所述的关键词提取方法。
PCT/CN2017/108262 2016-11-10 2017-10-30 关键词提取方法、装置和服务器 WO2018086470A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/263,364 US10878004B2 (en) 2016-11-10 2019-01-31 Keyword extraction method, apparatus and server

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201611039501.6 2016-11-10
CN201611039501.6A CN108073568B (zh) 2016-11-10 2016-11-10 关键词提取方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/263,364 Continuation US10878004B2 (en) 2016-11-10 2019-01-31 Keyword extraction method, apparatus and server

Publications (1)

Publication Number Publication Date
WO2018086470A1 true WO2018086470A1 (zh) 2018-05-17

Family

ID=62109444

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/108262 WO2018086470A1 (zh) 2016-11-10 2017-10-30 关键词提取方法、装置和服务器

Country Status (3)

Country Link
US (1) US10878004B2 (zh)
CN (1) CN108073568B (zh)
WO (1) WO2018086470A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241525A (zh) * 2018-08-20 2019-01-18 深圳追科技有限公司 关键词的提取方法、装置和系统
CN110110330A (zh) * 2019-04-30 2019-08-09 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110321423A (zh) * 2019-05-31 2019-10-11 阿里巴巴集团控股有限公司 一种文本数据的风险识别方法及服务器
CN110837894A (zh) * 2019-10-28 2020-02-25 腾讯科技(深圳)有限公司 一种特征处理方法、装置及存储介质
CN111125355A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 一种信息处理方法及相关设备
CN111797262A (zh) * 2020-06-24 2020-10-20 北京小米松果电子有限公司 诗词生成方法、装置、电子设备和存储介质
CN112015888A (zh) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 摘要信息提取方法和摘要信息提取系统
CN112035453A (zh) * 2020-08-27 2020-12-04 平安科技(深圳)有限公司 基于gbdt高阶特征组合的推荐方法、装置及存储介质
CN112131463A (zh) * 2020-09-10 2020-12-25 杭州中软安人网络通信股份有限公司 一种热点提取方法、存储介质及服务器
CN112149409A (zh) * 2020-09-23 2020-12-29 平安国际智慧城市科技股份有限公司 医疗词云生成方法、装置、计算机设备及存储介质
CN112487162A (zh) * 2020-11-25 2021-03-12 腾讯音乐娱乐科技(深圳)有限公司 确定文本语义信息的方法、装置、设备以及存储介质
US20210174024A1 (en) * 2018-12-07 2021-06-10 Tencent Technology (Shenzhen) Company Limited Method for training keyword extraction model, keyword extraction method, and computer device
CN113239273A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 用于生成文本的方法、装置、设备以及存储介质
CN113707328A (zh) * 2020-05-20 2021-11-26 阿里巴巴集团控股有限公司 数据处理方法、装置及计算设备
CN113704501A (zh) * 2021-08-10 2021-11-26 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
WO2022199201A1 (zh) * 2021-03-22 2022-09-29 京东科技控股股份有限公司 信息抽取方法、装置和计算机可读存储介质
CN113704501B (zh) * 2021-08-10 2024-05-31 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633398A (zh) * 2018-05-31 2019-12-31 阿里巴巴集团控股有限公司 中心词的确认方法、搜索方法、装置和存储介质
CN109091867B (zh) * 2018-07-26 2023-04-07 深圳市腾讯网络信息技术有限公司 操作控制方法、装置、设备及存储介质
CN109766715B (zh) * 2018-12-24 2023-07-25 贵州航天计量测试技术研究所 一种面向大数据环境隐私信息防泄露自动识别方法及系统
CN109918293B (zh) * 2019-01-29 2024-05-03 平安科技(深圳)有限公司 系统测试方法及装置、电子设备、计算机可读存储介质
CN110032878B (zh) * 2019-03-04 2021-11-02 创新先进技术有限公司 一种安全的特征工程方法和装置
CN110119770B (zh) * 2019-04-28 2024-05-14 平安科技(深圳)有限公司 决策树模型构建方法、装置、电子设备及介质
CN110347908B (zh) * 2019-05-23 2023-04-18 平安科技(深圳)有限公司 语音购物方法、装置、介质及电子设备
KR102278020B1 (ko) * 2019-05-31 2021-07-15 주식회사 아티프렌즈 챗봇을 이용한 질의응답 처리 장치 및 방법
CN110502630B (zh) * 2019-07-31 2022-04-15 北京字节跳动网络技术有限公司 信息处理方法及设备
CN110532393B (zh) * 2019-09-03 2023-09-26 腾讯科技(深圳)有限公司 文本处理方法、装置及其智能电子设备
CN110750643B (zh) * 2019-09-29 2024-02-09 上证所信息网络有限公司 上市公司非定期公告的分类方法、装置及存储介质
CN110969304A (zh) * 2019-12-04 2020-04-07 汇鼎数据科技(上海)有限公司 数字工厂生产产能预测方法、系统、装置
CN111078838B (zh) * 2019-12-13 2023-08-18 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111078884B (zh) * 2019-12-13 2023-08-15 北京小米智能科技有限公司 一种关键词提取方法、装置及介质
CN111126060B (zh) * 2019-12-24 2023-04-25 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN113051890A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 领域特征关键词的处理方法及相关装置
CN111143693B (zh) * 2019-12-31 2024-04-30 腾讯科技(深圳)有限公司 基于人工智能的特征处理模型的训练方法及装置
CN111401040B (zh) * 2020-03-17 2021-06-18 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法
CN111522957B (zh) * 2020-05-09 2023-05-12 支付宝(杭州)信息技术有限公司 一种短语分割模型的训练方法和系统
CN111611390B (zh) * 2020-06-11 2023-11-17 支付宝(杭州)信息技术有限公司 一种数据处理方法及装置
CN111737553A (zh) * 2020-06-16 2020-10-02 苏州朗动网络科技有限公司 企业关联词的选取方法、设备和存储介质
CN111767403B (zh) * 2020-07-07 2023-10-31 腾讯科技(深圳)有限公司 一种文本分类方法和装置
CN112100363A (zh) * 2020-09-22 2020-12-18 上海蜜度信息技术有限公司 一种基于关键词的文本信息精准匹配方法、系统、存储介质、终端
CN112257424A (zh) * 2020-09-29 2021-01-22 华为技术有限公司 一种关键词提取方法、装置、存储介质及设备
CN112364601B (zh) * 2020-10-28 2023-04-07 南阳理工学院 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置
CN112347778B (zh) * 2020-11-06 2023-06-20 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112464648B (zh) * 2020-11-23 2023-08-18 南瑞集团有限公司 基于多源数据分析的行业标准空白特征识别系统及方法
CN112417101B (zh) * 2020-11-23 2023-08-18 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
CN112464656B (zh) * 2020-11-30 2024-02-13 中国科学技术大学 关键词抽取方法、装置、电子设备和存储介质
CN112613367A (zh) * 2020-12-14 2021-04-06 盈科票据服务(深圳)有限公司 票据信息文本框获取方法、系统、设备及存储介质
CN112528026A (zh) * 2020-12-17 2021-03-19 北京沃东天骏信息技术有限公司 关键词识别方法、装置、设备及介质
CN112908488B (zh) * 2021-02-09 2022-03-11 北京药明津石医药科技有限公司 事件识别方法、装置、计算机设备和存储介质
CN113010641A (zh) * 2021-03-10 2021-06-22 北京三快在线科技有限公司 一种数据处理的方法及装置
CN112990465A (zh) * 2021-03-17 2021-06-18 平安科技(深圳)有限公司 佛学知识萃取方法、装置、设备及存储介质
CN113821587B (zh) * 2021-06-02 2024-05-17 腾讯科技(深圳)有限公司 文本相关性确定方法、模型训练方法、装置及存储介质
CN113240355B (zh) * 2021-07-12 2021-11-02 贝壳找房(北京)科技有限公司 Im服务评价模型的训练方法及评价方法
CN113823326B (zh) * 2021-08-16 2023-09-19 华南理工大学 一种高效语音关键词检测器训练样本使用方法
CN113673229B (zh) * 2021-08-23 2024-04-05 广东电网有限责任公司 一种电力营销数据交互方法、系统及存储介质
CN113887206B (zh) * 2021-09-15 2023-04-28 北京三快在线科技有限公司 一种模型训练及关键词提取方法及装置
CN117056458B (zh) * 2023-08-04 2024-04-19 北京网聘信息技术有限公司 基于向量空间算法进行前端检索的方法
CN116894092B (zh) * 2023-09-11 2024-01-26 中移(苏州)软件技术有限公司 文本处理方法、装置、电子设备及可读存储介质
CN117556064B (zh) * 2024-01-11 2024-03-26 北京邮电大学 基于大数据分析的信息分类存储方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN102054006A (zh) * 2009-11-10 2011-05-11 腾讯科技(深圳)有限公司 一种词汇质量挖掘评价方法及装置
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN103678422A (zh) * 2012-09-25 2014-03-26 北京亿赞普网络技术有限公司 网页分类方法和装置、网页分类器的训练方法和装置
CN105843850A (zh) * 2016-03-15 2016-08-10 北京百度网讯科技有限公司 搜索优化方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130031083A1 (en) * 2007-10-15 2013-01-31 Jayant Madhavan Determining keyword for a form page
US7895205B2 (en) * 2008-03-04 2011-02-22 Microsoft Corporation Using core words to extract key phrases from documents
US20100153318A1 (en) * 2008-11-19 2010-06-17 Massachusetts Institute Of Technology Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations
KR20110071635A (ko) * 2009-12-21 2011-06-29 한국전자통신연구원 Rss기반 키워드 추출 장치 및 방법
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN103201718A (zh) * 2010-11-05 2013-07-10 乐天株式会社 关于关键词提取的系统和方法
CN103425677B (zh) * 2012-05-18 2016-08-24 阿里巴巴集团控股有限公司 关键词分类模型确定方法、关键词分类方法及装置
CN103473317A (zh) * 2013-09-12 2013-12-25 百度在线网络技术(北京)有限公司 提取关键词的方法和设备
EP3117339A4 (en) * 2014-03-10 2017-07-19 Excalibur IP, LLC Systems and methods for keyword suggestion
KR101536520B1 (ko) * 2014-04-28 2015-07-14 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN102054006A (zh) * 2009-11-10 2011-05-11 腾讯科技(深圳)有限公司 一种词汇质量挖掘评价方法及装置
CN103678422A (zh) * 2012-09-25 2014-03-26 北京亿赞普网络技术有限公司 网页分类方法和装置、网页分类器的训练方法和装置
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN105843850A (zh) * 2016-03-15 2016-08-10 北京百度网讯科技有限公司 搜索优化方法和装置

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241525A (zh) * 2018-08-20 2019-01-18 深圳追科技有限公司 关键词的提取方法、装置和系统
CN109241525B (zh) * 2018-08-20 2022-05-06 深圳追一科技有限公司 关键词的提取方法、装置和系统
CN111125355A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 一种信息处理方法及相关设备
US20210174024A1 (en) * 2018-12-07 2021-06-10 Tencent Technology (Shenzhen) Company Limited Method for training keyword extraction model, keyword extraction method, and computer device
US11947911B2 (en) * 2018-12-07 2024-04-02 Tencent Technology (Shenzhen) Company Limited Method for training keyword extraction model, keyword extraction method, and computer device
CN110110330B (zh) * 2019-04-30 2023-08-11 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110110330A (zh) * 2019-04-30 2019-08-09 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN112015888A (zh) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 摘要信息提取方法和摘要信息提取系统
CN112015888B (zh) * 2019-05-31 2023-08-18 百度在线网络技术(北京)有限公司 摘要信息提取方法和摘要信息提取系统
CN110321423B (zh) * 2019-05-31 2023-03-31 创新先进技术有限公司 一种文本数据的风险识别方法及服务器
CN110321423A (zh) * 2019-05-31 2019-10-11 阿里巴巴集团控股有限公司 一种文本数据的风险识别方法及服务器
CN110837894B (zh) * 2019-10-28 2024-02-13 腾讯科技(深圳)有限公司 一种特征处理方法、装置及存储介质
CN110837894A (zh) * 2019-10-28 2020-02-25 腾讯科技(深圳)有限公司 一种特征处理方法、装置及存储介质
CN113707328A (zh) * 2020-05-20 2021-11-26 阿里巴巴集团控股有限公司 数据处理方法、装置及计算设备
CN111797262A (zh) * 2020-06-24 2020-10-20 北京小米松果电子有限公司 诗词生成方法、装置、电子设备和存储介质
CN112035453A (zh) * 2020-08-27 2020-12-04 平安科技(深圳)有限公司 基于gbdt高阶特征组合的推荐方法、装置及存储介质
CN112035453B (zh) * 2020-08-27 2024-03-12 平安科技(深圳)有限公司 基于gbdt高阶特征组合的推荐方法、装置及存储介质
CN112131463A (zh) * 2020-09-10 2020-12-25 杭州中软安人网络通信股份有限公司 一种热点提取方法、存储介质及服务器
CN112149409B (zh) * 2020-09-23 2024-04-02 深圳赛安特技术服务有限公司 医疗词云生成方法、装置、计算机设备及存储介质
CN112149409A (zh) * 2020-09-23 2020-12-29 平安国际智慧城市科技股份有限公司 医疗词云生成方法、装置、计算机设备及存储介质
CN112487162A (zh) * 2020-11-25 2021-03-12 腾讯音乐娱乐科技(深圳)有限公司 确定文本语义信息的方法、装置、设备以及存储介质
WO2022199201A1 (zh) * 2021-03-22 2022-09-29 京东科技控股股份有限公司 信息抽取方法、装置和计算机可读存储介质
CN113239273A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 用于生成文本的方法、装置、设备以及存储介质
CN113239273B (zh) * 2021-05-14 2023-07-28 北京百度网讯科技有限公司 用于生成文本的方法、装置、设备以及存储介质
CN113704501A (zh) * 2021-08-10 2021-11-26 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN113704501B (zh) * 2021-08-10 2024-05-31 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108073568B (zh) 2020-09-11
US20190163690A1 (en) 2019-05-30
CN108073568A (zh) 2018-05-25
US10878004B2 (en) 2020-12-29

Similar Documents

Publication Publication Date Title
WO2018086470A1 (zh) 关键词提取方法、装置和服务器
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US11520812B2 (en) Method, apparatus, device and medium for determining text relevance
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN110019732B (zh) 一种智能问答方法以及相关装置
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
WO2017097231A1 (zh) 话题处理方法及装置
JP2019536119A (ja) ユーザ興味の識別方法、装置およびコンピュータ読み取り可能な記憶媒体
WO2020087774A1 (zh) 基于概念树的意图识别方法、装置及计算机设备
WO2017190527A1 (zh) 一种文本数据分类方法及服务器
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
US11756094B2 (en) Method and device for evaluating comment quality, and computer readable storage medium
US20230386168A1 (en) Pre-training method, image and text retrieval method for a vision and scene text aggregation model, electronic device, and storage medium
WO2022121163A1 (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN115470313A (zh) 信息检索及模型训练方法、装置、设备和存储介质
CN111797204A (zh) 文本匹配方法、装置、计算机设备及存储介质
US10229194B2 (en) Providing known distribution patterns associated with specific measures and metrics
CN109753646B (zh) 一种文章属性识别方法以及电子设备
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN113656575A (zh) 训练数据的生成方法、装置、电子设备及可读介质
WO2021056740A1 (zh) 语言模型构建方法、系统、计算机设备及可读存储介质
CN110633363A (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN114201607B (zh) 一种信息处理的方法和装置
CN116453702B (zh) 孤独症行为特征集的数据处理方法、设备、系统及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17870360

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17870360

Country of ref document: EP

Kind code of ref document: A1