WO2017084267A1 - 一种关键词提取方法和装置 - Google Patents

一种关键词提取方法和装置 Download PDF

Info

Publication number
WO2017084267A1
WO2017084267A1 PCT/CN2016/082642 CN2016082642W WO2017084267A1 WO 2017084267 A1 WO2017084267 A1 WO 2017084267A1 CN 2016082642 W CN2016082642 W CN 2016082642W WO 2017084267 A1 WO2017084267 A1 WO 2017084267A1
Authority
WO
WIPO (PCT)
Prior art keywords
candidate
keyword
keywords
candidate keyword
similarity
Prior art date
Application number
PCT/CN2016/082642
Other languages
English (en)
French (fr)
Inventor
赵九龙
Original Assignee
乐视控股(北京)有限公司
乐视网信息技术(北京)股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 乐视控股(北京)有限公司, 乐视网信息技术(北京)股份有限公司 filed Critical 乐视控股(北京)有限公司
Priority to US15/241,121 priority Critical patent/US20170139899A1/en
Publication of WO2017084267A1 publication Critical patent/WO2017084267A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the embodiments of the present invention relate to the field of information technology, and in particular, to a keyword extraction method and apparatus.
  • Keyword extraction is an effective means to solve the above problems. Key words are the refinement of the main body information of the article, faster grasp of important information, and improve the efficiency of information access.
  • keyword extraction methods There are two kinds of keyword extraction methods: the first one is called keyword allocation, that is, given a keyword library, and then an article finds several words from the vocabulary as keywords of this article. The other is keyword extraction, which is to an article, extract some words from the article as the key words of this article.
  • keyword allocation that is, given a keyword library
  • keyword extraction which is to an article, extract some words from the article as the key words of this article.
  • domain-independent keyword extraction algorithms domain-independent algorithms mean that any topic or domain text can be used to extract keywords
  • its corresponding libraries are based on keyword extraction. It is more practical to assign keywords.
  • Keyword extraction algorithms currently mainly TF-IDF algorithm, KEA algorithm and TextRank algorithm.
  • the TF-IDF keyword extraction algorithm introduced in "The Beauty of Mathematics" needs to be saved in advance.
  • the IDF (inverse document frequency) value of the word is used as an external knowledge base, and the complex algorithm needs to save more information.
  • the idea of the TF-IDF algorithm is to find words that are common in text but do not appear frequently in other texts. This is in line with the characteristics of keywords.
  • the original KEA algorithm used the first place where words appear in the article.
  • the basis is that most articles (especially news texts) are the total structure of the total score. It is obvious that a word appears in the head of the article and The possibility that the tail becomes a keyword is greater than the words that appear only in the middle of the article.
  • each word is given different weights according to the position where the article first appears. This is the core idea of the original KEA algorithm.
  • the keyword algorithm that does not rely on the external knowledge base is mainly extracted according to the characteristics of the text itself.
  • one of the keyword features is that the probability of recurring in the text and the occurrence of keywords near the keyword is very large, so there is a TextRank algorithm. It uses a similar PageRank algorithm to treat each word in a text as a page, thinking that a word in the text has a link with the N words around it, and then using PageRank in this network to calculate the weight of each word, The words with the highest weight can be used as keywords.
  • Typical implementations of TextRank include FudanNLP and SnowNLP.
  • TF*IDF measures the importance of words based on the product of word frequency (TF) and inverse document frequency (IDF).
  • TF word frequency
  • IDF inverse document frequency
  • the embodiment of the invention provides a keyword extraction algorithm and device, which are used to solve the prior art only
  • the defect of word position and word positional relationship is considered to improve the accuracy of keyword extraction.
  • An embodiment of the present invention provides a keyword extraction method, including:
  • An embodiment of the present invention provides a keyword extraction apparatus, including:
  • a candidate keyword obtaining module configured to use a tokenizer to segment the text to obtain a word, and filter the word to obtain a candidate keyword;
  • a similarity calculation module configured to calculate a similarity between any two of the candidate keywords
  • An inverse document frequency calculation module configured to calculate a weight of the candidate keyword according to the similarity, and calculate an inverse document frequency of the candidate keyword according to a preset corpus
  • the keyword extraction module is configured to acquire a key degree of the candidate keyword according to the weight of the candidate keyword and the inverse document frequency, and select a keyword according to a key degree of the candidate keyword.
  • a keyword extraction method and apparatus provided by an embodiment of the present invention improves the accuracy of keyword extraction by segmenting text, calculating similarity between words, and inverse document frequency.
  • Embodiment 1 is a technical flowchart of Embodiment 1 of the present invention.
  • Embodiment 2 is a technical flowchart of Embodiment 2 of the present invention.
  • FIG. 3 is a schematic structural diagram of a device according to Embodiment 3 of the present invention.
  • FIG. 5 is an example of a term diagram after TextRank iteration of an application example of the present invention.
  • a keyword extraction method mainly includes the following steps:
  • Step 110 Using a tokenizer to segment the text to obtain a word, and filtering the word to obtain a candidate keyword;
  • the collected text is segmented into individual words by using an existing word breaker, and the part of speech of each word can be obtained, wherein the word segmenter can include a word breaker based on a dictionary matching algorithm and a word segmentation based on the word library matching.
  • the embodiment of the present invention is not limited to the word breaker, the word segmentation based on the word frequency statistics, and the word segmentation device based on the knowledge understanding.
  • the word After the word is obtained by the tokenizer, the word needs to be further processed, such as filtering the stop word and the non-essential word according to the part of speech and the preset blacklist.
  • the stop words are words that have no actual meaning, including modal auxiliary words, adverbs, prepositions, conjunctions, etc., usually have no clear meaning, and only have to be put into a complete sentence, such as Chinese. "the, is, at, which, which are common in the text, in the English text.” On”. For some non-essential words, you can filter these words according to the default blacklist and regular expressions to get the candidate keywords in the text.
  • Step 120 Calculate a similarity between any two of the candidate keywords
  • word2vec is used to calculate a word vector.
  • Word2vec is a tool for converting words into vector form.
  • the processing of the text content can be simplified to the vector operation in the vector space, and the similarity in the vector space can be calculated to represent the semantic similarity of the text.
  • Word2vec provides an effective bag-of-words and skip-gram architecture for computing vector words. Word2vec can calculate the distance between words and words, know the distance, and cluster words. And word2vec itself also provides clustering capabilities.
  • Word2vec uses deep learning technology, which not only has very high accuracy, but also is very efficient, suitable for processing massive amounts of data.
  • Step 130 Calculate weights of each of the candidate keywords according to the similarity, and calculate an inverse document frequency of each of the candidate keywords according to a preset corpus;
  • the weight of each candidate keyword is iteratively calculated by using the TextRank formula, and the term map G(V, E) is pre-built before the iterative calculation, wherein V is the candidate keyword set, and E is any The sum of the edges of the two candidate keywords connected,
  • the weight of each of the candidate keywords is iteratively calculated according to a preset number of iterations using the following formula:
  • WS(V i ) represents the weight of the candidate keyword V i in the term map
  • In(V i ) represents a candidate keyword set pointing to the candidate keyword V i in the term map
  • Out ( V j ) represents a set of candidate keywords pointed to by the candidate keyword V j in the term map
  • w ji represents the similarity of the candidate keyword V i and the candidate keyword V j
  • w jk represents the candidate keyword
  • the similarity of V j and the candidate keyword V k , d is a damping coefficient
  • WS(V j ) represents the weight of the candidate keyword V j at the last iteration.
  • the inverse document frequency of each of the candidate keywords is further calculated using the following formula:
  • Step 140 Acquire a key degree of the candidate keyword according to the weight of the candidate keyword and the inverse document frequency, and select a keyword according to the keyness of the candidate keyword.
  • a product of the weight of the candidate keyword and the inverse document frequency of the candidate keyword is used as a key degree of the candidate keyword, and according to each of the candidate keywords
  • the keyness ranking and the preset number of keywords are used to select keywords.
  • each candidate keyword will eventually obtain a corresponding key degree, and the candidate keywords are sorted according to their corresponding key degrees, and if N keywords need to be extracted, only Start with the most critical candidate keywords and select N in order.
  • the criticality weight*the inverse document frequency, wherein the calculation process of the weight combines the similarity between the words, and considers the positional relationship of the words, and the inverse document frequency takes into account the word pair.
  • the contribution of the text, such a comprehensive keyword extraction method significantly improves the extraction of keywords.
  • Embodiment 2 is a technical flowchart of Embodiment 2 of the present invention.
  • an embodiment of the present invention The extraction method of the keyword can be further refined into the following steps:
  • Step 210 Using a tokenizer to segment the text to obtain each word and its part of speech;
  • the method for dividing the text into words by using the existing word segmentation method may be any one of the following, or a combination of any combination.
  • the word breaker based on the dictionary matching algorithm applies dictionary matching, Chinese lexical or other Chinese language knowledge for word segmentation, such as: maximum matching method, minimum word segmentation method, and the like.
  • the tokenizer based on the thesaurus matching is based on the statistical information of the words and words, such as the information between the adjacent words, the word frequency and the corresponding co-occurrence information are applied to the word segmentation, since the information is obtained by investigating the real corpus, thus The statistical segmentation method based on statistics has good practicability.
  • the word segmentation method based on dictionary and thesaurus matching matches the character string to be analyzed with the term in a sufficiently large machine dictionary according to a certain strategy. If a string is found in the dictionary, the matching is successful.
  • a word is identified, which is divided into forward matching and reverse matching according to the scanning direction. According to the case of priority matching with different lengths, it is divided into the largest (longest) matching and the smallest (shortest) matching. According to whether it is combined with the part-of-speech tagging process, it can be divided into a simple word segmentation method and an integrated method of word segmentation and labeling.
  • the maximum forward matching method (Maxium Matching Method) is usually referred to as the MM method.
  • the basic idea is: assuming that the longest word in the word segmentation dictionary has i Chinese characters, the first i words in the current string of the processed text are used as matching fields to search for a dictionary. If such an i word exists in the dictionary, the match is successful and the matching field is segmented as a word. If such an i word is not found in the dictionary, the match fails, the last word in the matching field is removed, and the remaining strings are re-matched... so go on until the match is successful, ie, split The length of a word or remaining string is zero. This completes a round of matching, then removes an i-word string for matching until the text is scanned.
  • the ReverseMaxium Matching Method is often referred to simply as the RMM method.
  • the basic principle of the RMM method is the same as the MM method. The difference is the direction of the word segmentation.
  • the MM method is the opposite, and the word segmentation used is different.
  • the inverse maximum matching method starts the matching scan from the end of the processed text, and takes the last 2i characters (i word string) as the matching field each time. If the matching fails, the first word of the matching field is removed, and the matching is continued.
  • the word segmentation dictionary it uses is a reverse dictionary, in which each term is stored in reverse order. In the actual processing, the text is first inverted to generate reverse text. Then, according to the reverse order dictionary, the reverse order text can be processed by the forward maximum matching method.
  • the maximum matching algorithm is a mechanical word segmentation method based on word segmentation dictionary. It can't divide words according to the semantic features of text context, and it has greater dependence on the dictionary. Therefore, in actual use, it will inevitably cause some word segmentation errors, in order to improve the system.
  • the accuracy of word segmentation can be combined with the forward maximum matching method and the inverse maximum matching method, that is, the two-way matching method.
  • the two-way matching method combines the forward maximum matching method with the inverse maximum matching method.
  • the text is roughly segmented according to the punctuation, the text is decomposed into several sentences, and then the sentences are scanned and segmented by the forward maximum matching method and the inverse maximum matching method. If the matching results obtained by the two word segmentation methods are the same, the word segmentation is considered correct, otherwise, it is processed according to the minimum set.
  • the word segmentation method based on the frequency statistics of words is a full segmentation method. Instead of relying on a dictionary, it counts the frequency at which any two words in the article appear at the same time. The higher the number, the more likely it is a word. It first cuts out all possible words that match the vocabulary, and uses statistical language models and decision algorithms to determine the optimal segmentation results. Its advantage is that it can find all the differences and easily extract new words.
  • the word segmentation method based on knowledge understanding is mainly based on syntax and grammar analysis, combined with semantic analysis, and delimits words by analyzing the information provided by context content. It usually consists of three parts: participle subsystem, syntactic and semantic subsystem, total Control section. Under the coordination of the general control part, the word segmentation subsystem can obtain syntactic and semantic information about words, sentences, etc. to judge the participle ambiguity.
  • Such methods attempt to give machines a human understanding and require a large amount of linguistic knowledge and information. Due to the generality and complexity of Chinese language knowledge, it is difficult to organize various language information into machines. A form that can be read directly.
  • the embodiment of the present invention performs deduplication processing on the text in advance using a regular expression before segmentation of the text by using a tokenizer, such as an emoticon O( ⁇ _ ⁇ )O in the text, or similar. Extremely repeated punctuation or extreme repetitions like "hahahahaha".
  • a tokenizer such as an emoticon O( ⁇ _ ⁇ )O in the text, or similar.
  • the auto comment template can be further counted, for example, according to the auto comment template, the auto comment included in the comment data, some web links, and the like are removed.
  • Step 220 Perform stop word filtering on the word according to the part of speech and a preset blacklist to obtain a candidate keyword
  • the text usually contains a large number of modal particles, auxiliary words and other words that do not have practical meaning. These words are called stop words.
  • the frequency of such stop words is usually very high. If it is not filtered, it will affect the key. The accuracy of word extraction.
  • the candidate keywords are first filtered according to part of speech. Generally, various auxiliary words and prepositions need to be filtered out.
  • a blacklist is established in advance, which includes not only stop words, but also some illegal words, advertisement vocabulary and the like. According to the pre-established blacklist, the candidate keywords can be cleaned again using the regular expression to alleviate the subsequent calculation pressure.
  • Step 230 Calculate a similarity between any two of the candidate keywords
  • each of the candidate keywords is converted into a form of a word vector by using word2vec, and any two of the candidates are obtained according to the spatial similarity of the word vectors corresponding to each of the candidate words.
  • the similarity between keywords is a prefix of the candidate keywords.
  • Word2vec is an efficient tool that Google has open sourced in 2013 to represent words as real-valued vectors.
  • the models used are CBOW (Continuous Bag-Of-Words) and Skip-Gram.
  • Word2vec follows the Apache License 2.0 open source protocol and can simplify the processing of text content through training. It is a vector operation in the K-dimensional vector space, and the similarity in the vector space can be used to represent the semantic similarity of the text. Therefore, the word vector output by word2vec can be used to do a lot of NLP related work, such as clustering, finding synonyms, part of speech analysis and so on.
  • the candidate keyword is mainly converted into a vector operation in a K-dimensional vector space by using a word2vec tool, and the corresponding similarity is calculated by the similarity of the spatial word vectors corresponding to each of the candidate keywords. degree.
  • Step 240 Construct a term map according to the candidate keyword
  • N-K+1 candidate keyword windows are obtained by panning one by one on the candidate keywords by using a preset window, and each of the windows includes K adjacent candidate keywords; wherein N is the candidate The total number of keywords, K is the size of the window;
  • the candidate keywords are v1, v2, v3, v4, v5, ..., vn, and the window length is K.
  • the window is overlaid on the candidate keywords and translated one by one, and the following candidate keyword window is obtained: V1, v2, ..., vk, v2, v3, ..., vk+1, v3, v4, ..., vk+2, ... and so on.
  • the candidate keywords in each window are related to each other, and the windows are independent by default.
  • each of the candidate keywords can be regarded as a node, and the term map is composed of a connection between a plurality of nodes and nodes, and the links are initially unlicensed and undirected. side.
  • step 230 there is no sequence between step 230 and step 240.
  • the term map may be constructed first and then the similarity between the candidate keywords may be calculated.
  • Step 250 Iteratively calculate the weight of each of the candidate keywords by using a TextRank formula
  • connection relationship of the candidate keywords and the similarity between each of the candidate keywords are iteratively calculated using the following formula:
  • WS(V i ) represents the weight of the candidate keyword V i in the term map
  • In(V i ) represents a candidate keyword set pointing to the candidate keyword V i in the term map
  • Out ( V j ) represents a set of candidate keywords pointed to by the candidate keyword V j in the term map
  • w ji represents the similarity of the candidate keyword V i and the candidate keyword V j
  • w jk represents the candidate keyword
  • the similarity of V j and the candidate keyword V k , d is a damping coefficient
  • WS(V j ) represents the weight of the candidate keyword V j at the last iteration.
  • the number of iterations is a preset experience value, and the number of iterations is affected by the initial value of the candidate keyword weights.
  • the initial value of the candidate keywords specified in the term map needs to be assigned.
  • the initial value of the weight of each of the candidate keywords is set to 1.
  • the upper limit of the number of iterations is set for the iterative process in the embodiment of the present invention.
  • the embodiment of the present invention may also determine the number of iterations by determining whether the iterative result converges.
  • the iteration can be stopped, and the specified candidate keyword will get a weight value.
  • the convergence can achieve the convergence point by determining whether the error rate of the weight value calculated by the specified candidate keyword is less than a preset limit value.
  • the error rate of the candidate keyword Vi is the difference between the actual weight and the weight obtained at the Kth iteration, but since the actual weight of the candidate keyword is unknown, the error rate is approximately considered to be the candidate keyword twice.
  • the difference between the iteration results generally the limit value is taken as 0.0001.
  • Step 260 Calculate an inverse document frequency of each of the candidate keywords according to a preset corpus
  • the inverse document frequency may be calculated first, and then the weight of each candidate keyword is iteratively calculated, which is not limited by the present invention.
  • Step 270 using the product of the weight of the candidate keyword and the inverse document frequency of the candidate keyword as the key degree of the candidate keyword, and sorting according to the criticality of each candidate keyword And the number of preset keywords to select keywords.
  • the algorithm for extracting keywords by further filtering the non-essential factors of the text, the data redundancy is alleviated, the calculation efficiency in the keyword extraction process is improved, and the word2vec tool is used to judge the synonyms. Combining the positional relationship of words with word frequency, the quality and accuracy of extracted keywords are higher.
  • a keyword extraction apparatus of the present invention mainly includes a candidate keyword acquisition module 310, a similarity calculation module 320, an inverse document frequency calculation module 330, and keyword extraction. Module 340.
  • the candidate keyword obtaining module 310 is configured to use a tokenizer to segment the text to obtain each word and its part of speech, and perform stop word filtering on the word according to the part of speech and a preset blacklist to obtain a candidate keyword. ;
  • the similarity calculation module 320 is configured to calculate a similarity between any two of the candidate keywords
  • the inverse document frequency calculation module 330 is configured to iteratively calculate the weight of each of the candidate keywords by using a TextRank formula according to the similarity, and calculate an inverse document frequency of each of the candidate keywords according to a preset corpus. ;
  • the keyword extraction module 340 is configured to use a product of the weight of the candidate keyword and the inverse document frequency of the candidate keyword as a key degree of the candidate keyword, and according to each The keyness ranking of candidate keywords and the preset number of keywords are used to select keywords.
  • the similarity calculation module 320 is further configured to: convert each of the candidate keywords into a form of a word vector by using word2vec, and spatially similar according to the word vector corresponding to each of the candidate words. The degree of similarity between any two of the candidate keywords is obtained.
  • the apparatus further includes a composition module 350 for panning the candidate keywords one by one with a preset window before iteratively calculating the weight of each of the words according to the similarity.
  • An undirected edge connects any two of the candidate keywords in each of the windows to obtain a certain number of word graphs G(V, E), where V is the candidate keyword set, and E is any two The sum of the sides of the candidate keywords connected,
  • the inverse document frequency calculation module 330 is further configured to: iteratively calculate the weight of each of the candidate keywords according to a preset number of iterations by using a formula:
  • WS(V i ) represents the weight of the candidate keyword V i in the term map
  • In(V i ) represents a candidate keyword set pointing to the candidate keyword V i in the term map
  • Out ( V j ) represents a set of candidate keywords pointed to by the candidate keyword V j in the term map
  • w ji represents the similarity of the candidate keyword V i and the candidate keyword V j
  • w jk represents the candidate keyword
  • the similarity of V j and the candidate keyword V k , d is a damping coefficient
  • WS(V j ) represents the weight of the candidate keyword V j at the last iteration.
  • the inverse document frequency calculation module is further used for
  • the inverse document frequency of each of the candidate keywords is calculated using the following formula:
  • log() represents a logarithm operation
  • the word segmentation is used to segment the sentence.
  • each word is scanned in the forward direction and matched with the preset thesaurus, and the following results may be obtained:
  • a window of length 5 is overlaid on the candidate keywords and translated one by one to obtain the following candidate keyword window:
  • each window is connected to each other, and the two are pointing to each other, as shown in Figure 4.
  • the device embodiments described above are merely illustrative, wherein the units described as separate components may or may not be physically separate, and the components displayed as units may or may not be physical units, ie may be located A place, or it can be distributed to multiple network units. Some or all of the modules may be selected according to actual needs to achieve the purpose of the solution of the embodiment. Those of ordinary skill in the art can understand and implement without deliberate labor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种关键词提取方法和装置,利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词(110);计算任意两个所述候选关键词之间的相似度(120);根据所述相似度计算所述候选关键词的权重,根据预设的语料库计算所述候选关键词的逆文档频率(130);根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词(140),提高了关键词抽取的准确率。

Description

一种关键词提取方法和装置
交叉引用
本申请引用于2015年11月18日递交的名称为“一种关键词提取方法和装置”的第2015107993486号中国专利申请,其通过引用被全部并入本申请。
技术领域
本发明实施例涉及信息技术领域,尤其涉及一种关键词提取方法和装置。
背景技术
随着信息技术的不断发展,大量的文本信息开始以计算机可读的形式存在,许多领域信息都呈现出爆发式增长,比如豆瓣上的影评以及短评。如何在海量的信息当中快速并准确的提取有用的信息将是一个重要的技术需求。关键词提取就是一种解决上述问题的有效手段,关键词是对文章主体信息的精炼,更快的掌握重要信息,提高信息访问的效率。
关键词提取从方法来说大致有两种:第一种叫做关键词分配,即给定一个关键词库,然后来一篇文章从词库里面找到几个词语作为这篇文章的关键词。另外一种就是关键词抽取,就是来一篇文章,从文章中抽取一些词语作为这篇文章的关键词。目前大多数领域无关的关键词抽取算法(领域无关算法的意思就是无论什么主题或者领域的文本都可以抽关键词的算法)和它对应的库都是基于关键词抽取的,关键词抽取相比于关键词分配更具有实际意义。
关键词抽取的算法,目前主要有TF-IDF算法、KEA算法和TextRank算法。在《数学之美》中介绍的TF-IDF关键词提取算法需要预先保存每 个词的IDF(逆文档频率)值作为外部知识库,复杂的算法则需要保存更多的信息。对于不使用外部知识库的算法,主要是可以实现语言无关以及避免词表中不存在词语所造成的问题。TF-IDF算法思路是找到文本中常见但是在别的文本中不常出现词语,这个正好符合关键词的特点。
初代KEA算法除了使用TF-IDF外还用到了词语在文章中首次出现的位置,这个根据就是大多数的文章(特别是新闻文本)是总分总的结构,很明显一个词语出现在文章首部和尾部成为关键词的可能性大于只出现在文章中部的词语。对各个词根据在文章首次出现的位置赋予不同的权值,结合TF-IDF以及连续数据离散化方法,这个就是初代KEA算法的核心思想。
不依赖外部知识库的关键词算法主要根据文本本身的特征去提取。比如说关键词特征之一就是在文本中反复出现且关键词附近出现关键词的概率非常大,因此就有了TextRank算法。它利用类似于PageRank算法,将文本中每个词看成一个页面,认为文本中某一个词语与之周围N个词存在一个link,然后在这个网络中使用PageRank算出每个词语的权值,把权值最高的几个词作为关键词即可。TextRank典型的实现包括FudanNLP和SnowNLP等。
以上算法都未考虑词语的相似性,TF*IDF是基于词频(TF)和逆文档频率(IDF)的乘积来衡量词的重要性。优点是简单快捷;缺点也很明显,单纯计算”词频”不够全面,而且无法体现词的位置信息。TextRank中计算的是位置关系,至于该位置是哪个词不做考虑,词语的相似性对结果有影响。因此一种高效准确的关键词提取算法亟待提出。
发明内容
本发明实施例提供一种关键词提取算法及装置,用以解决现有技术仅 考虑词频和词的位置关系的缺陷,提高了关键词提取的准确性。
本发明实施例提供一种关键词提取方法,包括:
利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;
计算任意两个所述候选关键词之间的相似度;
根据所述相似度,计算每个所述候选关键词的权重,根据预设的语料库计算所述候选关键词的逆文档频率;
根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词。本发明实施例提供一种关键词提取装置,包括:
候选关键词获取模块,用于利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;
相似度计算模块,用于计算任意两个所述候选关键词之间的相似度;
逆文档频率计算模块,用于根据所述相似度,计算所述候选关键词的权重,根据预设的语料库计算所述候选关键词的逆文档频率;
关键词提取模块,用于根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词。
本发明实施例提供的一种关键词提取方法及装置,通过对文本进行分词、计算单词之间的相似度以及逆文档频率,提高了关键词抽取的准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例一的技术流程图;
图2为本发明实施例二的技术流程图;
图3为本发明实施例三的装置结构示意图;
图4为本发明应用实例的词项图示例;
图5为本发明应用实例的TextRank迭代后的词项图示例。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是本发明实施例一的技术流程图,结合图1,本发明实施例一种关键词提取方法主要包括如下的步骤:
步骤110:利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;
本发明实施例中,利用现有的分词器将收集到的文本分割为单独的词语并且能获得每个单词的词性,其中分词器可以包括基于词典匹配算法的分词器、基于词库匹配的分词器、基于词频度统计的分词器和基于知识理解的分词器等,本发明实施例并不做限制。
利用分词器得到单词后需对单词进行进一步地处理,如根据所述词性和预设的黑名单对所述单词进行停用词与非必要词的过滤等。所述停用词是一些没有实际含义的词,包括语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如中文文本中常见的”的、在”之类,英文文本中的“the、is、at、which、 on”。针对一些非必要词,可以根据预设的黑名单,结合正则表达式将这些词滤除,得到文本中的候选关键词。
步骤120:计算任意两个所述候选关键词之间的相似度;
本发明实施例中,采用word2vec来计算词向量。word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和skip-gram架构实现,Word2vec可以计算词和词之间的距离,知道了距离,可以对词进行聚类,而且word2vec本身也提供了聚类功能。
Word2vec使用到了deep learning技术,不仅有着非常高的准确度,同时效率非常高,适合处理海量数据。
步骤130:根据所述相似度,计算每个所述候选关键词的权重,并根据预设的语料库计算每个所述候选关键词的逆文档频率;
本发明实施例中,利用TextRank公式迭代计算每个所述候选关键词的权重,在迭代计算之前预先构建词项图G(V,E),其中V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集和,
Figure PCTCN2016082642-appb-000001
根据预设的迭代次数,采用如下公式迭代计算每个所述候选关键词的所述权重:
Figure PCTCN2016082642-appb-000002
其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图中指向候选关键词Vi的候选关键词集合,Out(Vj)表示所述词项图中候选关键词Vj所指向的候选关键词的集合,wji表示候选关键词Vi和候选关键词Vj的所述相似度,wjk表示候选关键词Vj和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词Vj的所述权重。
通常来说,如果一个词在越多的文本中出现过,那个这个词对某一个文本的贡献度应该就越小,也就是通过这个词来区分文本的区分度越小,因此,本发明实施例中,进一步使用如下公式计算每个所述候选关键词的所述逆文档频率:
Figure PCTCN2016082642-appb-000003
如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文本都不包含该词)。log表示对得到的值取对数,可以降低最后得到的数值大小。
步骤140:根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词。
具体地,本发明实施例以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。
本发明实施例中,每个候选关键词最终都会得到一个相应的关键度,将所述候选关键词按照其对应的关键度进行由大到小的排序,若是需要提取N个关键词,则只需从关键度最高的候选关键词开始,按序选取N个即可。
本发明实施例中,关键度=权重*逆文档频率,其中,所述权重的计算过程中结合了单词之间的相似性,同时考虑了单词的位置关系,所述逆文档频率又兼顾单词对文本的贡献大小,这样综合的关键词提取方法显著提高了关键词的抽取效果。
实施例二
图2是本发明实施例二的技术流程图,结合图2,本发明实施例一种 关键词的提取方法进一步可以细化为以下的步骤:
步骤210:利用分词器对文本进行分词得到每个单词及其词性;
本发明实施例中,用现有的分词方法,将文本分割为词汇的方法可以是下述任一一种,或者任意几种的组合。
基于词典匹配算法的分词器应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。基于词库匹配的分词器则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。
基于字典、词库匹配的分词方法按照一定策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
其中,最大正向匹配法(MaxiumMatchingMethod)通常简称为MM法。其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文本的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文本被扫描完为止。
最大逆向匹配法(ReverseMaxiumMatchingMethod)通常简称为RMM法。RMM法的基本原理与MM法相同,不同的是分词切分的方向与 MM法相反,而且使用的分词辞典也不同。逆向最大匹配法从被处理文本的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文本进行倒排处理,生成逆序文本。然后,根据逆序词典,对逆序文本用正向最大匹配法处理即可。
最大匹配算法是一种基于分词词典的机械分词法,不能根据文本上下文的语义特征来切分词语,对词典的依赖性较大,所以在实际使用时,难免会造成一些分词错误,为了提高系统分词的准确度,可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案,即双向匹配法。
双向匹配法,将正向最大匹配法与逆向最大匹配法组合。先根据标点对文本进行粗切分,把文本分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最小集处理。
基于词的频度统计的分词方法是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。
基于知识理解的分词方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器 可直接读取的形式。
优选地,本发明实施例在利用分词器对文本进行分词之前预先使用正则表达式对文本进行去重去噪处理,例如文本中的表情符号O(∩_∩)O,或类似“。。。。。。。”的极度重复标点或者类似“哈哈哈哈哈”一类的极度重复词。对于一些特定的网页评论数据,可以进一步统计自动评论模板,例如根据自动评论模板去除评论数据中包含的自动评论、一些网址链接等等。
步骤220:根据所述词性和预设的黑名单对所述单词进行停用词过滤得到候选关键词;
文本中通常含有大量的语气词、助词等一些并不存在实际意义的词,这些词被称为停用词,这类停用词的出现频率通常很高,若是不滤除则会影响到关键词提取的准确率。本发明实施例中,首先根据词性对所述候选关键词进行滤除,通常而言,各类助词和介词是需要被滤除的。除此之外,预先建立黑名单,所述黑名单不仅包括了停用词,还包括一些非法词汇,广告词汇等等。根据预先建立的黑名单可以再次使用正则表达式对所述候选关键词进行清理,减轻后续计算压力。
步骤230:计算任意两个所述候选关键词之间的相似度;
本发明实施例中,利用word2vec将每个所述候选关键词转化为单词向量的形式,并根据每个所述候选词对应的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。
自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,采用的模型有CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和Skip-Gram两种。word2vec遵循Apache License 2.0开源协议,通过训练,可以把对文本内容的处理简化 为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此,word2vec输出的词向量可以被用来做很多NLP相关的工作,比如聚类、找同义词、词性分析等等。
对本文中的单词进行相似性计算,有助于对文本进行分类,了解文档主题,从而提高关键词的提取准确度
本发明实施例中,主要采用word2vec工具将所述候选关键词转化为K维向量空间中的向量运算,再通过每个所述候选关键词对应的空间词向量的相似性来计算其对应的相似度。
步骤240:根据所述候选关键词构建词项图;
用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口,每个所述窗口包含K个相邻的所述候选关键词;其中N为所述候选关键词的总数,K为所述窗口的尺寸;
例如,候选关键词为v1,v2,v3,v4,v5,...,vn,窗口长度为K,将窗口覆盖在所述候选关键词上,逐个平移,将得到如下的候选关键词窗口:v1,v2,...,vk、v2,v3,...,vk+1、v3,v4,...,vk+2,...等等。基于相邻的位置关系,每个窗口内的候选关键词是相互关联的,窗口之间默认独立。
得到候选关键词窗口后,用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V,E),其中V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集和,
Figure PCTCN2016082642-appb-000004
在所述词项图中,每一个所述候选关键词都可以看作是一个节点,词项图就是由若干个节点与节点之间的连线构成,这些连线最初是无权无向的边。
需要说明的是,步骤230和步骤240之间并无先后顺序,本发明实施例中也可以先构建所述词项图再计算所述候选关键词之间的相似度。
步骤250:利用TextRank公式迭代计算每个所述候选关键词的权重;
计算每个所述候选关键词的权重时,需进一步结合词项图之间每个所 述候选关键词的连接关系以及每个所述候选关键词之间的相似度,采用如下公式迭代计算:
Figure PCTCN2016082642-appb-000005
其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图中指向候选关键词Vi的候选关键词集合,Out(Vj)表示所述词项图中候选关键词Vj所指向的候选关键词的集合,wji表示候选关键词Vi和候选关键词Vj的所述相似度,wjk表示候选关键词Vj和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词Vj的所述权重。
本发明实施例中,迭代次数是一个预设的经验值,迭代的次数受候选关键词权重初值的影响,通常,需要给所述词项图中的任意一个指定的候选关键词赋初值,本发明实施例中,将每个所述候选关键词的权重初值设为1。
为了避免权重计算过程中出现无限循环迭代的状况,本发明实施例中为迭代过程设定了迭代次数的上限,根据经验值,将迭代次数设置为200,即当迭代次数达到200时,停止迭=代过程,将得到的结果作为对应的候选关键词的权重得分。
优选的,本发明实施例还可以通过判断迭代结果是否收敛来决定迭代次数。当迭代结果收敛时,即可停止迭代,所述指定的候选关键词会得到一个权重值。此处所述收敛通过判断指定的候选关键词计算出的权重值的误差率是否小于预设的极限值从而能够达到收敛点。候选关键词Vi的误差率为其实际权重和第K次迭代时得到的权重之间的差值,但由于候选关键词的实际权重是未知的,所以误差率近似认为是候选关键词在两次迭代结果之间的差值,一般所述极限值取0.0001。
通过反复的迭代计算之后,所述词项图会发生变化
步骤260:并根据预设的语料库计算每个所述候选关键词的逆文档频率;
Figure PCTCN2016082642-appb-000006
需要说明的是,步骤250和步骤260之间并无先后顺序,本发明实施例中,也可以先计算逆文档频率,再迭代计算每个候选关键词的权重,本发明并不做限制。
步骤270:以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。
Vi的关键度=IDF*WS(Vi)
本实施例中,提取关键词的算法中,通过进一步地对文本进行非必要因素的过滤,减轻了数据冗余,提高了关键词提取过程中的计算效率,同时使用word2vec工具进行近义词的判断,结合词的位置关系和词频,提取的关键词质量和准确率更高。
实施例三
图3是本发明实施例三的技术流程图,结合图3,本发明一种关键词提取装置主要包括候选关键词获取模块310、相似度计算模块320、逆文档频率计算模块330、关键词提取模块340。
所述候选关键词获取模块310,用于利用分词器对文本进行分词得到每个单词及其词性,并根据所述词性和预设的黑名单对所述单词进行停用词过滤得到候选关键词;
所述相似度计算模块320,用于计算任意两个所述候选关键词之间的相似度;
所述逆文档频率计算模块330,用于根据所述相似度,利用TextRank公式迭代计算每个所述候选关键词的权重,并根据预设的语料库计算每个所述候选关键词的逆文档频率;
所述关键词提取模块340,用于以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。
进一步地,所述相似度计算模块320进一步用于:利用word2vec将每个所述候选关键词转化为单词向量的形式,并根据每个所述候选词对应的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。
所述装置进一步包括构图模块350,所述构图模块350用于根据所述相似度,利用TextRank公式迭代计算每个所述单词的权重之前,用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口,每个所述窗口包含K个相邻的所述候选关键词;其中N为所述候选关键词的总数,K为所述窗口的尺寸;用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V,E),其中V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集和,
Figure PCTCN2016082642-appb-000007
所述逆文档频率计算模块330进一步用于:根据预设的迭代次数,采用如下公式迭代计算每个所述候选关键词的所述权重:
Figure PCTCN2016082642-appb-000008
其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图中指向候选关键词Vi的候选关键词集合,Out(Vj)表示所述词项 图中候选关键词Vj所指向的候选关键词的集合,wji表示候选关键词Vi和候选关键词Vj的所述相似度,wjk表示候选关键词Vj和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词Vj的所述权重。所述逆文档频率计算模块进一步还用于,
使用如下公式计算每个所述候选关键词的所述逆文档频率:
Figure PCTCN2016082642-appb-000009
其中,log()表示取对数运算。
应用实例
假设网络爬虫爬取到一篇豆瓣影评文本等待关键词提取处理,文本内容如下:哈哈哈哈哈哈哈!太好看了^_^!太震撼了!强力推荐!这是能让人真心大笑又哽咽感动的影片———好的喜剧剧本、演员,其实比悲剧更难表现好,两位主演的表现相当亮眼,细节也非常出彩到位。真是让人回味无穷。。。。。。推荐下载地址http://movie.xxx.com。
对于这样一篇影评,要提取其关键词作为标签,首先在词语分隔之前进行使用正则表达式对文本进行去重去噪处理,去除类似”哈哈哈哈哈哈哈”、”^_^”、”———”、”。。。。。。”、”。。。。。。”、”http://movie.xxx.com”这样的非必要内容,使得文本更加清洁。
于是得到下述结果:
!太好看了!太震撼了!强力推荐!这是能让人真心大笑又哽咽感动的影片好的喜剧剧本、演员,其实比悲剧更难表现好,两位主演的表现相当亮眼,细节也非常出彩到位。真是让人回味无穷推荐下载地址。
这段文本中,除了必要的句子之外,还有很多标点符号以及停用词,此时,可以再次采用正则表达式过滤掉标点符号以及”太、了、这、是、 能”等这一类词,得到下述结果:
好看震撼强力推荐让人真心大笑又哽咽感动的影片好的喜剧剧本演员其实比悲剧更难表现好两位主演的表现相当亮眼细节也非常出彩到位真是让人回味无穷推荐下载地址
接下来,采用分词器进行句子分割,此处采用基于字典、词库匹配的分词方法,正向扫描出每一个词,并将之与预设的词库进行匹配,可能会得到下述结果:
好看 震撼 强力 推荐 让 人 真心大笑 又 哽咽 感动的 影片 好 的 喜剧 剧本 演员 其实 比 悲剧 更难 表现好 两位 主演 的 表现 相当 亮眼细节 也 非常出彩 到位 真是 让 人 回味无穷 推荐 下载 地址
得到分割后的关键词之后,发现部分单字不能成词,且不具实际意义,因此,还需要进一步过滤,将不能成词的单字滤除。进一步,根据得到的若干候选关键词,采用word2vec工具将其转化为词向量,计算任意二者之间的相似度W,例如:W(好看,震撼)=a,W(好看,强力)=b,W(好看,推荐)=c等等。与此同时,采用长度为5的窗口覆盖在所述候选关键词上,逐个平移,得到如下的候选关键词窗口:
好看 震撼 强力 推荐 真心
震撼 强力 推荐 真心 大笑
强力 推荐 真心 大笑 哽咽
推荐 真心 大笑 哽咽 感动的
真心 大笑 哽咽 感动的 影片
大笑 哽咽 感动的 影片 好的
……………………………
回味无穷 推荐 下载 地址
每一个窗口内的词语都是相互连接的,两两相互指向,参见图4所示。
得到指向关系和相似度W之后,将其代入TextRank公式计算每个候选关键词的权重。
假设在200次迭代完成之后得到图5的结果。从图5中可以得到关键词的投票结果,被指向最多的候选关键词对应的权重是最高的。与此同时,针对每一个候选关键词,还要结合预设的语料库计算每个所述候选关键词的逆文档频率。权重与逆文档频率的乘积即是每个候选关键词对应的关键度。将这些候选关键词按照对应的关键度从大到小排列,根据需要的数量即可进行抽取。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
上述说明示出并描述了本申请的实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (10)

  1. 一种关键词提取方法,其特征在于,所述方法包括如下步骤:
    利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;
    计算任意两个所述候选关键词之间的相似度;
    根据所述相似度计算所述候选关键词的权重,根据预设的语料库计算所述候选关键词的逆文档频率;
    根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词。
  2. 根据权利要求1所述的方法,其特征在于,所述计算任意两个所述候选关键词之间的相似度包括:
    利用word2vec将所述候选关键词转化为单词向量的形式,根据所述候选词的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。
  3. 根据权利要求1所述的方法,其特征在于,所述计算所述候选关键词的权重包括,
    用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口,每个所述窗口包含K个相邻的所述候选关键词,其中N为所述候选关键词的总数,K为所述窗口的尺寸;
    用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V,E),其中,V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集和,
    Figure PCTCN2016082642-appb-100001
    根据预设的迭代次数,采用如下公式迭代计算每个所述候选关键词的所述权重:
    Figure PCTCN2016082642-appb-100002
    其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图中指向候选关键词Vi的候选关键词集合,Out(Vj)表示所述词项图中候选关键词Vj所指向的候选关键词的集合,wji表示候选关键词Vi和候选关键词Vj的所述相似度,wjk表示候选关键词Vj和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词Vj的所述权重。
  4. 根据权利要求1所述的方法,其特征在于,根据预设的语料库计算每个所述单词的逆文档频率,包括,
    使用如下公式计算每个所述候选关键词的所述逆文档频率:
    Figure PCTCN2016082642-appb-100003
    其中,log()表示取对数运算。
  5. 根据权利要求1所述的方法,所述根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,包括:
    以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。
  6. 一种关键词提取装置,其特征在于,所述方法包括如下模块:
    候选关键词获取模块,用于利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;
    相似度计算模块,用于计算任意两个所述候选关键词之间的相似度;
    逆文档频率计算模块,用于根据所述相似度,计算所述候选关键词的权重,根据预设的语料库计算所述候选关键词的逆文档频率;
    关键词提取模块,用于根据所述候选关键词的权重和所述逆文档频率, 获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词。
  7. 根据权利要求6所述的装置,其特征在于,所述相似度计算模块进一步用于:
    利用word2vec将每个所述候选关键词转化为单词向量的形式,并根据每个所述候选词对应的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。
  8. 根据权利要求6所述的装置,其特征在于,所述逆文档频率计算模块具体用于:
    用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口,每个所述窗口包含K个相邻的所述候选关键词;其中N为所述候选关键词的总数,K为所述窗口的尺寸;
    用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V,E),其中V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集和,
    Figure PCTCN2016082642-appb-100004
    根据预设的迭代次数,采用如下公式迭代计算每个所述候选关键词的所述权重:
    Figure PCTCN2016082642-appb-100005
    其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图中指向候选关键词Vi的候选关键词集合,Out(Vj)表示所述词项图中候选关键词Vj所指向的候选关键词的集合,wji表示候选关键词Vi和候选关键词Vj的所述相似度,wjk表示候选关键词Vj和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词Vj的所述权重。
  9. 根据权利要求6所述的装置,其特征在于,所述逆文档频率计算模块具体用于,
    使用如下公式计算每个所述候选关键词的所述逆文档频率:
    Figure PCTCN2016082642-appb-100006
    其中,log()表示取对数运算。
  10. 根据权利要求6所述的装置,其特征在于,所述关键词提取模块,具体用于:
    以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。
PCT/CN2016/082642 2015-11-18 2016-05-19 一种关键词提取方法和装置 WO2017084267A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/241,121 US20170139899A1 (en) 2015-11-18 2016-08-19 Keyword extraction method and electronic device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510799348.6 2015-11-18
CN201510799348.6A CN105893410A (zh) 2015-11-18 2015-11-18 一种关键词提取方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/241,121 Continuation US20170139899A1 (en) 2015-11-18 2016-08-19 Keyword extraction method and electronic device

Publications (1)

Publication Number Publication Date
WO2017084267A1 true WO2017084267A1 (zh) 2017-05-26

Family

ID=57002204

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/082642 WO2017084267A1 (zh) 2015-11-18 2016-05-19 一种关键词提取方法和装置

Country Status (2)

Country Link
CN (1) CN105893410A (zh)
WO (1) WO2017084267A1 (zh)

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN108932228A (zh) * 2018-06-06 2018-12-04 武汉斗鱼网络科技有限公司 直播行业新闻与分区匹配方法、装置、服务器及存储介质
CN109062895A (zh) * 2018-07-23 2018-12-21 挖财网络技术有限公司 一种智能语义处理方法
CN109189914A (zh) * 2018-08-27 2019-01-11 黑龙江八农垦大学 一种计算机人工智能信息过滤系统
CN109614626A (zh) * 2018-12-21 2019-04-12 北京信息科技大学 基于万有引力模型的关键词自动抽取方法
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置
CN109933787A (zh) * 2019-02-14 2019-06-25 安徽省泰岳祥升软件有限公司 文本关键信息的提取方法、装置及介质
CN110008474A (zh) * 2019-04-04 2019-07-12 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN110083837A (zh) * 2019-04-26 2019-08-02 科大讯飞股份有限公司 一种关键词生成方法及装置
CN110198464A (zh) * 2019-05-06 2019-09-03 平安科技(深圳)有限公司 语音智能播报方法、装置、计算机设备及存储介质
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN110298024A (zh) * 2018-03-21 2019-10-01 西北工业大学 涉密文档的检测方法、装置及存储介质
CN110362678A (zh) * 2019-06-04 2019-10-22 哈尔滨工业大学(威海) 一种自动提取中文文本关键词的方法与装置
CN110413956A (zh) * 2018-04-28 2019-11-05 南京云问网络技术有限公司 一种基于bootstrapping的文本相似度计算方法
CN110489759A (zh) * 2019-09-12 2019-11-22 人和未来生物科技(长沙)有限公司 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
EP3477495A4 (en) * 2017-08-29 2019-12-11 Ping An Technology (Shenzhen) Co., Ltd. APPARATUS AND METHOD FOR USER KEYWORD EXTRACTION AND COMPUTER-READABLE MEMORY MEDIUM
CN110598972A (zh) * 2019-07-26 2019-12-20 浙江华云信息科技有限公司 一种基于自然语言处理的计量采集研究方向趋势分析方法
CN110717329A (zh) * 2019-09-10 2020-01-21 上海开域信息科技有限公司 基于词向量进行近似搜索快速提取广告文本主题的方法
WO2020052547A1 (zh) * 2018-09-14 2020-03-19 阿里巴巴集团控股有限公司 短信垃圾新词识别方法、装置及电子设备
CN110929022A (zh) * 2018-09-18 2020-03-27 阿基米德(上海)传媒有限公司 一种文本摘要生成方法及系统
CN111125297A (zh) * 2019-11-29 2020-05-08 中国电子科技集团公司第二十八研究所 一种基于搜索引擎的海量离线文本实时推荐方法
CN111324721A (zh) * 2020-03-16 2020-06-23 云南电网有限责任公司信息中心 一种智能问答知识库的构建方法
CN111460099A (zh) * 2020-03-30 2020-07-28 招商局金融科技有限公司 关键词提取方法、装置及存储介质
CN111522938A (zh) * 2020-04-27 2020-08-11 广东电网有限责任公司培训与评价中心 一种人才业绩文档的筛选方法、装置和设备
CN111581990A (zh) * 2020-05-14 2020-08-25 中国银行股份有限公司 跨境交易撮合匹配方法及装置
CN111581347A (zh) * 2020-04-28 2020-08-25 中国工商银行股份有限公司 语句相似度匹配方法及装置
CN111581960A (zh) * 2020-05-06 2020-08-25 上海海事大学 一种获取医学文本语义相似度的方法
CN111680505A (zh) * 2020-04-21 2020-09-18 华东师范大学 一种Markdown特征感知的无监督关键词提取方法
CN111737997A (zh) * 2020-06-18 2020-10-02 达而观信息科技(上海)有限公司 一种文本相似度确定方法、设备及储存介质
CN111753547A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词提取方法及系统
CN112199926A (zh) * 2020-10-16 2021-01-08 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法
CN112232374A (zh) * 2020-09-21 2021-01-15 西北工业大学 基于深度特征聚类和语义度量的不相关标签过滤方法
CN112364601A (zh) * 2020-10-28 2021-02-12 南阳理工学院 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置
CN112364141A (zh) * 2020-11-05 2021-02-12 天津大学 基于图神经网络的科学文献关键内容潜在关联挖掘方法
CN112686043A (zh) * 2021-01-12 2021-04-20 武汉大学 一种基于词向量的企业所属新兴产业分类方法
CN112733538A (zh) * 2021-01-19 2021-04-30 广东工业大学 一种基于文本的本体构建方法及装置
CN112836487A (zh) * 2021-02-07 2021-05-25 四川封面传媒有限责任公司 一种自动评论方法、装置、计算机设备及存储介质
CN113656429A (zh) * 2021-07-28 2021-11-16 广州荔支网络技术有限公司 一种关键词提取方法、装置、计算机设备和存储介质
CN113705230A (zh) * 2021-08-31 2021-11-26 中国平安财产保险股份有限公司 基于人工智能的保单特约的评估方法、装置、设备及介质
CN113722428A (zh) * 2021-08-10 2021-11-30 哈尔滨工业大学 一种基于关键词挖掘新闻的时代特征提取方法
CN114065758A (zh) * 2021-11-22 2022-02-18 杭州师范大学 一种基于超图随机游走的文档关键词抽取方法
US11281861B2 (en) 2018-01-22 2022-03-22 Boe Technology Group Co., Ltd. Method of calculating relevancy, apparatus for calculating relevancy, data query apparatus, and non-transitory computer-readable storage medium
CN114328826A (zh) * 2021-12-20 2022-04-12 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法
CN114462392A (zh) * 2022-02-14 2022-05-10 南京邮电大学 一种基于主题关联度与关键词联想的短文本特征扩展方法
CN114490396A (zh) * 2022-01-27 2022-05-13 北京京航计算通讯研究所 一种软件测试需求挖掘方法和系统
US11334608B2 (en) 2017-11-23 2022-05-17 Infosys Limited Method and system for key phrase extraction and generation from text
CN114742062A (zh) * 2022-05-24 2022-07-12 启客(北京)科技有限公司 文本关键词提取处理方法及系统
CN114786184A (zh) * 2022-06-21 2022-07-22 中国信息通信研究院 涉诈短信拦截模板生成方法及装置
CN115186665A (zh) * 2022-09-15 2022-10-14 北京智谱华章科技有限公司 一种基于语义的无监督学术关键词提取方法及设备
CN116823406A (zh) * 2023-08-24 2023-09-29 国品优选(北京)品牌管理有限公司 一种基于大数据的营养素片推荐方法及系统
CN116993549A (zh) * 2023-09-18 2023-11-03 西北师范大学 一种用于在线学习系统的复习资源推荐方法

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528588A (zh) * 2016-09-14 2017-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN106570120A (zh) * 2016-11-02 2017-04-19 四川用联信息技术有限公司 一种改进的关键词优化实现搜索引擎优化技术
CN108241667B (zh) * 2016-12-26 2019-10-15 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
US10496713B2 (en) * 2017-02-01 2019-12-03 Google Llc Gain adjustment component for computer network routing infrastructure
CN108319627B (zh) * 2017-02-06 2024-05-28 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN106970910B (zh) * 2017-03-31 2020-03-27 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107122413B (zh) * 2017-03-31 2020-04-10 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107168954B (zh) * 2017-05-18 2021-03-26 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质
CN109255118B (zh) * 2017-07-11 2023-08-08 普天信息技术有限公司 一种关键词提取方法及装置
CN110019702B (zh) * 2017-09-18 2023-04-07 阿里巴巴集团控股有限公司 数据挖掘方法、装置和设备
CN107679153A (zh) * 2017-09-27 2018-02-09 国家电网公司信息通信分公司 一种专利分类方法及装置
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN108052593B (zh) * 2017-12-12 2020-09-22 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法
CN108419123B (zh) * 2018-03-28 2020-09-04 广州市创新互联网教育研究院 一种教学视频的虚拟切片方法
CN110516225A (zh) * 2018-05-21 2019-11-29 深圳市六度人和科技有限公司 关键短语提取方法以及关键短语提取系统
CN108897737A (zh) * 2018-06-28 2018-11-27 中译语通科技股份有限公司 一种基于大数据分析的核心语汇专题构建方法及系统
CN109508456B (zh) * 2018-10-22 2023-04-18 网易(杭州)网络有限公司 一种文本处理方法和装置
CN109408826A (zh) * 2018-11-07 2019-03-01 北京锐安科技有限公司 一种文本信息提取方法、装置、服务器及存储介质
CN109766408A (zh) * 2018-12-04 2019-05-17 上海大学 综合词位置因素和词频因素的文本关键词权重计算方法
CN109582968A (zh) * 2018-12-04 2019-04-05 北京容联易通信息技术有限公司 一种语料中的关键信息的提取方法及装置
CN109947923A (zh) * 2019-03-21 2019-06-28 江西风向标教育科技有限公司 一种基于词向量的初等数学题型自动提取方法及系统
CN110059183B (zh) * 2019-03-22 2022-08-23 重庆邮电大学 一种基于大数据的汽车行业用户观点情感分类方法
CN110134756A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 会议记录生成方法、电子装置及存储介质
CN110377725B (zh) * 2019-07-12 2021-09-24 深圳新度博望科技有限公司 数据生成方法、装置、计算机设备及存储介质
CN110347903A (zh) * 2019-07-17 2019-10-18 江苏东网信息科技有限公司 基于统计语言模型算法的智能信息评估和营销系统
CN110750619B (zh) * 2019-08-15 2024-05-28 中国平安财产保险股份有限公司 聊天记录关键词的提取方法、装置、计算机设备及存储介质
CN110795911B (zh) * 2019-09-16 2023-07-21 中国平安人寿保险股份有限公司 在线文本标签的实时添加方法、装置及相关设备
CN110795942B (zh) * 2019-09-18 2022-10-14 平安科技(深圳)有限公司 基于语义识别的关键词确定方法、装置和存储介质
CN110851578A (zh) * 2019-10-31 2020-02-28 北京大米科技有限公司 关键词提取方法、装置和电子设备
CN113569128A (zh) * 2020-04-29 2021-10-29 北京金山云网络技术有限公司 数据检索方法、装置及电子设备
CN111767713B (zh) * 2020-05-09 2023-07-21 北京奇艺世纪科技有限公司 关键词的提取方法、装置、电子设备及存储介质
CN111553156B (zh) * 2020-05-25 2023-08-04 支付宝(杭州)信息技术有限公司 一种关键词提取方法、装置及设备
CN111985228B (zh) * 2020-07-28 2023-05-30 招联消费金融有限公司 文本关键词提取方法、装置、计算机设备和存储介质
CN112417296B (zh) * 2020-12-04 2021-06-15 刘奕名 一种互联网关键数据信息采集提取方法
CN112765344B (zh) * 2021-01-12 2022-07-08 哈尔滨工业大学 一种基于会议记录生成会议摘要的方法、装置及存储介质
CN112802569B (zh) * 2021-02-05 2023-08-08 北京嘉和海森健康科技有限公司 一种语义信息的获取方法、装置、设备及可读存储介质
CN114331766B (zh) * 2022-01-05 2022-07-08 中国科学技术信息研究所 专利技术核心度的确定方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070244881A1 (en) * 2006-04-13 2007-10-18 Lg Electronics Inc. System, method and user interface for retrieving documents
CN101968801A (zh) * 2010-09-21 2011-02-09 上海大学 一种单篇文本关键词的提取方法
CN102033919A (zh) * 2010-12-07 2011-04-27 北京新媒传信科技有限公司 文本关键词提取方法及系统
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN104731797A (zh) * 2013-12-19 2015-06-24 北京新媒传信科技有限公司 一种提取关键词的方法及装置
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1629833A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 实现问与答功能和计算机辅助写作的方法及装置
US9087043B2 (en) * 2010-09-29 2015-07-21 Rhonda Enterprises, Llc Method, system, and computer readable medium for creating clusters of text in an electronic document
CN103678313B (zh) * 2012-08-31 2018-09-04 北京百度网讯科技有限公司 一种评估网页权威性的方法及装置
CN103440329B (zh) * 2013-09-04 2016-05-18 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN104216875B (zh) * 2014-09-26 2017-05-03 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070244881A1 (en) * 2006-04-13 2007-10-18 Lg Electronics Inc. System, method and user interface for retrieving documents
CN101968801A (zh) * 2010-09-21 2011-02-09 上海大学 一种单篇文本关键词的提取方法
CN102033919A (zh) * 2010-12-07 2011-04-27 北京新媒传信科技有限公司 文本关键词提取方法及系统
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN104731797A (zh) * 2013-12-19 2015-06-24 北京新媒传信科技有限公司 一种提取关键词的方法及装置
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置

Cited By (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法
EP3477495A4 (en) * 2017-08-29 2019-12-11 Ping An Technology (Shenzhen) Co., Ltd. APPARATUS AND METHOD FOR USER KEYWORD EXTRACTION AND COMPUTER-READABLE MEMORY MEDIUM
US11334608B2 (en) 2017-11-23 2022-05-17 Infosys Limited Method and system for key phrase extraction and generation from text
US11281861B2 (en) 2018-01-22 2022-03-22 Boe Technology Group Co., Ltd. Method of calculating relevancy, apparatus for calculating relevancy, data query apparatus, and non-transitory computer-readable storage medium
CN110298024B (zh) * 2018-03-21 2022-10-11 西北工业大学 涉密文档的检测方法、装置及存储介质
CN110298024A (zh) * 2018-03-21 2019-10-01 西北工业大学 涉密文档的检测方法、装置及存储介质
CN110413956A (zh) * 2018-04-28 2019-11-05 南京云问网络技术有限公司 一种基于bootstrapping的文本相似度计算方法
CN110413956B (zh) * 2018-04-28 2023-08-01 南京云问网络技术有限公司 一种基于bootstrapping的文本相似度计算方法
CN108932228B (zh) * 2018-06-06 2023-08-08 广东南方报业移动媒体有限公司 直播行业新闻与分区匹配方法、装置、服务器及存储介质
CN108932228A (zh) * 2018-06-06 2018-12-04 武汉斗鱼网络科技有限公司 直播行业新闻与分区匹配方法、装置、服务器及存储介质
CN108829822B (zh) * 2018-06-12 2023-10-27 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN109062895A (zh) * 2018-07-23 2018-12-21 挖财网络技术有限公司 一种智能语义处理方法
CN109189914A (zh) * 2018-08-27 2019-01-11 黑龙江八农垦大学 一种计算机人工智能信息过滤系统
WO2020052547A1 (zh) * 2018-09-14 2020-03-19 阿里巴巴集团控股有限公司 短信垃圾新词识别方法、装置及电子设备
CN110909540A (zh) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 短信垃圾新词识别方法、装置及电子设备
CN110929022A (zh) * 2018-09-18 2020-03-27 阿基米德(上海)传媒有限公司 一种文本摘要生成方法及系统
CN109614626A (zh) * 2018-12-21 2019-04-12 北京信息科技大学 基于万有引力模型的关键词自动抽取方法
CN109766544B (zh) * 2018-12-24 2022-09-30 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置
CN109933787B (zh) * 2019-02-14 2023-07-14 安徽省泰岳祥升软件有限公司 文本关键信息的提取方法、装置及介质
CN109933787A (zh) * 2019-02-14 2019-06-25 安徽省泰岳祥升软件有限公司 文本关键信息的提取方法、装置及介质
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN110008474B (zh) * 2019-04-04 2023-06-02 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110008474A (zh) * 2019-04-04 2019-07-12 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110083837B (zh) * 2019-04-26 2023-11-24 科大讯飞股份有限公司 一种关键词生成方法及装置
CN110083837A (zh) * 2019-04-26 2019-08-02 科大讯飞股份有限公司 一种关键词生成方法及装置
CN110198464A (zh) * 2019-05-06 2019-09-03 平安科技(深圳)有限公司 语音智能播报方法、装置、计算机设备及存储介质
CN110198464B (zh) * 2019-05-06 2023-03-28 平安科技(深圳)有限公司 语音智能播报方法、装置、计算机设备及存储介质
CN110298028B (zh) * 2019-05-21 2023-08-18 杭州未名信科科技有限公司 一种文本段落的关键句提取方法和装置
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN110362678A (zh) * 2019-06-04 2019-10-22 哈尔滨工业大学(威海) 一种自动提取中文文本关键词的方法与装置
CN110598972B (zh) * 2019-07-26 2023-01-20 浙江华云信息科技有限公司 一种基于自然语言处理的计量采集研究方向趋势分析方法
CN110598972A (zh) * 2019-07-26 2019-12-20 浙江华云信息科技有限公司 一种基于自然语言处理的计量采集研究方向趋势分析方法
CN110717329B (zh) * 2019-09-10 2023-06-16 上海开域信息科技有限公司 基于词向量进行近似搜索快速提取广告文本主题的方法
CN110717329A (zh) * 2019-09-10 2020-01-21 上海开域信息科技有限公司 基于词向量进行近似搜索快速提取广告文本主题的方法
CN110489759B (zh) * 2019-09-12 2023-02-28 人和未来生物科技(长沙)有限公司 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
CN110489759A (zh) * 2019-09-12 2019-11-22 人和未来生物科技(长沙)有限公司 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
CN111125297A (zh) * 2019-11-29 2020-05-08 中国电子科技集团公司第二十八研究所 一种基于搜索引擎的海量离线文本实时推荐方法
CN111125297B (zh) * 2019-11-29 2022-11-25 中国电子科技集团公司第二十八研究所 一种基于搜索引擎的海量离线文本实时推荐方法
CN111324721A (zh) * 2020-03-16 2020-06-23 云南电网有限责任公司信息中心 一种智能问答知识库的构建方法
CN111460099A (zh) * 2020-03-30 2020-07-28 招商局金融科技有限公司 关键词提取方法、装置及存储介质
CN111460099B (zh) * 2020-03-30 2023-04-07 招商局金融科技有限公司 关键词提取方法、装置及存储介质
CN111680505B (zh) * 2020-04-21 2023-08-08 华东师范大学 一种Markdown特征感知的无监督关键词提取方法
CN111680505A (zh) * 2020-04-21 2020-09-18 华东师范大学 一种Markdown特征感知的无监督关键词提取方法
CN111522938A (zh) * 2020-04-27 2020-08-11 广东电网有限责任公司培训与评价中心 一种人才业绩文档的筛选方法、装置和设备
CN111522938B (zh) * 2020-04-27 2023-03-24 广东电网有限责任公司培训与评价中心 一种人才业绩文档的筛选方法、装置和设备
CN111581347A (zh) * 2020-04-28 2020-08-25 中国工商银行股份有限公司 语句相似度匹配方法及装置
CN111581347B (zh) * 2020-04-28 2023-07-21 中国工商银行股份有限公司 语句相似度匹配方法及装置
CN111581960A (zh) * 2020-05-06 2020-08-25 上海海事大学 一种获取医学文本语义相似度的方法
CN111581960B (zh) * 2020-05-06 2023-09-29 上海海事大学 一种获取医学文本语义相似度的方法
CN111581990B (zh) * 2020-05-14 2023-11-21 中国银行股份有限公司 跨境交易撮合匹配方法及装置
CN111581990A (zh) * 2020-05-14 2020-08-25 中国银行股份有限公司 跨境交易撮合匹配方法及装置
CN111737997A (zh) * 2020-06-18 2020-10-02 达而观信息科技(上海)有限公司 一种文本相似度确定方法、设备及储存介质
CN111753547B (zh) * 2020-06-30 2024-02-27 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词提取方法及系统
CN111753547A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词提取方法及系统
CN112232374B (zh) * 2020-09-21 2023-04-07 西北工业大学 基于深度特征聚类和语义度量的不相关标签过滤方法
CN112232374A (zh) * 2020-09-21 2021-01-15 西北工业大学 基于深度特征聚类和语义度量的不相关标签过滤方法
CN112199926B (zh) * 2020-10-16 2024-05-10 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法
CN112199926A (zh) * 2020-10-16 2021-01-08 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法
CN112364601A (zh) * 2020-10-28 2021-02-12 南阳理工学院 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置
CN112364141A (zh) * 2020-11-05 2021-02-12 天津大学 基于图神经网络的科学文献关键内容潜在关联挖掘方法
CN112686043A (zh) * 2021-01-12 2021-04-20 武汉大学 一种基于词向量的企业所属新兴产业分类方法
CN112686043B (zh) * 2021-01-12 2024-02-06 武汉大学 一种基于词向量的企业所属新兴产业分类方法
CN112733538A (zh) * 2021-01-19 2021-04-30 广东工业大学 一种基于文本的本体构建方法及装置
CN112733538B (zh) * 2021-01-19 2023-05-30 广东工业大学 一种基于文本的本体构建方法及装置
CN112836487A (zh) * 2021-02-07 2021-05-25 四川封面传媒有限责任公司 一种自动评论方法、装置、计算机设备及存储介质
CN113656429A (zh) * 2021-07-28 2021-11-16 广州荔支网络技术有限公司 一种关键词提取方法、装置、计算机设备和存储介质
CN113722428A (zh) * 2021-08-10 2021-11-30 哈尔滨工业大学 一种基于关键词挖掘新闻的时代特征提取方法
CN113705230B (zh) * 2021-08-31 2023-08-25 中国平安财产保险股份有限公司 基于人工智能的保单特约的评估方法、装置、设备及介质
CN113705230A (zh) * 2021-08-31 2021-11-26 中国平安财产保险股份有限公司 基于人工智能的保单特约的评估方法、装置、设备及介质
CN114065758A (zh) * 2021-11-22 2022-02-18 杭州师范大学 一种基于超图随机游走的文档关键词抽取方法
CN114065758B (zh) * 2021-11-22 2024-04-19 杭州师范大学 一种基于超图随机游走的文档关键词抽取方法
CN114328826A (zh) * 2021-12-20 2022-04-12 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法
CN114328826B (zh) * 2021-12-20 2024-06-11 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法
CN114490396A (zh) * 2022-01-27 2022-05-13 北京京航计算通讯研究所 一种软件测试需求挖掘方法和系统
CN114462392A (zh) * 2022-02-14 2022-05-10 南京邮电大学 一种基于主题关联度与关键词联想的短文本特征扩展方法
CN114742062A (zh) * 2022-05-24 2022-07-12 启客(北京)科技有限公司 文本关键词提取处理方法及系统
CN114742062B (zh) * 2022-05-24 2022-08-23 启客(北京)科技有限公司 文本关键词提取处理方法及系统
CN114786184A (zh) * 2022-06-21 2022-07-22 中国信息通信研究院 涉诈短信拦截模板生成方法及装置
CN114786184B (zh) * 2022-06-21 2022-09-16 中国信息通信研究院 涉诈短信拦截模板生成方法及装置
CN115186665A (zh) * 2022-09-15 2022-10-14 北京智谱华章科技有限公司 一种基于语义的无监督学术关键词提取方法及设备
CN116823406B (zh) * 2023-08-24 2023-11-14 国品优选(北京)品牌管理有限公司 一种基于大数据的营养素片推荐方法及系统
CN116823406A (zh) * 2023-08-24 2023-09-29 国品优选(北京)品牌管理有限公司 一种基于大数据的营养素片推荐方法及系统
CN116993549A (zh) * 2023-09-18 2023-11-03 西北师范大学 一种用于在线学习系统的复习资源推荐方法

Also Published As

Publication number Publication date
CN105893410A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
WO2017084267A1 (zh) 一种关键词提取方法和装置
US20170139899A1 (en) Keyword extraction method and electronic device
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
CN107451126B (zh) 一种近义词筛选方法及系统
US10713571B2 (en) Displaying quality of question being asked a question answering system
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
Pitler et al. Using web-scale N-grams to improve base NP parsing performance
Sooraj et al. Deep learning based spell checker for Malayalam language
Gokul et al. Sentence similarity detection in Malayalam language using cosine similarity
JP2011118689A (ja) 検索方法及びシステム
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
Feng et al. Question classification by approximating semantics
CN111159405A (zh) 基于背景知识的讽刺检测方法
CN112632272B (zh) 基于句法分析的微博情感分类方法和系统
Comas et al. Sibyl, a factoid question-answering system for spoken documents
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants
Gholami-Dastgerdi et al. Part of speech tagging using part of speech sequence graph
Wenchao et al. A modified approach to keyword extraction based on word-similarity
CN111259159A (zh) 数据挖掘方法、装置和计算机可读存储介质
Lin et al. Domain Independent Key Term Extraction from Spoken Content Based on Context and Term Location Information in the Utterances
KR102685135B1 (ko) 영상 편집 자동화 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16865449

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16865449

Country of ref document: EP

Kind code of ref document: A1