WO2019153551A1 - 文章分类方法、装置、计算机设备及存储介质 - Google Patents

文章分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
WO2019153551A1
WO2019153551A1 PCT/CN2018/085344 CN2018085344W WO2019153551A1 WO 2019153551 A1 WO2019153551 A1 WO 2019153551A1 CN 2018085344 W CN2018085344 W CN 2018085344W WO 2019153551 A1 WO2019153551 A1 WO 2019153551A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
matrix
document
article
tagged
Prior art date
Application number
PCT/CN2018/085344
Other languages
English (en)
French (fr)
Inventor
陈海涛
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019153551A1 publication Critical patent/WO2019153551A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Definitions

  • the present application relates to the field of article classification technology, and in particular, to an article classification method, device, computer device and storage medium.
  • the article's tags help in the search and classification of articles.
  • the current common method is to manually tag, that is, the authors tag their articles, but not all authors tag their articles. If a large number of unlabeled articles are manually classified, the classification is performed after the label is added, instead of being classified after labelless or intelligent labeling, the efficiency is extremely low, and the labor is greatly increased. cost.
  • the present application provides an article classification method, device, computer device and storage medium, which aims to solve the problem that a large number of unlabeled articles in the prior art are manually classified, and then classified, resulting in classification.
  • the efficiency is extremely low, and the problem of labor cost is greatly increased.
  • the present application provides an article classification method, which includes: inputting a word-document matrix corresponding to a tagged article into a pre-built LDA model for training, and obtaining a corresponding topic-word matrix and document-topic matrix. Through the document-subject matrix, obtain the topic corresponding to each document in the article to be tagged, and add a topic tag to each document to obtain a tagged article; classify the tagged article by topic tag to obtain an article Classification results.
  • an article classification device including:
  • the LDA model training unit is configured to input the word-document matrix corresponding to the tagged article into a pre-built LDA model for training, and obtain a corresponding topic-word matrix and document-subject matrix;
  • a theme tag adding unit configured to acquire a topic corresponding to each document in the tagged article by using a document-subject matrix, and add a topic tag corresponding to each document to obtain a tagged article;
  • the article classification unit is configured to classify the tagged articles by subject tags, and obtain the article classification results.
  • the present application further provides a computer device comprising a memory, a processor, and a computer program stored on the memory and operable on the processor, the processor implementing the computer program
  • a computer device comprising a memory, a processor, and a computer program stored on the memory and operable on the processor, the processor implementing the computer program
  • the present application also provides a storage medium, wherein the storage medium stores a computer program, the computer program comprising program instructions, the program instructions, when executed by a processor, causing the processor to execute the application Any of the article classification methods described.
  • the application provides an article classification method, device, computer device and storage medium. After the method divides the article into words, the document-subject matrix can be used to obtain the topic of each article. The topic is used to classify the article, and automatic learning is used instead of manual classification, which saves labor cost and improves classification efficiency.
  • FIG. 1 is a schematic flowchart of an article classification method according to an embodiment of the present application
  • FIG. 3 is a schematic block diagram of an article classification apparatus according to an embodiment of the present application.
  • FIG. 4 is another schematic block diagram of an article classification apparatus according to an embodiment of the present application.
  • FIG. 5 is a schematic block diagram of a computer device according to an embodiment of the present application.
  • FIG. 1 is a schematic flowchart of an article classification method according to an embodiment of the present application.
  • the method is applied to terminals such as desktop computers, laptop computers, and tablet computers.
  • the method includes steps S101 to S103.
  • the to-be-labeled article is a plurality of articles that have been pre-stored to a specified path or a plurality of articles crawled from the Internet, and the plurality of articles are processed as input of the LDA model.
  • the article can be copied into the task folder by manually copying the file, or the article can be automatically copied into the task folder by writing an automatic copy script.
  • the word-document matrix of the tagged article in the task folder is preprocessed to obtain the corresponding word-document matrix. After the word-document matrix is trained by the LDA model, the corresponding topic-word matrix and document-subject matrix are obtained.
  • the method further includes:
  • the word segmentation method based on the probability statistical model performs word segmentation on the tagged text.
  • the steps of the word segmentation method based on the probability and statistics model are as follows:
  • Step 11 For a substring S to be segmented, all candidate words w1, w2, ..., wi, ..., wn are taken out in order from left to right;
  • Step 12 Find the probability value P(wi) of each candidate word in the dictionary, and record all the adjacent words of each candidate word;
  • Step 13 Calculate the cumulative probability of each candidate word, and compare and obtain the best neighbors of each candidate word;
  • Step 14 If the current word wn is the end word of the string S and the cumulative probability P(wn) is the largest, then wn is the end word of S;
  • Step 15 Beginning with wn, in order from right to left, the best left neighbor words of each word are sequentially output, that is, the word segmentation result of S.
  • S1002 Set a weighting value by using a participle included in the text after the word segmentation.
  • the weighting process is performed by the word segmentation in the tagged text that has been segmented, that is, the tagged text that has been segmented can be regarded as composed of a plurality of word segments, and the entire article has been performed.
  • the tagged text of the word segmentation weights the word segmentation in the text from beginning to end by factors such as position, part of speech, length, etc., according to the following rules:
  • the first word of the text is the title, giving the weight 8*; the first word at the beginning of the paragraph is equal to the "summary”, then the weight is given 5*; the first word at the beginning of the paragraph is equal to "keyword” or "conclusion”, then The weight is 5*; the length of the word is equal to 2, and the weight is 3*; the part of speech is a noun, and the weight is given 2*; otherwise, the weight of each paragraph is given 1*.
  • the triplet ⁇ w i ,fre i ,v i > represents the processed result set of the to-be-labeled text, where w i is the word, fre i is the number of times the word w i is weighted, and v i is the word in the text Position weight; wherein, when the weights are included in the participles included in the text after the word segmentation, the stop words are deleted (the stop words include virtual words, modal words, adverbs, symbols, words of a word, etc.) The stop word will not be used as a candidate for the keyword), and the candidate keywords can be accurately screened for subsequent processing.
  • S1004 Obtain a word similarity between word segments corresponding to a word frequency corresponding to a preset word frequency threshold in the first triplet.
  • the quaternion ⁇ w i , w j , sim ij , fre i +fre j > represents a set of similarities after calculating partial words in the triple, where sim ij represents the similarity of the words w i , w j , fre i +fre j represents the sum of the word frequencies of the two words.
  • the first triplet ⁇ w i ,fre i ,v i > look for the words in the quads ⁇ w i , w j , sim ij , fre i +fre j >; when the triad is fre i is replaced by fre i +fre j in the quaternary, reconstituting the second triplet ⁇ w i ,fre i +fre j ,v i >, the second triplet ⁇ w i ,fre i +fre j , v i > is the preprocessed text.
  • S1006 Obtain a word-document matrix according to the words included in the preprocessed text and the word frequency of each word.
  • a word-document matrix can be obtained according to each word w i and its corresponding weighted occurrence number fre i .
  • the LDA model (English name is Latent Dirichlet Allocation) is a document theme generation model, also known as a three-layer Bayesian probability model, which contains three-layer structure of words, topics and documents.
  • Chooseparameter indicates the selection parameter
  • Choose a topic indicates the selection theme
  • Choose a word indicates the selection word
  • For each of the N words w_n indicates that the N words of each document are abbreviated with w_n;
  • is a theme vector, vector
  • Each column represents the probability that each topic appears in the document, the vector is a non-negative normalized vector;
  • p( ⁇ ) is the distribution of ⁇ , specifically the Dirichlet distribution; N and w_n are the same as above;
  • z_n represents the selected subject, p(z
  • ⁇ ) represents the probability distribution of the subject z at a given ⁇ , specifically the value of ⁇ , ie p(z i
  • ⁇ ) ⁇ _i;
  • z) represents the word n for a given subject z Probability distributions.
  • the above LDA model first selects a topic vector ⁇ to determine the probability that each topic is selected; then, when generating each word, a topic z is selected from the topic distribution vector ⁇ , and a word is generated according to the word probability distribution of the topic z.
  • the LDA model is specifically as follows:
  • is the subject vector
  • z is the subject
  • w is the word
  • ⁇ , ⁇ ) is the probability distribution matrix corresponding to the word-document matrix
  • ⁇ ) is the ⁇ about ⁇
  • ⁇ ) is the probability distribution matrix corresponding to the subject-word matrix
  • z n , ⁇ ) is the probability distribution matrix corresponding to the subject-document matrix
  • ⁇ and ⁇ are LDA models respectively.
  • the first control parameter and the second control parameter are obtained by learning training from a given input corpus.
  • ⁇ and ⁇ represent the parameters of the corpus level, that is, each document is the same, so the generation process only samples once;
  • is a document-level variable, and each document corresponds to a ⁇ , that is, each document generates each theme z
  • the probabilities are different, all generated for each document sampled ⁇ ;
  • z and w are word-level variables, z is generated by ⁇ , w is jointly generated by z and ⁇ , and a word w corresponds to a topic z.
  • the LDA model mainly learns to train two control parameters ⁇ and ⁇ from a given input corpus, and learns the two control parameters to determine the model, which can be used to generate documents.
  • ⁇ and ⁇ correspond to the following respective information:
  • the distribution p( ⁇ ) requires a vector parameter, that is, the parameter of the Dirichlet distribution (ie, the Dirichlet distribution), used to generate a subject ⁇ vector;
  • the given input corpus is equivalent to training the historical data of two control parameters ⁇ and ⁇ in the LDA model, that is, the given input corpus is a plurality of articles that have been tagged. As a result of the LDA model input, a number of articles that have been tagged are continuously trained to determine the control parameters ⁇ and ⁇ .
  • w is regarded as an observation variable, and ⁇ and z are regarded as hidden variables, and the first control parameter ⁇ and the second control parameter ⁇ are learned by the maximum expectation algorithm.
  • w) cannot be solved directly during the solution, it is approximated by the EM algorithm (ie, the maximum expectation algorithm); each E-step (E-step is the variation in the LDA model) Inferred) Input ⁇ and ⁇ , calculate the likelihood function, M-step maximizes the likelihood function, calculates ⁇ and ⁇ , and iterates until convergence, thus correspondingly obtaining the subject-word matrix, and the document-subject matrix.
  • the probability of each word in it is:
  • the word-word matrix on the left can be obtained by segmenting the document and calculating the word frequency of each word in each document.
  • the theme model is trained by the matrix on the left to learn the two matrices on the right.
  • the subject of the document is obtained, and it can also be understood that the keyword of the article is obtained, and the keyword can be directly used as the label of the article for classification.
  • the word-document matrix is obtained by training the article to be tagged through the LDA model, this process will increase with the calculation of the training data, and the output document-subject matrix becomes more and more accurate, and can be more accurately based on the theme ( That is, the best keyword of the article) classifies the article.
  • the article classification result is obtained.
  • the article is automated and intelligently classified, without manual classification.
  • step S1001 the method further includes:
  • Step 1 Crawl the article to be tagged and transfer the tagged article to the specified path for storage.
  • the original data is crawled from the Internet, and the article to be tagged is stored and stored in the MangoDB database.
  • a filter condition can be set, that is, crawling the text of the unset label to perform labeling for article classification.
  • the document-subject matrix can obtain the topic of each article, use the theme to classify the article, and adopt automatic learning instead of manual classification, which saves labor cost and improves classification efficiency.
  • the embodiment of the present application further provides an article classification device, which is used to execute any of the foregoing article classification methods.
  • FIG. 3 is a schematic block diagram of an article classification apparatus according to an embodiment of the present application.
  • the article classification device 100 can be installed in a desktop computer, a tablet computer, a laptop computer, or the like.
  • the article classification device 100 includes an LDA model training unit 101, a topic tag adding unit 102, and an article classifying unit 103.
  • the LDA model training unit 101 is configured to input the word-document matrix corresponding to the tagged article into a pre-built LDA model for training, and obtain a corresponding topic-word matrix and document-topic matrix.
  • the to-be-labeled article is a plurality of articles that have been pre-stored to a specified path or a plurality of articles crawled from the Internet, and the plurality of articles are processed as input of the LDA model.
  • the article can be copied into the task folder by manually copying the file, or the article can be automatically copied into the task folder by writing an automatic copy script.
  • the word-document matrix of the tagged article in the task folder is preprocessed to obtain the corresponding word-document matrix. After the word-document matrix is trained by the LDA model, the corresponding topic-word matrix and document-subject matrix are obtained.
  • the article classification device 100 further includes:
  • the word segmentation unit 1001 is configured to perform word segmentation on the tagged article, and obtain the word segmentation text.
  • the word segmentation method based on the probability statistical model performs word segmentation on the tagged text.
  • the word segmentation method based on probability and statistical model is as follows:
  • the weighting unit 1002 is configured to set a weighting value for the participle included in the text after the word segmentation.
  • the weighting process is performed by the word segmentation in the tagged text that has been segmented, that is, the tagged text that has been segmented can be regarded as composed of a plurality of word segments, and the entire article has been performed.
  • the tagged text of the word segmentation weights the word segmentation in the text from beginning to end by factors such as position, part of speech, length, etc., according to the following rules:
  • the first word of the text is the title, giving the weight 8*; the first word at the beginning of the paragraph is equal to the "summary”, then the weight is given 5*; the first word at the beginning of the paragraph is equal to "keyword” or "conclusion”, then The weight is 5*; the length of the word is equal to 2, and the weight is 3*; the part of speech is a noun, and the weight is given 2*; otherwise, the weight of each paragraph is given 1*.
  • the statistic unit 1003 is configured to delete the stop words in the text after the word segmentation, and count the word frequency of each word segment to obtain the first triplet.
  • the triplet ⁇ w i ,fre i ,v i > represents the processed result set of the to-be-labeled text, where w i is the word, fre i is the number of times the word w i is weighted, and v i is the word in the text Position weight; wherein, when the weights are included in the participles included in the text after the word segmentation, the stop words are deleted (the stop words include virtual words, modal words, adverbs, symbols, words of a word, etc.) The stop word will not be used as a candidate for the keyword), and the candidate keywords can be accurately screened for subsequent processing.
  • the similarity obtaining unit 1004 is configured to obtain the similarity of words between the word segments corresponding to the word frequency corresponding to the preset word frequency threshold in the first three-tuple.
  • the quaternion ⁇ w i , w j , sim ij , fre i +fre j > represents a set of similarities after calculating partial words in the triple, where sim ij represents the similarity of the words w i , w j , fre i +fre j represents the sum of the word frequencies of the two words.
  • the deleted word unit 1005 is configured to: if the word similarity between the word segments is greater than the preset word similarity threshold, retain any one of the word segments, obtain the second triplet, and use the second triplet as the preprocessed text.
  • the first triplet ⁇ w i ,fre i ,v i > look for the words in the quads ⁇ w i , w j , sim ij , fre i +fre j >; when the triad is fre i is replaced by fre i +fre j in the quaternary, reconstituting the second triplet ⁇ w i ,fre i +fre j ,v i >, the second triplet ⁇ w i ,fre i +fre j , v i > is the preprocessed text.
  • a word-document matrix can be obtained according to each word w i and its corresponding weighted occurrence number fre i .
  • the word-document matrix obtaining unit 1006 is configured to obtain a word-document matrix according to the words included in the pre-processed text and the word frequency of each word.
  • a word-document matrix can be obtained according to each word w i and its corresponding weighted occurrence number fre i .
  • the LDA model is specifically as follows:
  • is the subject vector
  • z is the subject
  • w is the word
  • ⁇ , ⁇ ) is the probability distribution matrix corresponding to the word-document matrix
  • ⁇ ) is the ⁇ about ⁇
  • ⁇ ) is the probability distribution matrix corresponding to the subject-word matrix
  • z n , ⁇ ) is the probability distribution matrix corresponding to the subject-document matrix
  • ⁇ and ⁇ are LDA models respectively.
  • the first control parameter and the second control parameter are obtained by learning training from a given input corpus.
  • ⁇ and ⁇ represent the parameters of the corpus level, that is, each document is the same, so the generation process only samples once;
  • is a document-level variable, and each document corresponds to a ⁇ , that is, each document generates each theme z
  • the probabilities are different, all generated for each document sampled ⁇ ;
  • z and w are word-level variables, z is generated by ⁇ , w is jointly generated by z and ⁇ , and a word w corresponds to a topic z.
  • the LDA model mainly learns to train two control parameters ⁇ and ⁇ from a given input corpus, and learns the two control parameters to determine the model, which can be used to generate documents.
  • ⁇ and ⁇ correspond to the following respective information:
  • the distribution p( ⁇ ) requires a vector parameter, that is, the parameter of the Dirichlet distribution (ie, the Dirichlet distribution), used to generate a subject ⁇ vector;
  • the given input corpus is equivalent to training the historical data of two control parameters ⁇ and ⁇ in the LDA model, that is, the given input corpus is a plurality of articles that have been tagged. As a result of the LDA model input, a number of articles that have been tagged are continuously trained to determine the control parameters ⁇ and ⁇ .
  • w is regarded as an observation variable, and ⁇ and z are regarded as hidden variables, and the first control parameter ⁇ and the second control parameter ⁇ are learned by the maximum expectation algorithm.
  • w) cannot be solved directly during the solution, it is approximated by the EM algorithm (ie, the maximum expectation algorithm); each E-step (E-step is the variation in the LDA model) Inferred) Input ⁇ and ⁇ , calculate the likelihood function, M-step maximizes the likelihood function, calculates ⁇ and ⁇ , and iterates until convergence, thus correspondingly obtaining the subject-word matrix, and the document-subject matrix.
  • the probability of each word in it is:
  • the word-word matrix on the left can be obtained by segmenting the document and calculating the word frequency of each word in each document.
  • the theme model is trained by the matrix on the left to learn the two matrices on the right.
  • the topic tag adding unit 102 is configured to obtain a topic corresponding to each document in the tagged article by using a document-subject matrix, and add a topic tag to each document to obtain a tagged article.
  • the subject of the document is obtained, and it can also be understood that the keyword of the article is obtained, and the keyword can be directly used as the label of the article for classification.
  • the word-document matrix is obtained by training the article to be tagged through the LDA model, this process will increase with the calculation of the training data, and the output document-subject matrix becomes more and more accurate, and can be more accurately based on the theme ( That is, the best keyword of the article) classifies the article.
  • the article classification unit 103 is configured to classify the tagged articles by the topic tag to obtain the article classification result.
  • the article classification result is obtained.
  • the article is automated and intelligently classified, without manual classification.
  • the document-subject matrix can be used to obtain the topic of each article, and the topic is used to classify the article, and automatic learning is used instead of manual classification, which saves labor cost and improves classification efficiency.
  • the above article classification device can be implemented in the form of a computer program that can be run on a computer device as shown in FIG.
  • FIG. 5 is a schematic block diagram of a computer device according to an embodiment of the present application.
  • the computer device 500 device can be a terminal.
  • the terminal can be an electronic device such as a tablet computer, a notebook computer, a desktop computer, or a personal digital assistant.
  • the computer device 500 includes a processor 502, a memory and a network interface 505 connected by a system bus 501, wherein the memory can include a non-volatile storage medium 503 and an internal memory 504.
  • the non-volatile storage medium 503 can store an operating system 5031 and a computer program 5032.
  • the computer program 5032 includes program instructions that, when executed, cause the processor 502 to perform an article classification method.
  • the processor 502 is used to provide computing and control capabilities to support the operation of the entire computer device 500.
  • the internal memory 504 provides an environment for the operation of the computer program 5032 in the non-volatile storage medium 503, which when executed by the processor 502, may cause the processor 502 to perform an article classification method.
  • the network interface 505 is used for network communication, such as sending assigned tasks and the like. It will be understood by those skilled in the art that the structure shown in FIG. 5 is only a block diagram of a part of the structure related to the solution of the present application, and does not constitute a limitation of the computer device 500 to which the solution of the present application is applied, and a specific computer device. 500 may include more or fewer components than shown, or some components may be combined, or have different component arrangements.
  • the processor 502 is configured to run a computer program 5032 stored in the memory to implement the following functions: input the word-document matrix corresponding to the tagged article into a pre-built LDA model for training, and obtain a corresponding topic- Word matrix and document-subject matrix; obtain the topic corresponding to each document in the article to be tagged through the document-subject matrix, and add the topic tag to each document to obtain the tagged article; Label articles are categorized to get the article classification results.
  • the processor 502 further performs the following operations: performing a word segmentation on the tagged article to obtain a word segmentation text; setting a weighting value for the segmentation word included in the segmentation word text; deleting the stop word in the text after the word segmentation, and The word frequency of each participle is counted to obtain a first triad; the word similarity between the word segments corresponding to the word frequency threshold of the first triad is obtained; if the word similarity between the word segments is greater than the preset word similarity Degree threshold, retain any one of the participles, get the second triad, and use the second triad as the pre-processed text; obtain the word-document matrix according to the words included in the pre-processed text, and the word frequency of each word .
  • the LDA model is:
  • is the subject vector
  • z is the subject
  • w is the word
  • ⁇ , ⁇ ) is the probability distribution matrix corresponding to the word-document matrix
  • ⁇ ) is the ⁇ about ⁇
  • ⁇ ) is the probability distribution matrix corresponding to the subject-word matrix
  • z n , ⁇ ) is the probability distribution matrix corresponding to the subject-document matrix
  • ⁇ and ⁇ are LDA models respectively.
  • the first control parameter and the second control parameter are obtained by learning training from a given input corpus.
  • the processor 502 also performs the following operations: crawling the tagged article and transmitting the tagged article to the specified path storage.
  • w is regarded as an observation variable
  • ⁇ and z are regarded as hidden variables
  • the first control parameter ⁇ and the second control parameter ⁇ are learned by the maximum expectation algorithm.
  • the embodiment of the computer device shown in FIG. 5 does not constitute a limitation on the specific configuration of the computer device.
  • the computer device may include more or fewer components than illustrated. Or combine some parts, or different parts.
  • the computer device may include only a memory and a processor. In such an embodiment, the structure and function of the memory and the processor are the same as those of the embodiment shown in FIG. 5, and details are not described herein again.
  • the processor 502 may be a central processing unit (CPU), and the processor 502 may also be another general-purpose processor, a digital signal processor (DSP), Application Specific Integrated Circuit (ASIC), Field-Programmable Gate Array (FPGA) or other programmable logic device, discrete gate or transistor logic device, discrete hardware component, etc.
  • the general purpose processor may be a microprocessor or the processor may be any conventional processor or the like.
  • a storage medium in another embodiment, can be a non-transitory computer readable storage medium.
  • the storage medium stores a computer program, wherein the computer program includes program instructions.
  • the program classification method of the embodiment of the present application is implemented when the program instruction is executed by the processor.
  • the storage medium may be an internal storage unit of the aforementioned device, such as a hard disk or a memory of the device.
  • the storage medium may also be an external storage device of the device, such as a plug-in hard disk equipped on the device, a smart memory card (SMC), a secure digital (SD) card, and a flash memory card. (Flash Card), etc.
  • the storage medium may also include both an internal storage unit of the device and an external storage device.

Abstract

本申请公开了一种文章分类方法、装置、计算机设备及存储介质。该方法包括:将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;按主题标签对已打标签文章进行分类,得到文章分类结果。该方法将文章分词后,取文档-主题矩阵便可得到各篇文章所属的主题,利用主题给文章分类,采用自动学习代替手动分类,节省人力成本,提高了分类效率。

Description

文章分类方法、装置、计算机设备及存储介质
本申请要求于2018年2月12日提交中国专利局、申请号为201810145905.6、申请名称为“文章分类方法、装置、计算机设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及文章分类技术领域,尤其涉及一种文章分类方法、装置、计算机设备及存储介质。
背景技术
文章的标签有助于文章的搜索以及分类,目前常用的方式是手动打标签,即作者为自己的文章打标签,但是并非所有作者都为自己的文章打标签。若海量的未打标签的文章都通过手动打标的方式来实现标签的添加之后在进行分类,而不是在无标签或智能化添加标签后进行分类,则效率极其低下,而且大大的增加了人力成本。
发明内容
本申请提供了一种文章分类方法、装置、计算机设备及存储介质,旨在解决现有技术中海量的未打标签的文章都通过手动打标的方式来实现标签的添加之后在进行分类,导致效率极其低下,而且大大的增加了人力成本的问题。
第一方面,本申请提供了一种文章分类方法,其包括:将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;按主题标签对已打标签文章进行分类,得到文章分类结果。
第二方面,本申请提供了一种文章分类装置,其包括:
LDA模型训练单元,用于将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;
主题标签增加单元,用于通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;
文章分类单元,用于按主题标签对已打标签文章进行分类,得到文章分类结果。
第三方面,本申请又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请提供的任一项所述的文章分类方法。
第四方面,本申请还提供了一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本申请提供的任一项所述的文章分类方法。
本申请提供一种文章分类方法、装置、计算机设备及存储介质。该方法将文章分词后,取文档-主题矩阵便可得到各篇文章所属的主题,利用主题给文章分类,采用自动学习代替手动分类,节省人力成本,提高了分类效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文章分类方法的示意流程图;
图2是本申请实施例提供的一种文章分类方法的另一示意流程图;
图3为本申请实施例提供的一种文章分类装置的示意性框图;
图4为本申请实施例提供的一种文章分类装置的另一示意性框图;
图5为本申请实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1是本申请实施例提供的一种文章分类方法的示意流程图。该方法应用于台式电脑、手提电脑、平板电脑等终端中。如图1所示,该方法包括步骤S101~S103。
S101、将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵。
本实施例中,待打标签文章是已预先存储至指定路径的多篇文章或是从互联网上爬取的多篇文章,这多篇文章则是作为LDA模型的输入进行处理。例如终端上有一任务文件夹,可通过手动拷贝文件的方式将文章拷贝进任务文件夹,也可以是通过编写的自动拷贝脚本将文章自动拷贝进任务文件夹。将任务文件夹中的待打标签文章分词预处理而得到对应的词语-文档矩阵,通过LDA模型对词语-文档矩阵进行训练后,得到对应的主题-词语矩阵及文档-主题矩阵。
如图2所示,所述步骤S101之前还包括:
S1001、对待打标签文章进行分词,得到分词后文本。
在本实施例中,是基于概率统计模型的分词方法对待打标签文本进行分词。基于概率统计模型的分词方法的步骤如下:
步骤十一、对一个待分词的子串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn;
步骤十二、到词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;
步骤十三、计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;
步骤十四、如果当前词wn是字串S的尾词,且累计概率P(wn)最大,则wn就是S的终点词;
步骤十五、从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果。
S1002、对分词后文本包括的分词一一设置加权值。
在本实施例中,以已进行分词的待打标签文本中分词来进行加权处理,也就是已进行分词的待打标签文本中是可以视作由多个分词组成,此时对整篇已进行分词的待打标签文本从头至尾按位置、词性、长度等因素对文本中的各分词进行加权处理,按如下规则:
文本第一个词是标题,赋予权值8*;段首第一个词等于“摘要”,则赋予权值5*;段首第一个词等于“关键词”或“结论”,则赋予权值5*;词语长度等于2,赋予权值3*;词性为名词,赋予权值2*;其他,每段首赋予权值1*。
S1003、删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组。
三元组<w i,fre i,v i>表示待打标签文本经处理后的结果集,其中w i是词语,fre i是词语w i加权后出现的次数,v i是词语在文本中的位置权重;其中,当对分词后文本包括的分词一一设置加权值后,需删除其中的停用词(停用词包括虚拟词、语气组词、副词、符号、一个字的词,这些停用词不会作为关键词的候选词),能准确的筛选出候选的关键词进行后续处理。
S1004、获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度。
其中,通过词语相似度计算,计算第一三元组<w i,fre i,v i>中词频fre i>2的所有词语相似度sim ij;当sim ij>0.9则认为两个词语的相似度极高,在文本中可以替换,将返回四元组<w i,w j,sim ij,fre i+fre j>,并删除第一三元组里的词语w j。四元组<w i,w j,sim ij,fre i+fre j>表示对三元组中部分词语计算相似度后的集合,其中sim ij表示词语w i、w j的相似度,fre i+fre j表示两个词语的词频之和。
S1005、若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本。
其中,在第一三元组<w i,fre i,v i>中,查找四元组<w i,w j,sim ij,fre i+fre j>中的词语;当三元组的fre i替换为四元组中的fre i+fre j,重新组成第二三元组<w i,fre i+fre j,v i>,该第二三元组<w i,fre i+fre j,v i>即为预处理文本。
S1006、根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
其中,得到了三元组<w i,fre i+fre j,v i>后,就能根据每一词语w i及其对应的加权后出现的次数fre i得到一个词语-文档矩阵。
为了更清楚的理解本申请的技术方案,下面对LDA模型进行介绍。
LDA模型(英文全称是Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
通过LDA模型对M份包含N个单词的文档(M和N均为正整数)进行训 练时,主要通过以下步骤:
把每篇文章看成一个向量,词为特征,假设总共有N个词,则M篇文章组成N*M的矩阵,该LDA模型使用下面方法生成1个文档,
Chooseparameter θ~p(θ);
For each ofthe N words w_n:
Choose a topic z_n~p(z|θ);
Choose a word w_n~p(w|z);
其中,Chooseparameter表示选择参数,Choose a topic表示选择主题,Choose a word表示选择词语,For each ofthe N words w_n表示将每篇文档的N个词用w_n简记;其中,θ是一个主题向量,向量的每一列表示每个主题在文档出现的概率,该向量为非负归一化向量;p(θ)是θ的分布,具体为狄利克雷分布;N和w_n同上;z_n表示选择的主题,p(z|θ)表示给定θ时主题z的概率分布,具体为θ的值,即p(z=i|θ)=θ_i;p(w|z)表示给定主题z时词语n的概率分布。
上述LDA模型首先选定一个主题向量θ,确定每个主题被选择的概率;然后在生成每个单词时,从主题分布向量θ中选择一个主题z,按主题z的单词概率分布生成一个单词。
在一实施例中,所述LDA模型具体如下:
Figure PCTCN2018085344-appb-000001
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(z n|θ)是主题-词语矩阵对应的概率分布矩阵,p(w n|z n,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
其中,α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次;θ是文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ;z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个单词w对应一个主题z。
从上可知,LDA模型主要是从给定的输入语料中学习训练两个控制参数α 和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息:
α,分布p(θ)需要一个向量参数,即Dirichlet分布(即狄利克雷分布)的参数,用于生成一个主题θ向量;
β,各个主题对应的单词概率分布矩阵p(w|z);
其中给定的输入语料则是相当于训练出LDA模型中两个控制参数α和β的历史数据,即给定的输入语料也就是已打好标签的多篇文章。将已打好标签的多篇文章作为LDA模型的输入,不断进行训练,就能确定控制参数α和β。
在一实施例中,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。若求解过程中遇到后验概率p(θ,z|w)无法直接求解,通过EM算法(即最大期望算法)来近似求解;每次E-step(E-step为LDA模型中的变分推断)输入α和β,计算似然函数,M-step最大化这个似然函数,算出α和β,不断迭代直到收敛,从而对应得到主题-词语矩阵、及文档-主题矩阵。
其中,要生成一篇文档,它里面的每个词语出现的概率为:
Figure PCTCN2018085344-appb-000002
上述公式可以用矩阵表示,即文档-词语矩阵=主题-词语矩阵×文档-主题矩阵;其中,文档-词语矩阵表示每个文档中每个单词的词频,即每个单词出现的概率;主题-词语矩阵表示每个主题中每个单词的出现概率;文档-主题矩阵表示每个文档中每个主题出现的概率。
给定一系列文档,通过对文档进行分词,计算各个文档中每个单词的词频就可以得到左边的文档-词语矩阵。主题模型就是通过左边这个矩阵进行训练,学习出右边两个矩阵。
S102、通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章。
在本实施例中,获取了文档-主题矩阵后,就获取了该文档的主题,也可以理解为获取了该文章的关键词,这一关键词就能直接作为该文章的标签以作分类使用。由于通过LDA模型对将待打标签文章进行训练而得到词语-文档矩阵,这一过程会随着训练数据计算的增大,输出的文档-主题矩阵越来越精确,能更 精准的根据主题(即文章的最佳关键词)对文章进行分类。
S103、按主题标签对已打标签文章进行分类,得到文章分类结果。
在本实施例中,是将具有相同主题的文档归到同一类后,得到文章分类结果。通过上述分类,实现了文章的自动化和智能化的分类,无需手动分类。
在一实施例中,所述步骤S1001之前还包括:
步骤一、爬取待打标签文章,并将待打标签文章传输至指定路径存储。
即原始数据从网上爬取,得到待打标签文章,存放到MangoDB数据库。通过爬取数据,可设置一筛选条件,即爬取未设置标签的文本从而进行打标签,以进行文章分类。
可见,该方法将文章分词后,取文档-主题矩阵便可得到各篇文章所属的主题,利用主题给文章分类,采用自动学习代替手动分类,节省人力成本,提高了分类效率。
本申请实施例还提供一种文章分类装置,该文章分类装置用于执行前述任一项文章分类方法。具体地,请参阅图3,图3是本申请实施例提供的一种文章分类装置的示意性框图。文章分类装置100可以安装于台式电脑、平板电脑、手提电脑、等终端中。
如图3所示,文章分类装置100包括LDA模型训练单元101、主题标签增加单元102、文章分类单元103。
LDA模型训练单元101,用于将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵。
本实施例中,待打标签文章是已预先存储至指定路径的多篇文章或是从互联网上爬取的多篇文章,这多篇文章则是作为LDA模型的输入进行处理。例如终端上有一任务文件夹,可通过手动拷贝文件的方式将文章拷贝进任务文件夹,也可以是通过编写的自动拷贝脚本将文章自动拷贝进任务文件夹。将任务文件夹中的待打标签文章分词预处理而得到对应的词语-文档矩阵,通过LDA模型对词语-文档矩阵进行训练后,得到对应的主题-词语矩阵及文档-主题矩阵。
如图4所示,所述文章分类装置100还包括:
分词单元1001,用于对待打标签文章进行分词,得到分词后文本。
在本实施例中,是基于概率统计模型的分词方法对待打标签文本进行分词。基于概率统计模型的分词方法如下:
1)对一个待分词的子串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn;
2)到词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;
3)计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;
4)如果当前词wn是字串S的尾词,且累计概率P(wn)最大,则wn就是S的终点词;
5)从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果。
加权单元1002,用于对分词后文本包括的分词一一设置加权值。
在本实施例中,以已进行分词的待打标签文本中分词来进行加权处理,也就是已进行分词的待打标签文本中是可以视作由多个分词组成,此时对整篇已进行分词的待打标签文本从头至尾按位置、词性、长度等因素对文本中的各分词进行加权处理,按如下规则:
文本第一个词是标题,赋予权值8*;段首第一个词等于“摘要”,则赋予权值5*;段首第一个词等于“关键词”或“结论”,则赋予权值5*;词语长度等于2,赋予权值3*;词性为名词,赋予权值2*;其他,每段首赋予权值1*。
统计单元1003,用于删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组。
三元组<w i,fre i,v i>表示待打标签文本经处理后的结果集,其中w i是词语,fre i是词语w i加权后出现的次数,v i是词语在文本中的位置权重;其中,当对分词后文本包括的分词一一设置加权值后,需删除其中的停用词(停用词包括虚拟词、语气组词、副词、符号、一个字的词,这些停用词不会作为关键词的候选词),能准确的筛选出候选的关键词进行后续处理。
相似度获取单元1004,用于获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度。
其中,通过词语相似度计算,计算第一三元组<w i,fre i,v i>中词频fre i>2的所有词语相似度sim ij;当sim ij>0.9则认为两个词语的相似度极高,在文本中可以替换,将返回四元组<w i,w j,sim ij,fre i+fre j>,并删除第一三元组里的词语w j。四元组<w i,w j,sim ij,fre i+fre j>表示对三元组中部分词语计算相似度后的集 合,其中sim ij表示词语w i、w j的相似度,fre i+fre j表示两个词语的词频之和。
删词单元1005,用于若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本。
其中,在第一三元组<w i,fre i,v i>中,查找四元组<w i,w j,sim ij,fre i+fre j>中的词语;当三元组的fre i替换为四元组中的fre i+fre j,重新组成第二三元组<w i,fre i+fre j,v i>,该第二三元组<w i,fre i+fre j,v i>即为预处理文本。
其中,得到了三元组<w i,fre i+fre j,v i>后,就能根据每一词语w i及其对应的加权后出现的次数fre i得到一个词语-文档矩阵。
词语-文档矩阵获取单元1006,用于根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
其中,得到了三元组<w i,fre i+fre j,v i>后,就能根据每一词语w i及其对应的加权后出现的次数fre i得到一个词语-文档矩阵。
在一实施例中,所述LDA模型具体如下:
Figure PCTCN2018085344-appb-000003
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(z n|θ)是主题-词语矩阵对应的概率分布矩阵,p(w n|z n,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
其中,α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次;θ是文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ;z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个单词w对应一个主题z。
从上可知,LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息:
α,分布p(θ)需要一个向量参数,即Dirichlet分布(即狄利克雷分布)的参数,用于生成一个主题θ向量;
β,各个主题对应的单词概率分布矩阵p(w|z);
其中给定的输入语料则是相当于训练出LDA模型中两个控制参数α和β的历史数据,即给定的输入语料也就是已打好标签的多篇文章。将已打好标签的多篇文章作为LDA模型的输入,不断进行训练,就能确定控制参数α和β。
在一实施例中,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。若求解过程中遇到后验概率p(θ,z|w)无法直接求解,通过EM算法(即最大期望算法)来近似求解;每次E-step(E-step为LDA模型中的变分推断)输入α和β,计算似然函数,M-step最大化这个似然函数,算出α和β,不断迭代直到收敛,从而对应得到主题-词语矩阵、及文档-主题矩阵。
其中,要生成一篇文档,它里面的每个词语出现的概率为:
Figure PCTCN2018085344-appb-000004
上述公式可以用矩阵表示,即文档-词语矩阵=主题-词语矩阵×文档-主题矩阵;其中,文档-词语矩阵表示每个文档中每个单词的词频,即每个单词出现的概率;主题-词语矩阵表示每个主题中每个单词的出现概率;文档-主题矩阵表示每个文档中每个主题出现的概率。
给定一系列文档,通过对文档进行分词,计算各个文档中每个单词的词频就可以得到左边的文档-词语矩阵。主题模型就是通过左边这个矩阵进行训练,学习出右边两个矩阵。
主题标签增加单元102,用于通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章。
在本实施例中,获取了文档-主题矩阵后,就获取了该文档的主题,也可以理解为获取了该文章的关键词,这一关键词就能直接作为该文章的标签以作分类使用。由于通过LDA模型对将待打标签文章进行训练而得到词语-文档矩阵,这一过程会随着训练数据计算的增大,输出的文档-主题矩阵越来越精确,能更精准的根据主题(即文章的最佳关键词)对文章进行分类。
文章分类单元103,用于按主题标签对已打标签文章进行分类,得到文章分类结果。
在本实施例中,是将具有相同主题的文档归到同一类后,得到文章分类结 果。通过上述分类,实现了文章的自动化和智能化的分类,无需手动分类。
可见,该装置将文章分词后,取文档-主题矩阵便可得到各篇文章所属的主题,利用主题给文章分类,采用自动学习代替手动分类,节省人力成本,提高了分类效率。
上述文章分类装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500设备可以是终端。该终端可以是平板电脑、笔记本电脑、台式电脑、个人数字助理等电子设备。
参阅图5,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种文章分类方法。该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种文章分类方法。该网络接口505用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;按主题标签对已打标签文章进行分类,得到文章分类结果。
在一实施例中,处理器502还执行如下操作:对待打标签文章进行分词,得到分词后文本;对分词后文本包括的分词一一设置加权值;删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;若分词之间的词语相似度 大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
在一实施例中,所述LDA模型为:
Figure PCTCN2018085344-appb-000005
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(z n|θ)是主题-词语矩阵对应的概率分布矩阵,p(w n|z n,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
在一实施例中,处理器502还执行如下操作:爬取待打标签文章,并将待打标签文章传输至指定路径存储。
在一实施例中,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
本领域技术人员可以理解,图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图5所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(Central Processing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供一种存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时实现本申请实施例的文章分类方法。
所述存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

  1. 一种文章分类方法,其特征在于,包括:
    将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;
    通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;
    按主题标签对已打标签文章进行分类,得到文章分类结果。
  2. 根据权利要求1所述的文章分类方法,其特征在于,所述将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵之前,还包括:
    对待打标签文章进行分词,得到分词后文本;
    对分词后文本包括的分词一一设置加权值;
    删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;
    获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;
    若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;
    根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
  3. [根据细则26改正12.06.2018] 
    根据权利要求1所述的文章分类方法,其特征在于,所述LDA模型为:
    Figure WO-DOC-FIGURE-1

    其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(z n|θ).是主题-词语矩阵对应的概率分布矩阵,p(w n|z n,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
  4. 根据权利要求2所述的文章分类方法,其特征在于,所述对待打标签文章进行分词,得到分词后文本之前,还包括:
    爬取待打标签文章,并将待打标签文章传输至指定路径存储。
  5. 根据权利要求3所述的文章分类方法,其特征在于,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
  6. 一种文章分类装置,其特征在于,包括:
    LDA模型训练单元,用于将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;
    主题标签增加单元,用于通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;
    文章分类单元,用于按主题标签对已打标签文章进行分类,得到文章分类结果。
  7. 根据权利要求6所述的文章分类装置,其特征在于,还包括:
    分词单元,用于对待打标签文章进行分词,得到分词后文本;
    加权单元,用于对分词后文本包括的分词一一设置加权值;
    统计单元,用于删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;
    相似度获取单元,用于获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;
    删词单元,用于若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;
    词语-文档矩阵获取单元,用于根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
  8. [根据细则26改正12.06.2018] 
    根据权利要求6所述的文章分类装置,其特征在于,所述LDA模型为:
    Figure WO-DOC-FIGURE-1

    其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(z n|θ).是主题-词语矩阵对应的概率分布矩阵,p(w n|z n,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
  9. 根据权利要求6所述的文章分类装置,其特征在于,所述对待打标签文章进行分词,得到分词后文本之前,还包括:
    爬取待打标签文章,并将待打标签文章传输至指定路径存储。
  10. 根据权利要求8所述的文章分类装置,其特征在于,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
  11. 一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
    将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;
    通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;
    按主题标签对已打标签文章进行分类,得到文章分类结果。
  12. 根据权利要求11所述的计算机设备,其特征在于,所述将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵之前,还包括:
    对待打标签文章进行分词,得到分词后文本;
    对分词后文本包括的分词一一设置加权值;
    删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;
    获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;
    若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;
    根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
  13. [根据细则26改正12.06.2018] 
    根据权利要求11所述的计算机设备,其特征在于,所述LDA模型为:
    Figure WO-DOC-FIGURE-1

    其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(z n|θ). 是主题-词语矩阵对应的概率分布矩阵,p(w n|z n,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
  14. 根据权利要求12所述的计算机设备,其特征在于,所述对待打标签文章进行分词,得到分词后文本之前,还包括:
    爬取待打标签文章,并将待打标签文章传输至指定路径存储。
  15. 根据权利要求13所述的计算机设备,其特征在于,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
  16. 一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行以下操作:
    将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;
    通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;
    按主题标签对已打标签文章进行分类,得到文章分类结果。
  17. 根据权利要求16所述的存储介质,其特征在于,所述将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵之前,还包括:
    对待打标签文章进行分词,得到分词后文本;
    对分词后文本包括的分词一一设置加权值;
    删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;
    获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;
    若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;
    根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
  18. [根据细则26改正12.06.2018] 
    根据权利要求16所述的存储介质,其特征在于,所述LDA模型为:
    Figure WO-DOC-FIGURE-1

    其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(z n|θ).是主题-词语矩阵对应的概率分布矩阵,p(w n|z n,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
  19. 根据权利要求17所述的存储介质,其特征在于,所述对待打标签文章进行分词,得到分词后文本之前,还包括:
    爬取待打标签文章,并将待打标签文章传输至指定路径存储。
  20. 根据权利要求18所述的存储介质,其特征在于,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
PCT/CN2018/085344 2018-02-12 2018-05-02 文章分类方法、装置、计算机设备及存储介质 WO2019153551A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810145905.6A CN108399228B (zh) 2018-02-12 2018-02-12 文章分类方法、装置、计算机设备及存储介质
CN201810145905.6 2018-02-12

Publications (1)

Publication Number Publication Date
WO2019153551A1 true WO2019153551A1 (zh) 2019-08-15

Family

ID=63096460

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/085344 WO2019153551A1 (zh) 2018-02-12 2018-05-02 文章分类方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN108399228B (zh)
WO (1) WO2019153551A1 (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717043A (zh) * 2019-09-29 2020-01-21 三螺旋大数据科技(昆山)有限公司 基于网络表示学习训练的学术团队构建方法
CN110727797A (zh) * 2019-09-17 2020-01-24 北京三快在线科技有限公司 标签生成方法、装置、电子设备和计算机可读介质
CN110728135A (zh) * 2019-10-12 2020-01-24 中国科学技术信息研究所 文本主题标引方法、装置、电子设备及计算机存储介质
CN110781671A (zh) * 2019-10-29 2020-02-11 西安科技大学 一种智能ietm故障维修记录文本的知识挖掘方法
CN111104483A (zh) * 2019-12-18 2020-05-05 华北电力大学 基于机器学习的ict系统故障分析及辅助判别方法
CN111125358A (zh) * 2019-12-17 2020-05-08 北京工商大学 一种基于超图的文本分类方法
CN111144113A (zh) * 2019-12-31 2020-05-12 安徽智恒信科技股份有限公司 一种基于机器学习的能力模型与工单匹配方法及系统
CN111241284A (zh) * 2020-01-15 2020-06-05 北京松果电子有限公司 文章内容识别方法、装置及计算机存储介质
CN111353019A (zh) * 2020-02-25 2020-06-30 上海昌投网络科技有限公司 一种微信公众号公号主题分类方法及装置
CN111382268A (zh) * 2020-02-25 2020-07-07 北京小米松果电子有限公司 文本训练数据处理方法、装置及存储介质
CN111666401A (zh) * 2020-05-29 2020-09-15 平安科技(深圳)有限公司 基于图结构的公文推荐方法、装置、计算机设备及介质
CN111737995A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
CN111782814A (zh) * 2020-07-17 2020-10-16 安徽大学 一种专利技术主题内容和热度演化的分析方法
CN112836051A (zh) * 2021-02-19 2021-05-25 太极计算机股份有限公司 一种在线自学习的法院电子卷宗文本分类方法
CN112860900A (zh) * 2021-03-23 2021-05-28 上海壁仞智能科技有限公司 文本分类方法、装置、电子设备及存储介质
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113434671A (zh) * 2021-06-23 2021-09-24 平安国际智慧城市科技股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN113449063A (zh) * 2021-06-25 2021-09-28 树根互联股份有限公司 一种构建文档结构信息检索库的方法及装置
CN114492425A (zh) * 2021-12-30 2022-05-13 中科大数据研究院 采用一套领域标签体系将多维度数据打通的方法
CN115563311A (zh) * 2022-10-21 2023-01-03 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446318A (zh) * 2018-09-14 2019-03-08 深圳市元征科技股份有限公司 一种确定汽车维修文档主题的方法及相关设备
CN109388696B (zh) * 2018-09-30 2021-07-23 北京字节跳动网络技术有限公司 删除谣言文章的方法、装置、存储介质及电子设备
CN109271519B (zh) * 2018-10-11 2022-04-22 北京邮电大学 宫廷服饰文本主题生成方法、装置、电子设备及存储介质
CN109635290B (zh) * 2018-11-30 2022-07-22 北京百度网讯科技有限公司 用于处理信息的方法、装置、设备和介质
CN110032639B (zh) 2018-12-27 2023-10-31 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
CN109885826A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质
CN109815495B (zh) * 2019-01-16 2020-06-05 西安交通大学 一种通过标签传播算法进行主题分面挖掘的方法
CN110162797B (zh) * 2019-06-21 2023-04-07 北京百度网讯科技有限公司 文章质量检测方法和装置
CN110413994B (zh) * 2019-06-28 2022-11-22 宁波深擎信息科技有限公司 热点话题生成方法、装置、计算机设备和存储介质
CN110717326B (zh) * 2019-09-17 2022-12-23 平安科技(深圳)有限公司 基于机器学习的文本信息作者的识别方法及其装置
CN112667826A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种篇章去噪方法、装置、系统及存储介质
CN111325030A (zh) * 2020-03-31 2020-06-23 卓尔智联(武汉)研究院有限公司 文本标签构建方法、装置、计算机设备和存储介质
CN111191011B (zh) * 2020-04-17 2024-02-23 郑州工程技术学院 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN111625650A (zh) * 2020-06-01 2020-09-04 领猎网络科技(上海)有限公司 一种文本归类方法
CN112036485B (zh) * 2020-08-31 2023-10-24 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备
CN112084334B (zh) * 2020-09-04 2023-11-21 中国平安财产保险股份有限公司 语料的标签分类方法、装置、计算机设备及存储介质
CN112507113A (zh) * 2020-09-18 2021-03-16 青岛海洋科学与技术国家实验室发展中心 一种海洋大数据文本分类方法及系统
CN113326350B (zh) * 2021-05-31 2023-05-26 江汉大学 基于远程学习的关键词提取方法、系统、设备及存储介质
CN114691867A (zh) * 2022-03-09 2022-07-01 电子科技大学 一种内容分类方法、装置、系统及存储介质
CN114757170A (zh) * 2022-04-19 2022-07-15 北京字节跳动网络技术有限公司 一种主题聚合方法、装置及电子设备
CN115730237B (zh) * 2022-11-28 2024-04-23 智慧眼科技股份有限公司 垃圾邮件检测方法、装置、计算机设备及存储介质
CN116702775B (zh) * 2023-08-07 2023-11-03 深圳市智慧城市科技发展集团有限公司 文本处理方法、文本处理装置及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254884A1 (en) * 2008-04-08 2009-10-08 Infosys Technologies Ltd. Identification of topics in source code
CN103714171A (zh) * 2013-12-31 2014-04-09 深圳先进技术研究院 文本聚类方法
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN105718579A (zh) * 2016-01-22 2016-06-29 浙江大学 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN106815214A (zh) * 2016-12-30 2017-06-09 东软集团股份有限公司 最优主题数计算方法及装置
CN106971306A (zh) * 2016-01-12 2017-07-21 阿里巴巴集团控股有限公司 产品问题的识别方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902700B (zh) * 2012-04-05 2015-02-25 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN103425686B (zh) * 2012-05-21 2016-12-07 微梦创科网络科技(中国)有限公司 一种信息发布方法和装置
CN104036105B (zh) * 2013-03-08 2019-05-14 伊姆西公司 确定涉及大数据分析的随机性应用的正确性的方法和系统
CN106202391A (zh) * 2016-07-08 2016-12-07 深圳市中北明夷科技有限公司 一种用户社群的自动分类方法及装置
CN106844416B (zh) * 2016-11-17 2019-11-29 中国科学院计算技术研究所 一种子话题挖掘方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254884A1 (en) * 2008-04-08 2009-10-08 Infosys Technologies Ltd. Identification of topics in source code
CN103714171A (zh) * 2013-12-31 2014-04-09 深圳先进技术研究院 文本聚类方法
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106971306A (zh) * 2016-01-12 2017-07-21 阿里巴巴集团控股有限公司 产品问题的识别方法及系统
CN105718579A (zh) * 2016-01-22 2016-06-29 浙江大学 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN106815214A (zh) * 2016-12-30 2017-06-09 东软集团股份有限公司 最优主题数计算方法及装置

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727797A (zh) * 2019-09-17 2020-01-24 北京三快在线科技有限公司 标签生成方法、装置、电子设备和计算机可读介质
CN110717043A (zh) * 2019-09-29 2020-01-21 三螺旋大数据科技(昆山)有限公司 基于网络表示学习训练的学术团队构建方法
CN110728135A (zh) * 2019-10-12 2020-01-24 中国科学技术信息研究所 文本主题标引方法、装置、电子设备及计算机存储介质
CN110728135B (zh) * 2019-10-12 2023-06-09 中国科学技术信息研究所 文本主题标引方法、装置、电子设备及计算机存储介质
CN110781671A (zh) * 2019-10-29 2020-02-11 西安科技大学 一种智能ietm故障维修记录文本的知识挖掘方法
CN110781671B (zh) * 2019-10-29 2023-02-14 西安科技大学 一种智能ietm故障维修记录文本的知识挖掘方法
CN111125358A (zh) * 2019-12-17 2020-05-08 北京工商大学 一种基于超图的文本分类方法
CN111104483A (zh) * 2019-12-18 2020-05-05 华北电力大学 基于机器学习的ict系统故障分析及辅助判别方法
CN111144113A (zh) * 2019-12-31 2020-05-12 安徽智恒信科技股份有限公司 一种基于机器学习的能力模型与工单匹配方法及系统
CN111144113B (zh) * 2019-12-31 2024-02-06 安徽智恒信科技股份有限公司 一种基于机器学习的能力模型与工单匹配方法及系统
CN111241284B (zh) * 2020-01-15 2024-04-02 北京小米松果电子有限公司 文章内容识别方法、装置及计算机存储介质
CN111241284A (zh) * 2020-01-15 2020-06-05 北京松果电子有限公司 文章内容识别方法、装置及计算机存储介质
CN111382268A (zh) * 2020-02-25 2020-07-07 北京小米松果电子有限公司 文本训练数据处理方法、装置及存储介质
CN111382268B (zh) * 2020-02-25 2023-12-01 北京小米松果电子有限公司 文本训练数据处理方法、装置及存储介质
CN111353019A (zh) * 2020-02-25 2020-06-30 上海昌投网络科技有限公司 一种微信公众号公号主题分类方法及装置
CN111666401B (zh) * 2020-05-29 2023-06-30 平安科技(深圳)有限公司 基于图结构的公文推荐方法、装置、计算机设备及介质
CN111737995B (zh) * 2020-05-29 2024-04-05 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
CN111666401A (zh) * 2020-05-29 2020-09-15 平安科技(深圳)有限公司 基于图结构的公文推荐方法、装置、计算机设备及介质
CN111737995A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
CN111782814B (zh) * 2020-07-17 2023-11-10 安徽大学 一种专利技术主题内容和热度演化的分析方法
CN111782814A (zh) * 2020-07-17 2020-10-16 安徽大学 一种专利技术主题内容和热度演化的分析方法
CN112836051A (zh) * 2021-02-19 2021-05-25 太极计算机股份有限公司 一种在线自学习的法院电子卷宗文本分类方法
CN112836051B (zh) * 2021-02-19 2024-03-26 太极计算机股份有限公司 一种在线自学习的法院电子卷宗文本分类方法
CN112860900A (zh) * 2021-03-23 2021-05-28 上海壁仞智能科技有限公司 文本分类方法、装置、电子设备及存储介质
CN112860900B (zh) * 2021-03-23 2022-11-04 上海壁仞智能科技有限公司 文本分类方法、装置、电子设备及存储介质
CN113434671A (zh) * 2021-06-23 2021-09-24 平安国际智慧城市科技股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN113449063B (zh) * 2021-06-25 2023-06-16 树根互联股份有限公司 一种构建文档结构信息检索库的方法及装置
CN113449063A (zh) * 2021-06-25 2021-09-28 树根互联股份有限公司 一种构建文档结构信息检索库的方法及装置
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113377965B (zh) * 2021-06-30 2024-02-23 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN114492425A (zh) * 2021-12-30 2022-05-13 中科大数据研究院 采用一套领域标签体系将多维度数据打通的方法
CN115563311B (zh) * 2022-10-21 2023-09-15 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统
CN115563311A (zh) * 2022-10-21 2023-01-03 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统

Also Published As

Publication number Publication date
CN108399228A (zh) 2018-08-14
CN108399228B (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
WO2019153551A1 (zh) 文章分类方法、装置、计算机设备及存储介质
WO2019136993A1 (zh) 文本相似度计算方法、装置、计算机设备和存储介质
WO2019169719A1 (zh) 文摘自动提取方法、装置、计算机设备及存储介质
EP3227836B1 (en) Active machine learning
US11244205B2 (en) Generating multi modal image representation for an image
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN108399227B (zh) 自动打标签的方法、装置、计算机设备及存储介质
WO2022095374A1 (zh) 关键词抽取方法、装置、终端设备及存储介质
CN111930929B (zh) 一种文章标题生成方法、装置及计算设备
CN111274394A (zh) 一种实体关系的抽取方法、装置、设备及存储介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN111444723A (zh) 信息抽取模型训练方法、装置、计算机设备和存储介质
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
WO2022222300A1 (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN113434858B (zh) 基于反汇编代码结构和语义特征的恶意软件家族分类方法
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
WO2022262266A1 (zh) 文本摘要生成方法、装置、计算机设备及存储介质
US11687647B2 (en) Method and electronic device for generating semantic representation of document to determine data security risk
US20190318191A1 (en) Noise mitigation in vector space representations of item collections
CN111177375A (zh) 一种电子文档分类方法及装置
CN112101031A (zh) 一种实体识别方法、终端设备及存储介质
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM1205A DATED 20/11/2020)

122 Ep: pct application non-entry in european phase

Ref document number: 18905359

Country of ref document: EP

Kind code of ref document: A1