WO2020207431A1 - 文献分类方法、装置、设备及存储介质 - Google Patents

文献分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2020207431A1
WO2020207431A1 PCT/CN2020/083952 CN2020083952W WO2020207431A1 WO 2020207431 A1 WO2020207431 A1 WO 2020207431A1 CN 2020083952 W CN2020083952 W CN 2020083952W WO 2020207431 A1 WO2020207431 A1 WO 2020207431A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
text
category
network
document
Prior art date
Application number
PCT/CN2020/083952
Other languages
English (en)
French (fr)
Inventor
牛牧遥
蔡洁
黑马
Original Assignee
智慧芽信息科技(苏州)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 智慧芽信息科技(苏州)有限公司 filed Critical 智慧芽信息科技(苏州)有限公司
Publication of WO2020207431A1 publication Critical patent/WO2020207431A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Definitions

  • the embodiments of the application relate to the technical field of document classification, such as a method, device, device, and storage medium for document classification.
  • the following two methods are used to realize automatic classification of documents: one is to use a traditional machine learning model, such as Support Vector Machine (SVM), to realize document classification.
  • SVM Support Vector Machine
  • the other is to use deep learning models, such as Convolutional Neural Network (CNN) and Recurrent Neural Network (RNN) to classify documents.
  • CNN Convolutional Neural Network
  • RNN Recurrent Neural Network
  • the embodiments of the present application provide a method, device, equipment, and storage medium for document classification, so as to realize automatic classification of documents and improve the accuracy of document classification.
  • an embodiment of the present application provides a document classification method, which includes: obtaining text information of a document to be classified and category label information corresponding to a set classification system; wherein the category label information is the set Determine the information describing the document category in the classification system; input the text information and the category label information into a set neural network for processing, and determine the classification of the document to be classified according to the processing result of the set neural network.
  • the embodiments of the present application also provide a document classification device, which includes a text information and category label information acquisition module and a document classification determination module; the text information and category label information acquisition module is configured to obtain documents to be classified Text information and category label information corresponding to the set classification system; wherein the category label information is information describing the document category in the set classification system; the document classification determination module is configured to combine the text information and the category label The information is input to the set neural network for processing, and the classification of the document to be classified is determined according to the processing result of the set neural network.
  • an embodiment of the present application also provides a computer device, including a memory, a processor, and a computer program stored on the memory and running on the processor, and the processor executes the computer program At the time, the document classification method as described in the first aspect of this application is realized.
  • an embodiment of the present application also provides a computer-readable storage medium that stores a computer program, and when the computer program is executed by a processor, the implementation of the Method of document classification.
  • Fig. 1 is a flowchart of a document classification method provided by an embodiment of the present application
  • FIG. 2 is a schematic structural diagram of a set neural network provided by an embodiment of the present application.
  • FIG. 3 is a schematic structural diagram of another setting neural network provided by an embodiment of the present application.
  • FIG. 5 is a schematic structural diagram of a document classification device provided by an embodiment of the present application.
  • Fig. 6 is a schematic structural diagram of a computer device provided by an embodiment of the present application.
  • Figure 1 is a flowchart of a document classification method provided by an embodiment of the application. This embodiment can be applied to the classification of patent documents or non-patent documents.
  • the method can be executed by a document classification device, which can be implemented by hardware. And/or software, and generally can be integrated in a device with a document classification function, which can be an electronic device such as a server, a terminal, or a server cluster. As shown in FIG. 1, the method includes steps 110 to 120.
  • step 110 the text information of the document to be classified and the category label information corresponding to the set classification system are obtained.
  • the category label information is the information describing the document category in the set classification system.
  • the set classification system can be the joint patent classification system (Cooperative Patent Classification, CPC), the international patent classification system (International Patent Classification, IPC), the FI classification system, the FTERM classification system, and the Chinese classification number system.
  • the category label information may be definition information of the category label or description information of the category label.
  • the category label may be the classification of the document in the set classification system determined according to the technical field of the document.
  • Documents can include patent documents or non-patent documents.
  • the text information of the document can be the text in the document setting field, such as the text in the "Abstract" part, the text in the "Claim” part, and so on.
  • the process of obtaining the text information and category label information of the document to be classified may be to extract the text in a set field in the document to be classified as the text information, and then determine which classification system is used to classify the document to be classified. And obtain the category label information contained under this kind of classification system, and the category label information is the category label information corresponding to all the category labels contained under this kind of classification system.
  • step 120 the text information and the category label information are input to the set neural network for processing, and the classification of the document to be classified is determined according to the processing result of the set neural network.
  • the processing result of the neural network is set to be characterized by the category probability vector, which can reflect the probability that the document to be classified belongs to each category.
  • Figure 2 is a schematic diagram of the structure of a set neural network in this embodiment.
  • the set neural network includes a deep sub-network, a wide sub-network and a fully connected sub-network; the fully connected sub-network and the deep sub-network are respectively Connect with the width subnet.
  • inputting text information and category label information into a neural network for processing can be implemented in the following ways: input text information into the deep sub-network and obtain a text vector; input text information and category label information into width The sub-network obtains the text relevance vector between the text information and the category label information; the text vector and the text relevance vector are input into the fully connected sub-network to obtain the processing result.
  • the text relevance vector is a vector composed of the text relevance of text information and category label information.
  • the deep sub-network performs a series of nonlinear transformations on the text information to obtain the text vector, and the width sub-network calculates the text correlation between the text information and each category of label information according to the set correlation algorithm.
  • the text relevance is combined into a text relevance vector.
  • the spliced vector is activated by the activation function to obtain the processing result.
  • the text relevance of the text information and the category label information is first obtained, and then the text relevance and the text information are merged to calculate the classification of the document to be classified. At the same time, the two factors of the text information and the category label information are considered to improve The accuracy of document classification.
  • the technical solution of this embodiment first obtains the text information and category label information of the document to be classified, then performs neural network processing on the text information and category label information, and determines the classification of the document according to the processing result of the set neural network.
  • the document classification method provided in the embodiments of this application uses a set neural network to process text information and category label information at the same time to obtain document classification. Compared with related technologies, documents are classified based only on text information, which not only realizes document classification The automatic classification of documents also improves the accuracy of document classification.
  • FIG. 3 is a schematic structural diagram of another setting neural network provided by an embodiment of the application. Based on the above embodiment. As shown in Figure 3, the deep sub-network includes an embedded layer and at least one nonlinear layer; the fully connected sub-network includes a splicing layer and an activation layer.
  • the non-linear layer in the deep sub-network may be Convolutional Neural Networks (CNN), Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM) ), gated recurrent unit networks (Gated Recurrent Unit, GRU) and region-based convolutional neural networks (Region Convolutional Neural Networks, RCNN), etc.
  • CNN Convolutional Neural Networks
  • RNN Recurrent Neural Network
  • LSTM Long Short-Term Memory
  • GRU Gated recurrent unit networks
  • GRU region-based convolutional neural networks
  • RCNN region-based convolutional neural networks
  • the text information is input into the deep sub-network to obtain the text vector, which can be implemented in the following manner: the text information is input into the embedding layer, and the embedding layer analyzes the text information to obtain multiple word vectors; The vector is input to at least one nonlinear layer, and the at least one nonlinear layer performs nonlinear transformation on multiple word vectors to obtain a text vector.
  • the embedding layer filters out punctuation marks and function words in the text information, and converts the remaining content words into corresponding word vectors.
  • the non-linear layer performs non-linear conversion on the word vector output by the embedding layer to obtain the text vector corresponding to the text information.
  • the text information and category label information are input into the width sub-network to obtain the text correlation vector between the text information and the category label information, which can be implemented in the following manner: the text information and category label information are input into the width sub-network , The width sub-network processes the text information and category label information according to the set method to obtain the text relevance vector.
  • the setting method includes: bm25 algorithm or vector space model.
  • the calculation of the text relevance according to the bm25 algorithm can be calculated according to the following formula:
  • X i represents the text information in the i-th word
  • D k indicates the type of tag information
  • tf (X i, D) represents word frequency between X i and D k
  • idf (X i) denotes X i
  • the inverse text frequency index, avdgl represents the average value of category label information
  • k 1 and b represent hyperparameters.
  • the width sub-network processes the text information and category label information according to the vector space model, and the way to obtain the text relevance vector may be: the width sub-network obtains the word vectors corresponding to the text information and the category label information; The network calculates the distance between the word vector corresponding to the text information and the word vector corresponding to the category label information, and obtains the text relevance vector.
  • the process of obtaining the word vectors corresponding to the text information and the category label information may be to convert the actual words contained in the text information and the category label information into corresponding word vectors.
  • the method of obtaining the text relevance between the text information and the category label information may also be to calculate the number of overlaps of the words contained in the text information and the category label information, and determine the text relevance according to the number of overlaps.
  • any algorithm for calculating text relevance can be used for calculation, which is not limited here.
  • the text vector and the text relevance vector are input into the fully connected sub-network to obtain the processing result, which can be implemented in the following manner: the splicing layer splices the text vector and the text relevance vector, and combines the spliced vector with The weight matrix is multiplied to obtain the weight vector, and the weight vector is input to the activation layer; the activation layer uses the activation function to process the weight vector to obtain the category probability vector corresponding to the document to be classified.
  • the probability in the category probability vector and the category label have a one-to-one correspondence.
  • the activation function can be a sigmoid function.
  • the method of splicing the text vector and the text relevance vector may be to combine the two vectors. For example, if the text vector is m-dimensional and the text relevance is n-dimensional, the spliced vector is m+n-dimensional.
  • the text vector and the text relevance vector are spliced and multiplied by the weight matrix to obtain the weight vector, and then the sigmoid function is used to activate each element in the weight vector to obtain the category probability vector.
  • the embedding layer analyzes the text information to obtain multiple word vectors, and at least one non-linear layer performs non-linear transformation on the multiple word vectors to obtain the text vector; the width sub-network performs the text information according to the set method Processing with the category label information to obtain the text relevance vector; the splicing layer splices the text vector and the text relevance vector, and multiplies the spliced vector with the weight matrix to obtain the weight vector; the activation layer uses the activation function to process the weight vector, Obtain the category probability vector corresponding to the document.
  • the set neural network is used to process the text information and label information to obtain the category probability vector corresponding to the document to be classified, which improves the accuracy of document classification.
  • FIG. 4 is a flowchart of another document classification method provided by an embodiment of this application. Based on the foregoing embodiment, the method includes steps 410 to 440.
  • step 410 a document sample set and category label information corresponding to the set classification system are obtained.
  • the document sample set includes multiple documents and corresponding real category probability vectors respectively; the documents include patent documents or non-patent documents.
  • the category label information may be information describing the document category in the set classification system.
  • CPC can be selected as the set classification system in this embodiment, and the category label information contained in the CPC can be obtained.
  • the way to obtain the document sample set may be to extract the documents that have been accurately classified and their corresponding true category probability vectors.
  • the way to obtain a document sample collection can be: according to the citation relationship between non-patent documents and patent documents, The classification information of the document is automatically marked as the classification information of the non-patent document.
  • the citation relationship between non-patent documents and patent documents includes non-patent documents citations.
  • Patent documents and non-patent documents are cited by patent documents.
  • the classification information of patent documents is automatically marked as non-patent documents.
  • the classification information is to determine the true category probability vector of the patent document as the true category probability vector of the non-patent document. For example, when non-patent document a is cited by patent document b, or b is cited, the true category probability vector of b is assigned to a.
  • the way to obtain category label information may be: extracting non-patent documents corresponding to each according to the keyword calculation algorithm Preferred keywords of the category; and update the category label information corresponding to the set classification system according to the preferred keywords.
  • the keyword calculation algorithm may be a term frequency-inverse document frequency index (Term Frequency-Inverse Document Frequency, TF-IDF) algorithm.
  • TF-IDF Term Frequency-Inverse Document Frequency
  • n keywords as the preferred keywords corresponding to the category, where n is greater than or equal to 1, and is an integer.
  • the category label information is updated according to the preferred keywords of each category. For example, for each category, select the top 20 terms in the TF-IDF ranking as the label description of the category of non-patent documents.
  • the keyword calculation algorithm can also be: input the non-patent document into the embedding layer to obtain multiple word vectors corresponding to the non-patent document, and select the word vectors corresponding to the category label information from the multiple word vectors corresponding to the non-patent document The distance of is smaller than the preset value of the target word vector, the word corresponding to the target word vector in the non-patent literature is used as the preferred keyword, and the preferred keyword is used to expand the category label description. The expanded category label description is to update the category label information .
  • the embedding layer is set to realize the conversion of non-patent document words to word vectors (word2vec).
  • step 420 the initial neural network is trained based on the document sample set and category label information to obtain a set neural network.
  • the training process may be: first input the document sample set and category label information into the initial neural network to obtain the initial category probability vector, then calculate the loss function according to the initial category probability vector and the true category probability vector, and finally according to the loss The function corrects the parameters in the initial neural network according to the adaptive estimation matrix algorithm, until the value of the loss function meets the set conditions, and completes the training of the initial neural network.
  • the loss function may be a binary cross entropy function (binary cross entropy).
  • the adaptive estimation matrix algorithm is Adam optimization algorithm.
  • the calculation formula of the loss function L is Among them, y n represents the true category probability vector, Represents the initial category probability vector, N represents the number of elements contained in the two vectors, K represents the number of category labels corresponding to the set classification system, Y n is a vector representing the k-th element, Representation vector The kth element of
  • the initial category probability vector of the document sample is obtained, and then the loss function of the initial category probability vector and the true category probability vector is calculated, and the initial neural network is calculated according to the loss function.
  • the parameters in the network are adjusted. With the input of a large number of samples and the continuous adjustment of the parameters, the value of the loss function finally meets the set conditions, thereby completing the training of the initial neural network, that is, the accuracy of the output result of the initial neural network reaches Set the threshold and get the set neural network.
  • the true category probability vector of non-patent documents is determined, the keyword calculation algorithm is used to extract the preferred keywords of each category of non-patent documents, and the categories are matched according to the preferred keywords
  • the label information is updated, so that the updated category label information will modify the weight matrix of the set neural network trained on the basis of patent documents during the training process.
  • step 430 the text information of the document to be classified and the category label information corresponding to the set classification system are obtained.
  • step 440 the text information and the category label information are input to the set neural network processing, and the classification of the document to be classified is determined according to the processing result of the set neural network.
  • the classification system is set to classify patent documents
  • the documents to be classified are non-patent documents
  • the non-patent documents can also be directly determined based on the citation relationship between the non-patent documents and the patent documents. classification.
  • non-patent documents and patent documents includes non-patent document citations.
  • Patent documents and non-patent documents are cited by patent documents. If there is any citation relationship between the two, the classification of patent documents is determined as the category of non-patent documents. . For example, when non-patent document a is cited by patent document b, or b is cited, the classification of b is directly assigned to a.
  • the technical solution of this embodiment obtains the document sample set and category label information, and trains the set neural network based on the document sample set and category label information. Train the set neural network to improve the accuracy of the set neural network for document classification.
  • FIG. 5 is a schematic structural diagram of a document classification device provided by an embodiment of the application. As shown in FIG. 5, the device includes: a text information and category label information acquisition module 510 and a document classification determination module 520.
  • the category label information acquisition module 510 is configured to acquire the text information of the document to be classified and the category label information corresponding to the set classification system; wherein, the category label information is information describing the document category in the set classification system;
  • the document classification determination module 520 is configured to input text information and category label information into the set neural network for processing, and determine the classification of the document to be classified according to the processing result of the set neural network.
  • the set neural network includes a deep sub-network, a wide sub-network, and a fully connected sub-network; the fully connected sub-network is respectively connected to the deep sub-network and the wide sub-network; the document classification determining module 520 is also set to:
  • the text relevance vector is a vector composed of the text relevance of text information and category label information
  • the deep sub-network includes an embedding layer and at least one non-linear layer; inputting text information into the deep sub-network and obtaining a text vector includes:
  • Input text information to the embedding layer and the embedding layer analyzes the text information and obtains multiple word vectors;
  • the multiple word vectors are input to at least one non-linear layer, and the at least one non-linear layer performs non-linear transformation on the multiple word vectors to obtain a text vector.
  • inputting text information and category label information into the width subnet to obtain a text correlation vector between the text information and category label information includes:
  • the width sub-network processes the text information and category label information according to the setting method to obtain the text relevance vector; the setting method includes: bm25 algorithm or vector space model.
  • the width sub-network processes the text information and category label information according to the vector space model to obtain the text relevance vector, including:
  • the width sub-network obtains the word vectors corresponding to the text information and the category label information respectively;
  • the width sub-network calculates the distance between the word vector corresponding to the text information and the word vector corresponding to the category label information to obtain the text relevance vector.
  • the fully connected sub-network includes a splicing layer and an activation layer; inputting the text vector and the text relevance vector into the fully connected sub-network to obtain the processing result includes:
  • the stitching layer stitches the text vector and the text relevance vector, and multiplies the stitched vector with the weight matrix to obtain the weight vector, and input the weight vector to the activation layer;
  • the activation layer uses the activation function to process the weight vector to obtain the category probability vector corresponding to the document to be classified; wherein, the probability in the category probability vector has a one-to-one correspondence with the category label.
  • it further includes:
  • the document sample collection acquisition module is set to acquire the document sample set and the category label information corresponding to the set classification system; the document sample set includes multiple documents and the true category probability vectors corresponding to multiple documents; the documents include patent documents or non-patents literature;
  • Set the neural network training module to train the initial neural network based on the document sample set and category label information, where the neural network is set as the initial neural network after training.
  • the document sample collection acquisition module is further set to:
  • the true category probability vector of the patent document is automatically marked as the true category probability vector of the non-patent document.
  • the document sample collection acquisition module is further configured to:
  • the keyword calculation algorithm may be:
  • the category label information is updated according to the preferred keywords of each category.
  • the keyword calculation algorithm may be:
  • Input non-patent documents into the embedding layer to obtain multiple word vectors corresponding to non-patent documents, and select the word vectors corresponding to the category label information from the multiple word vectors corresponding to non-patent documents.
  • the distance between the word vectors corresponding to the category label information is less than the preset value
  • the target word vector of the non-patent document, the word corresponding to the target word vector in the non-patent document is used as the preferred keyword, and the preferred keyword is used to expand the category label description, and the embedding layer is set to realize the non-patent document word-to-word vector Conversion.
  • the neural network training module is set, which is also set as:
  • the parameters in the set neural network are corrected according to the adaptive estimation matrix algorithm, until the value of the loss function meets the set conditions, the training of the initial set neural network is completed, and the set neural network is obtained.
  • the foregoing device can perform the methods provided in all the foregoing embodiments of this application.
  • technical details not described in detail in this embodiment please refer to the methods provided in all the foregoing embodiments of this application.
  • FIG. 6 is a schematic structural diagram of a computer device provided by an embodiment of this application.
  • FIG. 6 shows a block diagram of a computer device 712 suitable for implementing the embodiments of the present application.
  • the computer device 712 shown in FIG. 6 is only an example, and should not bring any limitation to the function and scope of use of the embodiments of the present application.
  • the device 712 is typically a computing device that undertakes a document classification function.
  • the computer device 712 is in the form of a general-purpose computing device.
  • the components of the computer device 712 may include but are not limited to: at least one processor 716, a memory 728, and a bus 718 connecting different system components (including the memory 728 and the processor 716).
  • the bus 718 represents at least one of several types of bus structures, including a memory bus or a memory controller, a peripheral bus, a graphics acceleration port, a processor, or a local bus using any bus structure among multiple bus structures.
  • these architectures include, but are not limited to, Industry Standard Architecture (ISA) bus, Micro Channel Architecture (MCA) bus, enhanced ISA bus, Video Electronics Standards Association (Video Electronics Standards) Association, VESA) local bus and Peripheral Component Interconnect (PCI) bus.
  • Computer device 712 typically includes a variety of computer system readable media. These media can be any available media that can be accessed by the computer device 712, including volatile and non-volatile media, removable and non-removable media.
  • the memory 728 may include a computer system readable medium in the form of a volatile memory, such as a random access memory (RAM) 730 and/or a cache memory 732.
  • the computer device 712 may include other removable/non-removable, volatile/nonvolatile computer system storage media.
  • the storage system 734 may include a hard disk drive (not shown in FIG. 6) for reading and writing non-removable, non-volatile magnetic media.
  • each drive can be connected to the bus 718 through at least one data medium interface.
  • the memory 728 may include at least one program product, and the program product has a set of (for example, at least one) program modules that are configured to perform the functions of the embodiments of the present application.
  • a program 736 having a set of (at least one) program module 726 may be stored in, for example, the memory 728.
  • Such program module 726 includes but is not limited to an operating system, at least one application program, other program modules, and program data. In these examples, Each one or some combination may include the realization of the network environment.
  • the program module 726 generally executes the functions and/or methods in the embodiments described in this application.
  • the computer device 712 can also communicate with at least one external device 714 (such as a keyboard, pointing device, camera, display 724, etc.), and can also communicate with at least one device that enables a user to interact with the computer device 712, and/or communicate with
  • the computer device 712 can communicate with any device (such as a network card, a modem, etc.) that communicates with at least one other computing device. Such communication may be performed through an input/output (Input/Output, I/O) interface 722.
  • the computer device 712 may also communicate with at least one network (for example, a local area network (LAN), a wide area network (WAN), and/or a public network, such as the Internet) through the network adapter 720.
  • LAN local area network
  • WAN wide area network
  • public network such as the Internet
  • the network adapter 720 communicates with other modules of the computer device 712 through the bus 718. It should be understood that although not shown in the figure, other hardware and/or software modules can be used in conjunction with the computer device 712, including but not limited to: microcode, device drivers, redundant processing units, external disk drive arrays, and disk arrays (Redundant Arrays). of Independent Disks, RAID) systems, tape drives, and data backup storage systems.
  • the processor 716 executes various functional applications and data processing by running a computer program stored in the memory 728, for example, implements the document classification method provided in the foregoing embodiment of the present application.
  • the sixth embodiment of the present application also provides a computer-readable storage medium on which a computer program is stored.
  • the computer program is executed by a processor, the document classification method as provided in the embodiment of the present application is implemented.
  • the computer-readable storage medium provided by the embodiment of the present application, the computer program stored on it is not limited to the method operations described above, and can also perform related operations in the document classification method provided by any embodiment of the present application .
  • the computer storage medium of the embodiment of the present application may adopt any combination of at least one computer-readable medium.
  • the computer-readable medium may be a computer-readable signal medium or a computer-readable storage medium.
  • the computer-readable storage medium may be, for example, but not limited to, an electric, magnetic, optical, electromagnetic, infrared, or semiconductor system, apparatus, or device, or any combination of the above.
  • computer-readable storage media include: electrical connection with at least one wire, portable computer disk, hard disk, random access memory (RAM), read only memory (ROM), erasable Programmable read-only memory (Erasable Programmable Read Only Memory or flash memory), optical fiber, portable compact disk read-only memory (CD-ROM), optical storage device, magnetic storage device, Or any suitable combination of the above.
  • the computer-readable storage medium can be any tangible medium that contains or stores a program, and the program can be used by or in combination with an instruction execution system, apparatus, or device.
  • the computer-readable signal medium may include a data signal propagated in baseband or as a part of a carrier wave, and computer-readable program code is carried therein. This propagated data signal can take many forms, including but not limited to electromagnetic signals, optical signals, or any suitable combination of the foregoing.
  • the computer-readable signal medium may also be any computer-readable medium other than the computer-readable storage medium.
  • the computer-readable medium may send, propagate, or transmit the program for use by or in combination with the instruction execution system, apparatus, or device .
  • the program code contained on the computer-readable medium can be transmitted by any suitable medium, including but not limited to wireless, wire, optical cable, radio frequency (RF), etc., or any suitable combination of the foregoing.
  • suitable medium including but not limited to wireless, wire, optical cable, radio frequency (RF), etc., or any suitable combination of the foregoing.
  • the computer program code used to perform the operations of this application can be written in at least one programming language or a combination thereof.
  • the programming language includes object-oriented programming languages—such as Java, Smalltalk, and C++, as well as conventional procedural Programming language-such as "C" language or similar programming language.
  • the program code can be executed entirely on the user's computer, partly on the user's computer, executed as an independent software package, partly on the user's computer and partly executed on a remote computer, or entirely executed on the remote computer or server.
  • the remote computer can be connected to the user’s computer through any kind of network, including a local area network (LAN) or a wide area network (WAN), or it can be connected to an external computer (for example, using an Internet service provider to pass Internet connection).
  • LAN local area network
  • WAN wide area network
  • Internet service provider for example, using an Internet service provider to pass Internet connection.
  • the word embedding layer (word embeddings) is a 300-dimensional randomly initialized vector, and the word embedding layer is a kind of embedding layer.
  • the kernel size of text CNN is 2, 3, 4, and 5, and the number of filters is 1024.
  • Evaluation indicators Since each patent has at least one CPC label, we use 3 indicators to measure the model from the perspective of classification and ranking: (1) instance-based precision/recall: all instances The average precision/average recall. We measure the precision and recall of the predictions of the CPC tags with the highest ranking of all instances, and the precision and recall of the predictions of the top 3 CPC tags in all instances, and also measure all probability scores. The precision of prediction >0.5. (2) Macro precision/recall: the macro precision/recall corresponding to each category in all instances. (3) Mean Average Precision (MAP): Obtained based on the ranking index of at least one CPC label of each instance, and used to measure whether the correct label is placed before the wrong label.
  • MAP Mean Average Precision

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文献分类方法、装置、设备及存储介质,该方法包括:获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息(S110);将文本信息和类别标签信息输入至设定神经网络进行处理,并根据设定神经网络的处理结果确定所述待分类文献的分类(S120)。

Description

文献分类方法、装置、设备及存储介质
本申请要求在2019年4月12日提交中国专利局、申请号为201910295898.2的中国专利申请的优先权,该申请的全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及文献分类技术领域,例如一种文献分类方法、装置、设备及存储介质。
背景技术
随着专利及非专利文本等数字文献数量的不断增加,对数字文献按照一定分类体系进行分类,显得越来越重要。其中,常用的分类体系包括联合专利分类体系(Cooperative Patent Classification,CPC)和国际专利分类体系(International Patent Classification,IPC)等。目前,对文献分类工作的大部分仍由专业人士手动完成,费时又费力。因此,急需要一种能够自动完成对文献分类的方法。
相关技术中,采用如下两种方式实现对文献的自动分类:一种是采用传统的机器学习模型,如支持向量机(Support Vector Machine,SVM))实现文献的分类。另一种是采用深度学习模型,如卷积神经网络(Convolutional Neural Network,CNN)、递归神经网络(Recurrent Neural Network,RNN)对文献分类。但是,这两种方法都只是基于文献的文本信息进行分类,准确度不高。
发明内容
本申请实施例提供一种文献分类方法、装置、设备及存储介质,以实现对文献的自动分类,可以提高文献分类的准确性。
第一方面,本申请实施例提供了一种文献分类方法,该方法包括:获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息;其中,所述类别标签信息为所述设定分类体系中描述文献类别的信息;将所述文本信息和所述类别标签信息输入至设定神经网络进行处理,并根据所述设定神经网络的处理结果确定所述待分类文献的分类。
第二方面,本申请实施例还提供了一种文献分类装置,该装置包括文本信息和类别标签信息获取模块及文献分类确定模块;文本信息和类别标签信息获 取模块,设置为获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息;其中,所述类别标签信息为设定分类体系中描述文献类别的信息;文献分类确定模块,设置为将所述文本信息和所述类别标签信息输入至设定神经网络进行处理,并根据所述设定神经网络的处理结果确定所述待分类文献的分类。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本申请第一方面所述的文献分类方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如本申请第一方面所述的文献分类方法。
附图说明
图1是本申请一实施例提供的一种文献分类方法的流程图;
图2是本申请一实施例提供的一种设定神经网络的结构示意图;
图3是本申请一实施例提供的另一种设定神经网络的结构示意图;
图4是本申请一实施例提供的另一种文献分类方法的流程图;
图5是本申请一实施例提供的一种文献分类装置的结构示意图;
图6是本申请一实施例提供的一种计算机设备的结构示意图。
具体实施方式
图1为本申请一实施例提供的一种文献分类方法的流程图,本实施例可适用于专利文献或者非专利文献进行分类的情况,该方法可以由文献分类装置来执行,该装置可由硬件和/或软件组成,并一般可集成在具有文献分类功能的设备中,该设备可以是服务器、终端或服务器集群等电子设备。如图1所示,该方法包括步骤步骤110至步骤120。
在步骤110中,获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息。
其中,类别标签信息为设定分类体系中描述文献类别的信息。设定分类体系可以是联合专利分类体系(Cooperative Patent Classification,CPC)、国际专利分类体系(International Patent Classification,IPC)、FI分类体系、FTERM分类 体系及中国分类号体系等。类别标签信息可以是对类别标签的定义信息或者对类别标签的描述信息。类别标签可以是按照文献所属技术领域确定的文献在设定分类体系中的分类。文献可以包括专利文献或非专利文献。文献的文本信息可以是文献设定字段内的文本,如“摘要”部分的文本、“权利要求”部分的文本等。
在一实施例中,获取待分类文献的文本信息以及类别标签信息的过程可以是,提取待分类文献中设定字段内的文本作为文本信息,然后确定对待分类文献按照哪种分类体系进行分类,并获取该种分类体系下包含的类别标签信息,类别标签信息为该种分类体系下包含的所有类别标签对应的类别标签信息。
在步骤120中,将文本信息和类别标签信息输入设定神经网络进行处理,并根据设定神经网络的处理结果确定待分类文献的分类。
其中,设定神经网络的处理结果以类别概率向量表征,可以反映待分类文献属于每个类别的概率。
图2是本实施例中一种设定神经网络的结构示意图,如图2所示,设定神经网络包括深度子网络、宽度子网络和全连接子网络;全连接子网络分别与深度子网络和宽度子网络连接。首先将文本信息输入深度子网络,将文本信息和类别标签信息同时输入宽度子网络,然后将深度子网络的输出结果和宽度子网络的输出结果同时输入全连接子网络,经过全连接子网络的处理,获得处理结果。
在一实施例中,将文本信息和类别标签信息输入设定神经网络进行处理,可通过如下方式实施:将文本信息输入至深度子网络,并获得文本向量;将文本信息和类别标签信息输入宽度子网络,获得文本信息和类别标签信息间的文本相关度向量;将文本向量和文本相关度向量输入全连接子网络,获得处理结果。
其中,文本相关度向量是由文本信息和类别标签信息的文本相关度组成的向量。在一实施例中,深度子网络对文本信息进行一系列的非线性变换获得文本向量,宽度子网络按照设定的相关度算法计算文本信息分别与每个类别标签信息的文本相关度,将多个文本相关度组合成文本相关度向量,全连接子网络对文本向量和文本相关度向量拼接后,对拼接后向量采用激活函数激活后,获得处理结果。本实施例中,首先获取文本信息和类别标签信息的文本相关度,然后将文本相关度和文本信息融合后,计算待分类文献的分类,同时考虑文本 信息和类别标签信息两个因素,从而提高对文献分类的准确性。
本实施例的技术方案,首先获取待分类文献的文本信息以及类别标签信息,然后对文本信息和类别标签信息进行设定神经网络处理,并根据设定神经网络的处理结果确定文献的分类。本申请实施例提供的文献分类方法,采用设定神经网络对文本信息和类别标签信息同时进行处理,获得文献的分类,相对于相关技术,仅基于文本信息对文献进行分类,不仅实现了对文献的自动分类,同时也提高了文献分类的准确性。
图3为本申请一实施例提供的另一种设定神经网络的结构示意图。以上述实施例为基础。如图3所示,深度子网络包括嵌入层和至少一个非线性层;全连接子网络包括拼接层和激活层。
本实施例中,深度子网络中的非线性层可以是卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、门循环单元网络(Gated Recurrent Unit,GRU)及基于区域的卷积神经网络(Region Convolutional Neural Networks,RCNN)等。在非线性层为卷积神经网络的情况下,非线性层包括卷积层和池化层。全连接子网络中的拼接层对深度子网络的输出结果和宽度子网络输出的文本相关度向量进行拼接。
在一实施例中,将文本信息输入深度子网络获得文本向量,可通过下述方式实施:将文本信息输入至嵌入层,嵌入层对文本信息进行分析,获得多个词向量;将多个词向量输入至至少一个非线性层,至少一个非线性层对多个词向量进行非线性变换,获得文本向量。
在一实施例中,嵌入层对文本信息中的标点符号、虚词过滤掉后,将剩余的实词转化为对应的词向量。非线性层对嵌入层输出的词向量进行非线性转换,获得文本信息对应的文本向量。
在一实施例中,将文本信息和类别标签信息输入宽度子网络,获得文本信息和类别标签信息间的文本相关度向量,可通过下述方式实施:将文本信息和类别标签信息输入宽度子网络,宽度子网络按照设定方式对文本信息和类别标签信息处理,获得文本相关度向量。
其中,设定方式包括:bm25算法或者向量空间模型。
在一实施例中,根据bm25算法计算文本相关度可以按照如下公式计算:
Figure PCTCN2020083952-appb-000001
其中,X i表示文本信息中第i个词,D k表示类别标签信息中第k个类别,tf(X i,D)表示X i和D k间的词频,idf(X i)表示X i的逆文本频率指数,avdgl表示类别标签信息的平均值,k 1和b表示超参数。
在一实施例中,宽度子网络按照向量空间模型对文本信息和类别标签信息处理,获得文本相关度向量的方式可以是:宽度子网络获取文本信息和类别标签信息分别对应的词向量;宽度子网络计算文本信息对应的词向量和类别标签信息对应的词向量之间的距离,并获得文本相关度向量。
其中,获取文本信息和类别标签信息分别对应的词向量的过程可以是,将文本信息和类别标签信息包含的实词转换为对应的词向量。
在一实施例中,获取文本信息和类别标签信息间的文本相关度的方式还可以是,计算文本信息和类别标签信息包含的词语的重合次数,根据重合次数确实文本相关度。本应用场景下,可采用任意计算文本相关度的算法进行计算,此处不做限定。
在一实施例中,将文本向量和文本相关度向量输入全连接子网络,获得处理结果,可通过下述方式实施:拼接层将文本向量和文本相关度向量拼接,并将拼接后的向量与权重矩阵相乘,获得权重向量,并将权重向量输入至激活层;激活层采用激活函数对权重向量处理,获得待分类文献对应的类别概率向量。
其中,类别概率向量中的概率与类别标签具有一一对应关系。其中激活函数可以是sigmoid函数。将文本向量和文本相关度向量拼接的方式可以是将两个向量组合在一起,例如:假设文本向量为m维,文本相关度为n维,则拼接后的向量为m+n维。
在一实施例中,将文本向量和文本相关度向量拼接后与权重矩阵相乘,获得权重向量,然后采用sigmoid函数对权重向量中的每个元素进行激活处理,获得类别概率向量。
本实施例的技术方案,嵌入层对文本信息进行分析,获得多个词向量,至少一个非线性层对多个词向量进行非线性变换,获得文本向量;宽度子网络按照设定方式对文本信息和类别标签信息处理,获得文本相关度向量;拼接层将文本向量和文本相关度向量拼接,并将拼接后的向量与权重矩阵相乘,获得权 重向量;激活层采用激活函数对权重向量处理,获得文献对应的类别概率向量。采用设定神经网络对文本信息和标签信息进行处理,获得待分类文献对应的类别概率向量,提高了对文献分类的准确性。
图4为本申请一实施例提供的另一种文献分类方法的流程图,以上述实施例为基础,该方法包括步骤410至步骤440。
在步骤410中,获取文献样本集及与设定分类体系对应的类别标签信息。
其中,文献样本集包括多个文献和多个文献分别对应的真实类别概率向量;文献包括专利文献或者非专利文献。类别标签信息可以是设定分类体系中描述文献类别的信息。例如,可以选择CPC作为本实施例中的设定分类体系,则获取CPC中包含的类别标签信息。
获取文献样本集的方式可以是,提取当前已经被准确分类的文献以及其对应的真实类别概率向量。
在一实施例中,若设定分类体系是对专利文献的分类标准,在文献为非专利文献的情况下,获取文献样本集方式可以是:根据非专利文献与专利文献的引用关系,将专利文献的分类信息自动标注为非专利文献的分类信息。
非专利文献和专利文献的引用关系包括非专利文献引用专利文献和非专利文献被专利文献引用,在二者存在任意一种引用关系的情况下,将专利文献的分类信息自动标注为非专利文献的分类信息,即将专利文献的真实类别概率向量确定为非专利文献的真实类别概率向量。例如,在非专利文献a被专利文献b引用,或者引用了b的情况下,将b的真实类别概率向量赋给a。
在一实施例中,若设定分类体系是对专利文献的分类标准,在文献为非专利文献的情况下,获取类别标签信息的方式可以是:按照关键词计算算法提取非专利文献对应每个类别的优选关键词;并根据优选关键词对设定分类体系对应的类别标签信息进行更新。
关键词计算算法可以是词频-逆文本频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)算法。计算出非专利文献对应于类别标签中每个类别的的至少一个关键词,按照词频-逆文本频率TF-IDF由高到低的顺序分别对每个类别的至少一个关键词进行排序,选择前n个关键词,作为对应于该类别的优选关键词,其中,n大于或等于1,且为整数。最后根据每个类别的优选关键词对类别标签信息进行更新。例如,为每个类别选择TF-IDF排序前20个 术语作为非专利文献的该类别的标签说明。
关键词计算算法还可以是:将非专利文献输入至嵌入层,得到多个对应非专利文献的词向量,从多个对应非专利文献的词向量中选择与类别标签信息对应的词向量之间的距离小于预设值的目标词向量,将非专利文献中与目标词向量对应的词,作为优选关键词,采用优选关键词扩展类别标签描述,扩展类别标签描述即为对类别标签信息进行更新。所述嵌入层设置为实现非专利文献词到词向量的转换(word2vec)。
在步骤420中,基于文献样本集及类别标签信息对初始神经网络进行训练,得到设定神经网络。
在一实施例中,训练的过程可以是,首先将文献样本集和类别标签信息输入初始神经网络,获得初始类别概率向量,然后根据初始类别概率向量和真实类别概率向量计算损失函数,最后根据损失函数按照适应性估计矩阵算法对初始神经网络中的参数进行修正,直到损失函数的值满足设定条件,完成对初始神经网络的训练。
其中,损失函数可以是二元交叉熵函数(binary cross entropy)。适应性估计矩阵算法为Adam优化算法。损失函数L的计算公式为
Figure PCTCN2020083952-appb-000002
其中,y n表示真实类别概率向量,
Figure PCTCN2020083952-appb-000003
表示初始类别概率向量,N表示两个向量包含的元素个数,K表示设定分类体系对应的类别标签的个数,
Figure PCTCN2020083952-appb-000004
表示向量y n的第k个元素,
Figure PCTCN2020083952-appb-000005
表示向量
Figure PCTCN2020083952-appb-000006
的第k个元素,
Figure PCTCN2020083952-appb-000007
本实施例中,每输入一个文献样本和类别标签信息,就会获得该文献样本的初始类别概率向量,然后计算该初始类别概率向量和真实类别概率向量的损失函数,并根据损失函数对初始神经网络中的参数进行调整,随着大量样本的输入以及对参数的不断调整,最终使得损失函数的值满足设定条件,从而完成初始神经网络的训练,即初始神经网络的输出结果的准确率达到设定阈值,得到设定神经网络。
同时,由于上述采用非专利文献与专利文献的引用关系,确定非专利文献的真实类别概率向量,采用关键词计算算法提取非专利文献对应每个类别的优选关键词,并根据优选关键词对类别标签信息进行更新,从而更新的类别标签 信息在训练过程中会使在专利文献基础上训练得到的设定神经网络的权重矩阵得到修正。
在步骤430中,获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息。
在步骤440中,将文本信息和类别标签信息输入至设定神经网络处理,并根据设定神经网络的处理结果确定待分类文献的分类。
在一实施例中,若设定分类体系是对专利文献的分类标准,在待分类文献为非专利文献的情况下,还可以根据非专利文献与专利文献的引用关系,直接确定非专利文献的分类。
非专利文献和专利文献的引用关系包括非专利文献引用专利文献和非专利文献被专利文献引用,在二者存在任意一种引用关系的情况下,将专利文献的分类确定为非专利文献的分类。例如,在非专利文献a被专利文献b引用,或者引用了b的情况下,将b的分类直接赋给a。
本实施例的技术方案,获取文献样本集及类别标签信息,基于文献样本集及类别标签信息对设定神经网络进行训练。对设定神经网络进行训练,提高设定神经网络对文献分类的准确性。
图5为本申请一实施例提供的一种文献分类装置的结构示意图。如图5所示,该装置包括:文本信息和类别标签信息获取模块510和文献分类确定模块520。
类别标签信息获取模块510,设置为获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息;其中,类别标签信息为设定分类体系中描述文献类别的信息;
文献分类确定模块520,设置为将文本信息和类别标签信息输入至设定神经网络进行处理,并根据设定神经网络的处理结果确定待分类文献的分类。
在一实施例中,设定神经网络包括深度子网络、宽度子网络和全连接子网络;全连接子网络分别与深度子网络和宽度子网络连接;文献分类确定模块520,还设置为:
将文本信息输入至深度子网络,获得文本向量;
将文本信息和类别标签信息输入至宽度子网络,并获得文本信息和类别标签信息间的文本相关度向量;文本相关度向量是由文本信息和类别标签信息的 文本相关度组成的向量;
将文本向量和文本相关度向量输入全连接子网络,获得处理结果。
在一实施例中,深度子网络包括嵌入层和至少一个非线性层;将文本信息输入至深度子网络,并获得文本向量,包括:
将文本信息输入至嵌入层,嵌入层对文本信息进行分析,并获得多个词向量;
将多个词向量输入至至少一个非线性层,至少一个非线性层对多个词向量进行非线性变换,获得文本向量。
在一实施例中,将文本信息和类别标签信息输入宽度子网络,获得文本信息和类别标签信息间的文本相关度向量,包括:
宽度子网络按照设定方式对文本信息和类别标签信息处理,获得文本相关度向量;设定方式包括:bm25算法或者向量空间模型。
在一实施例中,宽度子网络按照向量空间模型对文本信息和类别标签信息处理,获得文本相关度向量,包括:
宽度子网络获取文本信息和类别标签信息分别对应的词向量;
宽度子网络计算文本信息对应的词向量和类别标签信息对应的词向量之间的距离获得文本相关度向量。
在一实施例中,全连接子网络包括拼接层和激活层;将文本向量和文本相关度向量输入全连接子网络,获得处理结果,包括:
拼接层将文本向量和文本相关度向量拼接,并将拼接后的向量与权重矩阵相乘,获得权重向量,并将权重向量输入至激活层;
激活层采用激活函数对权重向量进行处理,获得待分类文献对应的类别概率向量;其中,类别概率向量中的概率与类别标签具有一一对应关系。
在一实施例中,还包括:
文献样本集获取模块,设置为获取文献样本集及与设定分类体系对应的类别标签信息;文献样本集包括多个文献和多个文献分别对应的真实类别概率向量;文献包括专利文献或者非专利文献;
设定神经网络训练模块,设置为基于文献样本集及类别标签信息对初始神经网络进行训练,其中,设定神经网络为训练后的初始神经网络。
在一实施例中,在文献为非专利文献的情况下,文献样本集获取模块,还设置为:
根据非专利文献与专利文献的引用关系,将所述专利文献的真实类别概率向量自动标注为所述非专利文献的真实类别概率向量。
在一实施例中,文献样本集获取模块,还设置为:
按照关键词计算算法提取非专利文献对应每个类别的优选关键词;
并根据优选关键词对类别标签信息进行更新。
在一实施例中,关键词计算算法可以是:
计算出非专利文献对应于类别标签中每个类别的至少一个关键词,按照词频-逆文本频率TF-IDF由高到低的顺序分别对每个类别的至少一个关键词进行排序,选择前n个关键词,作为对应于每个类别的优选关键词,其中,n大于或等于1,且为整数;
根据所述每个类别的优选关键词对类别标签信息进行更新。
在一实施例中,关键词计算算法可以是:
将非专利文献输入至所述嵌入层,得到多个对应非专利文献的词向量,从多个对应非专利文献的词向量中选择与类别标签信息对应的词向量之间的距离小于预设值的目标词向量,将非专利文献中与目标词向量对应的词,作为优选关键词,采用优选关键词扩展类别标签描述,所述嵌入层设置为实现所述所述非专利文献词到词向量的转换。
在一实施例中,设定神经网络训练模块,还设置为:
将文献样本集和类别标签信息输入初始设定神经网络,获得初始类别概率向量;
根据初始类别概率向量和真实类别概率向量计算损失函数;
根据损失函数按照适应性估计矩阵算法对设定神经网络中的参数进行修正,直到损失函数的值满足设定条件,完成对初始设定神经网络的训练,得到设定神经网络。
上述装置可执行本申请前述所有实施例所提供的方法。未在本实施例中详尽描述的技术细节,可参见本申请前述所有实施例所提供的方法。
图6为本申请一实施例提供的一种计算机设备的结构示意图。图6示出了适于用来实现本申请实施方式的计算机设备712的框图。图6显示的计算机设备712仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。设备712典型的是承担文献分类功能的计算设备。
如图6所示,计算机设备712以通用计算设备的形式表现。计算机设备712的组件可以包括但不限于:至少一个处理器716,存储器728,连接不同系统组件(包括存储器728和处理器716)的总线718。
总线718表示几类总线结构中的至少一种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry Standard Architecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备712典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备712访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器728可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)730和/或高速缓存存储器732。计算机设备712可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统734可以包括用于读写不可移动的、非易失性磁介质的硬盘驱动器(图6未显示)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过至少一个数据介质接口与总线718相连。存储器728可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块726的程序736,可以存储在例如存储器728中,这样的程序模块726包括但不限于操作系统、至少一个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块726通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备712也可以与至少一个外部设备714(例如键盘、指向设备、摄像头、显示器724等)通信,还可与至少一个使得用户能与该计算机设备712交互的设备通信,和/或与使得该计算机设备712能与至少一个其它计算设备进 行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口722进行。并且,计算机设备712还可以通过网络适配器720与至少一个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器720通过总线718与计算机设备712的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备712使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器716通过运行存储在存储器728中的计算机程序,从而执行各种功能应用以及数据处理,例如实现本申请上述实施例所提供的文献分类方法。
本申请实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请实施例所提供的文献分类方法。
当然,本申请实施例所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的文献分类方法中的相关操作。
本申请实施例的计算机存储介质,可以采用至少一个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有至少一个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(可擦除可编程只读寄存器(Erasable Programmable Read Only Memory,EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读 的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以至少一种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
采用上述文献分类方法进行实验,实验情况如下。
实验设置并获取数据集:
我们删除文本中的断词和标点符号,并选择每个文档的前120个单词。词嵌入层(word embeddings)是300维的经过随机初始化的向量,词嵌入层为嵌入层的一种。文本卷积神经网络(text CNN)的内核大小分别为2、3、4和5,过滤器的数量为1024。对于每个CPC子类,使用其自身以及其所有子标签的描述。采用Adam优化器训练模型。
数据集:我们在美国专利商标局(USPTO)的专利集中,随机抽取670万个摘要作为专利训练集,抽取6万个摘要作为测试集,如表1所示。
表1
Figure PCTCN2020083952-appb-000008
评估指标:由于每个专利都有至少一个CPC标签,我们用3个指标从分类 和排序的角度衡量该模型:(1)基于实例的查准率/查全率(precision/recall):所有实例的平均查准率/平均查全率。我们分别测量所有实例的排序第一的CPC标签的预测的查准率和查全率,及所有实例中排序前3的CPC标签的预测的查准率和查全率,此外还测量所有概率评分>0.5的预测的查准率。(2)宏查准率/宏查全率(macro precision/recall):对应于所有实例中每个类别的宏查准率/宏查全率。(3)平均查准率均值(Mean Average Precision,MAP):基于每个实例的至少一个CPC标签的排序指标得到,用于衡量正确的标签是否放在错误的标签之前。
为专利进行CPC分类:
将宽深(Wide and Deep,WnD)神经网络分类器与两个模型:传统文本卷积神经网路(textCNN)和注意力文本神经网络(attention-textCNN)进行比较。测试结果如表2所示,WnD神经网络从标签信息中获得了极大的提升。
表2
Figure PCTCN2020083952-appb-000009

Claims (26)

  1. 一种文献分类方法,包括:
    获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息;其中,所述类别标签信息为所述设定分类体系中描述文献类别的信息;
    将所述文本信息和所述类别标签信息输入至设定神经网络进行处理,并根据所述设定神经网络的处理结果确定所述待分类文献的分类。
  2. 根据权利要求1所述的方法,其中,所述设定神经网络包括深度子网络、宽度子网络和全连接子网络;所述全连接子网络分别与所述深度子网络和所述宽度子网络连接;将所述文本信息和所述类别标签信息输入至设定神经网络进行处理,包括:
    将所述文本信息输入至所述深度子网络,并获得文本向量;
    将所述文本信息和所述类别标签信息输入至所述宽度子网络,并获得所述文本信息和所述类别标签信息间的文本相关度向量;所述文本相关度向量是由所述文本信息和所述类别标签信息的文本相关度组成的向量;
    将所述文本向量和所述文本相关度向量输入至所述全连接子网络,并获得处理结果。
  3. 根据权利要求2所述的方法,其中,所述深度子网络包括嵌入层和至少一个非线性层;将所述文本信息输入至所述深度子网络,并获得文本向量,包括:
    将所述文本信息输入至所述嵌入层,所述嵌入层对所述文本信息进行分析,并获得多个词向量;
    将所述多个词向量输入至所述至少一个非线性层,所述至少一个非线性层对所述多个词向量进行非线性变换,并获得所述文本向量。
  4. 根据权利要求2所述的方法,其中,将所述文本信息和所述设定类别标签信息输入至所述宽度子网络,并获得所述文本信息和所述类别标签信息间的文本相关度向量,包括:
    将所述文本信息和所述标签信息输入至所述宽度子网络,所述宽度子网络按照设定方式对所述文本信息和所述类别标签信息进行处理,获得文本相关度向量;所述设定方式包括:bm25算法或者向量空间模型。
  5. 根据权利要求4所述的方法,其中,所述宽度子网络按照所述向量空间模型对所述文本信息和所述类别标签信息进行处理,获得文本相关度向量,包括:
    所述宽度子网络获取所述文本信息和所述类别标签信息分别对应的词向量;
    所述宽度子网络计算所述文本信息对应的词向量和所述类别标签信息对应的词向量之间的距离,并获得所述文本相关度向量。
  6. 根据权利要求2所述的方法,其中,所述全连接子网络包括拼接层和激活层;将所述文本向量和所述文本相关度向量输入至所述全连接子网络,并获得处理结果,包括:
    将所述文本向量和所述文本相关度向量输入至所述拼接层,所述拼接层将所述文本向量和文本相关度向量进行拼接,将拼接后的向量与权重矩阵相乘,获得权重向量,并将所述权重向量输入至所述激活层;
    所述激活层采用激活函数对所述权重向量进行处理,并获得所述待分类文献对应的类别概率向量;其中,所述类别概率向量中的概率与类别标签一一对应。
  7. 根据权利要求1-6任一项所述的方法,在获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息之前,还包括:
    获取文献样本集及与所述设定分类体系对应的类别标签信息;所述文献样本集包括多个文献和所述多个文献分别对应的真实类别概率向量;所述文献包括专利文献或者非专利文献;
    基于所述文献样本集及所述类别标签信息对初始神经网络进行训练;
    其中,所述设定神经网络为训练后的所述初始神经网络。
  8. 根据权利要求7所述的方法,其中,在所述文献为非专利文献的情况下,获取文献样本集,包括:
    根据所述非专利文献与专利文献的引用关系,将所述专利文献的真实类别概率向量作为所述非专利文献的真实类别概率向量。
  9. 根据权利要求8所述的方法,其中,获取与所述设定分类体系对应的类别标签信息,包括:
    按照关键词计算算法提取所述非专利文献对应多个类别的优选关键词;
    根据所述优选关键词对所述设定分类体系对应的类别标签信息进行更新。
  10. 根据权利要求9所述的方法,其中,
    关键词计算算法可以是:
    计算出所述非专利文献对应于类别标签中每个类别的至少一个关键词,按照词频-逆文本频率TF-IDF由高到低的顺序分别对所述每个类别的至少一个关 键词进行排序,选择前n个关键词,作为对应于所述每个类别的优选关键词,其中,n大于或等于1,且为整数;
    根据所述优选关键词对所述类别标签信息进行更新。
  11. 根据权利要求9所述的方法,其中,
    关键词计算算法可以是:
    将所述非专利文献输入至所述嵌入层,得到多个对应所述非专利文献的词向量,从所述多个对应所述非专利文献的词向量中选择与所述类别标签信息对应的词向量之间的距离小于预设值的目标词向量,将所述非专利文献中与所述目标词向量对应的词,作为优选关键词,采用所述优选关键词扩展标签描述,所述嵌入层设置为实现所述非专利文献的词到词向量的转换。
  12. 根据权利要求7所述的方法,其中,基于所述文献样本集及类别标签信息对初始神经网络进行训练,包括:
    将所述文献样本集和所述类别标签信息输入所述初始神经网络,获得初始类别概率向量;
    根据所述初始类别概率向量和所述真实类别概率向量计算损失函数;
    根据所述损失函数按照适应性估计矩阵算法对所述初始神经网络中的参数进行修正,直到损失函数的值满足设定条件,完成对所述初始神经网络的训练。
  13. 一种文献分类装置,包括文本信息和类别标签信息获取模块和文献分类确定模块;
    文本信息和类别标签信息获取模块,设置为获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息;其中,所述类别标签信息为设定分类体系中描述文献类别的信息;
    文献分类确定模块,设置为将所述文本信息和所述类别标签信息输入设定神经网络进行处理,并根据所述设定神经网络的处理结果确定所述待分类文献的分类。
  14. 根据权利要求13所述的装置,其中,所述设定神经网络包括深度子网络、宽度子网络和全连接子网络;所述全连接子网络分别与所述深度子网络和所述宽度子网络连接;
    文献分类确定模块,还设置为:
    将所述文本信息输入至所述深度子网络,并获得文本向量;
    将所述文本信息和所述类别标签信息输入至所述宽度子网络,并获得所述 文本信息和所述类别标签信息间的文本相关度向量;所述文本相关度向量是由所述文本信息和所述类别标签信息的文本相关度组成的向量;
    将所述文本向量和所述文本相关度向量输入至所述全连接子网络,并获得处理结果。
  15. 根据权利要求14所述的装置,其中,所述设定深度子网络包括嵌入层和至少一个非线性层;将所述文本信息输入至所述深度子网络,并获得文本向量,包括:
    将所述文本信息输入至所述嵌入层,所述嵌入层对所述文本信息进行分析,并获得多个词向量;
    将所述多个词向量输入至所述至少一个非线性层,所述至少一个非线性层对所述多个词向量进行非线性变换,并获得所述文本向量。
  16. 根据权利要求14所述的装置,其中,将所述文本信息和所述类别标签信息输入至所述宽度子网络,并获得所述文本信息和所述类别标签信息间的文本相关度向量,包括:
    将所述文本信息和所述标签信息输入至所述宽度子网络,所述宽度子网络按照设定方式对所述文本信息和所述类别标签信息处理,获得所述文本相关度向量;所述设定方式包括:bm25算法或者向量空间模型。
  17. 根据权利要求16所述的装置,其中,所述宽度子网络按照所述向量空间模型对所述文本信息和所述类别标签信息处理,获得文本相关度向量,包括:
    所述宽度子网络获取所述文本信息和所述类别标签信息分别对应的词向量;
    所述宽度子网络计算所述文本信息对应的词向量和所述类别标签信息对应的词向量之间的距离获得所述文本相关度向量。
  18. 根据权利要求14所述的装置,其中,所述全连接子网络包括拼接层和激活层;将所述文本向量和所述文本相关度向量输入至所述全连接子网络,并获得处理结果,包括:
    将所述文本向量和所述文本相关度向量输入至所述拼接层,所述拼接层将所述文本向量和所述文本相关度向量进行拼接,将拼接后的向量与权重矩阵相乘,获得权重向量,并将所述权重向量输入至所述激活层;
    所述激活层采用激活函数对所述权重向量进行处理,并获得所述待分类文献对应的类别概率向量;其中,所述类别概率向量中的概率与类别标签一一对应。
  19. 根据权利要求13-18任一项所述的装置,还包括文献样本集获取模块和设定神经网络训练模块;
    所述文献样本集获取模块,设置为获取文献样本集及与所述设定分类体系对应的类别标签信息;所述文献样本集包括多个文献和所述多个文献分别对应的真实类别概率向量;所述多个文献包括专利文献或者非专利文献;
    所述设定神经网络训练模块,设置为基于所述文献样本集及所述类别标签信息对初始设定神经网络进行训练;
    其中,所述设定神经网络为训练后的所述初始神经网络。
  20. 根据权利要求19所述的装置,其中,在文献为非专利文献的情况下,文献样本集获取模块,还设置为:
    根据所述非专利文献与专利文献的引用关系,将所述专利文献的真实类别概率向量作为所述非专利文献的真实类别概率向量。
  21. 根据权利要求20所述的装置,其中,文献样本集获取模块,还设置为:
    按照关键词计算算法提取所述非专利文献对应多个类别的优选关键词;
    根据所述优选关键词对所述类别标签信息进行更新。
  22. 根据权利要求21所述的装置,其中,
    关键词计算算法可以是:
    计算出所述非专利文献对应于类别标签中每个类别的至少一个关键词,按照词频-逆文本频率TF-IDF由高到低的顺序分别对所述每个类别的至少一个关键词进行排序,选择前n个关键词,作为对应于所述每个类别的优选关键词,其中,n大于或等于1,且为整数;
    根据所述优选关键词对所述类别标签信息进行更新。
  23. 根据权利要求21所述的装置,其中,关键词计算算法可以是:
    将所述非专利文献输入至所述嵌入层,得到多个对应所述非专利文献的词向量,从所述多个对应所述非专利文献的词向量中选择与所述类别标签信息对应的词向量之间的距离小于预设值的目标词向量,将所述非专利文献中与所述目标词向量对应的词,作为优选关键词,采用所述优选关键词扩展标签描述,所述嵌入层设置为实现所述非专利文献词到词向量的转换。
  24. 根据权利要求19所述的装置,其中,所述设定神经网络训练模块,还设置为:
    将所述文献样本集和所述类别标签信息输入所述初始神经网络,获得初始 类别概率向量;
    根据所述初始类别概率向量和所述真实类别概率向量计算损失函数;
    根据所述损失函数按照适应性估计矩阵算法对所述初始神经网络中的参数进行修正,直到所述损失函数的值满足设定条件,完成对所述初始神经网络的训练。
  25. 一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-12中任一项所述的文献分类方法。
  26. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-12中任一项所述的文献分类方法。
PCT/CN2020/083952 2019-04-12 2020-04-09 文献分类方法、装置、设备及存储介质 WO2020207431A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910295898.2 2019-04-12
CN201910295898.2A CN110008342A (zh) 2019-04-12 2019-04-12 文献分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
WO2020207431A1 true WO2020207431A1 (zh) 2020-10-15

Family

ID=67171607

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/083952 WO2020207431A1 (zh) 2019-04-12 2020-04-09 文献分类方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110008342A (zh)
WO (1) WO2020207431A1 (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307209A (zh) * 2020-11-05 2021-02-02 江西高创保安服务技术有限公司 一种基于字符向量的短文本分类方法及系统
CN112307210A (zh) * 2020-11-06 2021-02-02 中冶赛迪工程技术股份有限公司 一种文档标签预测方法、系统、介质及电子器件
CN112364810A (zh) * 2020-11-25 2021-02-12 深圳市欢太科技有限公司 视频分类方法及装置、计算机可读存储介质与电子设备
CN112434965A (zh) * 2020-12-04 2021-03-02 广东电力信息科技有限公司 一种基于词频的专家标签产生方法、装置、终端
CN112506556A (zh) * 2020-11-19 2021-03-16 杭州云深科技有限公司 应用程序分类方法、装置、计算机设备及存储介质
CN112528019A (zh) * 2020-12-01 2021-03-19 清华大学 文本中实体关系处理方法、装置、电子设备及存储介质
CN112528658A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 层次化分类方法、装置、电子设备和存储介质
CN112580733A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 分类模型的训练方法、装置、设备以及存储介质
CN112580628A (zh) * 2020-12-22 2021-03-30 浙江智慧视频安防创新中心有限公司 基于注意力机制的车牌字符识别方法及系统
CN112908473A (zh) * 2021-03-24 2021-06-04 平安科技(深圳)有限公司 基于模型的数据处理方法、装置、计算机设备和存储介质
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113190679A (zh) * 2021-05-10 2021-07-30 北京百度网讯科技有限公司 关系确定方法、装置、电子设备和存储介质
CN113569091A (zh) * 2021-02-08 2021-10-29 腾讯科技(深圳)有限公司 视频数据的处理方法、装置
CN113722493A (zh) * 2021-09-09 2021-11-30 北京百度网讯科技有限公司 文本分类的数据处理方法、设备、存储介质及程序产品
US20220108085A1 (en) * 2020-10-01 2022-04-07 Shrey Pathak Automated Patent Language Generation
CN114492669A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN114579749A (zh) * 2022-03-11 2022-06-03 北京中知智慧科技有限公司 专利数据的cpc分类方法及装置
CN114781485A (zh) * 2022-03-22 2022-07-22 中国平安人寿保险股份有限公司 文本分类方法、装置、计算机设备和计算机可读存储介质
CN115250365A (zh) * 2021-04-28 2022-10-28 京东科技控股股份有限公司 商品文本的生成方法、装置、计算机设备及存储介质
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备
CN115905533A (zh) * 2022-11-24 2023-04-04 重庆邮电大学 一种多标签文本智能分类方法
CN116167344A (zh) * 2023-02-17 2023-05-26 广州市奇之信息技术有限公司 一种深度学习创造性科学技术文本自动生成方法
CN117453852A (zh) * 2023-12-25 2024-01-26 浙江星汉信息技术股份有限公司 基于云端存储的档案更新管理方法
CN117591674A (zh) * 2024-01-18 2024-02-23 交通运输部公路科学研究所 基于文本分类模型对桥梁检评文本的自动分类方法
CN117891959A (zh) * 2024-03-15 2024-04-16 中国标准化研究院 一种基于贝叶斯网络的文献元数据储存方法及系统

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN110457387B (zh) * 2019-08-19 2023-11-10 腾讯科技(深圳)有限公司 一种应用于网络中用户标签确定的方法及相关装置
CN110795558B (zh) * 2019-09-03 2023-09-29 腾讯科技(深圳)有限公司 标签获取方法和装置、存储介质及电子装置
CN112685374B (zh) * 2019-10-17 2023-04-11 中国移动通信集团浙江有限公司 日志分类方法、装置及电子设备
CN111145732B (zh) * 2019-12-27 2022-05-10 思必驰科技股份有限公司 多任务语音识别后的处理方法及系统
CN111382271B (zh) * 2020-03-09 2023-05-23 支付宝(杭州)信息技术有限公司 文本分类模型的训练方法及装置、文本分类方法及装置
CN111309919B (zh) * 2020-03-23 2024-04-16 智者四海(北京)技术有限公司 文本分类模型的系统及其训练方法
CN111930943B (zh) * 2020-08-12 2022-09-02 中国科学技术大学 一种剧透弹幕检测方法及装置
CN112989790B (zh) * 2021-03-17 2023-02-28 中国科学院深圳先进技术研究院 基于深度学习的文献表征方法及装置、设备、存储介质
CN112989051B (zh) * 2021-04-13 2021-09-10 北京世纪好未来教育科技有限公司 文本分类的方法、装置、设备和计算机可读存储介质
CN113268597B (zh) * 2021-05-25 2023-06-27 平安科技(深圳)有限公司 文本分类方法、装置、设备及存储介质
CN113806545B (zh) * 2021-09-24 2022-06-17 重庆理工大学 基于标签描述生成的评论文本情感分类方法
CN113849655B (zh) * 2021-12-02 2022-02-18 江西师范大学 一种专利文本多标签分类方法
CN114511027B (zh) * 2022-01-29 2022-11-11 重庆工业职业技术学院 通过大数据网络进行英语远程数据提取方法
CN116226388B (zh) * 2023-05-08 2023-07-21 浪潮电子信息产业股份有限公司 一种文献分类方法、一种图神经网络训练方法及相关组件

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050187892A1 (en) * 2004-02-09 2005-08-25 Xerox Corporation Method for multi-class, multi-label categorization using probabilistic hierarchical modeling
CN105808524A (zh) * 2016-03-11 2016-07-27 江苏畅远信息科技有限公司 一种基于专利文献摘要的专利自动分类方法
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类系统及计算机装置
CN109299272A (zh) * 2018-10-31 2019-02-01 北京国信云服科技有限公司 一种用于神经网络输入的大信息量文本表示方法
CN109492101A (zh) * 2018-11-01 2019-03-19 山东大学 基于标签信息与文本特征的文本分类方法、系统及介质
CN109597889A (zh) * 2018-11-19 2019-04-09 刘品新 一种基于文本分类和深度神经网络的定罪方法和系统
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10796220B2 (en) * 2016-05-24 2020-10-06 Marvell Asia Pte, Ltd. Systems and methods for vectorized FFT for multi-dimensional convolution operations
CN108664512B (zh) * 2017-03-31 2021-02-09 华为技术有限公司 文本对象分类方法及装置
CN108573047A (zh) * 2018-04-18 2018-09-25 广东工业大学 一种中文文本分类模型的训练方法及装置
CN109471945B (zh) * 2018-11-12 2021-11-23 中山大学 基于深度学习的医疗文本分类方法、装置及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050187892A1 (en) * 2004-02-09 2005-08-25 Xerox Corporation Method for multi-class, multi-label categorization using probabilistic hierarchical modeling
CN105808524A (zh) * 2016-03-11 2016-07-27 江苏畅远信息科技有限公司 一种基于专利文献摘要的专利自动分类方法
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类系统及计算机装置
CN109299272A (zh) * 2018-10-31 2019-02-01 北京国信云服科技有限公司 一种用于神经网络输入的大信息量文本表示方法
CN109492101A (zh) * 2018-11-01 2019-03-19 山东大学 基于标签信息与文本特征的文本分类方法、系统及介质
CN109597889A (zh) * 2018-11-19 2019-04-09 刘品新 一种基于文本分类和深度神经网络的定罪方法和系统
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972225B2 (en) * 2020-10-01 2024-04-30 Shrey Pathak Automated patent language generation
US20220108085A1 (en) * 2020-10-01 2022-04-07 Shrey Pathak Automated Patent Language Generation
CN112307209A (zh) * 2020-11-05 2021-02-02 江西高创保安服务技术有限公司 一种基于字符向量的短文本分类方法及系统
CN112307209B (zh) * 2020-11-05 2024-04-26 江西高创保安服务技术有限公司 一种基于字符向量的短文本分类方法及系统
CN112307210A (zh) * 2020-11-06 2021-02-02 中冶赛迪工程技术股份有限公司 一种文档标签预测方法、系统、介质及电子器件
CN112506556A (zh) * 2020-11-19 2021-03-16 杭州云深科技有限公司 应用程序分类方法、装置、计算机设备及存储介质
CN112506556B (zh) * 2020-11-19 2023-08-25 杭州云深科技有限公司 应用程序分类方法、装置、计算机设备及存储介质
CN112364810A (zh) * 2020-11-25 2021-02-12 深圳市欢太科技有限公司 视频分类方法及装置、计算机可读存储介质与电子设备
CN112528019A (zh) * 2020-12-01 2021-03-19 清华大学 文本中实体关系处理方法、装置、电子设备及存储介质
CN112434965A (zh) * 2020-12-04 2021-03-02 广东电力信息科技有限公司 一种基于词频的专家标签产生方法、装置、终端
CN112580628A (zh) * 2020-12-22 2021-03-30 浙江智慧视频安防创新中心有限公司 基于注意力机制的车牌字符识别方法及系统
CN112580628B (zh) * 2020-12-22 2023-08-01 浙江智慧视频安防创新中心有限公司 基于注意力机制的车牌字符识别方法及系统
CN112528658B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 层次化分类方法、装置、电子设备和存储介质
CN112528658A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 层次化分类方法、装置、电子设备和存储介质
CN112580733B (zh) * 2020-12-25 2024-03-05 北京百度网讯科技有限公司 分类模型的训练方法、装置、设备以及存储介质
CN112580733A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 分类模型的训练方法、装置、设备以及存储介质
CN113569091A (zh) * 2021-02-08 2021-10-29 腾讯科技(深圳)有限公司 视频数据的处理方法、装置
CN112908473A (zh) * 2021-03-24 2021-06-04 平安科技(深圳)有限公司 基于模型的数据处理方法、装置、计算机设备和存储介质
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN115250365A (zh) * 2021-04-28 2022-10-28 京东科技控股股份有限公司 商品文本的生成方法、装置、计算机设备及存储介质
CN113190679A (zh) * 2021-05-10 2021-07-30 北京百度网讯科技有限公司 关系确定方法、装置、电子设备和存储介质
CN113190679B (zh) * 2021-05-10 2023-09-29 北京百度网讯科技有限公司 关系确定方法、装置、电子设备和存储介质
CN113722493A (zh) * 2021-09-09 2021-11-30 北京百度网讯科技有限公司 文本分类的数据处理方法、设备、存储介质及程序产品
CN113722493B (zh) * 2021-09-09 2023-10-13 北京百度网讯科技有限公司 文本分类的数据处理方法、设备、存储介质
CN114492669A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN114579749A (zh) * 2022-03-11 2022-06-03 北京中知智慧科技有限公司 专利数据的cpc分类方法及装置
CN114781485A (zh) * 2022-03-22 2022-07-22 中国平安人寿保险股份有限公司 文本分类方法、装置、计算机设备和计算机可读存储介质
CN115905533B (zh) * 2022-11-24 2023-09-19 湖南光线空间信息科技有限公司 一种多标签文本智能分类方法
CN115905533A (zh) * 2022-11-24 2023-04-04 重庆邮电大学 一种多标签文本智能分类方法
CN116167344B (zh) * 2023-02-17 2023-10-27 广州市奇之信息技术有限公司 一种深度学习创造性科学技术文本自动生成方法
CN116167344A (zh) * 2023-02-17 2023-05-26 广州市奇之信息技术有限公司 一种深度学习创造性科学技术文本自动生成方法
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备
CN117453852A (zh) * 2023-12-25 2024-01-26 浙江星汉信息技术股份有限公司 基于云端存储的档案更新管理方法
CN117453852B (zh) * 2023-12-25 2024-04-16 浙江星汉信息技术股份有限公司 基于云端存储的档案更新管理方法
CN117591674A (zh) * 2024-01-18 2024-02-23 交通运输部公路科学研究所 基于文本分类模型对桥梁检评文本的自动分类方法
CN117591674B (zh) * 2024-01-18 2024-04-26 交通运输部公路科学研究所 基于文本分类模型对桥梁检评文本的自动分类方法
CN117891959A (zh) * 2024-03-15 2024-04-16 中国标准化研究院 一种基于贝叶斯网络的文献元数据储存方法及系统
CN117891959B (zh) * 2024-03-15 2024-05-10 中国标准化研究院 一种基于贝叶斯网络的文献元数据储存方法及系统

Also Published As

Publication number Publication date
CN110008342A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
WO2020207431A1 (zh) 文献分类方法、装置、设备及存储介质
CN109388807B (zh) 电子病历命名实体识别的方法、装置及存储介质
CN109471945B (zh) 基于深度学习的医疗文本分类方法、装置及存储介质
JP5171962B2 (ja) 異種データセットからの知識移転を伴うテキスト分類
CN108733778B (zh) 对象的行业类型识别方法和装置
US11640551B2 (en) Method and apparatus for recommending sample data
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
WO2020244065A1 (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
US11526663B2 (en) Methods, apparatuses, devices, and computer-readable storage media for determining category of entity
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN111382248A (zh) 一种问题回复方法、装置、存储介质及终端设备
US20220043982A1 (en) Toxic vector mapping across languages
WO2021001517A1 (en) Question answering systems
CN107844531B (zh) 答案输出方法、装置和计算机设备
WO2021184547A1 (zh) 对话机器人意图语料生成方法、装置、介质及电子设备
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN110377618B (zh) 裁决结果分析方法、装置、计算机设备和存储介质
EP4060526A1 (en) Text processing method and device
WO2021174814A1 (zh) 众包任务的答案验证方法、装置、计算机设备及存储介质
CN113239883A (zh) 分类模型的训练方法、装置、电子设备以及存储介质
CN111950265A (zh) 一种领域词库构建方法和装置
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
US20230096070A1 (en) Natural-language processing across multiple languages
CN110019809B (zh) 一种分类确定方法、装置及网络设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20787107

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20787107

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 20787107

Country of ref document: EP

Kind code of ref document: A1