WO2021000411A1 - 基于神经网络的文档分类方法、装置、设备及存储介质 - Google Patents

基于神经网络的文档分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2021000411A1
WO2021000411A1 PCT/CN2019/103450 CN2019103450W WO2021000411A1 WO 2021000411 A1 WO2021000411 A1 WO 2021000411A1 CN 2019103450 W CN2019103450 W CN 2019103450W WO 2021000411 A1 WO2021000411 A1 WO 2021000411A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
convolutional neural
image
model
page image
Prior art date
Application number
PCT/CN2019/103450
Other languages
English (en)
French (fr)
Inventor
王健宗
回艳菲
韩茂琨
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021000411A1 publication Critical patent/WO2021000411A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • This application relates to the technical field of artificial intelligence image processing, in particular to a neural network-based document classification method, device, equipment and storage medium.
  • the technical problem to be solved by the embodiments of the present application is to provide a neural network-based document classification method, device, equipment, and storage medium to automatically classify a large number of document images and improve the efficiency and accuracy of classification.
  • the embodiments of the present application provide a neural network-based document classification method, which adopts the following technical solutions:
  • a document classification method based on neural network including:
  • first convolutional neural network and second convolutional neural network extract the text features of the first page image and the second page image through the first convolutional neural network, and generate the first text respectively Features and second text features, extracting image features of the first page image and the second page image through the second convolutional neural network, and respectively generating the first image feature and the second image feature;
  • an embodiment of the present application also provides a neural network-based document classification device, which adopts the following technical solutions:
  • a document classification device based on neural network includes:
  • a receiving module for receiving the first page image and the second page image from the document
  • the feature extraction module is used to call a preset first convolutional neural network and a second convolutional neural network, and extract the text features of the first page image and the second page image through the first convolutional neural network , Generating a first text feature and a second text feature respectively, extracting the image features of the first page image and the second page image through the second convolutional neural network, and generating the first image feature and the second image respectively feature;
  • the feature combination module is used to combine the first text feature, the second text feature, the first image feature, and the second image feature to generate a document hybrid feature;
  • Predicted value acquisition module used to call a preset multi-layer perceptron, and input the document blending characteristics into the multi-layer perceptron to obtain the predicted value output by the multi-layer perceptron, and compare it to the first page Predict whether the image and the second page image are the same document;
  • Classification judgment module used to judge whether the predicted value belongs to the first classification result or the second classification result; when the predicted value belongs to the first classification result, divide the first page image and the second page image into The same document; when the predicted value belongs to the second classification result, the first page image and the second page image are divided into different documents.
  • the embodiments of the present application also provide a computer device, which adopts the following technical solutions:
  • a computer device including a memory, a processor, and computer-readable instructions stored in the memory and capable of running on the processor, and the processor implements the above-mentioned neural network-based The steps of the document classification method.
  • the embodiments of the present application also provide one or more non-volatile readable storage media storing computer readable instructions, and the following technical solutions are adopted:
  • One or more non-volatile readable storage media storing computer readable instructions that, when executed by a processor, implement the steps of the aforementioned neural network-based document classification method.
  • FIG. 1 is an exemplary system architecture diagram to which an embodiment of the application can be applied;
  • FIG. 2 is a flowchart of an embodiment of the neural network-based document classification method in an embodiment of the application
  • FIG. 3 is a schematic structural diagram of an embodiment of the neural network-based document classification device in an embodiment of the application
  • Fig. 4 is a schematic structural diagram of an embodiment of a computer device in an embodiment of the application.
  • the system architecture 100 may include terminal devices 101, 102, 103, a network 104, and a server 105.
  • the network 104 is used to provide a medium for communication links between the terminal devices 101, 102, 103 and the server 105.
  • the network 104 may include various connection types, such as wired, wireless communication links, or fiber optic cables.
  • the user can use the terminal devices 101, 102, 103 to interact with the server 105 through the network 104 to receive or send messages and so on.
  • Various communication client applications such as web browser applications, shopping applications, search applications, instant messaging tools, email clients, and social platform software, can be installed on the terminal devices 101, 102, and 103.
  • the terminal devices 101, 102, and 103 may be various electronic devices with display screens and supporting web browsing, including but not limited to smart phones, tablet computers, e-book readers, MP3 players (Moving Picture Experts Group Audio Layer III, dynamic Video experts compress standard audio layer 3), MP4 (Moving Picture Experts Group Audio Layer IV, dynamic image experts compress standard audio layer 4) players, laptop portable computers and desktop computers, etc.
  • MP3 players Moving Picture Experts Group Audio Layer III, dynamic Video experts compress standard audio layer 3
  • MP4 Moving Picture Experts Group Audio Layer IV, dynamic image experts compress standard audio layer 4
  • laptop portable computers and desktop computers etc.
  • the server 105 may be a server that provides various services, for example, a background server that provides support for the pages displayed on the terminal devices 101, 102, and 103.
  • the neural network-based document classification method provided in the embodiments of the present application is generally executed by a server/terminal device. Accordingly, the neural network-based document classification device is generally set in the server/terminal device.
  • terminal devices, networks, and servers in FIG. 1 are merely illustrative. According to implementation needs, there can be any number of terminal devices, networks and servers.
  • the document classification method based on neural network includes the following steps:
  • Step 201 Receive the first page image and the second page image from the document.
  • the neural network-based document classification method in this application is used to identify and distinguish page images obtained by scanning documents or other methods. During the implementation of the method, first confirm whether the images of the two pages to be identified are from In the same document, this method is gradually applied to identify and distinguish all page images of multiple documents, so as to classify the page images that are judged to belong to the same document, so as to finally realize all the images of multiple documents. Classification and classification of page images.
  • the step 201 specifically includes: receiving an ordered image stream of a document to be classified, and extracting adjacent pages from the ordered image stream as the first page image and the first page image. Second page image.
  • the images to be identified should be two images representing adjacent pages in the ordered image stream, so as to realize an effective categorization of the ordered image stream.
  • first page image and the second page image are adjacent pages in the ordered image stream, and the adjacent pages in the ordered image stream are successively extracted as the first page image and the second page Image, and apply the method described in this application to identify and distinguish, so as to gradually realize the document classification of pages in the entire ordered image stream,
  • the sequential recognition of adjacent pages from the first page image to the last page image in the ordered image stream can more efficiently and orderly complete the recognition of all page images of the document.
  • Step 202 Invoke the preset first convolutional neural network and second convolutional neural network, extract the text features of the first page image and the second page image through the first convolutional neural network, and generate them respectively.
  • the first text feature and the second text feature are extracted by the second convolutional neural network to extract the image features of the first page image and the second page image to generate the first image feature and the second image feature respectively.
  • the first convolutional neural network and the second neural network are independent of each other, the first convolutional neural network is a convolutional neural network based on text data analysis, and the second convolutional neural network is based on Convolutional neural network for image data analysis.
  • the first convolutional neural network can analyze the semantic information in the document image processed by OCR (Optical Character Recognition, optical character recognition) to realize the document classification of the document image; the second volume
  • OCR Optical Character Recognition, optical character recognition
  • the product neural network can judge whether the document image contains identification such as title or header, if there is, it is judged that a new document has been entered, and the document is classified based on this boundary.
  • this step 202 we first extract the text features and image features of the two page images through the preset first convolutional neural network and second convolutional neural network for further processing in subsequent steps.
  • the neural network-based document classification method before the step 202, further includes:
  • the two finally constructed convolutional neural networks can be better adapted to the method used in this application.
  • train the two models by inputting the same training data to make the first convolutional neural network and the second convolutional neural network It can adapt to the relevant execution steps of document image classification.
  • the two models can also be tested by inputting test data to determine whether the two models are well adapted to the training requirements.
  • the inputs of the models of the first convolutional neural network and the second neural network are vectors representing text features and image features, respectively, and the output can be regarded as the quantified product of a parameter vector and the input vector, and the parameter vector can be seen Make a set of weights that determine how each input vector affects the final output of the quantitative product.
  • the main purpose of training the model is to obtain the weight/weight parameters represented by the parameter vectors in the models of the first convolutional neural network and the second convolutional neural network that meet the two-category scene in this application.
  • the weight parameter is the value that controls the behavior of the model.
  • the step of constructing the model of the first convolutional neural network and training the model of the first convolutional neural network includes:
  • the network structure selected by the first convolutional neural network model is relatively simple.
  • the embedding layer is a 300-dimensional embedding layer;
  • the convolutional layer is a one-dimensional convolutional layer connected with 350 units, which only uses a convolution kernel (size 3* 3);
  • the fully connected layer is a fully connected layer composed of 256 neural units, and its activation function adopts the ReLU function;
  • the dropout layer is used to randomly reset part of the weight or output of the hidden layer to zero, reducing the number of nodes
  • the probability is 0.5 to realize the regularization of the neural network and reduce the structural risk.
  • the prediction layer is a prediction layer for two classification, and its activation function adopts a sigmoid function.
  • the input of the first convolutional neural network model is the result of OCR processing the scanned image.
  • the prediction layer located in the last layer of the model is deleted for pruning.
  • the output of the last fully connected layer in the first convolutional neural network generated by pruning is the text feature of the document page image.
  • the step of constructing the model of the second convolutional neural network and training the model of the second convolutional neural network includes:
  • the VGG16 convolutional neural network model is used as the initial model of the second convolutional neural network for configuration; wherein, the end of the VGG16 convolutional neural network model includes a fully connected layer and a prediction layer sequentially arranged;
  • the size of the convolution kernel in the VGG16 convolutional neural network is 3*3, and the maximum pooling method is applied.
  • the model can be adapted to the specific data types and classification steps in the document image classification method.
  • the last two layers of the model are a fully connected layer and a prediction layer.
  • the prediction layer in the final layer of the initial model is deleted, all weight parameters in the model are fixed, and then the full connection at the end of the initial model
  • a new fully connected layer and a two-class prediction layer are added to obtain the intermediate model, and the training data is re-input to train the intermediate model, and then the prediction layer at the end of the intermediate model is deleted, and the pruning is completed.
  • the last layer is the new fully connected layer
  • the output of the fully connected layer is the image feature of the document page image.
  • the role of fixing all weight parameters in the initial model is to ensure the performance of the model and save training time; while the role of pre-training is to accelerate the convergence of the initial model and save training time.
  • Step 203 Combine the first text feature, the second text feature, the first image feature, and the second image feature to generate a document hybrid feature.
  • the first text feature, the second text feature, the first image feature, and the second image feature are all expressed as feature vectors, which are generally 256-dimensional feature vectors. .
  • feature vectors which are generally 256-dimensional feature vectors.
  • the step 203 includes: invoking a splicing rule, and splicing the first text feature, the second text feature, and the first image based on the connection sequence specified by the splicing rule. Feature and the second image feature.
  • the neural network-based document classification method before the step of invoking the splicing rules, further includes:
  • connection sequence specified in the splicing rule satisfies: the sequence of the connection between the first text feature and the second text feature, and the first image feature and the second image feature
  • the order of the connection between the two is consistent; the order of the two text features of the first text feature and the second text feature and the two image features of the first image feature and the second image feature is arbitrarily set .
  • the four features can be combined according to the preset connection sequence, such as two text features after the first two image features or Two text features can be in the latter two image features; at the same time, the sequence of connecting the first text feature and the second text feature must be the same as the sequence of connecting the first image feature and the second image feature, that is, the Among the feature vectors representing the mixed features, the two feature vectors of the first page image are respectively before or after the two feature vectors of the second page image.
  • connection sequence when the four features are combined may be: the first text feature, the second text feature, the first image feature, and the second image feature that are connected in sequence.
  • Step 204 Invoke a preset multi-layer perceptron, and input the document hybrid feature into the multi-layer perceptron to obtain the predicted value output by the multi-layer perceptron. Whether the second page image is the same document is predicted.
  • the multilayer perceptron is an artificial neural network with a forward structure, which can map a set of input vectors to a set of output vectors, and can be used to classify input data. This application is mainly used for two classifications.
  • the pruned models of the first convolutional neural network and the second convolutional neural network are obtained through the steps in the above-mentioned preferred embodiment, they are located in the first convolutional neural network.
  • the last layer of the neural network and the model of the second scroller neural network are both a fully connected layer. These two fully connected layers are connected to the model of the multilayer perceptron, thereby convolving the first The neural network, the second convolutional neural network and the multilayer perceptron form a new neural network, which is retrained to update the weight parameters in the multilayer perceptron model.
  • the electronic device (such as the server/terminal device shown in FIG. 1) on which the neural network-based document classification method runs can receive the receiving source sent by the user through a wired connection or a wireless connection.
  • wireless connection methods can include, but are not limited to, 3G/4G connection, WiFi (Wireless-Fidelity) connection, Bluetooth connection, WiMAX (Worldwide Interoperability for Microwave Access) connection, Zigbee (Low Power Local Area Network Protocol, also known as Zifeng protocol) connection, UWB (ultra wideband) connection, and other currently known or future wireless connection methods.
  • 3G/4G connection WiFi (Wireless-Fidelity) connection
  • Bluetooth connection WiMAX (Worldwide Interoperability for Microwave Access) connection
  • Zigbee Low Power Local Area Network Protocol, also known as Zifeng protocol
  • UWB ultra wideband connection
  • Step 205 Determine whether the predicted value belongs to the first classification result or the second classification result; when the predicted value belongs to the first classification result, divide the first page image and the second page image into the same document; When the predicted value belongs to the second classification result, the first page image and the second page image are divided into different documents.
  • the set judgment value represents a value that the first page image and the second page image belong to different documents. If the value belongs to the same document, the two are divided into the same document; if the value does not belong to the same document, the two are divided into different documents.
  • step 205 it is necessary to continue to use the neural network-based document classification method in this application to detect and classify other document pages in the ordered image stream one by one to complete multiple documents.
  • the classification of all page images it is necessary to continue to use the neural network-based document classification method in this application to detect and classify other document pages in the ordered image stream one by one to complete multiple documents. The classification of all page images.
  • the neural network-based document classification method described in the embodiments of this application uses a combination of two convolutional neural networks and a multi-layer perceptron to integrate two aspects of text features and image features in scanned text images. Automatic classification of large quantities of document images makes the classification process more reasonable and efficient, improves classification efficiency, and can significantly improve both accuracy and consistency.
  • the aforementioned storage medium may be a non-volatile storage medium such as a magnetic disk, an optical disc, a read-only memory (Read-Only Memory, ROM), or a random access memory (Random Access Memory, RAM), etc.
  • Fig. 3 shows a schematic structural diagram of an embodiment of the neural network-based document classification apparatus in the embodiment of this application.
  • this application provides an embodiment of a document classification device based on a neural network.
  • the device embodiment corresponds to the method embodiment shown in FIG. 2, and the device can be specifically applied Used in various electronic devices.
  • the neural network-based document classification device in this embodiment includes:
  • Receiving module 301 used to receive the first page image and the second page image from the document.
  • Feature extraction module 302 used to call the preset first convolutional neural network and second convolutional neural network, and extract the text of the first page image and the second page image through the first convolutional neural network Feature, respectively generate a first text feature and a second text feature, extract the image features of the first page image and the second page image through the second convolutional neural network, and generate the first image feature and the second Image characteristics.
  • Feature combining module 303 used to combine the first text feature, the second text feature, the first image feature, and the second image feature to generate a document hybrid feature.
  • Predicted value acquisition module 304 used to call a preset multi-layer perceptron, and input the document hybrid feature into the multi-layer perceptron to obtain the predicted value output by the multi-layer perceptron, Predict whether the page image and the second page image are the same document;
  • Classification judgment module 305 used to judge whether the predicted value belongs to the first classification result or the second classification result; when the predicted value belongs to the first classification result, divide the first page image and the second page image It is the same document; when the predicted value belongs to the second classification result, the first page image and the second page image are divided into different documents.
  • the receiving module 301 further includes: an image extraction submodule; the image extraction submodule is configured to receive an ordered image stream of the document to be classified, and extract from the ordered image stream Adjacent pages serve as the first page image and the second page image.
  • the neural network-based document classification device further includes: a model setting module.
  • the model setting module is used to construct a model of the first convolutional neural network, train the model of the first convolutional neural network, and construct a model of the second convolutional neural network, The model of the second convolutional neural network is trained.
  • the model setting module includes: a first model construction sub-module.
  • the first model construction sub-module is used to: configure the initial first convolutional neural network model, set the embedding layer, convolutional layer, fully connected layer, dropout layer, and prediction layer for two classifications in sequence for its structure;
  • the data is input to the configured initial first convolutional neural network model for initial training; the initial first convolutional neural network model after initial training is pruned, and the prediction layer at the end is deleted.
  • the model setting module further includes: a second model construction sub-module.
  • the second model construction sub-module is used to: use the VGG16 convolutional neural network model as the initial model of the second convolutional neural network for configuration; wherein, the end of the VGG16 convolutional neural network model includes one set in sequence Fully connected layer and a prediction layer; pre-train the VGG16 convolutional neural network model and initialize it; delete the prediction layer at the last layer of the VGG16 convolutional neural network model, and set it in the VGG16 convolutional neural network After the fully connected layer at the end of the model, a new fully connected layer and a two-class prediction layer are added to obtain an intermediate model; the training data is input into the intermediate model for initial training, and the intermediate model Pruning is performed to delete the prediction layer used for the two classification at the end of the intermediate model.
  • the feature combination module 303 includes: a rule call combination sub-module.
  • the rule calling splicing submodule is used to call splicing rules, and splicing the first text feature, the second text feature, the first image feature, and the second image feature based on the connection sequence specified by the splicing rule .
  • the neural network-based document classification device further includes: a combination rule configuration module.
  • the splicing rule configuration module is used to configure splicing rules before the step of invoking splicing rules, and specify that the connection sequence specified in the splicing rules meets: before and after the connection between the first text feature and the second text feature.
  • the sequence is consistent with the sequence of the connection between the first image feature and the second image feature; the first text feature and the second text feature are the same as the first image feature and the second text feature.
  • the sequence of the second image feature when the two image features are connected is set arbitrarily.
  • the neural network-based document classification device described in the embodiment of this application adopts a combination of two convolutional neural networks and a multi-layer perceptron to integrate two aspects of text features and image features in scanned text images. Automatic classification of large quantities of document images makes the classification process more reasonable and efficient, improves classification efficiency, and can significantly improve both accuracy and consistency.
  • FIG. 4 is a block diagram of the basic structure of the computer device in this embodiment.
  • the computer device 6 includes a memory 61, a processor 62, and a network interface 63 that communicate with each other through a system bus. It should be pointed out that the figure only shows the computer device 6 with components 61-63, but it should be understood that it is not required to implement all the components shown, and more or fewer components may be implemented instead. Among them, those skilled in the art can understand that the computer device here is a device that can automatically perform numerical calculation and/or information processing in accordance with pre-set or stored instructions. Its hardware includes but is not limited to microprocessors, dedicated Integrated Circuit (Application Specific Integrated Circuit, ASIC), Programmable Gate Array (Field-Programmable Gate Array, FPGA), Digital Processor (Digital Signal Processor, DSP), embedded devices, etc.
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • DSP Digital Processor
  • the computer device may be a computing device such as a desktop computer, a notebook, a palmtop computer, and a cloud server.
  • the computer device can interact with the user through a keyboard, a mouse, a remote control, a touch panel, or a voice control device.
  • the memory 61 includes at least one type of readable storage medium, and the readable storage medium includes flash memory, hard disk, multimedia card, card type memory (for example, SD or DX memory, etc.), random access memory (RAM), static memory Random access memory (SRAM), read only memory (ROM), electrically erasable programmable read only memory (EEPROM), programmable read only memory (PROM), magnetic memory, magnetic disks, optical disks, etc.
  • the memory 61 may be an internal storage unit of the computer device 6, such as a hard disk or memory of the computer device 6.
  • the memory 61 may also be an external storage device of the computer device 6, such as a plug-in hard disk equipped on the computer device 6, a smart media card (SMC), a secure digital (Secure Digital, SD) card, Flash Card, etc.
  • the memory 61 may also include both the internal storage unit of the computer device 6 and its external storage device.
  • the memory 61 is generally used to store an operating system and various application software installed in the computer device 6, for example, computer-readable instructions of a neural network-based document classification method.
  • the memory 61 can also be used to temporarily store various types of data that have been output or will be output.
  • the processor 62 may be a central processing unit (Central Processing Unit, CPU), a controller, a microcontroller, a microprocessor, or other data processing chips.
  • the processor 62 is generally used to control the overall operation of the computer device 6.
  • the processor 62 is configured to execute computer-readable instructions or process data stored in the memory 61, such as computer-readable instructions for executing the neural network-based document classification method.
  • the network interface 63 may include a wireless network interface or a wired network interface, and the network interface 63 is generally used to establish a communication connection between the computer device 6 and other electronic devices.
  • This application also provides another implementation manner, that is, a computer-readable storage medium storing a neural network-based document classification process, which can be at least One processor executes, so that the at least one processor executes the steps of the above-mentioned neural network-based document classification method.
  • the method of the above embodiments can be implemented by means of software plus the necessary general hardware platform. Of course, it can also be implemented by hardware, but in many cases the former is better. ⁇
  • the technical solution of this application essentially or the part that contributes to the existing technology can be embodied in the form of a software product, and the computer software product is stored in a storage medium (such as ROM/RAM, magnetic disk, The optical disc) includes several instructions to enable a terminal device (which can be a mobile phone, a computer, a server, an air conditioner, or a network device, etc.) to execute the method described in each embodiment of the present application.
  • the disclosed apparatus and method may be implemented in other ways.
  • the device embodiments described above are merely illustrative, for example, the division of the modules is only a logical function division, and there may be other divisions in actual implementation, for example, multiple modules or components may be combined Or it can be integrated into another system, or some features can be ignored or not implemented.
  • the modules or components may or may not be physically separated, and the components displayed as modules or components may or may not be physical modules, and may be located in one place or distributed on multiple network units. Some or all of the modules or components may be selected according to actual needs to achieve the objectives of the solutions of the embodiments.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于神经网络的文档分类方法、装置、设备及存储介质,涉及人工智能图像处理技术领域。该方法包括:接收第一页面图像和第二页面图像(201);调用第一卷积神经网络和第二卷积神经网络,分别提取文本特征和图像特征(202);拼合文本特征和图像特征生成文档混合特征(203);调用多层感知器并输入文档混合特征,以获取输出的预测值(204);并基于预测值判断第一页面图像和第二页面图像是否属于同一文档(205)。该方法采用两个卷积神经网络和一个多层感知器相结合的形式,综合了扫描文本图像中的文本特征和图像特征两个方面,能够对大批量的文档图像进行自动分类,使归类的过程更加合理高效,提升了分类效率,并在准确性与一致性两项性能上都能够有明显提升。

Description

基于神经网络的文档分类方法、装置、设备及存储介质
【交叉引用】
本申请以2019年7月4日提交的申请号为2019105974313,名称为“基于神经网络的文档分类方法、装置、设备及存储介质”的中国发明专利申请为基础,并要求其优先权。
【技术领域】
本申请涉及人工智能图像处理技术领域,特别是一种基于神经网络的文档分类方法、装置、设备及存储介质。
【背景技术】
近年来随着办公自动化技术的发展,在越来越多的场景中人们期望将纸质文档转化为便于处理的电子图像,以利于数据的传输、分发、存档和查看。
现有技术中生成纸质文档的电子图像的最常见方式是对纸质文档进行扫描而生成。但当纸质文档被转化为文档图像后,会缺乏文档的归类信息,如何对各种无特殊标记的文档图像进行自动化分类、归档和分发是一个较为困难的问题。若是单纯依靠用户操作计算机设备为其添加分类凭据标识,整个过程耗时较长,尤其是若短时间内要分类大量的文档图像,依靠人工操作的解决方法需要耗费大量的人力。
【发明内容】
本申请实施例所要解决的技术问题是,提供一种基于神经网络的文档分类方法、装置、设备及存储介质,对大批量的文档图像进行自动分类,并提升分类的效率和准确度。
为了解决上述技术问题,本申请实施例提供一种基于神经网络的文档分类方法,采用了如下所述的技术方案:
一种基于神经网络的文档分类方法,包括:
接收来源于文档的第一页面图像和第二页面图像;
调用预设的第一卷积神经网络和第二卷积神经网络,通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征,分别生成第一文本特征和第二文本特征,通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征,分别生成第一图像特征和第二图像特征;
拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征,生成文档混合特征;
调用预设的多层感知器,将所述文档混合特征输入所述多层感知器,以获取由 所述多层感知器输出的预测值,对所述第一页面图像和所述第二页面图像是否为同一文档进行预测;
判断所述预测值属于第一分类结果还是第二分类结果;当所述预测值属于第一分类结果时,将所述第一页面图像和所述第二页面图像划分为同一文档;当所述预测值属于第二分类结果时,将所述第一页面图像和所述第二页面图像划分为不同文档。
为了解决上述技术问题,本申请实施例还提供一种基于神经网络的文档分类装置,采用了如下所述的技术方案:
一种基于神经网络的文档分类装置,包括:
接收模块,用于接收来源于文档的第一页面图像和第二页面图像;
特征提取模块,用于调用预设的第一卷积神经网络和第二卷积神经网络,通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征,分别生成第一文本特征和第二文本特征,通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征,分别生成第一图像特征和第二图像特征;
特征拼合模块,用于拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征,生成文档混合特征;
预测值获取模块;用于调用预设的多层感知器,将所述文档混合特征输入所述多层感知器,以获取由所述多层感知器输出的预测值,对所述第一页面图像和所述第二页面图像是否为同一文档进行预测;
分类判断模块;用于判断所述预测值属于第一分类结果还是第二分类结果;当所述预测值属于第一分类结果时,将所述第一页面图像和所述第二页面图像划分为同一文档;当所述预测值属于第二分类结果时,将所述第一页面图像和所述第二页面图像划分为不同文档。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器、处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述基于神经网络的文档分类方法的步骤。
为了解决上述技术问题,本申请实施例还提供一个或多个存储有计算机可读指令的非易失性可读存储介质,采用了如下所述的技术方案:
一个或多个存储有计算机可读指令的非易失性可读存储介质,所述计算机可读指令被处理器执行时实现如上述基于神经网络的文档分类方法的步骤。
本申请的一个或多个实施例的细节在下面的附图和描述中提出,本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一 些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例可以应用于其中的示例性系统架构图;
图2为本申请实施例中所述基于神经网络的文档分类方法的一个实施例的流程图;
图3为本申请实施例中所述基于神经网络的文档分类装置的一个实施例的结构示意图;
图4为本申请实施例中计算机设备的一个实施例的结构示意图。
【具体实施方式】
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”、“包含”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本申请的权利要求书、说明书以及说明书附图中的术语,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的相关附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、 MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于神经网络的文档分类方法一般由服务器/终端设备执行,相应地,基于神经网络的文档分类装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了本申请实施例中所述基于神经网络的文档分类方法的一个实施例的流程图。所述基于神经网络的文档分类方法,包括以下步骤:
步骤201:接收来源于文档的第一页面图像和第二页面图像。
本申请中的基于神经网络的文档分类方法,用于对由文档扫描出或其他方式获得的页面图像进行识别区分,该方法的实施过程中,首先通过确认待识别的两张页面的图像是否来源于同一个文档,然后逐步应用此方法对多个文档的所有页面图像进行识别区分,以将其中分别判断为属于同一个文档的页面图像归类在一起,从而最终能实现对多个文档的所有页面图像的区分和分类。
本申请的一些实施例中,所述步骤201具体包括:接收待分类的文档的有序图像流,从所述有序图像流中提取出相邻页面作为所述第一页面图像和所述第二页面图像。
用户平常对将纸质文件进行保存时,会将纸质文件扫描成页面图像后,再以电子文档的形式进行保存。在此过程中,按文件扫描顺序和页面顺序依次扫描的关于多个文件的若干张页面图像作为一个有序的图像流到达文档管理系统。在对有序图像流进行归类时,进行识别的图像应为所述有序图像流中表示相邻页面的两个图像,如此才能实现对有序图像流实现有效归类。
其中,所述第一页面图像和所述第二页面图像即为所述有序图像流中的相邻页面,通过逐次提取有序图像流中的相邻页面作为第一页面图像和第二页面图像,并应用本申请中的所述方法进行识别区分,以逐步实现对整个有序图像流中页面的文档归类,
而从有序图像流中的第一个页面图像到最后一个页面图像进行相邻页面的依次识别,可以更高效有序地完成对文档的所有页面图像的识别。
步骤202:调用预设的第一卷积神经网络和第二卷积神经网络,通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征,分别生成第一文本特征和第二文本特征,通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征,分别生成第一图像特征和第二图像特征。
所述第一卷积神经网络和所述第二神经网络之间相互独立,所述第一卷积神经网络为基于文本数据进行分析的卷积神经网络,所述第二卷积神经网络为基于图像数据进行分析的卷积神经网络。
具体地,所述第一卷积神经网络可以利用OCR(Optical Character Recognition, 光学字符识别)处理过的文档图像中的语义信息来进行分析,实现对文档图像的文档归类;所述第二卷积神经网络则可以对文档图像中是否包含标题或表头等标识进行判断,若有则判断是进入了一篇新的文档,以此为界限进行文档归类。
但如果两篇相邻文档都是将关于图像处理的内容,其内容的语义信息可能十分相近,仅通过语义信息便难以将两篇文档区分开,而若忽略文章的语义信息内容,仅仅通过图像表现的形式来进行区分,准确率会非常低,因此单独使用第一卷积神经网络或第二卷积神经网络难以满足准确分类的需求。
此步骤202中,我们先通过预设的第一卷积神经网络和第二卷积神经网络分别提取两个页面图像的文本特征和图像特征以供后续步骤进一步处理。
本申请的一些实施例中,在所述步骤202之前,所述基于神经网络的文档分类方法还包括:
构建所述第一卷积神经网络的模型,并对所述第一卷积神经网络的模型进行训练;
构建所述第二卷积神经网络的模型,并对所述第二卷积神经网络的模型进行训练。
通过选取两种卷积神经网络,并分别对两者的模型结构进行配置和优化,使最终构建的两个卷积神经网络能够更好地适用于本申请中所应用的方法。构建好我们所需的第一卷积神经网络和第二卷积神经网络的模型后,通过输入相同的训练数据对两个模型进行训练,使第一卷积神经网络和第二卷积神经网络能适应关于文档图像归类的相关执行步骤。在训练过程中或训练完成后,还可以通过输入测试数据对两个模型进行测试,以判断两个模型是否已较好地适应训练的要求。
所述第一卷积神经网络和所述第二神经网络的模型的输入分别为表示文本特征和图像特征的向量,输出则可看作一个参数向量与输入的向量的数量积,参数向量可视作一组决定每个输入的向量如何影响最终输出的数量积的权重。对模型进行训练的主要目的,便是得到第一卷积神经网络和第二卷积神经网络的模型中参数向量所表示的符合本申请中二分类场景的权重/权重参数。权重参数即是控制模型行为的值。
在本申请实施例的一种优选实施方式中,所述构建所述第一卷积神经网络的模型,并对所述第一卷积神经网络的模型进行训练的步骤包括:
配置初始第一卷积神经网络模型,为其结构依次设置嵌入层、卷积层、全连接层、dropout(随机失活)层和用于二分类的预测层;
将训练数据输入到配置好的所述初始第一卷积神经网络模型进行初始训练;
对初始训练后的所述初始第一卷积神经网络模型进行剪枝,删除其末端的预测层。
其中,所述第一卷积神经网络模型选用的网络结构较为简单。具体地,所述嵌入层为一个300维的嵌入层;所述卷积层为连接有350个单元的一维卷积层,其只使用了一种尺寸大小的卷积内核(大小为3*3);所述全连接层为一个由256个神经单元组成的全连接层,其激活函数采用ReLU函数;所述dropout 层用于将隐含层的部分权重或输出随机归零,降低节点间的相互依赖性,实现神经网络的正则化,降低结构风险,其概率为0.5;所述预测层为一个用于进行二分类的预测层,其激活函数采用sigmoid函数。所述第一卷积神经网络模型的输入为对扫描图像进行OCR处理的结果。
通过上述步骤构建好第一卷积神经网络的模型且训练好后,再删除位于该模型中最后一层的预测层进行剪枝。通过剪枝后生成的第一卷积神经网络中最后一层全连接层所输出的即是关于文档页面图像的文本特征。
在本申请实施例的一种优选实施方式中,所述构建所述第二卷积神经网络的模型,并对所述第二卷积神经网络的模型进行训练的步骤包括:
采用VGG16卷积神经网络模型作为所述第二卷积神经网络的初始模型进行配置;其中,所述VGG16卷积神经网络模型的末端包括依次设置的一个全连接层和一个预测层;
预训所述VGG16卷积神经网络模型并对其执行初始化;
删除位于所述VGG16卷积神经网络模型最后一层的预测层,并在所述VGG16卷积神经网络模型末端的全连接层之后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型;
将所述训练数据输入到所述中间模型中进行初始训练,并对所述中间模型进行剪枝,删除所述中间模型末端用于二分类的预测层。
在对于神经网络的模型进行训练时,若模型太复杂难以优化,或者任务非常困难,直接训练模型以解决特定任务的难度太大,便可以通过训练一个较简单的模型来求解问题,使模型更复杂有效后,训练该模型解决一个简化的问题,然后转移到最后的问题。这种在直接训练目标模型求解目标问题之前,训练简单模型求解简化问题的方法统称为预训练。
其中,所述VGG16卷积神经网络中的卷积核大小为3*3,且应用了最大池化方法。通过根据fine-tuning方法预训得到的权重参数对VGG16卷积神经网络模型进行初始化,可以使该模型能适应文档图像归类方法中特定的数据类型和分类步骤。该模型的最后两层结构依次为一个全连接层和一个预测层。
通过上述步骤构建好第二卷积神经网络的初始模型且训练好后,再删除该初始模型中位于其最后一层的预测层,固定模型中的所有权重参数,然后在初始模型末端的全连接层后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型,并重新输入训练数据训练中间模型,之后删除中间模型末端的预测层对其进行剪枝,完成剪枝后生成的第二卷积神经网络的模型,位其最后一层的便是新的全连接层,该全连接层所输出的即是关于文档页面图像的图像特征。通过上述步骤增加在初始模型末端的全连接层和预测层,该全连接层为包含256个神经元的全连接层,该预测层为用于进行二分类的预测层。
其中,删除最后一层预测层后,固定初始模型中所有权重参数的作用是保证模型的性能,节省训练的时间;而预训的作用则是加速初始模型的收敛,节省训练时间。
步骤203:拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征,生成文档混合特征。
在本申请的一些实施例中,所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征均表示为特征向量,一般具体为256维的特征向量。通过拼合文本特征和图像特征,将这四个经第一卷积神经网络和第二卷积神经网络后产生的特征向量连接在一起形成一个特征向量,以表示包括文本特征和图像特征的混合特征。
在本申请实施例的具体实施方式中,所述步骤203包括:调用拼合规则,基于所述拼合规则规定的连接顺序拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征。
在一种优选实施方式中,在所述调用拼合规则的步骤之前,所述基于神经网络的文档分类方法还包括:
配置拼合规则,指定所述拼合规则中规定的连接顺序满足:所述第一文本特征和所述第二文本特征之间连接的前后顺序,与所述第一图像特征和所述第二图像特征之间连接的前后顺序一致;所述第一文本特征和所述第二文本特征两个文本特征与所述第一图像特征和所述第二图像特征两个图像特征连接时的前后顺序任意设置。
对第一页面图像和第二页面图像的两个文本特征和两个图像特征一共四个特征拼合时按照预设的连接顺序拼合即可,如两个文本特征在前两个图像特征在后或两个文本特征在后两个图像特征在前均可;同时第一文本特征与第二文本特征连接时的顺序需和第一图像特征与第二图像特征连接时的顺序相同,即需保证在表示混合特征的特征向量中,第一页面图像的两个特征向量分别在第二页面图像的两个特征向量之前或之后。通过以上合理拼合规则,能提高拼合后的混合特征应用在多层感知器中时的预测效果,提升分类的准确度。
如在一个具体实施方式中,四个特征拼合时的连接顺序可以为:依次连接的第一文本特征、第二文本特征、第一图像特征和第二图像特征。
步骤204:调用预设的多层感知器,将所述文档混合特征输入所述多层感知器,以获取由所述多层感知器输出的预测值,对所述第一页面图像和所述第二页面图像是否为同一文档进行预测。
所述多层感知器是一种前向结构的人工神经网络,可以映射一组输入向量到一组输出向量,可以用于对输入的数据实现分类,本申请中主要用于二分类。
在本申请的一些实施例中,通过上述优选实施方式中的步骤获得了已完成剪枝的所述第一卷积神经网络和第二卷积神经网络的模型后,位于所述第一卷积神经网络和所述第二卷机神经网络的模型最后一层的均是一个全连接层,将这两个全连接层连接至所述多层感知器的模型上,由此将第一卷积神经网络、第二卷积神经网络和多层感知器构成了一个新的神经网络,对其重新进行训练,更新多层感知机模型中的权重参数。
剪枝前的第一卷积神经网络模型和第二卷积神经网络模型,以及剪枝后与多层感知器拼合而成的神经网络模型均需要进行训练的原因是:若只在剪枝后进行训练,由于模型的结构比较复杂参数较多,很有可能找不到最优的参数,梯度下降求解参数时很容易陷入局部最优,使所花费的时间会更长。
在本申请实施例中,所述基于神经网络的文档分类方法运行于其上的电子 设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收用户发出的接收来源于文档的第一页面图像和第二页面图像,和调用第一卷积神经网络、第二卷积神经网络和多层感知器的请求。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi(Wireless-Fidelity)连接、蓝牙连接、WiMAX(Worldwide Interoperability for Microwave Access)连接、Zigbee(低功耗局域网协议,又称紫峰协议)连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤205:判断所述预测值属于第一分类结果还是第二分类结果;当所述预测值属于第一分类结果时,将所述第一页面图像和所述第二页面图像划分为同一文档;当所述预测值属于第二分类结果时,将所述第一页面图像和所述第二页面图像划分为不同文档。
判断预测值属于第一分类结果还是第二分类结果,即判断输出的预测值为预设的判定值中代表所述第一页面图像和所述第二页面图像属于同一文档的值,还是为预设的判定值中代表所述第一页面图像和所述第二页面图像属于不同文档的值。若属于同一文档的值,便将两者划分为同一文档,若不属于同一文档的值,便将两者划分为不同文档。
在本申请实施例中,完成步骤205后,需继续使用本申请中的所述基于神经网络的文档分类方法对有序图像流中的其他文档页面逐次进行检测归类,以完成多个文档的所有页面图像的归类。
本申请实施例所述的基于神经网络的文档分类方法,采用两个卷积神经网络和一个多层感知器相结合的形式,综合了扫描文本图像中的文本特征和图像特征两个方面,能够对大批量的文档图像进行自动分类,使归类的过程更加合理高效,提升了分类效率,并在准确性与一致性两项性能上都能够有明显提升。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一个或多个非易失性可读取存储介质中,该计算机可读指令在被执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,图3示出了为本申请实施例中所述基于神经网络的文档分类装置的一个实施例的结构示意图。作为对上述图2所示方法的实现,本申请提供了一种基于神经网络的文档分类装置的一个实施例,该装置实施例与图2 所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的基于神经网络的文档分类装置包括:
接收模块301;用于接收来源于文档的第一页面图像和第二页面图像。
特征提取模块302;用于调用预设的第一卷积神经网络和第二卷积神经网络,通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征,分别生成第一文本特征和第二文本特征,通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征,分别生成第一图像特征和第二图像特征。
特征拼合模块303;用于拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征,生成文档混合特征。
预测值获取模块304;用于调用预设的多层感知器,将所述文档混合特征输入所述多层感知器,以获取由所述多层感知器输出的预测值,对所述第一页面图像和所述第二页面图像是否为同一文档进行预测;
分类判断模块305;用于判断所述预测值属于第一分类结果还是第二分类结果;当所述预测值属于第一分类结果时,将所述第一页面图像和所述第二页面图像划分为同一文档;当所述预测值属于第二分类结果时,将所述第一页面图像和所述第二页面图像划分为不同文档。
在本申请的一些实施例中,所述接收模块301还包括:图像提取子模块;所述图像提取子模块用于接收待分类文档的有序图像流,从所述有序图像流中提取出相邻页面作为所述第一页面图像和所述第二页面图像。
在本申请的一些实施例中,所述基于神经网络的文档分类装置还包括:模型设置模块。所述模型设置模块用于构建所述第一卷积神经网络的模型,并对所述第一卷积神经网络的模型进行训练,以及构建所述第二卷积神经网络的模型,并对所述第二卷积神经网络的模型进行训练。
在本申请的一些实施例的一种具体实施方式中,所述模型设置模块包括:第一模型构建子模块。所述第一模型构建子模块用于:配置初始第一卷积神经网络模型,为其结构依次设置嵌入层、卷积层、全连接层、dropout层和用于二分类的预测层;将训练数据输入到配置好的所述初始第一卷积神经网络模型进行初始训练;对初始训练后的所述初始第一卷积神经网络模型进行剪枝,删除其末端的预测层。
在本申请的一些实施例的一种具体实施方式中,所述模型设置模块还包括:第二模型构建子模块。所述第二模型构建子模块用于:采用VGG16卷积神经网络模型作为所述第二卷积神经网络的初始模型进行配置;其中,所述VGG16卷积神经网络模型的末端包括依次设置的一个全连接层和一个预测层;预训所述VGG16卷积神经网络模型并对其执行初始化;删除位于所述VGG16卷积神经网络模型最后一层的预测层,并在所述VGG16卷积神经网络模型末端的全连接层之后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型;将所述训练数据输入到所述中间模型中进行初始训练,并对所述中间模型进行剪枝,删除所述中间模型末端用于二分类的预测层。
在本申请的一些实施例中,所述特征拼合模块303包括:规则调用拼合子 模块。所述规则调用拼合子模块用于调用拼合规则,基于所述拼合规则规定的连接顺序拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征。
在本申请实施例的一种具体实施方式中,所述基于神经网络的文档分类装置还包括:拼合规则配置模块。所述拼合规则配置模块用于在调用拼合规则的步骤之前,配置拼合规则,指定所述拼合规则中规定的连接顺序满足:所述第一文本特征和所述第二文本特征之间连接的前后顺序,与所述第一图像特征和所述第二图像特征之间连接的前后顺序一致;所述第一文本特征和所述第二文本特征两个文本特征与所述第一图像特征和所述第二图像特征两个图像特征连接时的前后顺序任意设置。
本申请实施例所述的基于神经网络的文档分类装置,采用两个卷积神经网络和一个多层感知器相结合的形式,综合了扫描文本图像中的文本特征和图像特征两个方面,能够对大批量的文档图像进行自动分类,使归类的过程更加合理高效,提升了分类效率,并在准确性与一致性两项性能上都能够有明显提升。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如基于神经网络的文档分类方法的计算机可读指令等。此外,所述存储器61还可以 用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据,例如运行所述基于神经网络的文档分类方法的计算机可读指令。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于神经网络的文档分类流程,所述基于神经网络的文档分类流程可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于神经网络的文档分类方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
在本申请所提供的上述实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述模块或组件可以是或者也可以不是物理上分开的,作为模块或组件显示的部件可以是或者也可以不是物理模块,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块或组件来实现本实施例方案的目的。
本申请不限于上述实施方式,以上所述是本申请的优选实施方式,该实施例仅用于说明本申请而不用于限制本申请的范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,其依然可以对前述各具体实施方式所记载的技术方案进行若干改进和修饰,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理应视为包括在本申请的保护范围之内。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。基于本 申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,以及凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (20)

  1. 一种基于神经网络的文档分类方法,其特征在于,包括:
    接收来源于文档的第一页面图像和第二页面图像;
    调用预设的第一卷积神经网络和第二卷积神经网络,通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征,分别生成第一文本特征和第二文本特征,通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征,分别生成第一图像特征和第二图像特征;
    拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征,生成文档混合特征;
    调用预设的多层感知器,将所述文档混合特征输入所述多层感知器,以获取由所述多层感知器输出的预测值,对所述第一页面图像和所述第二页面图像是否为同一文档进行预测;
    判断所述预测值属于第一分类结果还是第二分类结果;当所述预测值属于第一分类结果时,将所述第一页面图像和所述第二页面图像划分为同一文档;当所述预测值属于第二分类结果时,将所述第一页面图像和所述第二页面图像划分为不同文档。
  2. 根据权利要求1所述的基于神经网络的文档分类方法,其特征在于,所述接收来源于文档的第一页面图像和第二页面图像的步骤包括:
    接收待分类文档的有序图像流,从所述有序图像流中提取出相邻页面作为所述第一页面图像和所述第二页面图像。
  3. 根据权利要求1所述的基于神经网络的文档分类方法,其特征在于,在所述调用预设的第一卷积神经网络和第二卷积神经网络的步骤之前,所述方法还包括:
    构建所述第一卷积神经网络的模型,并对所述第一卷积神经网络的模型进行训练;
    构建所述第二卷积神经网络的模型,并对所述第二卷积神经网络的模型进行训练。
  4. 根据权利要求3所述的基于神经网络的文档分类方法,其特征在于,所述构建所述第一卷积神经网络的模型,并对所述第一卷积神经网络的模型进行训练的步骤包括:
    配置初始第一卷积神经网络模型,为其结构依次设置嵌入层、卷积层、全连接层、dropout层和用于二分类的预测层;
    将训练数据输入到配置好的所述初始第一卷积神经网络模型进行初始训练;
    对初始训练后的所述初始第一卷积神经网络模型进行剪枝,删除其末端的预测层。
  5. 根据权利要求4所述的基于神经网络的文档分类方法,其特征在于,所述构建所述第二卷积神经网络的模型,并对所述第二卷积神经网络的模型进行训练的步骤包括:
    采用VGG16卷积神经网络模型作为所述第二卷积神经网络的初始模型进行配置;其中,所述VGG16卷积神经网络模型的末端包括依次设置的一个全连接层和一个预测层;
    预训所述VGG16卷积神经网络模型并对其执行初始化;
    删除位于所述VGG16卷积神经网络模型最后一层的预测层,并在所述VGG16卷积神经网络模型末端的全连接层之后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型;
    将所述训练数据输入到所述中间模型中进行初始训练,并对所述中间模型进行剪枝,删除所述中间模型末端用于二分类的预测层。
  6. 根据权利要求1所述的基于神经网络的文档分类方法,其特征在于,所述拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征,生成文档混合特征的步骤包括:
    调用拼合规则,基于所述拼合规则规定的连接顺序拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征。
  7. 根据权利要求6所述的基于神经网络的文档分类方法,其特征在于,在所述调用拼合规则的步骤之前,所述方法还包括:
    配置拼合规则,指定所述拼合规则中规定的连接顺序满足:所述第一文本特征和所述第二文本特征之间连接的前后顺序,与所述第一图像特征和所述第二图像特征之间连接的前后顺序一致;所述第一文本特征和所述第二文本特征两个文本特征与所述第一图像特征和所述第二图像特征两个图像特征连接时的前后顺序任意设置。
  8. 一种基于神经网络的文档分类装置,其特征在于,包括:
    接收模块,用于接收来源于文档的第一页面图像和第二页面图像;
    特征提取模块,用于调用预设的第一卷积神经网络和第二卷积神经网络,通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征,分别生成第一文本特征和第二文本特征,通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征,分别生成第一图像特征和第二图像特征;
    特征拼合模块,用于拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征,生成文档混合特征;
    预测值获取模块;用于调用预设的多层感知器,将所述文档混合特征输入所述多层感知器,以获取由所述多层感知器输出的预测值,对所述第一页面图像和所述第二页面图像是否为同一文档进行预测;
    分类判断模块;用于判断所述预测值属于第一分类结果还是第二分类结果;当所述预测值属于第一分类结果时,将所述第一页面图像和所述第二页面图像划分为同一文档;当所述预测值属于第二分类结果时,将所述第一页面图像和所述第二页面图像划分为不同文档。
  9. 根据权利要求8所述的基于神经网络的文档分类装置,其特征在于,所述接收模块还包括:
    图像提取子模块,用于接收待分类文档的有序图像流,从所述有序图像流 中提取出相邻页面作为所述第一页面图像和所述第二页面图像。
  10. 根据权利要求8所述的基于神经网络的文档分类装置,其特征在于,所述装置还包括:
    模型设置模块,用于构建所述第一卷积神经网络的模型,并对所述第一卷积神经网络的模型进行训练,构建所述第二卷积神经网络的模型,并对所述第二卷积神经网络的模型进行训练.。
  11. 一种计算机设备,包括存储器、处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时,实现如下基于神经网络的文档分类方法的步骤:
    接收来源于文档的第一页面图像和第二页面图像;
    调用预设的第一卷积神经网络和第二卷积神经网络,通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征,分别生成第一文本特征和第二文本特征,通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征,分别生成第一图像特征和第二图像特征;
    拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征,生成文档混合特征;
    调用预设的多层感知器,将所述文档混合特征输入所述多层感知器,以获取由所述多层感知器输出的预测值,对所述第一页面图像和所述第二页面图像是否为同一文档进行预测;
    判断所述预测值属于第一分类结果还是第二分类结果;当所述预测值属于第一分类结果时,将所述第一页面图像和所述第二页面图像划分为同一文档;当所述预测值属于第二分类结果时,将所述第一页面图像和所述第二页面图像划分为不同文档。
  12. 根据权利要求11所述的计算机设备,其特征在于,所述接收来源于文档的第一页面图像和第二页面图像的步骤包括:
    接收待分类文档的有序图像流,从所述有序图像流中提取出相邻页面作为所述第一页面图像和所述第二页面图像。
  13. 根据权利要求11所述的计算机设备,其特征在于,在所述调用预设的第一卷积神经网络和第二卷积神经网络的步骤之前,还包括:
    构建所述第一卷积神经网络的模型,并对所述第一卷积神经网络的模型进行训练;
    构建所述第二卷积神经网络的模型,并对所述第二卷积神经网络的模型进行训练。
  14. 根据权利要求13所述的计算机设备,其特征在于,所述构建所述第一卷积神经网络的模型,并对所述第一卷积神经网络的模型进行训练的步骤包括:
    配置初始第一卷积神经网络模型,为其结构依次设置嵌入层、卷积层、全连接层、dropout层和用于二分类的预测层;
    将训练数据输入到配置好的所述初始第一卷积神经网络模型进行初始训练;
    对初始训练后的所述初始第一卷积神经网络模型进行剪枝,删除其末端的预测层。
  15. 根据权利要求14所述的计算机设备,其特征在于,所述构建所述第二卷积神经网络的模型,并对所述第二卷积神经网络的模型进行训练的步骤包括:
    采用VGG16卷积神经网络模型作为所述第二卷积神经网络的初始模型进行配置;其中,所述VGG16卷积神经网络模型的末端包括依次设置的一个全连接层和一个预测层;
    预训所述VGG16卷积神经网络模型并对其执行初始化;
    删除位于所述VGG16卷积神经网络模型最后一层的预测层,并在所述VGG16卷积神经网络模型末端的全连接层之后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型;
    将所述训练数据输入到所述中间模型中进行初始训练,并对所述中间模型进行剪枝,删除所述中间模型末端用于二分类的预测层。
  16. 一个或多个存储有计算机可读指令的非易失性可读存储介质,其特征在于,所述计算机可读指令被处理器执行时实现如下基于神经网络的文档分类方法的步骤:
    接收来源于文档的第一页面图像和第二页面图像;
    调用预设的第一卷积神经网络和第二卷积神经网络,通过所述第一卷积神经网络提取所述第一页面图像和所述第二页面图像的文本特征,分别生成第一文本特征和第二文本特征,通过所述第二卷积神经网络提取所述第一页面图像和所述第二页面图像的图像特征,分别生成第一图像特征和第二图像特征;
    拼合所述第一文本特征、所述第二文本特征、所述第一图像特征和所述第二图像特征,生成文档混合特征;
    调用预设的多层感知器,将所述文档混合特征输入所述多层感知器,以获取由所述多层感知器输出的预测值,对所述第一页面图像和所述第二页面图像是否为同一文档进行预测;
    判断所述预测值属于第一分类结果还是第二分类结果;当所述预测值属于第一分类结果时,将所述第一页面图像和所述第二页面图像划分为同一文档;当所述预测值属于第二分类结果时,将所述第一页面图像和所述第二页面图像划分为不同文档。
  17. 根据权利要求16所述的非易失性可读存储介质,其特征在于,所述接收来源于文档的第一页面图像和第二页面图像的步骤包括:
    接收待分类文档的有序图像流,从所述有序图像流中提取出相邻页面作为所述第一页面图像和所述第二页面图像。
  18. 根据权利要求16所述的非易失性可读存储介质,其特征在于,在所述调用预设的第一卷积神经网络和第二卷积神经网络的步骤之前,还包括:
    构建所述第一卷积神经网络的模型,并对所述第一卷积神经网络的模型进行训练;
    构建所述第二卷积神经网络的模型,并对所述第二卷积神经网络的模型进行训练。
  19. 根据权利要求18所述的非易失性可读存储介质,其特征在于,所述构建所述第一卷积神经网络的模型,并对所述第一卷积神经网络的模型进行训练 的步骤包括:
    配置初始第一卷积神经网络模型,为其结构依次设置嵌入层、卷积层、全连接层、dropout层和用于二分类的预测层;
    将训练数据输入到配置好的所述初始第一卷积神经网络模型进行初始训练;
    对初始训练后的所述初始第一卷积神经网络模型进行剪枝,删除其末端的预测层。
  20. 根据权利要求19所述的非易失性可读存储介质,其特征在于,所述构建所述第二卷积神经网络的模型,并对所述第二卷积神经网络的模型进行训练的步骤包括:
    采用VGG16卷积神经网络模型作为所述第二卷积神经网络的初始模型进行配置;其中,所述VGG16卷积神经网络模型的末端包括依次设置的一个全连接层和一个预测层;
    预训所述VGG16卷积神经网络模型并对其执行初始化;
    删除位于所述VGG16卷积神经网络模型最后一层的预测层,并在所述VGG16卷积神经网络模型末端的全连接层之后增加一个新的全连接层和一个用于二分类的预测层以获得中间模型;
    将所述训练数据输入到所述中间模型中进行初始训练,并对所述中间模型进行剪枝,删除所述中间模型末端用于二分类的预测层。
PCT/CN2019/103450 2019-07-04 2019-08-29 基于神经网络的文档分类方法、装置、设备及存储介质 WO2021000411A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910597431.3 2019-07-04
CN201910597431.3A CN110532448B (zh) 2019-07-04 2019-07-04 基于神经网络的文档分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
WO2021000411A1 true WO2021000411A1 (zh) 2021-01-07

Family

ID=68659510

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/103450 WO2021000411A1 (zh) 2019-07-04 2019-08-29 基于神经网络的文档分类方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110532448B (zh)
WO (1) WO2021000411A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297053A (zh) * 2021-12-15 2022-04-08 国网上海市电力公司 一种基于多层感知机平滑的软件程序安全检测方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199330A (zh) * 2020-09-29 2021-01-08 广东电网有限责任公司韶关供电局 一种混合文档归档方法、归档装置及存储介质
CN115796145B (zh) * 2022-11-16 2023-09-08 珠海横琴指数动力科技有限公司 一种网页文本的采集方法、系统、服务器及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178563A1 (en) * 2012-07-23 2015-06-25 Hewlett-Packard Development Company, L.P. Document classification
CN108763325A (zh) * 2018-05-04 2018-11-06 北京达佳互联信息技术有限公司 一种网络对象处理方法及装置
CN108984706A (zh) * 2018-07-06 2018-12-11 浙江大学 一种基于深度学习融合文本和结构特征的网页分类方法
CN109344815A (zh) * 2018-12-13 2019-02-15 深源恒际科技有限公司 一种文档图像分类方法
CN109582794A (zh) * 2018-11-29 2019-04-05 南京信息工程大学 基于深度学习的长文分类方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1049030A1 (en) * 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
JP2004070857A (ja) * 2002-08-09 2004-03-04 Ricoh Co Ltd 文書管理装置、文書管理方法およびその方法をコンピュータに実行させるプログラム
JP2004288015A (ja) * 2003-03-24 2004-10-14 Fuji Xerox Co Ltd 文書ファイリング装置および文書区切り方法
JP4811133B2 (ja) * 2005-07-01 2011-11-09 富士ゼロックス株式会社 画像形成装置及び画像処理装置
RU2571545C1 (ru) * 2014-09-30 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Классификация изображений документов на основании контента
CN105845128B (zh) * 2016-04-06 2020-01-03 中国科学技术大学 基于动态剪枝束宽预测的语音识别效率优化方法
US11106716B2 (en) * 2017-11-13 2021-08-31 Accenture Global Solutions Limited Automatic hierarchical classification and metadata identification of document using machine learning and fuzzy matching
CN108154191B (zh) * 2018-01-12 2021-08-10 北京经舆典网络科技有限公司 文档图像的识别方法和系统
CN109344309A (zh) * 2018-09-18 2019-02-15 上海唯识律简信息科技有限公司 基于卷积神经网络堆叠泛化的文档图像分类方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178563A1 (en) * 2012-07-23 2015-06-25 Hewlett-Packard Development Company, L.P. Document classification
CN108763325A (zh) * 2018-05-04 2018-11-06 北京达佳互联信息技术有限公司 一种网络对象处理方法及装置
CN108984706A (zh) * 2018-07-06 2018-12-11 浙江大学 一种基于深度学习融合文本和结构特征的网页分类方法
CN109582794A (zh) * 2018-11-29 2019-04-05 南京信息工程大学 基于深度学习的长文分类方法
CN109344815A (zh) * 2018-12-13 2019-02-15 深源恒际科技有限公司 一种文档图像分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297053A (zh) * 2021-12-15 2022-04-08 国网上海市电力公司 一种基于多层感知机平滑的软件程序安全检测方法

Also Published As

Publication number Publication date
CN110532448A (zh) 2019-12-03
CN110532448B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
WO2021078027A1 (zh) 构建网络结构优化器的方法、装置及计算机可读存储介质
WO2022142014A1 (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN111368893B (zh) 图像识别方法、装置、电子设备及存储介质
WO2021143267A1 (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
WO2021155713A1 (zh) 基于权重嫁接的模型融合的人脸识别方法及相关设备
WO2017202125A1 (zh) 文本分类方法及装置
US10452702B2 (en) Data clustering
WO2021120677A1 (zh) 一种仓储模型训练方法、装置、计算机设备及存储介质
US20200004815A1 (en) Text entity detection and recognition from images
WO2019047790A1 (zh) 生成机器学习样本的组合特征的方法及系统
CN110569377A (zh) 一种媒体文件的处理方法和装置
WO2021000411A1 (zh) 基于神经网络的文档分类方法、装置、设备及存储介质
EP3721359A1 (en) Content based transformation for digital documents
WO2023138188A1 (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN113610239A (zh) 针对机器学习的特征处理方法及特征处理系统
CN112653798A (zh) 智能客服语音应答方法、装置、计算机设备及存储介质
WO2023024413A1 (zh) 信息的匹配方法、装置、计算机设备及可读存储介质
CN114091472B (zh) 多标签分类模型的训练方法
WO2024040941A1 (zh) 神经网络结构搜索方法、装置及存储介质
CN113240071A (zh) 图神经网络处理方法、装置、计算机设备及存储介质
CN115510186A (zh) 基于意图识别的即时问答方法、装置、设备及存储介质
CN118070072A (zh) 基于人工智能的问题处理方法、装置、设备及存储介质
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
JP2024105206A (ja) 倫理学に基づくマルチモーダルユーザ投稿監視

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19936138

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19936138

Country of ref document: EP

Kind code of ref document: A1