WO2020232872A1 - 表格识别方法、装置、计算机设备和存储介质 - Google Patents

表格识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2020232872A1
WO2020232872A1 PCT/CN2019/102726 CN2019102726W WO2020232872A1 WO 2020232872 A1 WO2020232872 A1 WO 2020232872A1 CN 2019102726 W CN2019102726 W CN 2019102726W WO 2020232872 A1 WO2020232872 A1 WO 2020232872A1
Authority
WO
WIPO (PCT)
Prior art keywords
picture
characters
character
content
file
Prior art date
Application number
PCT/CN2019/102726
Other languages
English (en)
French (fr)
Inventor
高梁梁
孙双双
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020232872A1 publication Critical patent/WO2020232872A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Definitions

  • This application relates to a form identification method, device, computer equipment and storage medium.
  • PDF Portable Document Format
  • Portable Document Format Portable Document Format
  • PDF Portable Document Format
  • a PDF document is a document that cannot be edited directly. Many professional data are displayed in the form of PDF files. When it comes to table data, it is usually to convert the table into a picture in advance, and then embed the table picture into the PDF document. PDF documents do not have special definitions for table data, but only the position combination of lines and text. This makes it very difficult to extract tabular data from PDF documents.
  • a form recognition method includes:
  • a corresponding table file is generated in a preset format.
  • a form recognition device includes:
  • the acquisition module is used to acquire the target document whose document format is PDF format
  • the determining module is used to determine the table area where the table content in the target document is located through the pre-trained table positioning model
  • a generating module for cutting out the table content in the table area from the target document, and generating a corresponding table picture according to the table content
  • the determining module is further configured to perform image recognition on the form picture, and determine the characters in the form picture and the position information of the characters;
  • the generating module is further configured to generate a corresponding table file in a preset format according to the characters and the position information.
  • a computer device includes a memory and one or more processors.
  • the memory stores computer-readable instructions.
  • the one or more A processor implements the steps of the form identification method.
  • One or more non-volatile computer-readable storage media storing computer-readable instructions, which when executed by one or more processors, cause the one or more processors to implement the table Identify the steps of the method.
  • Fig. 1 is an application scenario diagram of a table recognition method according to one or more embodiments.
  • Fig. 2 is a schematic flow chart of a table recognition method according to one or more embodiments.
  • FIG. 3 is a schematic flowchart of the steps of binarizing a table picture according to one or more embodiments.
  • Fig. 4 is a block diagram of a table recognition device according to one or more embodiments.
  • Fig. 5 is a block diagram of a form recognition device in another embodiment.
  • Figure 6 is a block diagram of a computer device according to one or more embodiments.
  • the form identification method provided in this application can be applied to the application environment as shown in FIG. 1.
  • the terminal 110 and the server 120 communicate through a network.
  • the user can send the target document in PDF format to the server 120 through the terminal 110, and the server 120 obtains the target document and executes the form identification method.
  • the terminal 110 may be, but is not limited to, various personal computers, notebook computers, smart phones, tablet computers, and portable wearable devices.
  • the server 120 may be implemented by an independent server or a server cluster composed of multiple servers.
  • a method for identifying a table is provided. Taking the method applied to the server in FIG. 1 as an example, the method includes the following steps:
  • the target document is a document stored in PDF format.
  • the PDF format is a portable document format, which is a file format developed for file exchange in a way that has nothing to do with applications, operating systems, and hardware.
  • many professional data are displayed in the form of PDF files, and when it comes to table data, the table is usually converted into pictures in advance, and then the table pictures are embedded in the PDF document.
  • the server may obtain a target document whose document format is a PDF format, and the target document in this embodiment may also be referred to as a PDF document.
  • the target document includes table content.
  • a form recognition client is running on the terminal, and the user can log in to the form recognition client, and upload a PDF document through the form recognition client, and the form recognition client sends the uploaded PDF document to the server.
  • the server can receive PDF documents containing form content sent by other computer devices through a network connection.
  • S204 Determine the table area where the table content in the target document is located through the pre-trained table positioning model.
  • the table positioning model is a neural network model for positioning tables.
  • the table positioning model may specifically be a YOLO (You only look once) model.
  • the YOLO model is a neural network model, specifically a target detection model based on deep learning.
  • the neural network is a convolutional neural network (Convolutional Neural Network, referred to as CNN), which is an artificial neural network.
  • Convolutional neural networks include convolutional layers (Convolutional Layer) and sub-sampling layers (Pooling Layer).
  • each feature map includes multiple neurons, and all neurons in the same feature map share a convolution kernel.
  • the convolution kernel is the weight of the corresponding neuron, and the convolution kernel represents a feature.
  • the convolution kernel is generally initialized in the form of a random decimal matrix, and a reasonable convolution kernel will be learned during the network training process.
  • the convolutional layer can reduce the connections between the layers in the neural network, while reducing the risk of overfitting.
  • the convolutional layer may have one layer or multiple layers.
  • Subsampling is also called pooling, and usually has two forms: Mean Pooling and Max Pooling. Subsampling can be regarded as a special convolution process. Convolution and sub-sampling greatly simplify the complexity of the neural network and reduce the parameters of the neural network.
  • the server may input the target document into the table positioning model, determine the table content in the target document through the table positioning model, and output the coordinate information of the area where the table content is located.
  • the computer device can determine the table area where the table content in the target document is located.
  • the training step of the table positioning model specifically includes: obtaining a sample document whose document format is PDF format; determining a sample table area corresponding to the sample document; marking the sample coordinates corresponding to the sample table area; Input to the table positioning model to obtain the intermediate positioning result; according to the difference between the intermediate positioning result and the sample coordinates, adjust the model parameters of the table positioning model and continue training until the training stop condition is met.
  • a sample document in the PDF format can be obtained in advance.
  • Determine the sample table area in the sample document through manual or automatic labeling For example, the user can browse the sample document through the terminal, and select the sample table area in the sample document through the input device.
  • the terminal may send the sample document marked with the sample form area to the server.
  • the server determines the sample coordinates corresponding to the sample table area according to the marked sample table area. For example, locate the coordinates of the upper left corner and the lower right corner of the sample table area, and use the coordinates of the upper left corner and the lower right corner as the sample coordinates.
  • the server may input the sample document into the table positioning model to obtain an intermediate positioning result, and adjust the model parameters of the table positioning model according to the difference between the intermediate positioning result and the sample coordinates and continue training until the training stop condition is satisfied.
  • the intermediate positioning result is the result output by the table positioning model after the sample document is input to the table positioning model during the training process.
  • the training stop condition is a condition for ending model training.
  • the training stop condition may be that the preset number of iterations is reached, or the output performance index of the table positioning model after adjusting the model parameters reaches the preset index.
  • the computer device can compare the difference between the intermediate positioning result and the sample coordinates, so as to adjust the model parameters of the table positioning model in the direction of reducing the difference. If the training stop condition is not satisfied after adjusting the model parameters, return to the step of inputting the sample document into the table positioning model to obtain the intermediate positioning result and continue training until the training stop condition is met.
  • adjusting the model parameters of the table positioning model may be locally adjusting the model parameters of the table positioning model. Specifically, some model parameters can be kept unchanged, and other model parameters can be adjusted.
  • the table positioning model is trained by the sample document and the sample coordinates of the sample table area in the sample document, so that the table positioning model can learn the ability to locate the table area.
  • the model by adjusting the model parameters, a model that accurately locates the tables in the PDF document can be trained as soon as possible, which improves the training efficiency.
  • the form recognition method further includes a document conversion step.
  • the step specifically includes: determining a plurality of document pages in the target document; converting each document page into a corresponding picture object; The size of the image is scaled to obtain a standard picture object.
  • Step S204 specifically includes: respectively inputting standard picture objects into the pre-trained table positioning model, and determining the table area where the table content in each standard picture object is located through the table positioning model.
  • the server may identify multiple document pages in the target document, and convert the target document into corresponding multiple image objects according to page numbers. Perform image zoom processing on each picture object to obtain a standard picture object in a standard format. Then input the standard picture object into the pre-trained table positioning model, and determine the table area where the table content in each standard picture object is located through the table positioning model.
  • the server that executes the quasi-change of the target document may be the server that executes the recognition of the table image, or may be another server.
  • the server that performs the quasi-change of the target document is different from the server that recognizes the table image, data can be transmitted between the two through the interface.
  • the target document is converted into multiple picture objects according to page numbers, and the image is zoomed and then input into the table positioning model. Multiple pages in the target document can be processed in parallel at the same time, which greatly improves the processing efficiency.
  • the server can directly cut out the table content in the table area from the target document, or extract the table content from the target document.
  • the server generates corresponding table pictures according to the table content.
  • S208 Perform image recognition on the form picture, and determine the characters in the form picture and the position information of the characters.
  • the server may recognize the characters in the form picture through OCR (Optical Character Recognition) technology or other image recognition technology.
  • the server can also determine the relative position information of the characters in the table picture through edge detection technology.
  • the server can establish a coordinate system based on the table picture, determine the rectangular frame where the character is located according to the four points around the character, and use the coordinates of the middle position of the rectangular frame as the position information of the character; or, take the upper left and lower right of the rectangular frame The coordinate points are used as the position information of the character.
  • the preset format is a preset file format, such as doc (Document, a text format), xls (a spreadsheet format), and PPT (a presentation format) and other preset documents Format, or a preset web page format, etc.
  • the table file can be a table file or a web page file.
  • the server can store the character and the position information of the character in the table picture in the database, specifically [character: position information] Data group to associate storage.
  • the server generates a corresponding table file in a preset format according to the associated stored data group.
  • the above table recognition method obtains the target document whose document format is PDF format.
  • the table area where the table content is located in the target document can be quickly and accurately located, and then the table area is cut out from the target document According to the content of the table, the corresponding table image is generated.
  • perform image recognition on the table picture determine the characters in the table picture and the position information of the characters, and generate the corresponding table file according to the preset format according to the characters and the corresponding position information.
  • the table area is first located in the target document and the table picture is generated, and then the table information in the table picture is recognized and the corresponding table file is generated, thereby achieving accurate extraction of the table data from the PDF document.
  • the corresponding inquiry and positioning can be performed directly from the generated table file, which greatly improves the processing efficiency of the PDF document.
  • the table recognition method further includes performing two operations on the table picture.
  • the step of value processing which specifically includes:
  • binarization is to binarize the pixels of the picture.
  • the gray value of the pixel in the table picture is set to two preset gray values, such as 0 or 255, so that the table appears obvious
  • the black and white visual effects can effectively filter out the interference factors in the table pictures.
  • the server may convert the table picture into a grayscale table picture, that is, convert the RGB (red, green, blue, red, green, and blue) value of each pixel in the table picture into a gray value.
  • the method of converting the RGB value of each pixel in the table image into a gray value may specifically be a weighted average method, a maximum value method, or an average value method.
  • S304 From the gray-scaled table picture, a pixel that is detected as an edge point and whose pixel value is less than a threshold is taken as a table content pixel and set as a first pixel value.
  • the edge point is the point where the gray value changes most obviously in the table image.
  • the server may use, from the gray-scaled table picture, a pixel point detected as an edge point with a pixel value less than a threshold value as the table content pixel point. And set the pixel value of all pixels in the table content as the first pixel value, such as 0.
  • the server may use Sobel operator to detect edge points in the table picture.
  • Sobel operator algorithm has been very mature in the field of image detection, so I will not repeat it here.
  • the server may set the threshold in advance. There are many ways to select the threshold. For example, the server can scan all pixels in the table picture, calculate the average gray value of all pixels, and use the average gray value as the threshold. Or, the server can use the histogram method to determine the threshold. Specifically, draw a histogram of the pixel values of the pixels in the table picture, find the two highest peaks in the histogram, and then calculate the lowest peak valley between the two peaks The pixel value of is used as the threshold.
  • the pixels detected as edge points and whose pixel value is less than the threshold can be regarded as the table content pixels, and the pixel values of all content pixels are set as the first pixel value;
  • the pixels other than the content pixels are used as background pixels and set as the second pixel value.
  • S306 From the gray-scaled table picture, use other pixels except for the table content pixels as background pixels and set them as the second pixel value.
  • the server can set the gray-scaled table images, except for the table content pixels, as background pixels, and set the pixel values of all background pixels as the first Two pixel value.
  • the second pixel value is for example 255.
  • the second pixel value is different from the first pixel value.
  • the gray-scale table picture is converted into a binary table picture, and the pixels of the table content are set to the first pixel value, and the background pixels are set to the second pixel value.
  • the one pixel value and the second pixel value distinguish the table content and background in the table picture, and effectively filter out interfering pixels in the table picture.
  • the location information includes location coordinates.
  • Step S208 is the step of performing image recognition on the table picture and determining the characters in the table picture and the position information of the characters, including: performing image recognition on the table picture to determine the characters in the table picture; locating the recognized characters to obtain The position coordinates of the character in the table picture; the position coordinates include the abscissa and the ordinate.
  • Step S210 that is, the step of generating a corresponding table file in a preset format according to the characters and position information specifically includes: clustering the characters matching the abscissa as the table content of the same row according to the position coordinates corresponding to each character
  • the character clusters matching the ordinate are regarded as the table content of the same column; according to the table content of the same row and the table content of the same column, the corresponding table file is generated according to the preset format.
  • the server can recognize the characters in the form picture through OCR recognition technology.
  • the server can establish a coordinate system according to the table picture, traverse all recognized characters, and determine the abscissa and ordinate of each character in the table picture.
  • the server regards the character clusters matching the abscissa as the table content of the same row, and the character clusters matching the ordinate as the table content of the same column.
  • the horizontal/vertical coordinate matching means that the horizontal/vertical coordinate is the same or similar within a preset error range.
  • the server may generate the corresponding table file according to the preset format according to the table content in the same row and the table content in the same column.
  • only the rows and columns of the table are aligned in the table file generated based on the table content of the same row and the table content of the same column.
  • the server can automatically generate corresponding table lines according to the table contents of each row and each column, or directly generate a table file without table lines.
  • clusters of characters matching the abscissa are regarded as the table content of the same row, and clusters of characters matching the ordinate are regarded as the table content of the same column.
  • the location information includes the cell where the character is located.
  • Step S208 that is, image recognition is performed on the table picture, and the step of determining the characters in the table picture and the position information of the characters includes: locating table lines in the table picture; determining multiple cells formed by the intersection of the table lines, and The characters in each cell.
  • Step S210 that is, the step of generating a corresponding table file in a preset format according to the characters and position information includes: generating a corresponding table according to the preset format according to the table lines and the characters in the cells formed by the table lines file.
  • the server may perform image detection on the table picture, and extract the horizontal and vertical lines in the table picture.
  • the server may set a length threshold, and horizontal and vertical lines that reach the length threshold are used as table lines. Then according to the coordinates of the table line, determine the multiple cells formed by the intersection of the table line. Identify the characters in each cell.
  • the server may generate a corresponding table file according to a preset format according to the table line and the characters in the cell formed by the table line.
  • the table line is positioned, and multiple cells formed by the intersection of the table line and the characters in each cell are determined, so that the table in the table picture can be accurately restored.
  • step S210 that is, the step of generating a corresponding table file in a preset format according to the character and position information specifically includes: converting the position information of the character in the table picture into a position matching the display page Coordinates; according to the characters and the corresponding position coordinates, the corresponding table file is generated according to the preset format; the display page is displayed through the terminal, and the table file is displayed on the display page.
  • the server may store the corresponding characters and position information in association.
  • the server obtains the size rule of the display page displayed by the terminal, and according to the size rule, converts the position information of the character in the table picture into position coordinates that match the display page.
  • the corresponding table file is generated according to the preset format. Display the display page through the terminal, and display the form file on the display page.
  • a form recognition device 400 which includes: an acquisition module 401, a determination module 402, and a generation module 403, wherein:
  • the obtaining module 401 is used to obtain a target document whose document format is a PDF format.
  • the determining module 402 is used to determine the table area where the table content in the target document is located through the pre-trained table positioning model.
  • the generating module 403 is used to cut out the table content in the table area from the target document, and generate corresponding table pictures according to the table content.
  • the determining module 402 is also used to perform image recognition on the form picture, and determine the characters in the form picture and the position information of the characters.
  • the generating module 403 is also used to generate a corresponding table file in a preset format according to the character and position information.
  • the form recognition device 400 further includes a conversion module 404 and an image scaling processing module 405, wherein:
  • the determining module 402 is also used to determine multiple document pages in the target document.
  • the conversion module 404 is used to convert each document page into a corresponding image object.
  • the image scaling processing module 405 is configured to perform image scaling processing on the picture object according to a preset size to obtain a standard picture object.
  • the determining module 402 is also used to input the standard picture objects into the pre-trained table positioning model, and determine the table area where the table content in each standard picture object is located through the table positioning model.
  • the form recognition device 400 further includes a setting module 406, wherein the conversion module 404 is also used to convert the form picture into a gray-scale form picture.
  • the setting module 406 is used to set the pixel points detected as edge points and whose pixel value is less than the threshold value from the gray-scaled table image as the table content pixel points and set the first pixel value; from the gray-scaled table image , The other pixels except the pixels of the table content are used as background pixels and set as the second pixel value.
  • the location information includes location coordinates.
  • the determining module 402 is also used to perform image recognition on the table picture, determine the characters in the table picture; locate the recognized characters, and obtain the position coordinates of the characters in the table picture; the position coordinates include the abscissa and the ordinate.
  • the generating module 403 is also used to cluster the characters matching the abscissa as the table content of the same row according to the position coordinates corresponding to each character, and the character clusters matching the ordinate as the table content of the same column; according to the table content of the same row The content and the table content in the same column will generate the corresponding table file according to the preset format.
  • the location information includes the cell where the character is located.
  • the determining module 402 is also used to locate the table line in the table picture; determine the multiple cells formed by the intersection of the table line and the characters in each cell.
  • the generating module 403 is also used to generate a corresponding table file in a preset format according to the character and position information, including: generating a corresponding table file according to the preset format according to the table line and the characters in the cell formed by the table line .
  • the generation module 403 is also used to convert the position information of the characters in the table picture into position coordinates matching the display page; according to the characters and the corresponding position coordinates, generate the corresponding table file in a preset format ; Display the display page through the terminal, and display the form file on the display page.
  • the table recognition device 400 further includes a model training module 407, where: the model training module 407 is used to obtain a sample document whose document format is PDF format; and to determine a sample table area corresponding to the sample document; Mark the sample coordinates corresponding to the sample table area; input the sample document into the table positioning model to obtain the intermediate positioning result; according to the difference between the intermediate positioning result and the sample coordinates, adjust the model parameters of the table positioning model and continue training until the training stop is satisfied End training when conditions are met.
  • the model training module 407 is used to obtain a sample document whose document format is PDF format; and to determine a sample table area corresponding to the sample document; Mark the sample coordinates corresponding to the sample table area; input the sample document into the table positioning model to obtain the intermediate positioning result; according to the difference between the intermediate positioning result and the sample coordinates, adjust the model parameters of the table positioning model and continue training until the training stop is satisfied End training when conditions are met.
  • the table recognition device described above obtains a target document whose document format is PDF format, and can quickly and accurately locate the table area in the target document where the table content is located through the pre-trained table positioning model, and then crop out the table area from the target document According to the content of the table, the corresponding table image is generated. Then perform image recognition on the table picture, determine the characters in the table picture and the position information of the characters, and generate the corresponding table file according to the preset format according to the characters and the corresponding position information. In this way, the table area is first located from the target document and the table picture is generated, and then the table information in the table picture is recognized and the corresponding table file is generated, thereby achieving accurate extraction of the table data from the PDF document. Moreover, when it is necessary to query or locate the content of the form, the corresponding query and location can be directly performed from the generated form file, which greatly improves the processing efficiency of PDF documents.
  • Each module in the above table recognition device can be implemented in whole or in part by software, hardware, and a combination thereof.
  • the foregoing modules may be embedded in the form of hardware or independent of the processor in the computer device, or may be stored in the memory of the computer device in the form of software, so that the processor can call and execute the operations corresponding to the foregoing modules.
  • a computer device is provided.
  • the computer device may be a server, and its internal structure diagram may be as shown in FIG. 6.
  • the computer equipment includes a processor, a memory, and a network interface connected through a system bus.
  • the processor of the computer device is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system and computer readable instructions.
  • the internal memory provides an environment for the operation of the operating system and computer-readable instructions in the non-volatile storage medium.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • the computer-readable instructions are executed by the processor to realize a form recognition method.
  • FIG. 6 is only a block diagram of part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device to which the solution of the present application is applied.
  • the specific computer device may Including more or fewer parts than shown in the figure, or combining some parts, or having a different arrangement of parts.
  • a computer device including a memory and one or more processors.
  • the memory stores computer-readable instructions.
  • the computer-readable instructions are executed by the one or more processors, one Or multiple processors execute the steps of the above table identification method.
  • the steps of the form identification method may be the steps in the form identification method of each of the above embodiments.
  • one or more non-volatile computer-readable storage media storing computer-readable instructions are provided.
  • the computer-readable instructions are executed by one or more processors, the one or more processors Perform the steps of the table recognition method described above.
  • the steps of the form identification method may be the steps in the form identification method of each of the above embodiments.
  • Non-volatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • ROM read only memory
  • PROM programmable ROM
  • EPROM electrically programmable ROM
  • EEPROM electrically erasable programmable ROM
  • Volatile memory may include random access memory (RAM) or external cache memory.
  • RAM is available in many forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous chain Channel (Synchlink) DRAM (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

一种表格识别方法,包括:获取文档格式为PDF格式的目标文档;通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域;从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片;对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息;根据所述字符和所述位置信息,按预设格式生成相应的表格文件。

Description

表格识别方法、装置、计算机设备和存储介质
相关申请的交叉引用
本申请要求于2019年5月22日提交中国专利局,申请号为201910427255.9,申请名称为“表格识别方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及一种表格识别方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,越来越多的文档格式被开发出来并被广泛使用着,比如PDF(Portable Document Format,便携式文档格式)格式的文档。其中,PDF是一种被广泛使用的电子文档格式。现在越来越多的专业资料、电子图书、产品说明和电子邮件等在开始使用PDF格式的文档。
PDF格式的文档是一种不可直接编辑的文档,很多专业数据都是以PDF文件的形式展示。当涉及到表格数据时,通常是提前将表格转换成图片,再将表格图片嵌入PDF文档中。PDF文档对表格数据也没有特殊的定义,而只是线条与文字的位置组合。这样使得从PDF文档中提取出表格数据变得很困难。
发明内容
根据本申请公开的各种实施例,提供一种表格识别方法。一种表格识别方法包括:
获取文档格式为PDF格式的目标文档;
通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域;
从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片;
对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息; 及
根据所述字符和所述位置信息,按预设格式生成相应的表格文件。
一种表格识别装置,所述装置包括:
获取模块,用于获取文档格式为PDF格式的目标文档;
确定模块,用于通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域;
生成模块,用于从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片;
所述确定模块还用于对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息;及
所述生成模块还用于根据所述字符和所述位置信息,按预设格式生成相应的表格文件。
一种计算机设备,包括存储器及一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述表格识别方法的步骤。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器实现所述表格识别方法的步骤。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据一个或多个实施例中表格识别方法的应用场景图。
图2为根据一个或多个实施例中表格识别方法的流程示意图。
图3为根据一个或多个实施例中对表格图片进行二值化处理步骤的流程示意图。
图4为根据一个或多个实施例中表格识别装置的框图。
图5为另一个实施例中表格识别装置的框图。
图6为根据一个或多个实施例中计算机设备的框图。
具体实施方式
为了使本申请的技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的表格识别方法,可以应用于如图1所示的应用环境中。终端110与服务器120通过网络进行通信。用户可通过终端110将PDF格式的目标文档发送至服务器120,服务器120获取该目标文档并执行所述表格识别方法。其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一些实施例中,如图2所示,提供了一种表格识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,获取文档格式为PDF格式的目标文档。
其中,目标文档是以PDF格式存储的文档。PDF格式是一种便携式文档格式,是用于与应用程序、操作系统、和硬件等均无关的方式进行文件交换所发展出的文件格式。在实际应用中,很多专业数据都是以PDF文件的形式展示,并且,当涉及到表格数据时,通常提前将表格转换成图片,再将表格图片嵌入PDF文档中。
具体地,服务器可获取文档格式为PDF格式的目标文档,本实施例中的目标文档也可称作PDF文档。其中,目标文档包括有表格内容。在一些实施例中,终端上运行有表格识别客户端,用户可登陆该表格识别客户端,并通过表格识别客户端上传PDF文档,表格识别客户端将上传的PDF文档发送至服务器。或者,服务器可通过网络连接接收其 他计算机设备发送的含有表格内容的PDF文档。
S204,通过预训练的表格定位模型,确定目标文档中的表格内容所在的表格区域。
其中,表格定位模型是一种用于定位表格的神经网络模型。在一些实施例中,表格定位模型具体可以是YOLO(You only look once,你只看一次)模型。YOLO模型是一种神经网络模型,具体是基于深度学习的目标检测模型。
其中,神经网络是卷积神经网络(Convolutional Neural Network,简称CNN),是一种人工神经网络。卷积神经网络包括卷积层(Convolutional Layer)和子采样层(Pooling Layer)。
在卷积神经网络的卷积层中,存在多个特征图(Feature Map),每个特征图包括多个神经元,同一个特征图的所有神经元共用一个卷积核。卷积核就是相应神经元的权值,卷积核代表一个特征。卷积核一般以随机小数矩阵的形式初始化,在网络的训练过程中将学习得到合理的卷积核。卷积层可以减少神经网络中各层之间的连接,同时又降低了过拟合的风险。在本实施例中,卷积层可以有一层也可以有多层。
子采样也叫做池化(Pooling),通常有均值子采样(Mean Pooling)和最大值子采样(Max Pooling)两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了神经网络的复杂度,减少了神经网络的参数。
具体地,服务器可将目标文档输入至表格定位模型中,通过表格定位模型确定目标文档中的表格内容,并输出该表格内容所在区域的坐标信息。这样,计算机设备就可确定目标文档中的表格内容所在的表格区域。
在一些实施例中,该表格定位模型的训练步骤具体包括:获取文档格式为PDF格式的样本文档;确定与样本文档相应的样本表格区域;标记与样本表格区域相对应的样本坐标;将样本文档输入至表格定位模型,得到中间定位结果;按照中间定位结果与样本坐标的差异,调整表格定位模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
具体地,在训练表格定位模型的过程中,可预先获取文档格式为PDF格式的样本文档。通过人为或自动标注的方式确定样本文档中的样本表格区域。比如,用户可通过终端浏览样本文档,并通过输入装置选中样本文档中的样本表格区域。终端可将标注了样本表格区域的样本文档发送至服务器。服务器根据标注的样本表格区域,确定与该样本表格区 域相对应的样本坐标。比如,定位该样本表格区域的左上角和右下角的坐标,将左上角和右下角的坐标作为样本坐标。
进一步地,服务器可将样本文档输入至表格定位模型,得到中间定位结果,并按照中间定位结果与样本坐标的差异,调整表格定位模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
其中,中间定位结果是在训练过程中,向表格定位模型输入样本文档后,由该表格定位模型所输出的结果。训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的表格定位模型的输出性能指标达到预设指标。
在一些实施例中,计算机设备可比较中间定位结果与样本坐标的差异,从而朝减少差异的方向,调整表格定位模型的模型参数。如果调整模型参数后,不满足训练停止条件,则返回将样本文档输入至表格定位模型,得到中间定位结果的步骤并继续训练,直到满足训练停止条件时结束训练。
在一些实施例中,调整表格定位模型的模型参数可以是局部调整表格定位模型的模型参数。具体可保持部分模型参数不变,对另一部分模型参数做调整。
上述实施例中,通过样本文档和样本文档中样本表格区域的样本坐标来训练表格定位模型,可使得表格定位模型习得定位表格区域的能力。在模型的训练过程中,通过调整模型参数,就可以尽快地训练出对PDF文档中的表格进行准确定位的模型,提高了训练效率。
在一些实施例中,该表格识别方法还包括文档转换的步骤,该步骤具体包括:确定目标文档中的多个文档页面;分别将各文档页面转换成相应的图片对象;将图片对象按预设尺寸进行图像缩放处理,得到标准图片对象。步骤S204具体包括:分别将标准图片对象输入至预训练的表格定位模型中,通过表格定位模型确定各标准图片对象中的表格内容所在的表格区域。
在一些实施例中,服务器可识别目标文档中的多个文档页面,按页码将目标文档转换成相应的多个图片对象。对各图片对象进行图像缩放处理,得到标准格式的标准图片对象。再将标准图片对象输入至预训练的表格定位模型中,通过表格定位模型确定各标准图片对象中的表格内容所在的表格区域。
在一些实施例中,执行对目标文档进行准换的服务器可以是执行对表格图片进行识别的服务器,也可以是其他的服务器。当对目标文档进行准换的服务器与对表格图片进行识别的服务器不同时,这两者之间可以通过接口进行数据传输。
上述实施例中,将目标文档按页码转换成多个图片对象,并进行图像缩放处理后输入至表格定位模型中,可同时并行对目标文档中的多个页面进行处理,大大提高了处理效率。
S206,从目标文档中裁剪出处于表格区域内的表格内容,并依据表格内容生成相应的表格图片。
具体地,服务器在确定了表格区域后,可直接从目标文档中裁剪出处于表格区域内的表格内容,或者从目标文档中提取出表格内容。服务器根据表格内容生成相应的表格图片。
S208,对表格图片进行图像识别,确定表格图片中的字符、及字符的位置信息。
具体地,服务器可通过OCR(Optical Character Recognition,光学字符识别)技术或其他的图像识别技术识别表格图片中的字符。服务器还可通过边缘检测技术确定字符在表格图片中的相对位置信息。比如,服务器可依据表格图片建立坐标系,根据字符周围的四个点确定字符所在的矩形框,以矩形框的中间位置坐标作为该字符的位置信息;或者,取矩形框的左上和右下两个坐标点作为该字符的位置信息。
S210,根据字符和位置信息,按预设格式生成相应的表格文件。
其中,预设格式是预先设置的文件格式,比如doc(Document,文件,是一种文本格式)、xls(一种电子表格的格式)、和PPT(一种演示文稿的格式)等预设文档格式,或者是预设的网页格式等。表格文件具体可以是表格文档,还可以是网页文件等。
具体地,服务器在确定了表格图片中的字符、及该字符的位置信息后,可将字符、以及该字符在表格图片中的位置信息存储至数据库中,具体可以[字符:位置信息]这样的数据组来关联存储。服务器根据关联存储的数据组,按预设格式生成相应的表格文件。
上述表格识别方法,获取文档格式为PDF格式的目标文档,通过预训练的表格定位模型,可以快速准确地定位出目标文档中该表格内容所在的表格区域,再从目标文档中裁剪出处于表格区域内的表格内容,并依据表格内容生成相应的表格图片。再对表格图片进行图像识别,确定表格图片中的字符、及字符的位置信息,并根据字符和相应的位置信息,按预设格式生成相应的表格文件。这样,先从目标文档中定位表格区域并生成表格图片, 再识别表格图片中的表格信息并生成相应的表格文件,从而实现了从PDF文档中准确地提取出表格数据。并且,当需查询或定位表格内容时,就可直接从生成的表格文件中进行相应的查询和定位,大大提高了PDF文档的处理效率。
在一些实施例中,步骤S206之后,也就是从目标文档中裁剪出处于表格区域内的表格内容,并依据表格内容生成相应的表格图片的步骤之后,该表格识别方法还包括对表格图片进行二值化处理的步骤,该步骤具体包括:
S302,将表格图片转换成灰度化的表格图片。
其中,二值化是将图片的像素进行二值化处理,具体是将表格图片中的像素点的灰度值设置为预设的两个灰度值,例如0或255,使得表格呈现出明显的黑和白的视觉效果,可以有效地过滤掉表格图片中的干扰因素。
具体地,服务器可将表格图片转换成灰度化的表格图片,也就是将表格图片中各像素的RGB(red、green、blue,红绿蓝)值转化为灰度值。将表格图像中各像素的RGB值转化为灰度值的方法具体可以是加权平均法、最大值法或平均值法等。举例说明,加权平均法是将表格图片中每个像素点的灰度值设为该像素点的RGB值的加权平均值,比如Gray(灰度值)=0.30R+0.59G+0.11B。
S304,从灰度化的表格图片中,将检测为边缘点、且像素值小于阈值的像素点作为表格内容像素点并置为第一像素值。
其中,边缘点是表格图像中灰度值变化最明显的点。具体地,服务器可从灰度化的表格图片中,将检测为边缘点、且像素值小于阈值的像素点作为表格内容像素点。并将所有表格内容像素点的像素值置为第一像素值,第一像素值比如0。
在一些实施例中,服务器可采用Sobel operator(索贝尔算子)检测表格图片中的边缘点。其中,索贝尔算子算法在图像检测领域的使用已很成熟,在此不做赘述。
在一些实施例中,服务器可预先设置阈值。阈值的选取有多种方式,比如,服务器可扫描表格图片中的所有像素点,计算所有像素点的平均灰度值,将平均灰度值作为阈值。又或者,服务器可使用直方图方法来确定阈值,具体是绘制表格图片中像素点的像素值的直方图,查找直方图中的两个最高的峰,然后将两个峰之间的峰谷最低处的像素值作为阈值。当计算机设备设置合理的阈值后,可将检测为边缘点、且像素值小于阈值的像素点作 为表格内容像素点,并将所有的内容像素点的像素值置为第一像素值;将除表格内容像素点外的其他像素点作为背景像素点并置为第二像素值。
S306,从灰度化的表格图片中,将除表格内容像素点外的其他像素点作为背景像素点并置为第二像素值。
具体地,服务器在确定了表格内容像素点后,可将灰度化的表格图片中,除表格内容像素点外的其他像素点作为背景像素点,并将所有背景像素点的像素值置为第二像素值。其中,第二像素值比如255。并且,第二像素值不同于第一像素值。
上述实施例中,将灰度化的表格图片转化为二值化的表格图片,并将表格内容像素点置为第一像素值,将背景像素点置为第二像素值,可以明确地通过第一像素值和第二像素值区分开表格图片中的表格内容和背景,有效地过滤掉表格图片中的干扰像素。
在一些实施例中,位置信息包括位置坐标。步骤S208,也就是对表格图片进行图像识别,确定表格图片中的字符、及字符的位置信息的步骤,包括:对表格图片进行图像识别,确定表格图片中的字符;定位识别到的字符,得到字符在表格图片中的位置坐标;位置坐标包括横坐标和纵坐标。步骤S210,也就是根据字符和位置信息,按预设格式生成相应的表格文件的步骤具体包括:依据各字符所对应的位置坐标,将横坐标匹配的字符聚类作为同一行的表格内容,将纵坐标匹配的字符聚类作为同一列的表格内容;根据同一行的表格内容和同一列的表格内容,按照预设格式生成相应的表格文件。
具体地,服务器可通过OCR识别技术识别表格图片中的字符。服务器可根据表格图片建立坐标系,遍历识别到的所有字符,确定各字符在表格图片中的横坐标和纵坐标。服务器将横坐标匹配的字符聚类作为同一行的表格内容,将纵坐标匹配的字符聚类作为同一列的表格内容。其中,横/纵坐标匹配是指横/纵坐标相同或在预设误差范围内相近。进一步地,服务器可根据同一行的表格内容和同一列的表格内容,按照预设格式生成相应的表格文件。
在一些实施例中,根据同一行的表格内容和同一列的表格内容所生成的表格文件中仅对齐了表格中行列的数据。服务器可依据各行和各列的表格内容自动生成相应的表格线,或者直接生成无表格线的表格文件。
上述实施例中,根据表格图片中的字符、以及字符的横坐标和纵坐标,将横坐标匹配 的字符聚类作为同一行的表格内容,将纵坐标匹配的字符聚类作为同一列的表格内容,从而可以快速准确地生成相应的表格文件。
在一些实施例中,位置信息包括字符所在的单元格。步骤S208,也就是对表格图片进行图像识别,确定表格图片中的字符、及字符的位置信息的步骤包括:定位表格图片中的表格线;确定由表格线交叉所形成的多个单元格、以及各单元格中的字符。步骤S210,也就是根据字符和位置信息,按预设格式生成相应的表格文件的步骤包括:根据表格线、以及处于由表格线所形成的单元格中的字符,按照预设格式生成相应的表格文件。
具体地,服务器可对表格图片进行图像检测,提取出表格图片中的横线和竖线。在一些实施例中,服务器可设置长度阈值,将达到长度阈值的横线和竖线作为表格线。再根据表格线的坐标,确定表格线交叉所形成的多个单元格。识别各单元格中的字符。进而,服务器可根据表格线、以及处于由表格线所形成的单元格中的字符,按照预设格式生成相应的表格文件。
上述实施例中,定位表格线,并确定由表格线交叉所形成的多个单元格、以及各单元格中的字符,从而可以准确地还原出表格图片中的表格。
在一些实施例中,步骤S210,也就是根据字符和位置信息,按预设格式生成相应的表格文件的步骤具体包括:将字符在表格图片中的位置信息,转换成与展示页面相匹配的位置坐标;根据字符和相应的位置坐标,按预设格式生成相应的表格文件;通过终端展示展示页面,并在展示页面中展示表格文件。
具体地,服务器在确定了表格图片中的字符和字符的位置信息后,可关联存储相应的字符和位置信息。服务器获取终端所展示的展示页面的尺寸规则,依据该尺寸规则将字符在表格图片中的位置信息,转换成与展示页面相匹配的位置坐标。再根据字符和相应的位置坐标,按预设格式生成相应的表格文件。通过终端展示展示页面,并在展示页面中展示该表格文件。
上述实施例中,通过将表格图片中的位置信息,转换成与展示页面相匹配的位置坐标后,依据字符和相应的位置坐标在展示页面上展示相应的表格内容时不会出现错落的情况,便于用户在展示页面上获取表格内容。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这 些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一些实施例中,如图4所示,提供了一种表格识别装置400,包括:获取模块401、确定模块402和生成模块403,其中:
获取模块401,用于获取文档格式为PDF格式的目标文档。
确定模块402,用于通过预训练的表格定位模型,确定目标文档中的表格内容所在的表格区域。
生成模块403,用于从目标文档中裁剪出处于表格区域内的表格内容,并依据表格内容生成相应的表格图片。
确定模块402还用于对表格图片进行图像识别,确定表格图片中的字符、及字符的位置信息。
生成模块403还用于根据字符和位置信息,按预设格式生成相应的表格文件。
在一些实施例中,该表格识别装置400还包括转换模块404和图像缩放处理模块405,其中:
确定模块402还用于确定目标文档中的多个文档页面。
转换模块404,用于分别将各文档页面转换成相应的图片对象。
图像缩放处理模块405,用于将图片对象按预设尺寸进行图像缩放处理,得到标准图片对象。
确定模块402还用于分别将标准图片对象输入至预训练的表格定位模型中,通过表格定位模型确定各标准图片对象中的表格内容所在的表格区域。
在一些实施例中,该表格识别装置400还包括设置模块406,其中:转换模块404还用于将表格图片转换成灰度化的表格图片。设置模块406,用于从灰度化的表格图片中, 将检测为边缘点、且像素值小于阈值的像素点作为表格内容像素点并置为第一像素值;从灰度化的表格图片中,将除表格内容像素点外的其他像素点作为背景像素点并置为第二像素值。
在一些实施例中,位置信息包括位置坐标。确定模块402还用于对表格图片进行图像识别,确定表格图片中的字符;定位识别到的字符,得到字符在表格图片中的位置坐标;位置坐标包括横坐标和纵坐标。生成模块403还用于依据各字符所对应的位置坐标,将横坐标匹配的字符聚类作为同一行的表格内容,将纵坐标匹配的字符聚类作为同一列的表格内容;根据同一行的表格内容和同一列的表格内容,按照预设格式生成相应的表格文件。
在一些实施例中,位置信息包括字符所在的单元格。确定模块402还用于定位表格图片中的表格线;确定由表格线交叉所形成的多个单元格、以及各单元格中的字符。生成模块403还用于根据字符和位置信息,按预设格式生成相应的表格文件包括:根据表格线、以及处于由表格线所形成的单元格中的字符,按照预设格式生成相应的表格文件。
在一些实施例中,生成模块403还用于将字符在表格图片中的位置信息,转换成与展示页面相匹配的位置坐标;根据字符和相应的位置坐标,按预设格式生成相应的表格文件;通过终端展示展示页面,并在展示页面中展示表格文件。
参考图5,在一些实施例中,该表格识别装置400还包括模型训练模块407,其中:模型训练模块407用于获取文档格式为PDF格式的样本文档;确定与样本文档相应的样本表格区域;标记与样本表格区域相对应的样本坐标;将样本文档输入至表格定位模型,得到中间定位结果;按照中间定位结果与样本坐标的差异,调整表格定位模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
上述表格识别装置,获取文档格式为PDF格式的目标文档,通过预训练的表格定位模型,可以快速准确地定位出目标文档中该表格内容所在的表格区域,再从目标文档中裁剪出处于表格区域内的表格内容,并依据表格内容生成相应的表格图片。再对表格图片进行图像识别,确定表格图片中的字符、及字符的位置信息,并根据字符和相应的位置信息,按预设格式生成相应的表格文件。这样,先从目标文档中定位表格区域并生成表格图片,再识别表格图片中的表格信息并生成相应的表格文件,从而实现了从PDF文档中准确地提取出表格数据。并且,当需查询或定位表格内容时,就可直接从生成的表格文件中进行 相应的查询和定位,大大提高了PDF文档的处理效率。
关于表格识别装置的具体限定可以参见上文中对于表格识别方法的限定,在此不再赘述。上述表格识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种表格识别方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,提供了一种计算机设备,包括存储器及一个或多个处理器,存储器中储存有计算机可读指令,计算机可读指令被所述一个或多个处理器执行时,使得一个或多个处理器执行上述表格识别方法的步骤。此处表格识别方法的步骤可以是上述各个实施例的表格识别方法中的步骤。
在一些实施例中,提供了一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述表格识别方法的步骤。此处表格识别方法的步骤可以是上述各个实施例的表格识别方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的 流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

  1. 一种表格识别方法,所述方法包括:
    获取文档格式为PDF格式的目标文档;
    通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域;
    从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片;
    对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息;及
    根据所述字符和所述位置信息,按预设格式生成相应的表格文件。
  2. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    确定所述目标文档中的多个文档页面;
    分别将各文档页面转换成相应的图片对象;及
    将所述图片对象按预设尺寸进行图像缩放处理,得到标准图片对象;
    所述通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域,包括:
    分别将所述标准图片对象输入至预训练的表格定位模型中,通过所述表格定位模型确定各标准图片对象中的表格内容所在的表格区域。
  3. 根据权利要求1所述的方法,其特征在于,所述从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片的步骤之后,所述方法还包括:
    将所述表格图片转换成灰度化的表格图片;
    从灰度化的表格图片中,将检测为边缘点、且像素值小于阈值的像素点作为表格内容像素点并置为第一像素值;及
    从灰度化的表格图片中,将除所述表格内容像素点外的其他像素点作为背景像素点并置为第二像素值。
  4. 根据权利要求1所述的方法,其特征在于,所述位置信息包括位置坐标;所述对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息,包括:
    对所述表格图片进行图像识别,确定所述表格图片中的字符;及
    定位识别到的所述字符,得到所述字符在所述表格图片中的位置坐标;所述位置坐标包括横坐标和纵坐标;
    所述根据所述字符和所述位置信息,按预设格式生成相应的表格文件包括:
    依据各字符所对应的位置坐标,将横坐标匹配的字符聚类作为同一行的表格内容,将纵坐标匹配的字符聚类作为同一列的表格内容;及
    根据所述同一行的表格内容和所述同一列的表格内容,按照预设格式生成相应的表格文件。
  5. 根据权利要求1所述的方法,其特征在于,所述位置信息包括字符所在的单元格;所述对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息,包括:
    定位所述表格图片中的表格线;及
    确定由所述表格线交叉所形成的多个单元格、以及各单元格中的字符;
    所述根据所述字符和所述位置信息,按预设格式生成相应的表格文件包括:
    根据所述表格线、以及处于由所述表格线所形成的单元格中的字符,按照预设格式生成相应的表格文件。
  6. 根据权利要求1所述的方法,其特征在于,所述根据所述字符和所述位置信息,按预设格式生成相应的表格文件,包括:
    将所述字符在所述表格图片中的位置信息,转换成与展示页面相匹配的位置坐标;
    根据所述字符和相应的位置坐标,按预设格式生成相应的表格文件;及
    通过终端展示所述展示页面,并在所述展示页面中展示所述表格文件。
  7. 根据权利要求1至6中任一项所述的方法,其特征在于,所述表格定位模型的训练步骤包括:
    获取文档格式为PDF格式的样本文档;
    确定与所述样本文档相应的样本表格区域;
    标记与所述样本表格区域相对应的样本坐标;
    将所述样本文档输入至表格定位模型,得到中间定位结果;及
    按照所述中间定位结果与所述样本坐标的差异,调整所述表格定位模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
  8. 一种表格识别装置,其特征在于,所述装置包括:
    获取模块,用于获取文档格式为PDF格式的目标文档;
    确定模块,用于通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域;
    生成模块,用于从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片;
    所述确定模块还用于对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息;及
    所述生成模块还用于根据所述字符和所述位置信息,按预设格式生成相应的表格文件。
  9. 根据权利要求8所述的装置,其特征在于,所述装置还包括:
    所述确定模块还用于确定所述目标文档中的多个文档页面;
    转换模块,用于分别将各文档页面转换成相应的图片对象;
    图像缩放处理模块,用于将所述图片对象按预设尺寸进行图像缩放处理,得到标准图片对象;及
    所述确定模块还用于分别将所述标准图片对象输入至预训练的表格定位模型中,通过所述表格定位模型确定各标准图片对象中的表格内容所在的表格区域。
  10. 根据权利要求8所述的装置,其特征在于,所述位置信息包括位置坐标;所述确定模块还用于对所述表格图片进行图像识别,确定所述表格图片中的字符;定位识别到的所述字符,得到所述字符在所述表格图片中的位置坐标;及所述位置坐标包括横坐标和纵坐标;所述生成模块还用于依据各字符所对应的位置坐标,将横坐标匹配的字符聚类作为同一行的表格内容,将纵坐标匹配的字符聚类作为同一列的表格内容;及根据所述同一行的表格内容和所述同一列的表格内容,按照预设格式生成相应的表格文件。
  11. 根据权利要求8所述的装置,其特征在于,所述位置信息包括字符所在的单元格; 所述确定模块还用于定位所述表格图片中的表格线;及确定由所述表格线交叉所形成的多个单元格、以及各单元格中的字符;所述生成模块还用于根据所述表格线、以及处于由所述表格线所形成的单元格中的字符,按照预设格式生成相应的表格文件。
  12. 根据权利要求8所述的装置,其特征在于,所述生成模块还用于将所述字符在所述表格图片中的位置信息,转换成与展示页面相匹配的位置坐标;根据所述字符和相应的位置坐标,按预设格式生成相应的表格文件;及通过终端展示所述展示页面,并在所述展示页面中展示所述表格文件。
  13. 一种计算机设备,包括存储器及一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    获取文档格式为PDF格式的目标文档;
    通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域;
    从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片;
    对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息;及
    根据所述字符和所述位置信息,按预设格式生成相应的表格文件。
  14. 根据权利要求13所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时还执行以下步骤:
    对所述表格图片进行图像识别,确定所述表格图片中的字符;
    定位识别到的所述字符,得到所述字符在所述表格图片中的位置坐标;所述位置坐标包括横坐标和纵坐标;
    依据各字符所对应的位置坐标,将横坐标匹配的字符聚类作为同一行的表格内容,将纵坐标匹配的字符聚类作为同一列的表格内容;及
    根据所述同一行的表格内容和所述同一列的表格内容,按照预设格式生成相应的表格文件。
  15. 根据权利要求13所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时还执行以下步骤:
    定位所述表格图片中的表格线;
    确定由所述表格线交叉所形成的多个单元格、以及各单元格中的字符;及
    根据所述表格线、以及处于由所述表格线所形成的单元格中的字符,按照预设格式生成相应的表格文件。
  16. 根据权利要求13所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时还执行以下步骤:
    将所述字符在所述表格图片中的位置信息,转换成与展示页面相匹配的位置坐标;
    根据所述字符和相应的位置坐标,按预设格式生成相应的表格文件;及
    通过终端展示所述展示页面,并在所述展示页面中展示所述表格文件。
  17. 一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    获取文档格式为PDF格式的目标文档;
    通过预训练的表格定位模型,确定所述目标文档中的表格内容所在的表格区域;
    从所述目标文档中裁剪出处于所述表格区域内的表格内容,并依据所述表格内容生成相应的表格图片;
    对所述表格图片进行图像识别,确定所述表格图片中的字符、及所述字符的位置信息;及
    根据所述字符和所述位置信息,按预设格式生成相应的表格文件。
  18. 根据权利要求17所述的介质,其特征在于,所述处理器执行所述计算机可读指令时还执行以下步骤:
    对所述表格图片进行图像识别,确定所述表格图片中的字符;
    定位识别到的所述字符,得到所述字符在所述表格图片中的位置坐标;所述位置坐标包括横坐标和纵坐标;
    依据各字符所对应的位置坐标,将横坐标匹配的字符聚类作为同一行的表格内容,将 纵坐标匹配的字符聚类作为同一列的表格内容;及
    根据所述同一行的表格内容和所述同一列的表格内容,按照预设格式生成相应的表格文件。
  19. 根据权利要求17所述的介质,其特征在于,所述处理器执行所述计算机可读指令时还执行以下步骤:
    定位所述表格图片中的表格线;
    确定由所述表格线交叉所形成的多个单元格、以及各单元格中的字符;及
    根据所述表格线、以及处于由所述表格线所形成的单元格中的字符,按照预设格式生成相应的表格文件。
  20. 根据权利要求17所述的介质,其特征在于,所述处理器执行所述计算机可读指令时还执行以下步骤:
    将所述字符在所述表格图片中的位置信息,转换成与展示页面相匹配的位置坐标;
    根据所述字符和相应的位置坐标,按预设格式生成相应的表格文件;及
    通过终端展示所述展示页面,并在所述展示页面中展示所述表格文件。
PCT/CN2019/102726 2019-05-22 2019-08-27 表格识别方法、装置、计算机设备和存储介质 WO2020232872A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910427255.9A CN110334585B (zh) 2019-05-22 2019-05-22 表格识别方法、装置、计算机设备和存储介质
CN201910427255.9 2019-05-22

Publications (1)

Publication Number Publication Date
WO2020232872A1 true WO2020232872A1 (zh) 2020-11-26

Family

ID=68139844

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/102726 WO2020232872A1 (zh) 2019-05-22 2019-08-27 表格识别方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110334585B (zh)
WO (1) WO2020232872A1 (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112540958A (zh) * 2020-12-08 2021-03-23 北京百度网讯科技有限公司 文件处理方法、装置、设备及计算机存储介质
CN112580594A (zh) * 2020-12-29 2021-03-30 浙江大华技术股份有限公司 文档识别方法、装置、计算机设备和存储介质
CN112650714A (zh) * 2020-12-22 2021-04-13 微民保险代理有限公司 文档展示方法、装置、设备及计算机可读介质
CN112712014A (zh) * 2020-12-29 2021-04-27 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
CN112861603A (zh) * 2020-12-17 2021-05-28 西安理工大学 一种有限表格自动识别与解析方法
CN113159969A (zh) * 2021-05-17 2021-07-23 广州故新智能科技有限责任公司 一种金融长文本复核系统
CN113177995A (zh) * 2021-04-30 2021-07-27 广联达科技股份有限公司 Cad图纸的文本重组方法和计算机可读存储介质
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113269153A (zh) * 2021-06-26 2021-08-17 中国电子系统技术有限公司 一种表格识别方法以及装置
CN113408244A (zh) * 2021-06-22 2021-09-17 平安科技(深圳)有限公司 Java应用生成Word文档方法、装置、设备及介质
CN113536751A (zh) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 表格数据的处理方法、装置、电子设备和存储介质
CN113610701A (zh) * 2021-08-04 2021-11-05 同方鼎欣科技股份有限公司 图像分页转换方法、装置、计算机设备及可读存储介质
CN113780229A (zh) * 2021-09-18 2021-12-10 北京金山数字娱乐科技有限公司 文本识别方法及装置
CN113792659A (zh) * 2021-09-15 2021-12-14 上海金仕达软件科技有限公司 文档识别方法、装置及电子设备
CN114022883A (zh) * 2021-11-05 2022-02-08 深圳前海环融联易信息科技服务有限公司 基于模型的金融领域交易文件表格日期提取方法
CN114943978A (zh) * 2022-05-13 2022-08-26 上海弘玑信息技术有限公司 一种表格重建的方法及电子设备
CN115019326A (zh) * 2022-08-02 2022-09-06 北京杭升科技有限公司 档案录入系统、方法、装置以及存储介质
CN115273108A (zh) * 2022-06-17 2022-11-01 吉林省吉林祥云信息技术有限公司 一种人工智能识别自动归集方法及系统
CN115601774A (zh) * 2022-12-12 2023-01-13 深圳前海环融联易信息科技服务有限公司(Cn) 表格识别方法、装置、设备、存储介质和程序产品
CN116168404A (zh) * 2023-01-31 2023-05-26 苏州爱语认知智能科技有限公司 基于空间变换的智能文档处理方法和系统
CN116994282A (zh) * 2023-09-25 2023-11-03 安徽省交通规划设计研究总院股份有限公司 一种用于桥梁设计图的钢筋数量识别归集方法
CN117556078A (zh) * 2024-01-11 2024-02-13 北京极致车网科技有限公司 可视化车辆登记证文件管理方法、装置及电子设备

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738030A (zh) * 2019-10-17 2020-01-31 上海眼控科技股份有限公司 表格重建方法、装置、电子设备及存储介质
CN110727962B (zh) * 2019-10-17 2023-07-07 武汉英思工程科技股份有限公司 一种适用于全流程过程化的电子签章方法
CN110909123B (zh) * 2019-10-23 2023-08-25 深圳价值在线信息科技股份有限公司 一种数据提取方法、装置、终端设备及存储介质
CN110956087B (zh) * 2019-10-25 2024-04-19 北京懿医云科技有限公司 一种图片中表格的识别方法、装置、可读介质和电子设备
CN111062259B (zh) * 2019-11-25 2023-08-25 泰康保险集团股份有限公司 表格识别方法和装置
CN111178154B (zh) * 2019-12-10 2023-04-07 北京明略软件系统有限公司 表格边框预测模型生成方法、装置及表格定位方法、装置
CN111144282B (zh) * 2019-12-25 2023-12-05 北京同邦卓益科技有限公司 表格识别方法和装置、计算机可读存储介质
CN111368638A (zh) * 2020-02-10 2020-07-03 深圳追一科技有限公司 电子表格的创建方法、装置、计算机设备和存储介质
CN111368744B (zh) * 2020-03-05 2023-06-27 中国工商银行股份有限公司 图片中非结构化表格识别方法及装置
CN111563453B (zh) * 2020-05-07 2023-07-04 北京百度网讯科技有限公司 用于确定表格顶点的方法、装置、设备和介质
CN113627143B (zh) * 2020-05-09 2024-02-02 北京金山数字娱乐科技有限公司 一种表格创建方法、装置、电子设备及存储介质
CN111695553B (zh) * 2020-06-05 2023-09-08 北京百度网讯科技有限公司 表格识别方法、装置、设备和介质
CN113762244A (zh) * 2020-06-05 2021-12-07 北京市天元网络技术股份有限公司 文档信息的提取方法及装置
CN111881769A (zh) * 2020-07-03 2020-11-03 苏州开心盒子软件有限公司 一种表格标注的方法和系统
CN111859895B (zh) * 2020-07-28 2023-11-03 明度智云(浙江)科技有限公司 一种对批量文档内表格进行比对的方法、系统和存储介质
CN114077830A (zh) * 2020-08-17 2022-02-22 税友软件集团股份有限公司 一种基于位置的pdf表格文档的解析方法、装置及设备
CN112149506A (zh) * 2020-08-25 2020-12-29 北京来也网络科技有限公司 结合rpa和ai的图像中的表格生成方法、设备及存储介质
CN112035412A (zh) * 2020-08-31 2020-12-04 北京奇虎鸿腾科技有限公司 数据文件导入方法、设备、存储介质及装置
CN112255473B (zh) * 2020-09-08 2023-06-06 深圳供电局有限公司 继电保护装置测试方法、装置、计算机设备和存储介质
WO2022062798A1 (zh) * 2020-09-25 2022-03-31 北京来也网络科技有限公司 基于rpa及ai的表格信息抽取方法、装置、设备及介质
CN112348022B (zh) * 2020-10-28 2024-05-07 富邦华一银行有限公司 一种基于深度学习的自由格式文档识别方法
CN112241730A (zh) * 2020-11-21 2021-01-19 杭州投知信息技术有限公司 一种基于机器学习的表格提取方法和系统
CN113807158A (zh) * 2020-12-04 2021-12-17 四川医枢科技股份有限公司 一种pdf内容提取方法、装置及设备
CN112528599B (zh) * 2020-12-15 2024-05-10 信号旗智能科技(上海)有限公司 基于xml的多页文档处理方法、装置、计算机设备及介质
CN112632934B (zh) * 2020-12-22 2023-01-17 上海精密计量测试研究所 基于比例计算还原表格图片为可编辑的word文件表格的方法
CN112733518A (zh) * 2021-01-14 2021-04-30 卫宁健康科技集团股份有限公司 表格模板生成方法、装置、设备及存储介质
CN112861736B (zh) * 2021-02-10 2022-08-09 上海大学 基于图像处理的文献表格内容识别与信息提取方法
CN112949443B (zh) * 2021-02-24 2023-07-25 平安科技(深圳)有限公司 表格结构识别方法、装置、电子设备及存储介质
CN113112567A (zh) * 2021-04-16 2021-07-13 中国工商银行股份有限公司 生成可编辑流程图的方法、装置、电子设备和存储介质
CN113158632B (zh) * 2021-04-30 2024-05-28 广联达科技股份有限公司 Cad图纸的表格重建方法和计算机可读存储介质
CN113343658B (zh) * 2021-07-01 2024-04-09 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备
CN113610043A (zh) * 2021-08-19 2021-11-05 海默潘多拉数据科技(深圳)有限公司 一种工业图纸表格结构化识别方法及系统
CN113643408A (zh) * 2021-08-20 2021-11-12 Oppo广东移动通信有限公司 图像生成方法及装置、计算机可读存储介质和电子设备
CN113626444B (zh) * 2021-08-26 2023-11-28 平安国际智慧城市科技股份有限公司 基于位图算法的表格查询方法、装置、设备及介质
CN113762158A (zh) * 2021-09-08 2021-12-07 平安资产管理有限责任公司 无边框表格复原模型训练方法、装置、计算机设备和介质
CN113989823B (zh) * 2021-09-14 2022-10-18 北京左医科技有限公司 基于ocr坐标的图片表格还原方法及系统
CN113988028B (zh) * 2021-09-14 2022-11-22 北京左医科技有限公司 基于模版匹配和ocr坐标的图片表格还原方法及系统
CN113705576B (zh) * 2021-11-01 2022-03-25 江西中业智能科技有限公司 一种文本识别方法、装置、可读存储介质及设备
CN116110051B (zh) * 2023-04-13 2023-07-14 合肥机数量子科技有限公司 一种文件信息处理方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140145A1 (en) * 2014-11-13 2016-05-19 International Business Machines Corporation Extracting information from PDF Documents using Black-Box Image Processing
CN109446487A (zh) * 2018-11-01 2019-03-08 北京神州泰岳软件股份有限公司 一种解析便携式文档格式文档表格的方法及装置
CN109726712A (zh) * 2018-11-13 2019-05-07 平安科技(深圳)有限公司 文字识别方法、装置及存储介质、服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336124B1 (en) * 1998-10-01 2002-01-01 Bcl Computers, Inc. Conversion data representing a document to other formats for manipulation and display
JP4343213B2 (ja) * 2006-12-25 2009-10-14 株式会社東芝 文書処理装置および文書処理方法
CN105335339A (zh) * 2015-10-19 2016-02-17 江苏沃叶软件有限公司 pdf文件的转换方法
US9418315B1 (en) * 2016-03-14 2016-08-16 Sageworks, Inc. Systems, methods, and computer readable media for extracting data from portable document format (PDF) files
CN107832676B (zh) * 2017-10-16 2024-02-02 平安科技(深圳)有限公司 表格信息换行识别方法、电子设备及计算机可读存储介质
CN109670461A (zh) * 2018-12-24 2019-04-23 广东亿迅科技有限公司 Pdf文字提取方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140145A1 (en) * 2014-11-13 2016-05-19 International Business Machines Corporation Extracting information from PDF Documents using Black-Box Image Processing
CN109446487A (zh) * 2018-11-01 2019-03-08 北京神州泰岳软件股份有限公司 一种解析便携式文档格式文档表格的方法及装置
CN109726712A (zh) * 2018-11-13 2019-05-07 平安科技(深圳)有限公司 文字识别方法、装置及存储介质、服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁明宇 等 (DING, MINGYU ET AL.): "基于深度学习的图片中商品参数识别方法 (Deep learning for parameter recognition in commodity images)", 软件学报 (JOURNAL OF SOFTWARE), vol. 29, no. 4, 30 April 2018 (2018-04-30), ISSN: 1000-9825, DOI: 20200216112626Y *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112540958A (zh) * 2020-12-08 2021-03-23 北京百度网讯科技有限公司 文件处理方法、装置、设备及计算机存储介质
CN112540958B (zh) * 2020-12-08 2023-08-29 北京百度网讯科技有限公司 文件处理方法、装置、设备及计算机存储介质
CN112861603B (zh) * 2020-12-17 2023-12-22 西安理工大学 一种有限表格自动识别与解析方法
CN112861603A (zh) * 2020-12-17 2021-05-28 西安理工大学 一种有限表格自动识别与解析方法
CN112650714B (zh) * 2020-12-22 2024-04-05 微民保险代理有限公司 文档展示方法、装置、设备及计算机可读介质
CN112650714A (zh) * 2020-12-22 2021-04-13 微民保险代理有限公司 文档展示方法、装置、设备及计算机可读介质
CN112580594A (zh) * 2020-12-29 2021-03-30 浙江大华技术股份有限公司 文档识别方法、装置、计算机设备和存储介质
CN112712014A (zh) * 2020-12-29 2021-04-27 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
CN112712014B (zh) * 2020-12-29 2024-04-30 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
CN113177995A (zh) * 2021-04-30 2021-07-27 广联达科技股份有限公司 Cad图纸的文本重组方法和计算机可读存储介质
CN113177995B (zh) * 2021-04-30 2024-05-24 广联达科技股份有限公司 Cad图纸的文本重组方法和计算机可读存储介质
CN113221743B (zh) * 2021-05-12 2024-01-12 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113159969A (zh) * 2021-05-17 2021-07-23 广州故新智能科技有限责任公司 一种金融长文本复核系统
CN113408244A (zh) * 2021-06-22 2021-09-17 平安科技(深圳)有限公司 Java应用生成Word文档方法、装置、设备及介质
CN113408244B (zh) * 2021-06-22 2023-08-22 平安科技(深圳)有限公司 Java应用生成Word文档方法、装置、设备及介质
CN113269153A (zh) * 2021-06-26 2021-08-17 中国电子系统技术有限公司 一种表格识别方法以及装置
CN113269153B (zh) * 2021-06-26 2024-03-19 中国电子系统技术有限公司 一种表格识别方法以及装置
CN113536751B (zh) * 2021-06-30 2023-09-22 北京百度网讯科技有限公司 表格数据的处理方法、装置、电子设备和存储介质
CN113536751A (zh) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 表格数据的处理方法、装置、电子设备和存储介质
CN113610701B (zh) * 2021-08-04 2023-12-26 同方鼎欣科技股份有限公司 图像分页转换方法、装置、计算机设备及可读存储介质
CN113610701A (zh) * 2021-08-04 2021-11-05 同方鼎欣科技股份有限公司 图像分页转换方法、装置、计算机设备及可读存储介质
CN113792659B (zh) * 2021-09-15 2024-04-05 上海金仕达软件科技股份有限公司 文档识别方法、装置及电子设备
CN113792659A (zh) * 2021-09-15 2021-12-14 上海金仕达软件科技有限公司 文档识别方法、装置及电子设备
CN113780229A (zh) * 2021-09-18 2021-12-10 北京金山数字娱乐科技有限公司 文本识别方法及装置
CN114022883A (zh) * 2021-11-05 2022-02-08 深圳前海环融联易信息科技服务有限公司 基于模型的金融领域交易文件表格日期提取方法
CN114943978B (zh) * 2022-05-13 2023-10-03 上海弘玑信息技术有限公司 一种表格重建的方法及电子设备
CN114943978A (zh) * 2022-05-13 2022-08-26 上海弘玑信息技术有限公司 一种表格重建的方法及电子设备
CN115273108B (zh) * 2022-06-17 2023-11-17 吉林省吉林祥云信息技术有限公司 一种人工智能识别自动归集方法及系统
CN115273108A (zh) * 2022-06-17 2022-11-01 吉林省吉林祥云信息技术有限公司 一种人工智能识别自动归集方法及系统
CN115019326A (zh) * 2022-08-02 2022-09-06 北京杭升科技有限公司 档案录入系统、方法、装置以及存储介质
CN115019326B (zh) * 2022-08-02 2023-08-22 北京杭升科技有限公司 档案录入系统、方法、装置以及存储介质
CN115601774B (zh) * 2022-12-12 2023-04-07 深圳前海环融联易信息科技服务有限公司 表格识别方法、装置、设备、存储介质和程序产品
CN115601774A (zh) * 2022-12-12 2023-01-13 深圳前海环融联易信息科技服务有限公司(Cn) 表格识别方法、装置、设备、存储介质和程序产品
CN116168404A (zh) * 2023-01-31 2023-05-26 苏州爱语认知智能科技有限公司 基于空间变换的智能文档处理方法和系统
CN116168404B (zh) * 2023-01-31 2023-12-22 苏州爱语认知智能科技有限公司 基于空间变换的智能文档处理方法和系统
CN116994282B (zh) * 2023-09-25 2023-12-15 安徽省交通规划设计研究总院股份有限公司 一种用于桥梁设计图的钢筋数量识别归集方法
CN116994282A (zh) * 2023-09-25 2023-11-03 安徽省交通规划设计研究总院股份有限公司 一种用于桥梁设计图的钢筋数量识别归集方法
CN117556078B (zh) * 2024-01-11 2024-03-29 北京极致车网科技有限公司 可视化车辆登记证文件管理方法、装置及电子设备
CN117556078A (zh) * 2024-01-11 2024-02-13 北京极致车网科技有限公司 可视化车辆登记证文件管理方法、装置及电子设备

Also Published As

Publication number Publication date
CN110334585A (zh) 2019-10-15
CN110334585B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
WO2020232872A1 (zh) 表格识别方法、装置、计算机设备和存储介质
CN109492643B (zh) 基于ocr的证件识别方法、装置、计算机设备及存储介质
WO2019169772A1 (zh) 图片处理方法、电子装置及存储介质
WO2020238054A1 (zh) Pdf文档中图表的定位方法、装置及计算机设备
EP2806374B1 (en) Method and system for automatic selection of one or more image processing algorithm
WO2021012382A1 (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN110728687B (zh) 文件图像分割方法、装置、计算机设备和存储介质
CN114155546B (zh) 一种图像矫正方法、装置、电子设备和存储介质
WO2023130648A1 (zh) 一种图像数据增强方法、装置、计算机设备和存储介质
WO2020186779A1 (zh) 图片信息识别方法、装置、计算机设备和存储介质
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
WO2023284608A1 (zh) 字符识别模型生成方法、装置、计算机设备和存储介质
CN110059688B (zh) 图片信息识别方法、装置、计算机设备和存储介质
CN110647885A (zh) 基于图片识别的试卷拆分方法、装置、设备以及介质
CN110866457A (zh) 一种电子保单的获得方法、装置、计算机设备和存储介质
CN112686258A (zh) 体检报告信息结构化方法、装置、可读存储介质和终端
CN111291741B (zh) 单据识别方法、装置、计算机设备和存储介质
CN114782355B (zh) 基于改进vgg16网络的胃癌数字病理切片检测方法
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
CN110889341A (zh) 基于ai的表单图像识别方法、装置、计算机设备和存储介质
CN114330247A (zh) 一种基于图像识别的自动化保险条款解析方法
CN111898544B (zh) 文字图像匹配方法、装置和设备及计算机存储介质
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
US10991085B2 (en) Classifying panoramic images
CN113807218B (zh) 版面分析方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19929759

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19929759

Country of ref document: EP

Kind code of ref document: A1