WO2019104879A1 - 表格类图像的信息识别方法、电子装置及可读存储介质 - Google Patents

表格类图像的信息识别方法、电子装置及可读存储介质 Download PDF

Info

Publication number
WO2019104879A1
WO2019104879A1 PCT/CN2018/076163 CN2018076163W WO2019104879A1 WO 2019104879 A1 WO2019104879 A1 WO 2019104879A1 CN 2018076163 W CN2018076163 W CN 2018076163W WO 2019104879 A1 WO2019104879 A1 WO 2019104879A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
label
row
standard template
box
Prior art date
Application number
PCT/CN2018/076163
Other languages
English (en)
French (fr)
Inventor
王健宗
王威
刘鹏
肖京
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019104879A1 publication Critical patent/WO2019104879A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Definitions

  • the present application relates to the field of computer technology, and in particular, to a method for identifying information of a form-like image, an electronic device, and a readable storage medium.
  • the purpose of the present application is to provide an information identification method, an electronic device, and a readable storage medium for a form-like image, which are intended to effectively improve the accuracy and efficiency of information recognition of a form-like image.
  • a first aspect of the present application provides an electronic device including a memory, a processor, and an information recognition system on which the table type image executable on the processor is stored,
  • the information recognition system of the table class image is implemented by the processor to implement the following steps:
  • the second aspect of the present application further provides an information identification method for a form-like image, where the information recognition method of the form-like image includes:
  • the form class image After receiving the form class image to be processed, identifying a table category of the form class image, and determining, according to a predetermined mapping relationship between the table category and the standard template, a first corresponding to the table category of the form class image a standard template and a second standard template; wherein the first standard template is pre-set with a text line position labeling frame, and the second standard template is pre-set with a key information position labeling box;
  • the character recognition model identifies key information on the angle-corrected table-like image.
  • a third aspect of the present application further provides a computer readable storage medium, where the computer readable storage medium stores an information recognition system of a form-like image, and the information recognition system of the form-like image may The step of being performed by at least one processor to cause the at least one processor to perform an information identification method of a form-like image as described above.
  • the information identification method, system and readable storage medium of the form-like image proposed by the present application determine the to-be-processed form class image and the first standard template by using a predetermined first standard template with a text line position labeling frame Position matching relationship, and then mapping the key information position labeling frame on the second standard template with the key information position labeling frame to the table type image according to the determined position correspondence relationship, to obtain key information on the table type image Position and identify key information on the form-like image using a predetermined character recognition model. Since the position of each text line on the form image can be determined by the first standard template, the key information position on the form image is determined by the second standard template, thereby identifying the key information.
  • FIG. 1 is a schematic diagram of an operating environment of a preferred embodiment of an information recognition system 10 for a form-like image of the present application;
  • FIG. 2 is a schematic flow chart of an embodiment of an information identification method for a form-like image of the present application.
  • FIG. 1 is a schematic diagram of an operating environment of a preferred embodiment of the information recognition system 10 of the form image of the present application.
  • the information recognition system 10 of the form-like image is installed and operated in the electronic device 1.
  • the electronic device 1 may include, but is not limited to, a memory 11, a processor 12, and a display 13.
  • Figure 1 shows only the electronic device 1 with components 11-13, but it should be understood that not all illustrated components may be implemented, and more or fewer components may be implemented instead.
  • the memory 11 is at least one type of readable computer storage medium, which in some embodiments may be an internal storage unit of the electronic device 1, such as a hard disk or memory of the electronic device 1.
  • the memory 11 may also be an external storage device of the electronic device 1 in other embodiments, such as a plug-in hard disk equipped on the electronic device 1, a smart memory card (SMC), and a secure digital device. (Secure Digital, SD) card, flash card, etc.
  • the memory 11 may also include both an internal storage unit of the electronic device 1 and an external storage device.
  • the memory 11 is used to store application software installed on the electronic device 1 and various types of data, such as program codes of the information recognition system 10 of the form-like image.
  • the memory 11 can also be used to temporarily store data that has been output or is about to be output.
  • the processor 12 may be a central processing unit (CPU), a microprocessor or other data processing chip for running program code or processing data stored in the memory 11, for example An information recognition system 10 or the like that executes the form-like image.
  • CPU central processing unit
  • microprocessor or other data processing chip for running program code or processing data stored in the memory 11, for example
  • An information recognition system 10 or the like that executes the form-like image.
  • the display 13 in some embodiments may be an LED display, a liquid crystal display, a touch-sensitive liquid crystal display, an OLED (Organic Light-Emitting Diode) touch sensor, or the like.
  • the display 13 is used to display information processed in the electronic device 1 and a user interface for displaying visualization, such as a form-like image to be processed, identified key information, character information, and the like.
  • the components 11-13 of the electronic device 1 communicate with one another via a system bus.
  • the information recognition system 10 of the form-like image includes at least one computer readable instruction stored in the memory 11, the at least one computer readable instruction being executable by the processor 12 to implement various embodiments of the present application.
  • the information recognition system 10 of the above table-like image is executed by the processor 12 to implement the following steps:
  • Step S1 after receiving the form class image to be processed, identifying a table category of the form class image, and determining, according to a predetermined mapping relationship between the table category and the standard template, a table category corresponding to the form class image
  • the first standard template and the second standard template wherein the first standard template is pre-set with a text line position labeling box, and the second standard template is pre-set with a key information position labeling box.
  • the table type of the form class image is identified, and the predetermined frame with the text line position corresponding to the form class image is determined according to the table type.
  • the first standard template and the second standard template with the key information position labeling frame, the frame format of the first standard template and the second standard template being consistent with the frame format of the image.
  • the acquiring process of the first standard template is: selecting an image with a relatively positive position and a small background in a set of image samples of a plurality of form types, and manually manually marking the position of all the text lines on the selected image.
  • each text line is marked with a text line position box (bounding box), each text line position label box is represented by four numbers, which are the horizontal and vertical coordinates of the upper left corner and the abscissa of the lower right corner. And the ordinate, wherein the origin of the coordinate system is selected as the upper left corner of the image, the right direction is the positive direction of the horizontal axis, and the downward direction is the positive direction of the vertical axis.
  • the acquiring process of the second standard template is: marking the key information location and the corresponding key information field name on the same image corresponding to the first standard template.
  • Step S2 performing angle correction on the form-like image by using a predetermined correction rule, detecting all text lines on the angle-corrected form-like image by using a pre-trained text line detection model, and detecting the detected text line with The positions of the text lines in the first standard template are compared, and the position correspondence relationship between the first standard template and the angle-corrected table-like image is determined.
  • the table type image is first subjected to angle correction using a predetermined correction rule.
  • the predetermined correction rule is: using a probability algorithm of Hough transform to find as many small straight lines as possible in the table class image; Determine all the straight lines in the horizontal direction, and connect the straight lines whose x-coordinate values are not much different in the determined line in the order of the corresponding y-coordinate values, and divide them into several classes according to the size of the x-coordinate value, or The straight lines in which the y-coordinate values differ greatly in the order of the corresponding x-coordinate values are sequentially connected, and are classified into several classes according to the y-coordinate value; all horizontal lines belonging to one class are regarded as a target-type straight line, and The least squares method is used to find the long line closest to each target class line; calculate the slope of each long line, calculate the median and mean of the slope of each long line, and compare the calculated median and mean of the slope The smaller one is determined, and the image rotation angle
  • the predetermined calibration rule is: pre-selecting a maximum rotation angle max_skew, selecting the number of rotations n, and dividing the average from -max_skew to max_skew into n parts, thus obtaining a list of preparations Selecting the rotation angle; reading the table type image to be corrected in a gray scale manner, and rotating the gray image according to the angle size for each candidate rotation angle to obtain a new image matrix, and obtaining the obtained image matrix The pixel values of all the pixels of each row of the new image matrix are averaged to obtain a column of mean values, and the obtained average value of a column of variances is calculated.
  • each candidate angle can obtain a corresponding variance value;
  • the maximum variance value is selected, and the rotation angle corresponding to the maximum variance value is the correction angle of the table-like image to be corrected, so that the table-like image is corrected by using the obtained correction angle.
  • the rotation angle corresponding to the maximum variance value is the correction angle of the table-like image to be corrected, so that the table-like image is corrected by using the obtained correction angle.
  • the text line detection model is a Connectionist Text Proposal Network (CTPN) model for detecting the position of a text line in the angle-corrected table-like image. And mark the position of the detected line of text with a callout box.
  • CTPN is essentially a full-convolution network.
  • the input picture can be of any size. It detects text lines on the convolutional feature map through a small sliding window and outputs a sequence of fine text proposal regions.
  • the detected text lines may be compared with the text line positions in the first standard template to determine the first standard.
  • the positional correspondence of the template to the angle-corrected table-like image Since the text line position labeling frame is preset in the first standard template, the text line marked on the form class image may be associated with the text line in the first standard template, for example, the table type image may be compared.
  • Step S3 mapping the key information position labeling frame on the second standard template to the angle-corrected table type image according to the position correspondence relationship, and obtaining a key information position on the angle-corrected table type image, and The key information on the angle-corrected form-like image is identified using a predetermined character recognition model.
  • the key information position labeling frame on the second standard template may be mapped to the angle correction according to the position correspondence relationship.
  • the coordinate difference between the angle-corrected table-like image and the text line position labeling box on the first standard template, and the coordinate information of the key information position on the second standard template (such as the upper left corner) Coordinates, ordinates, and the lower right corner abscissa, ordinate)
  • the coordinates of the key position of the key information on the angle-corrected table-like image such as the upper left horizontal axis, the vertical coordinate, and the lower right horizontal and horizontal coordinates
  • the key information on the angle-corrected table-like image can be identified using a predetermined character recognition model.
  • the predetermined character recognition model may be an OCR character recognition engine, or may be a character recognition model obtained by pre-learning and training, such as a Long-Short Term Memory (LSTM) model, etc. limited.
  • LSTM Long-Short Term Memory
  • the embodiment determines the position correspondence between the to-be-processed table-like image and the first standard template by using a predetermined first standard template with a text line position labeling frame, and then according to the determined position.
  • the correspondence maps the key information position labeling box on the second standard template with the key information position labeling frame to the table type image to obtain the key information position on the form class image, and uses predetermined character recognition
  • the model identifies key information on the form class image. Since the position of each text line on the form image can be determined by the first standard template, the key information position on the form image is determined by the second standard template, thereby identifying the key information.
  • the frame format of the table-like image and the influence of the frame line on the information recognition accuracy are reduced. When the key information on the form-like image is recognized, the interference factors other than the character information are much less, thereby effectively improving the table-like image. Information identification accuracy and efficiency.
  • the step of identifying the table category of the form class image comprises:
  • the form-like images for example, outpatient bills, hospital bills, insurance bills, claim bills, and the like.
  • the form-based image recognition model is a deep convolutional neural network model
  • the deep convolutional neural network model may be a deep convolutional neural network SSD selected in the environment of CaffeNet (Single Shot MultiBox Detector) Algorithm model
  • the deep convolutional neural network model consists of one input layer, 13 convolution layers, 5 pooling layers, 2 fully connected layers, and 1 sorting layer.
  • the detailed structure of the deep convolutional neural network model is shown in Table 1 below:
  • Layer Name indicates the name of each layer
  • Input indicates the input layer
  • Conv indicates the convolution layer of the model
  • Conv1 indicates the first convolution layer of the model
  • MaxPool indicates the maximum pooling layer of the model
  • MaxPool1 indicates the model.
  • Fc represents the fully connected layer in the model
  • Fc1 represents the first fully connected layer in the model
  • Softmax represents the Softmax classifier
  • Batch Size represents the number of input images of the current layer
  • Kernel Size represents the current layer volume
  • the scale of the kernel (for example, the Kernel Size can be equal to 3, indicating that the scale of the convolution kernel is 3x 3);
  • the Stride Size indicates the moving step size of the convolution kernel, that is, moving to the next convolution position after one convolution is completed.
  • Distance indicates the size of the image fill in the current network layer.
  • the pooling mode of the pooling layer in this embodiment includes, but is not limited to, Mean pooling, Max pooling, Overlapping, L2 pooling, Local. Contrast Normalization, Stochasticpooling, Def-pooling, and more.
  • the training process of the form-based image recognition model is as follows:
  • a preset number for example, 1000 sheets is prepared for the corresponding number.
  • a sample of the table image for the image category before the training, the following processing is performed on the sample of the form image:
  • the transposition of the sample image sample is determined, and the flip adjustment is performed: when the aspect ratio is greater than 1, the height and width of the sample image sample are reversed, and if the seal position is on the left side of the table image sample, Then, the table image sample is rotated clockwise by ninety degrees. If the stamp position is on the right side of the table image sample, the table image sample is rotated counterclockwise by ninety degrees; when the aspect ratio is less than 1, the table image sample is described. The height and width are not reversed. If the stamp position is on the lower side of the form image sample, the table image sample is rotated clockwise by one hundred and eighty degrees.
  • sample image samples of the model training can be guaranteed to be pictures with high width and width and not marked correctly, so that the subsequent model training is more accurate and effective.
  • the table image samples corresponding to each preset table image category are divided into a training subset of a first ratio (for example, 80%) and a verification subset of a second ratio (for example, 20%), and each training subset is set.
  • the table image samples are mixed to obtain a training set, and the table image samples in the respective verification subsets are mixed to obtain a verification set;
  • the detected text line is compared with the position of the text line in the first standard template, and the first standard template is determined to an angle.
  • the steps of the positional correspondence of the corrected form class image include:
  • D1 group all the label boxes in the first standard template and all the label boxes in the detected table class image; if grouping, if the first standard template or the table type image has two label boxes
  • the absolute value of the ordinate difference in the upper left corner is smaller than the preset value. For example, if the absolute value of the ordinate difference in the upper left corner of the two label boxes is less than half of the height of the two label boxes, the two are The callout boxes are grouped together. This way, the label boxes in the same group are all on the same line.
  • the label box of each row after grouping is sorted according to the order of the horizontal coordinate of the upper left corner of each label box in the row from small to large;
  • the m-row labeling box is selected from the labeling box row sorting of the table-like image, so that the m-row labeling box selected from the table-like image is followed.
  • the order of the line numbers from small to large corresponds to the m-line labeling boxes in the first standard template, and forms m-to-label box lines.
  • the m-line preset type is selected from the first standard template (for example, the title, the payment, the medical bill on the insurance document)
  • the label box of the name, date, etc., or the m-line label box is selected from the preset position. For example, a fixed number (for example, m/2) can be selected from the upper half and the lower half of the image, respectively.
  • the callout box line is selected from the preset position.
  • the position frame difference loss corresponding to each pair of label boxes in the P pair label box may be set to the absolute value of the coordinate difference value of the upper left corner of the paired label boxes.
  • the weight corresponding to the position frame difference loss of the label box is set to 1/n; the position box difference loss corresponding to the label box is multiplied by the corresponding weight, and then added up is the randomly selected p pair label.
  • the position difference difference of the two label box rows corresponding to the box is defined, and the minimum value of the obtained position difference value loss is defined as the position line difference loss of the two label frame lines.
  • m selects the label frame row, obtain m position line difference loss, and determine a position correspondence relationship between the first standard template and the angle corrected table type image according to the m position line difference loss. For example, in an optional implementation manner, the smallest position line difference loss can be found from the m position difference values loss, and a pair of target label frame lines corresponding to the found position line difference loss In the corresponding position difference value loss, the minimum position frame difference loss is determined, and the minimum position frame difference loss is used as the position correspondence relationship between the first standard template and the angle corrected table type image.
  • FIG. 2 is a schematic flowchart of an embodiment of an information recognition method for a table-like image according to the present application.
  • the information recognition method for the form-like image includes the following steps:
  • Step S10 after receiving the form class image to be processed, identifying a table category of the form class image, and determining, according to a predetermined mapping relationship between the table category and the standard template, a table category corresponding to the form class image
  • the first standard template and the second standard template wherein the first standard template is pre-set with a text line position labeling box, and the second standard template is pre-set with a key information position labeling box.
  • the table type of the form class image is identified, and the predetermined frame with the text line position corresponding to the form class image is determined according to the table type.
  • the first standard template and the second standard template with the key information position labeling frame, the frame format of the first standard template and the second standard template being consistent with the frame format of the image.
  • the acquiring process of the first standard template is: selecting an image with a relatively positive position and a small background in a set of image samples of a plurality of form types, and manually manually marking the position of all the text lines on the selected image.
  • each text line is marked with a text line position box (bounding box), each text line position label box is represented by four numbers, which are the horizontal and vertical coordinates of the upper left corner and the abscissa of the lower right corner. And the ordinate, wherein the origin of the coordinate system is selected as the upper left corner of the image, the right direction is the positive direction of the horizontal axis, and the downward direction is the positive direction of the vertical axis.
  • the acquiring process of the second standard template is: marking the key information location and the corresponding key information field name on the same image corresponding to the first standard template.
  • Step S20 performing angle correction on the form-like image by using a predetermined correction rule, detecting all text lines on the angle-corrected form-like image using the pre-trained text line detection model, and detecting the detected text line with The positions of the text lines in the first standard template are compared, and the position correspondence relationship between the first standard template and the angle-corrected table-like image is determined.
  • the table type image is first subjected to angle correction using a predetermined correction rule.
  • the predetermined correction rule is: using a probability algorithm of Hough transform to find as many small straight lines as possible in the table class image; Determine all the straight lines in the horizontal direction, and connect the straight lines whose x-coordinate values are not much different in the determined line in the order of the corresponding y-coordinate values, and divide them into several classes according to the size of the x-coordinate value, or The straight lines in which the y-coordinate values differ greatly in the order of the corresponding x-coordinate values are sequentially connected, and are classified into several classes according to the y-coordinate value; all horizontal lines belonging to one class are regarded as a target-type straight line, and The least squares method is used to find the long line closest to each target class line; calculate the slope of each long line, calculate the median and mean of the slope of each long line, and compare the calculated median and mean of the slope The smaller one is determined, and the image rotation angle
  • the predetermined calibration rule is: pre-selecting a maximum rotation angle max_skew, selecting the number of rotations n, and dividing the average from -max_skew to max_skew into n parts, thus obtaining a list of preparations Selecting the rotation angle; reading the table type image to be corrected in a gray scale manner, and rotating the gray image according to the angle size for each candidate rotation angle to obtain a new image matrix, and obtaining the obtained image matrix The pixel values of all the pixels of each row of the new image matrix are averaged to obtain a column of mean values, and the obtained average value of a column of variances is calculated.
  • each candidate angle can obtain a corresponding variance value;
  • the maximum variance value is selected, and the rotation angle corresponding to the maximum variance value is the correction angle of the table-like image to be corrected, so that the table-like image is corrected by using the obtained correction angle.
  • the rotation angle corresponding to the maximum variance value is the correction angle of the table-like image to be corrected, so that the table-like image is corrected by using the obtained correction angle.
  • the text line detection model is a Connectionist Text Proposal Network (CTPN) model for detecting the position of a text line in the angle-corrected table-like image. And mark the position of the detected line of text with a callout box.
  • CTPN is essentially a full-convolution network.
  • the input picture can be of any size. It detects text lines on the convolutional feature map through a small sliding window and outputs a sequence of fine text proposal regions.
  • the detected text lines may be compared with the text line positions in the first standard template to determine the first standard.
  • the positional correspondence of the template to the angle-corrected table-like image Since the text line position labeling frame is preset in the first standard template, the text line marked on the form class image may be associated with the text line in the first standard template, for example, the table type image may be compared.
  • Step S30 mapping the key information position labeling frame on the second standard template to the angle-corrected table-like image according to the position correspondence relationship, and obtaining the key information position on the angle-corrected table-like image, and The key information on the angle-corrected form-like image is identified using a predetermined character recognition model.
  • the key information position labeling frame on the second standard template may be mapped to the angle correction according to the position correspondence relationship.
  • the coordinate difference between the angle-corrected table-like image and the text line position labeling box on the first standard template, and the coordinate information of the key information position on the second standard template (such as the upper left corner) Coordinates, ordinates, and the lower right corner abscissa, ordinate)
  • the coordinates of the key position of the key information on the angle-corrected table-like image such as the upper left horizontal axis, the vertical coordinate, and the lower right horizontal and horizontal coordinates
  • the key information on the angle-corrected table-like image can be identified using a predetermined character recognition model.
  • the predetermined character recognition model may be an OCR character recognition engine, or may be a character recognition model obtained by pre-learning and training, such as a Long-Short Term Memory (LSTM) model, etc. limited.
  • LSTM Long-Short Term Memory
  • the embodiment determines the position correspondence between the to-be-processed table-like image and the first standard template by using a predetermined first standard template with a text line position labeling frame, and then according to the determined position.
  • the correspondence maps the key information position labeling box on the second standard template with the key information position labeling frame to the table type image to obtain the key information position on the form class image, and uses predetermined character recognition
  • the model identifies key information on the form class image. Since the position of each text line on the form image can be determined by the first standard template, the key information position on the form image is determined by the second standard template, thereby identifying the key information.
  • the frame format of the table-like image and the influence of the frame line on the information recognition accuracy are reduced. When the key information on the form-like image is recognized, the interference factors other than the character information are much less, thereby effectively improving the table-like image. Information identification accuracy and efficiency.
  • the step of identifying the table category of the form class image comprises:
  • the form-like images for example, outpatient bills, hospital bills, insurance bills, claim bills, and the like.
  • the form-based image recognition model is a deep convolutional neural network model
  • the deep convolutional neural network model may be a deep convolutional neural network SSD selected in the environment of CaffeNet (Single Shot MultiBox Detector) Algorithm model
  • the deep convolutional neural network model consists of one input layer, 13 convolution layers, 5 pooling layers, 2 fully connected layers, and 1 sorting layer.
  • the detailed structure of the deep convolutional neural network model is shown in Table 2 below:
  • Layer Name indicates the name of each layer
  • Input indicates the input layer
  • Conv indicates the convolution layer of the model
  • Conv1 indicates the first convolution layer of the model
  • MaxPool indicates the maximum pooling layer of the model
  • MaxPool1 indicates the model.
  • Fc represents the fully connected layer in the model
  • Fc1 represents the first fully connected layer in the model
  • Softmax represents the Softmax classifier
  • Batch Size represents the number of input images of the current layer
  • Kernel Size represents the current layer volume
  • the scale of the kernel (for example, the Kernel Size can be equal to 3, indicating that the scale of the convolution kernel is 3x 3);
  • the Stride Size indicates the moving step size of the convolution kernel, that is, moving to the next convolution position after one convolution is completed.
  • Distance indicates the size of the image fill in the current network layer.
  • the pooling mode of the pooling layer in this embodiment includes, but is not limited to, Mean pooling, Max pooling, Overlapping, L2 pooling, Local. Contrast Normalization, Stochasticpooling, Def-pooling, and more.
  • the training process of the form-based image recognition model is as follows:
  • a preset number for example, 1000 sheets is prepared for the corresponding number.
  • a sample of the table image for the image category before the training, the following processing is performed on the sample of the form image:
  • the transposition of the sample image sample is determined, and the flip adjustment is performed: when the aspect ratio is greater than 1, the height and width of the sample image sample are reversed, and if the seal position is on the left side of the table image sample, Then, the table image sample is rotated clockwise by ninety degrees. If the stamp position is on the right side of the table image sample, the table image sample is rotated counterclockwise by ninety degrees; when the aspect ratio is less than 1, the table image sample is described. The height and width are not reversed. If the stamp position is on the lower side of the form image sample, the table image sample is rotated clockwise by one hundred and eighty degrees.
  • sample image samples of the model training can be guaranteed to be pictures with high width and width and not marked correctly, so that the subsequent model training is more accurate and effective.
  • the table image samples corresponding to each preset table image category are divided into a training subset of a first ratio (for example, 80%) and a verification subset of a second ratio (for example, 20%), and each training subset is set.
  • the table image samples are mixed to obtain a training set, and the table image samples in the respective verification subsets are mixed to obtain a verification set;
  • the detected text line is compared with the position of the text line in the first standard template, and the first standard template is determined to an angle.
  • the steps of the positional correspondence of the corrected form class image include:
  • D1 group all the label boxes in the first standard template and all the label boxes in the detected table class image; if grouping, if the first standard template or the table type image has two label boxes
  • the absolute value of the ordinate difference value in the upper left corner is smaller than the preset value. For example, if the absolute value of the ordinate difference value in the upper left corner of the two label boxes is less than half of the height of the two label frame height values, the two The callout boxes are grouped together. This way, the label boxes in the same group are all on the same line.
  • the label box of each row after grouping is sorted according to the order of the horizontal coordinate of the upper left corner of each label box in the row from small to large;
  • the m-row labeling box is selected from the labeling box row sorting of the table-like image, so that the m-row labeling box selected from the table-like image is followed.
  • the order of the line numbers from small to large corresponds to the m-line labeling boxes in the first standard template, and forms m-to-label box lines.
  • the m-line preset type is selected from the first standard template (for example, the title, the payment, the medical bill on the insurance document)
  • the label box of the name, date, etc., or the m-line label box is selected from the preset position. For example, a fixed number (for example, m/2) can be selected from the upper half and the lower half of the image, respectively.
  • the callout box line is selected from the preset position.
  • the position frame difference loss corresponding to each pair of label boxes in the P pair label box may be set to the absolute value of the coordinate difference value of the upper left corner of the paired label boxes.
  • the weight corresponding to the position frame difference loss of the label box is set to 1/n; the position box difference loss corresponding to the label box is multiplied by the corresponding weight, and then added up is the randomly selected p pair label.
  • the position difference difference of the two label box rows corresponding to the box is defined, and the minimum value of the obtained position difference value loss is defined as the position line difference loss of the two label frame lines.
  • m selects the label frame row, obtain m position line difference loss, and determine a position correspondence relationship between the first standard template and the angle corrected table type image according to the m position line difference loss. For example, in an optional implementation manner, the smallest position line difference loss can be found from the m position difference values loss, and a pair of target label frame lines corresponding to the found position line difference loss In the corresponding position difference value loss, the minimum position frame difference loss is determined, and the minimum position frame difference loss is used as the position correspondence relationship between the first standard template and the angle corrected table type image.
  • the present application also provides a computer readable storage medium storing an information recognition system of a form-like image, the information recognition system of the form-like image being executable by at least one processor such that The at least one processor performs the steps of the information identifying method of the form-like image in the above embodiment, and the specific implementation processes of the steps S10, S20, S30, etc. of the information identifying method of the form-like image are as described above, and are not Let me repeat.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种表格类图像的信息识别方法、电子装置及可读存储介质,该方法包括:识别待处理的表格类图像的表格类别,确定与表格类图像的表格类别对应的第一标准模板及第二标准模板;利用预先确定的校正规则对表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,将检测出的文本行与第一标准模板中的文本行位置进行比对,确定第一标准模板到角度校正后的表格类图像的位置对应关系;根据位置对应关系,将第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,利用预先确定的字符识别模型识别表格类图像上的关键信息。本申请有效提高表格类图像的信息识别精度及效率。

Description

表格类图像的信息识别方法、电子装置及可读存储介质
优先权申明
本申请基于巴黎公约申明享有2017年11月30日递交的申请号为CN 201711240787.9、名称为“表格类图像的信息识别方法、电子装置及可读存储介质”中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
技术领域
本申请涉及计算机技术领域,尤其涉及一种表格类图像的信息识别方法、电子装置及可读存储介质。
背景技术
随着国家信息化建设的不断深入,国家机关、企事业单位的纸质信息电子化的需求日益旺盛,为了将大量纸质信息电子化,现有的做法通常是将纸质文件扫描成图像档,再集中采用人工的方式批量将图像档的图像信息填录成电子表格信息或者其他格式文档信息。填录作业人员需填录的图像信息通常非常多,以致于填录作业人员的人力紧张,填录效率低下,而且,在填录表格类图像信息时经常会出现填录错误。
发明内容
本申请的目的在于提供一种表格类图像的信息识别方法、电子装置及可读存储介质,旨在有效提高表格类图像的信息识别精度及效率。
为实现上述目的,本申请第一方面提供一种电子装置,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的表格类图像的信息识别系统,所述表格类图像的信息识别系统被所述处理器执行时实现如下步骤:
A、在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框;
B、利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的 位置对应关系;
C、根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
此外,为实现上述目的,本申请第二方面还提供一种表格类图像的信息识别方法,所述表格类图像的信息识别方法包括:
在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框;
利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系;
根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
进一步地,为实现上述目的,本申请第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质存储有表格类图像的信息识别系统,所述表格类图像的信息识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的表格类图像的信息识别方法的步骤。
本申请提出的表格类图像的信息识别方法、系统及可读存储介质,通过预先确定的带有文本行位置标注框的第一标准模板确定出待处理的表格类图像与该第一标准模板的位置对应关系,再根据确定的位置对应关系将预先确定的带有关键信息位置标注框的第二标准模板上的关键信息位置标注框映射到表格类图像上,以得到表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出表格类图像上的关键信息。由于通过第一标准模板能确定出表格类图像上各个文本行的位置,进而通过第二标准模板确定出表格类图像上的关键信息位置,从而对关键信息进行识别。减小了表格类图像的框架格式及框线对信息识别精度的影响,在对表格类图像上的关键信息进行识别时除字符信息之外的其它干扰因素会少很多,从而有效提高表格类图像的信息识别精度及效率。
附图说明
图1为本申请表格类图像的信息识别系统10较佳实施例的运行环境示意图;
图2为本申请表格类图像的信息识别方法一实施例的流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本申请提供一种表格类图像的信息识别系统。请参阅图1,是本申请表格类图像的信息识别系统10较佳实施例的运行环境示意图。
在本实施例中,所述的表格类图像的信息识别系统10安装并运行于电子装置1中。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11为至少一种类型的可读计算机存储介质,所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据,例如所述表格类图像的信息识别系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述表格类图像的信息识别系统10等。
所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面,例如待处理的表格类图像、识别出的关键信息、字符信息等。所述电子装置1的部件11-13通过系统总线相互通信。
表格类图像的信息识别系统10包括至少一个存储在所述存储器11中的计算机可读指令,该至少一个计算机可读指令可被所述处理器12执行,以实现本申请各实施例。
其中,上述表格类图像的信息识别系统10被所述处理器12执行时实现如下步骤:
步骤S1,在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框。
本实施例中,在收到待信息提取的表格类图像后,识别该表格类图像的表格类别,并根据表格类别确定出与该表格类图像对应的预先确定的带有文本行位置标注框的第一标准模板和带有关键信息位置标注框的第二标准模板,该第一标准模板和第二标准模板的框架格式与该图像的框架格式一致。例如,所述第一标准模板的获取过程为:在若干表格类图像样本的集合中挑选一张摆放位置比较正、背景较少的图像,人工手动标出挑选的图像上所有文本行的位置信息;每个文本行用一个文本行位置标注框(bounding box)标出,各个文本行位置标注框用四个数来表示,分别为左上角的横坐标与纵坐标,及右下角的横坐标与纵坐标,其中,坐标系原点选为图像左上角,向右为横轴正方向,向下为纵轴正方向。所述第二标准模板的获取过程为;在该第一标准模板对应的同一张图像上,标出关键信息位置和对应的关键信息栏位名称。
步骤S2,利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。
本实施例中,首先利用预先确定的校正规则对所述表格类图像进行角度校正。在一种可选的实施方式中,所述预先确定的校正规则为:用霍夫变换(Hough)的概率算法找出所述表格类图像中尽可能多的小段直线;从找出的小段直线中确定出所有偏水平的直线,并将确定出的直线中x坐标值相差不大的直线按对应的y坐标值的大小顺序依次相连,按照x坐标值大小分为若干类,或者,将确定出的直线中y坐标值相差不大的直线按对应的x坐标值的大小顺序依次相连,按照y坐标值大小分为若干类;将属于一类的所有水平直线作为一个目标类直线,并通过最小二乘法找出最接近各个目标类直线的长直线;计算出各个长直线的斜率,计算出各个长直线的斜率的中位数和均值,比较计算出的斜率的中位数和均值的大小以确定出较小者,并根据确定出的较小者调整图像旋转角度,以将收到的所述表格类图像矫正为正常无倾角的图片。
在另一种可选的实施方式中,所述预先确定的校正规则为:预先选定一个最大旋转角度max_skew,选定旋转次数n,从-max_skew到max_skew平均分成n份,这样就得到一列备选的旋转角度;以灰度图的方式读入待校正的所述表格类图像,对于每一个备选的旋转角度,将灰度图按照这个角度大小进行旋转得到新的图像矩阵,把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值,将得到的一列均值求方差,依此计算,每个备选的角度可得到对应的一个方差值;从上述方差值中挑选出最大方差值,该最大方差值对应的旋转角度即为对待校正的所述表格类图像进行的校正角度,从而利用得到的校正角度对所述表格类图像进行校正。该实施方式中,考虑到如果图像的文本行是水平的,那么图像矩阵某一行或者是文字、或者是空白,得到的均值相差就大;如果图像文本不是水平的,那么图像矩阵大多数行会同时穿过文本和文本行中间的空白,那么得到的均值相差就不大。因此,通过方差值来选取旋转角度的方式,能实现将待校正的所述表格类图像矫正为正常无倾角的图片。
在对所述表格类图像进行角度校正后,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行。例如,在一种可选的实施方式中,所述文本行检测模型为联结文本提案网络(Connectionist Text Proposal Network,简称CTPN)模型,用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。CTPN本质上是一个全卷积网络,输入的图片可以是任意大小,它通过一个小的滑动窗口在卷积特征图上检测文本行,输出精细的文本提议区域序列。
在检测并用标注框标注出角度校正后的表格类图像上的所有文本行之后,可将检测出的文本行与所述第一标准模板中的文本行位置 进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。由于所述第一标准模板中预先设置有文本行位置标注框,因此,可将表格类图像上标注的文本行与所述第一标准模板中的文本行进行对应,例如,可比较表格类图像与第一标准模板上相同位置的文本行位置标注框之间的坐标差别,如两个文本行位置标注框之间的左上角横坐标、纵坐标以及右下角横坐标、纵坐标之间的坐标差值,以确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。
步骤S3,根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
在确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系之后,可根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上。例如,可根据角度校正后的表格类图像与第一标准模板上文本行位置标注框之间的坐标差值,以及所述第二标准模板上的关键信息位置标注框的坐标(如左上角横坐标、纵坐标以及右下角横坐标、纵坐标),转换计算得到角度校正后的表格类图像上关键信息位置标注框的坐标(如左上角横坐标、纵坐标以及右下角横坐标、纵坐标),从而确定出角度校正后的表格类图像上的关键信息位置。即可利用预先确定字符识别模型识别出角度校正后的表格类图像上的关键信息。其中,该预先确定字符识别模型可以为OCR字符识别引擎,也可以是经预先学习、训练得到的字符识别模型,如时间递归神经网络模型(Long-Short Term Memory,LSTM)等,在此不做限定。
与现有技术相比,本实施例通过预先确定的带有文本行位置标注框的第一标准模板确定出待处理的表格类图像与该第一标准模板的位置对应关系,再根据确定的位置对应关系将预先确定的带有关键信息位置标注框的第二标准模板上的关键信息位置标注框映射到表格类图像上,以得到表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出表格类图像上的关键信息。由于通过第一标准模板能确定出表格类图像上各个文本行的位置,进而通过第二标准模板确定出表格类图像上的关键信息位置,从而对关键信息进行识别。减小了表格类图像的框架格式及框线对信息识别精度的影响,在对表格类图像上的关键信息进行识别时除字符信息之外的其它干扰因素会少很多,从而有效提高表格类图像的信息识别精度及效率。
在一可选的实施例中,在上述实施例的基础上,所述识别所述表格类图像的表格类别的步骤包括:
利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别,并输出表格类图像的类别识别结果(例如,门诊票据、住院票据、保险收费收据、理赔出单单据以及其他类表格票据等)。
本实施例中,所述表格类图像识别模型为深度卷积神经网络模型(例如,该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(Single Shot MultiBox Detector)算法模型),该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表1所示:
Layer Name Batch Size Kernel Size Stride Size Pad Size
Input 128 N/A N/A N/A
Conv1 128 3 1 1
Conv2 128 3 1 1
MaxPool1 128 2 2 0
Conv3 128 3 1 1
Conv4 128 3 1 1
MaxPool2 128 2 2 0
Conv5 128 3 1 1
Conv6 128 3 1 1
Conv7 128 3 1 1
MaxPool3 128 2 2 0
Conv8 128 3 1 1
Conv9 128 3 1 1
Conv10 128 3 1 1
MaxPool4 128 2 2 0
Conv11 128 3 1 1
Conv12 128 3 1 1
Conv13 128 3 1 1
MaxPool5 128 2 2 0
Fc1 4096 1 1 0
Fc2 2048 1 1 0
Softmax 3 N/A N/A N/A
表1
其中:Layer Name表示每一层的名称,Input表示输入层,Conv表示模型的卷积层,Conv1表示模型的第1个卷积层,MaxPool表示模型的最大值池化层,MaxPool1表示模型的第1个最大值池化层,Fc表示模型中的全连接层,Fc1表示模型中第1个全连接层,Softmax表示Softmax分类器;Batch Size表示当前层的输入图像数目;Kernel Size表示当前层卷积核的尺度(例如,Kernel Size可以等于3,表示卷积核的尺度为3x 3);Stride Size表示卷积核的移动步长,即做完 一次卷积之后移动到下一个卷积位置的距离;Pad Size表示对当前网络层之中的图像填充的大小。需要说明的是,本实施例中池化层的池化方式包括但不限于Mean pooling(均值采样)、Max pooling(最大值采样)、Overlapping(重叠采样)、L2 pooling(均方采样)、Local Contrast Normalization(归一化采样)、Stochasticpooling(随即采样)、Def-pooling(形变约束采样)等等。
所述表格类图像识别模型的训练过程如下:
B1、为每一个预设表格图像类别(例如,预设表格图像类别包括门诊票据、住院票据、保险收费收据、理赔出单单据等)准备预设数量(例如,1000张)的标注有对应的图像类别的表格图像样本。本实施例中,在训练之前,针对表格图像样本还做如下处理:
根据其高宽比信息以及印章的位置判断表格图像样本的转置情况,并做翻转调整:当高宽比大于1时,说明表格图像样本高宽颠倒,若印章位置在表格图像样本左侧,则对表格图像样本做顺时针旋转九十度处理,若印章位置在表格图像样本右侧,则对表格图像样本做逆时针旋转九十度处理;当高宽比小于1时,说明表格图像样本高宽未颠倒,若印章位置在表格图像样本下侧,则对表格图像样本做顺时针旋转一百八十度处理。
找出标注存在严重问题的数据,比如关键位置信息缺失或超出整张图片范围,以及印章标注位置位于表格图像样本中央等明显标注错误的数据,对这些数据进行清理,确保数据标注准确无误。
这样,能保证进行模型训练的表格图像样本均为高宽未颠倒且标注准确无误的图片,以利于后续的模型训练更加准确有效。
B2、将每一个预设表格图像类别对应的表格图像样本分为第一比例(例如,80%)的训练子集和第二比例(例如,20%)的验证子集,将各个训练子集中的表格图像样本进行混合以得到训练集,并将各个验证子集中的表格图像样本进行混合以得到验证集;
B3、利用所述训练集训练所述表格类图像识别模型;
B4、利用所述验证集验证训练的所述表格类图像识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设表格图像类别对应的表格类图像样本的数量,并重新执行步骤B2、B3、B4。
在一可选的实施例中,在上述实施例的基础上,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系的步骤包括:
D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值, 例如,两个标注框左上角的纵坐标差值的绝对值小于该两个标注框高度值较小者的一半,则将该两个标注框分为一组。这样,处于同一组的标注框都位于同一行。
D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行。需要说明的是,若所述第一标准模板中有大于m行的标注框,则从所述第一标准模板中挑选出m行预设类型(例如,保险单据上的标题、落款,医疗票据上的姓名、日期等)的标注框,或者,从预设位置处挑选出m行标注框,例如,可以从图像的上半部分和下半部分分别选出固定数量(例如,m/2)的标注框行。
D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该P对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值。例如,在一种可选的实施方式中,可将该P对标注框中每对标注框对应的位置框差值loss设定为配对的两个标注框左上角坐标差值的绝对值,每对标注框的位置框差值loss对应的权重设定为1/n;把这P对标注框对应的位置框差值loss分别乘以对应的权重后加起来就是本次随机取出的p对标注框对应的两个标注框行的位置行差值loss,将得到的所有位置行差值loss的最小值定义为该两个标注框行的位置行差值loss。
D6、在m对标注框行选择完毕后,得到m个位置行差值loss,根据m个位置行差值loss确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。例如,在一种可选的实施方式中,可从这m个位置行差值loss中找出最小的位置行差值loss,从找出的位置行差值loss对应的一对目标标注框行对应的各个位置框差值loss中,确定最小的位置框差值loss,该最小的位置框差值loss即作为所述第一标准模板到角度校正后的表格类图像的位置对应关系。
如图2所示,图2为本申请表格类图像的信息识别方法一实施例的流程示意图,该表格类图像的信息识别方法包括以下步骤:
步骤S10,在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框。
本实施例中,在收到待信息提取的表格类图像后,识别该表格类图像的表格类别,并根据表格类别确定出与该表格类图像对应的预先确定的带有文本行位置标注框的第一标准模板和带有关键信息位置标注框的第二标准模板,该第一标准模板和第二标准模板的框架格式与该图像的框架格式一致。例如,所述第一标准模板的获取过程为:在若干表格类图像样本的集合中挑选一张摆放位置比较正、背景较少的图像,人工手动标出挑选的图像上所有文本行的位置信息;每个文本行用一个文本行位置标注框(bounding box)标出,各个文本行位置标注框用四个数来表示,分别为左上角的横坐标与纵坐标,及右下角的横坐标与纵坐标,其中,坐标系原点选为图像左上角,向右为横轴正方向,向下为纵轴正方向。所述第二标准模板的获取过程为;在该第一标准模板对应的同一张图像上,标出关键信息位置和对应的关键信息栏位名称。
步骤S20,利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。
本实施例中,首先利用预先确定的校正规则对所述表格类图像进行角度校正。在一种可选的实施方式中,所述预先确定的校正规则为:用霍夫变换(Hough)的概率算法找出所述表格类图像中尽可能多的小段直线;从找出的小段直线中确定出所有偏水平的直线,并将确定出的直线中x坐标值相差不大的直线按对应的y坐标值的大小顺序依次相连,按照x坐标值大小分为若干类,或者,将确定出的直线中y坐标值相差不大的直线按对应的x坐标值的大小顺序依次相连,按照y坐标值大小分为若干类;将属于一类的所有水平直线作为一个目标类直线,并通过最小二乘法找出最接近各个目标类直线的长直线;计算出各个长直线的斜率,计算出各个长直线的斜率的中位数和均值,比较计算出的斜率的中位数和均值的大小以确定出较小者,并根据确定出的较小者调整图像旋转角度,以将收到的所述表格类图像矫正为正常无倾角的图片。
在另一种可选的实施方式中,所述预先确定的校正规则为:预先选定一个最大旋转角度max_skew,选定旋转次数n,从-max_skew到max_skew平均分成n份,这样就得到一列备选的旋转角度;以灰度图的方式读入待校正的所述表格类图像,对于每一个备选的旋转角度,将灰度图按照这个角度大小进行旋转得到新的图像矩阵,把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值,将得到的一列均值求方差,依此计算,每个备选的角度可得到对应的一个方差值;从上述方差值中挑选出最大方差值,该最大方差值对应的旋转角度即为对待校正的所述表格类图像进行的校正角度,从而利用得到的校正角度对所述表格类图像进行校正。该实施方式中,考虑到如果图像的文本行是水平的,那么图像矩阵某一行或者是文字、或者是空白,得到的均值相差就大;如果图像文本不是水平的,那么图像矩阵大多数行会同时穿过文本和文本行中间的空白,那么得到的均值相差就不大。因此,通过方差值来选取旋转角度的方式,能实现将待校正的所述表格类图像矫正为正常无倾角的图片。
在对所述表格类图像进行角度校正后,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行。例如,在一种可选的实施方式中,所述文本行检测模型为联结文本提案网络(Connectionist Text Proposal Network,简称CTPN)模型,用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。CTPN本质上是一个全卷积网络,输入的图片可以是任意大小,它通过一个小的滑动窗口在卷积特征图上检测文本行,输出精细的文本提议区域序列。
在检测并用标注框标注出角度校正后的表格类图像上的所有文本行之后,可将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。由于所述第一标准模板中预先设置有文本行位置标注框,因此,可将表格类图像上标注的文本行与所述第一标准模板中的文本行进行对应,例如,可比较表格类图像与第一标准模板上相同位置的文本行位置标注框之间的坐标差别,如两个文本行位置标注框之间的左上角横坐标、纵坐标以及右下角横坐标、纵坐标之间的坐标差值,以确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。
步骤S30,根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
在确定出所述第一标准模板到角度校正后的表格类图像的位置 对应关系之后,可根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上。例如,可根据角度校正后的表格类图像与第一标准模板上文本行位置标注框之间的坐标差值,以及所述第二标准模板上的关键信息位置标注框的坐标(如左上角横坐标、纵坐标以及右下角横坐标、纵坐标),转换计算得到角度校正后的表格类图像上关键信息位置标注框的坐标(如左上角横坐标、纵坐标以及右下角横坐标、纵坐标),从而确定出角度校正后的表格类图像上的关键信息位置。即可利用预先确定字符识别模型识别出角度校正后的表格类图像上的关键信息。其中,该预先确定字符识别模型可以为OCR字符识别引擎,也可以是经预先学习、训练得到的字符识别模型,如时间递归神经网络模型(Long-Short Term Memory,LSTM)等,在此不做限定。
与现有技术相比,本实施例通过预先确定的带有文本行位置标注框的第一标准模板确定出待处理的表格类图像与该第一标准模板的位置对应关系,再根据确定的位置对应关系将预先确定的带有关键信息位置标注框的第二标准模板上的关键信息位置标注框映射到表格类图像上,以得到表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出表格类图像上的关键信息。由于通过第一标准模板能确定出表格类图像上各个文本行的位置,进而通过第二标准模板确定出表格类图像上的关键信息位置,从而对关键信息进行识别。减小了表格类图像的框架格式及框线对信息识别精度的影响,在对表格类图像上的关键信息进行识别时除字符信息之外的其它干扰因素会少很多,从而有效提高表格类图像的信息识别精度及效率。
在一可选的实施例中,在上述实施例的基础上,所述识别所述表格类图像的表格类别的步骤包括:
利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别,并输出表格类图像的类别识别结果(例如,门诊票据、住院票据、保险收费收据、理赔出单单据以及其他类表格票据等)。
本实施例中,所述表格类图像识别模型为深度卷积神经网络模型(例如,该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(Single Shot MultiBox Detector)算法模型),该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表2所示:
Figure PCTCN2018076163-appb-000001
Figure PCTCN2018076163-appb-000002
表2
其中:Layer Name表示每一层的名称,Input表示输入层,Conv表示模型的卷积层,Conv1表示模型的第1个卷积层,MaxPool表示模型的最大值池化层,MaxPool1表示模型的第1个最大值池化层,Fc表示模型中的全连接层,Fc1表示模型中第1个全连接层,Softmax表示Softmax分类器;Batch Size表示当前层的输入图像数目;Kernel Size表示当前层卷积核的尺度(例如,Kernel Size可以等于3,表示卷积核的尺度为3x 3);Stride Size表示卷积核的移动步长,即做完一次卷积之后移动到下一个卷积位置的距离;Pad Size表示对当前网络层之中的图像填充的大小。需要说明的是,本实施例中池化层的池化方式包括但不限于Mean pooling(均值采样)、Max pooling(最大值采样)、Overlapping(重叠采样)、L2 pooling(均方采样)、Local Contrast Normalization(归一化采样)、Stochasticpooling(随即采样)、Def-pooling(形变约束采样)等等。
所述表格类图像识别模型的训练过程如下:
B1、为每一个预设表格图像类别(例如,预设表格图像类别包括门诊票据、住院票据、保险收费收据、理赔出单单据等)准备预设数量(例如,1000张)的标注有对应的图像类别的表格图像样本。本实施例中,在训练之前,针对表格图像样本还做如下处理:
根据其高宽比信息以及印章的位置判断表格图像样本的转置情况,并做翻转调整:当高宽比大于1时,说明表格图像样本高宽颠倒,若印章位置在表格图像样本左侧,则对表格图像样本做顺时针旋转九十度处理,若印章位置在表格图像样本右侧,则对表格图像样本做逆时针旋转九十度处理;当高宽比小于1时,说明表格图像样本高宽未颠倒,若印章位置在表格图像样本下侧,则对表格图像样本做顺时针旋转一百八十度处理。
找出标注存在严重问题的数据,比如关键位置信息缺失或超出整张图片范围,以及印章标注位置位于表格图像样本中央等明显标注错误的数据,对这些数据进行清理,确保数据标注准确无误。
这样,能保证进行模型训练的表格图像样本均为高宽未颠倒且标注准确无误的图片,以利于后续的模型训练更加准确有效。
B2、将每一个预设表格图像类别对应的表格图像样本分为第一比例(例如,80%)的训练子集和第二比例(例如,20%)的验证子集,将各个训练子集中的表格图像样本进行混合以得到训练集,并将各个验证子集中的表格图像样本进行混合以得到验证集;
B3、利用所述训练集训练所述表格类图像识别模型;
B4、利用所述验证集验证训练的所述表格类图像识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设表格图像类别对应的表格类图像样本的数量,并重新执行步骤B2、B3、B4。
在一可选的实施例中,在上述实施例的基础上,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系的步骤包括:
D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,例如,两个标注框左上角的纵坐标差值的绝对值小于该两个标注框高度值较小者的一半,则将该两个标注框分为一组。这样,处于同一组的标注框都位于同一行。
D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行。需要说明的是,若所述第一标 准模板中有大于m行的标注框,则从所述第一标准模板中挑选出m行预设类型(例如,保险单据上的标题、落款,医疗票据上的姓名、日期等)的标注框,或者,从预设位置处挑选出m行标注框,例如,可以从图像的上半部分和下半部分分别选出固定数量(例如,m/2)的标注框行。
D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该P对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值。例如,在一种可选的实施方式中,可将该P对标注框中每对标注框对应的位置框差值loss设定为配对的两个标注框左上角坐标差值的绝对值,每对标注框的位置框差值loss对应的权重设定为1/n;把这P对标注框对应的位置框差值loss分别乘以对应的权重后加起来就是本次随机取出的p对标注框对应的两个标注框行的位置行差值loss,将得到的所有位置行差值loss的最小值定义为该两个标注框行的位置行差值loss。
D6、在m对标注框行选择完毕后,得到m个位置行差值loss,根据m个位置行差值loss确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。例如,在一种可选的实施方式中,可从这m个位置行差值loss中找出最小的位置行差值loss,从找出的位置行差值loss对应的一对目标标注框行对应的各个位置框差值loss中,确定最小的位置框差值loss,该最小的位置框差值loss即作为所述第一标准模板到角度校正后的表格类图像的位置对应关系。
此外,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有表格类图像的信息识别系统,所述表格类图像的信息识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述实施例中的表格类图像的信息识别方法的步骤,该表格类图像的信息识别方法的步骤S10、S20、S30等具体实施过程如上文所述,在此不再赘述。

Claims (20)

  1. 一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的表格类图像的信息识别系统,所述表格类图像的信息识别系统被所述处理器执行时实现如下步骤:
    A、在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框;
    B、利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系;
    C、根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
  2. 如权利要求1所述的电子装置,其特征在于,所述识别所述表格类图像的表格类别包括:
    利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别,所述表格类图像识别模型为深度卷积神经网络模型,该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成,所述表格类图像的表格类别包括门诊票据、住院票据、保险收费收据和理赔出单单据。
  3. 如权利要求1所述的电子装置,其特征在于,所述预先确定的校正规则为:
    预先设定一最大旋转角度max_skew及旋转次数n,从-max_skew到max_skew平均分成n份,得到一列备选的旋转角度;
    以灰度图的方式读入所述表格类图像,对于每一个备选的旋转角度,将灰度图按照该备选的旋转角度大小进行旋转得到新图像矩阵,把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值,将得到的一列均值求方差,依此计算,每一个备选的旋转角度对应一个方差值;
    从所有备选的旋转角度对应的方差值中挑选出最大方差值,将该最大方差值对应的备选的旋转角度作为校正角度,并利用所述校正角 度对所述表格类图像进行校正。
  4. 如权利要求1所述的电子装置,其特征在于,所述文本行检测模型为联结文本提案网络CTPN模型,该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。
  5. 如权利要求2所述的电子装置,其特征在于,所述文本行检测模型为联结文本提案网络CTPN模型,该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。
  6. 如权利要求3所述的电子装置,其特征在于,所述文本行检测模型为联结文本提案网络CTPN模型,该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。
  7. 如权利要求4所述的电子装置,其特征在于,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括:
    D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,则将该两个标注框分为一组,以使得处于同一组的标注框都位于同一行;
    D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
    D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
    D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行;
    D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该P对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值;
    D6、在m对标注框行选择完毕后,得到m个位置行差值,根据 m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
  8. 如权利要求5所述的电子装置,其特征在于,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括:
    D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,则将该两个标注框分为一组,以使得处于同一组的标注框都位于同一行;
    D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
    D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
    D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行;
    D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该P对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值;
    D6、在m对标注框行选择完毕后,得到m个位置行差值,根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
  9. 如权利要求6所述的电子装置,其特征在于,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括:
    D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,则将该两个标注框分为一组,以使得处于同一组的标注框都位于同一行;
    D2、对分组后的每一行标注框按照行内每个标注框左上角横坐 标从小到大的顺序进行标注框排序;
    D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
    D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行;
    D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该P对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值;
    D6、在m对标注框行选择完毕后,得到m个位置行差值,根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
  10. 一种表格类图像的信息识别方法,其特征在于,所述表格类图像的信息识别方法包括:
    在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框;
    利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系;
    根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
  11. 如权利要求10所述的表格类图像的信息识别方法,其特征在于,所述识别所述表格类图像的表格类别包括:
    利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别,所述表格类图像识别模型为深度卷积神经网络模 型,该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成,所述表格类图像的表格类别包括门诊票据、住院票据、保险收费收据和理赔出单单据。
  12. 如权利要求10所述的表格类图像的信息识别方法,其特征在于,所述预先确定的校正规则为:
    预先设定一最大旋转角度max_skew及旋转次数n,从-max_skew到max_skew平均分成n份,得到一列备选的旋转角度;
    以灰度图的方式读入所述表格类图像,对于每一个备选的旋转角度,将灰度图按照该备选的旋转角度大小进行旋转得到新图像矩阵,把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值,将得到的一列均值求方差,依此计算,每一个备选的旋转角度对应一个方差值;
    从所有备选的旋转角度对应的方差值中挑选出最大方差值,将该最大方差值对应的备选的旋转角度作为校正角度,并利用所述校正角度对所述表格类图像进行校正。
  13. 如权利要求10所述的表格类图像的信息识别方法,其特征在于,所述文本行检测模型为联结文本提案网络CTPN模型,该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。
  14. 如权利要求11所述的表格类图像的信息识别方法,其特征在于,所述文本行检测模型为联结文本提案网络CTPN模型,该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。
  15. 如权利要求12所述的表格类图像的信息识别方法,其特征在于,所述文本行检测模型为联结文本提案网络CTPN模型,该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。
  16. 如权利要求13所述的表格类图像的信息识别方法,其特征在于,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括:
    D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,则将该两个标注框分为一组,以使得处于同一组的标注框都位于同一行;
    D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
    D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
    D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行;
    D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该P对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值;
    D6、在m对标注框行选择完毕后,得到m个位置行差值,根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
  17. 如权利要求14所述的表格类图像的信息识别方法,其特征在于,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括:
    D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,则将该两个标注框分为一组,以使得处于同一组的标注框都位于同一行;
    D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
    D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
    D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行;
    D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选 择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该P对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值;
    D6、在m对标注框行选择完毕后,得到m个位置行差值,根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
  18. 如权利要求15所述的表格类图像的信息识别方法,其特征在于,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括:
    D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,则将该两个标注框分为一组,以使得处于同一组的标注框都位于同一行;
    D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
    D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
    D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行;
    D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该P对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值;
    D6、在m对标注框行选择完毕后,得到m个位置行差值,根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
  19. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有表格类图像的信息识别系统,所述表格类图像的信息识别系统被处理器执行时实现如下步骤:
    在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框;
    利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系;
    根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
  20. 如权利要求19所述的计算机可读存储介质,其特征在于,所述识别所述表格类图像的表格类别包括:
    利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别,所述表格类图像识别模型为深度卷积神经网络模型,该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成,所述表格类图像的表格类别包括门诊票据、住院票据、保险收费收据和理赔出单单据。
PCT/CN2018/076163 2017-11-30 2018-02-10 表格类图像的信息识别方法、电子装置及可读存储介质 WO2019104879A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711240787.9 2017-11-30
CN201711240787.9A CN107862303B (zh) 2017-11-30 2017-11-30 表格类图像的信息识别方法、电子装置及可读存储介质

Publications (1)

Publication Number Publication Date
WO2019104879A1 true WO2019104879A1 (zh) 2019-06-06

Family

ID=61704290

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/076163 WO2019104879A1 (zh) 2017-11-30 2018-02-10 表格类图像的信息识别方法、电子装置及可读存储介质

Country Status (2)

Country Link
CN (1) CN107862303B (zh)
WO (1) WO2019104879A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348415A (zh) * 2019-07-17 2019-10-18 济南大学 一种高分辨率遥感目标大数据集的高效标注方法及系统
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110458161A (zh) * 2019-07-15 2019-11-15 天津大学 一种结合深度学习的移动机器人门牌定位方法
CN111144282A (zh) * 2019-12-25 2020-05-12 北京同邦卓益科技有限公司 表格识别方法和装置、计算机可读存储介质
CN111160193A (zh) * 2019-12-20 2020-05-15 中国平安财产保险股份有限公司 关键信息提取方法、装置及存储介质
CN111325182A (zh) * 2020-03-19 2020-06-23 四川骏逸富顿科技有限公司 一种基于ocr的医保报销欺诈检测方法
CN111768344A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证正面图像的校正方法、装置、设备及存储介质
CN112149561A (zh) * 2020-09-23 2020-12-29 杭州睿琪软件有限公司 图像处理方法和装置、电子设备和存储介质
CN112633118A (zh) * 2020-12-18 2021-04-09 上海眼控科技股份有限公司 一种文本信息提取方法、设备及存储介质
CN113139625A (zh) * 2021-05-18 2021-07-20 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113158632A (zh) * 2021-04-30 2021-07-23 广联达科技股份有限公司 Cad图纸的表格重建方法和计算机可读存储介质
CN113221773A (zh) * 2021-05-19 2021-08-06 中国电子科技集团公司第二十八研究所 基于遥感影像快速构建飞机分类数据集的方法
CN114842483A (zh) * 2022-06-27 2022-08-02 齐鲁工业大学 基于神经网络和模板匹配的标准文件信息提取方法及系统
US11977534B2 (en) 2021-04-02 2024-05-07 Kofax, Inc. Automated document processing for detecting, extracting, and analyzing tables and tabular data

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805001B (zh) * 2018-04-09 2019-12-24 平安科技(深圳)有限公司 电子装置、基于证件图片的身份识别方法及存储介质
CN108564035B (zh) 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
CN108596168B (zh) * 2018-04-20 2020-11-20 京东数字科技控股有限公司 用于识别图像中字符的方法、装置及介质
CN109062921B (zh) * 2018-05-31 2021-06-29 武昌船舶重工集团有限公司 一种提取船舶托盘管理信息的方法及系统
CN108960062A (zh) * 2018-06-01 2018-12-07 平安科技(深圳)有限公司 校正发票图像的方法、装置、计算机设备和存储介质
CN108921158A (zh) * 2018-06-14 2018-11-30 众安信息技术服务有限公司 图像校正方法、装置及计算机可读存储介质
CN109002768A (zh) * 2018-06-22 2018-12-14 深源恒际科技有限公司 基于神经网络文本检测识别的医疗票据类文字提取方法
CN108885699B (zh) * 2018-07-11 2020-06-26 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN109214385B (zh) * 2018-08-15 2021-06-08 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN109344831B (zh) * 2018-08-22 2024-04-05 中国平安人寿保险股份有限公司 一种数据表识别方法、装置及终端设备
CN109102844B (zh) * 2018-08-24 2022-02-15 北京锐客科技有限公司 一种临床试验源数据自动校验方法
CN109145904A (zh) * 2018-08-24 2019-01-04 讯飞智元信息科技有限公司 一种字符识别方法及装置
CN109117814B (zh) * 2018-08-27 2020-11-03 京东数字科技控股有限公司 图像处理方法、装置、电子设备及介质
CN109271980A (zh) * 2018-08-28 2019-01-25 上海萃舟智能科技有限公司 一种车辆铭牌全信息识别方法、系统、终端及介质
CN109117848B (zh) * 2018-09-07 2022-11-18 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN109325557B (zh) * 2018-09-10 2019-07-16 四川正狐智慧科技有限公司 基于计算机视觉图像识别的数据智能采集方法
CN109492795A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ai的机场登机服务处理方法、装置、设备及介质
CN111079756B (zh) * 2018-10-19 2023-09-19 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备
CN109658062A (zh) * 2018-12-13 2019-04-19 广州华资软件技术有限公司 一种基于深度学习的电子档案智能处理方法
CN109726643B (zh) * 2018-12-13 2021-08-20 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109886108A (zh) * 2019-01-17 2019-06-14 上海大学 一种表单任意区域字符识别与信息录入方法
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN110059688B (zh) * 2019-03-19 2024-05-28 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN110059687B (zh) * 2019-03-19 2024-05-28 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN110442841B (zh) * 2019-06-20 2024-02-02 平安科技(深圳)有限公司 识别简历的方法及装置、计算机设备、存储介质
CN110334647A (zh) * 2019-07-03 2019-10-15 云南电网有限责任公司信息中心 一种基于图像识别的参数格式化方法
CN110399875A (zh) * 2019-07-31 2019-11-01 山东浪潮人工智能研究院有限公司 一种基于深度学习与像素投影的通用表格信息提取方法
CN110458070A (zh) * 2019-08-01 2019-11-15 上海眼控科技股份有限公司 基于机动车年检检验表图片识别检验次数的方法与系统
CN110705551B (zh) * 2019-10-09 2022-05-20 北京百度网讯科技有限公司 按键位置的识别方法、装置、电子设备和存储介质
CN111027532A (zh) * 2019-12-11 2020-04-17 上海眼控科技股份有限公司 一种交强险保单车船税金额识别系统和方法
CN111695558B (zh) * 2020-04-28 2023-08-04 深圳市跨越新科技有限公司 基于YoloV3模型的物流运单图片摆正方法及系统
CN111695517B (zh) * 2020-06-12 2023-08-18 北京百度网讯科技有限公司 图像的表格提取方法、装置、电子设备及存储介质
CN111985306A (zh) * 2020-07-06 2020-11-24 北京欧应信息技术有限公司 一种应用于医疗领域文档的ocr和信息抽取方法
CN112149679B (zh) * 2020-09-24 2022-09-23 北京中宏立达信创科技有限公司 一种基于ocr文字识别提取公文要素的方法及装置
CN113191131A (zh) * 2021-05-10 2021-07-30 重庆中科云从科技有限公司 用于文本识别的表格模板建立方法、文本识别方法、系统
CN115273113B (zh) * 2022-09-27 2022-12-27 深圳擎盾信息科技有限公司 表格类文本语义识别方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778703B1 (en) * 2000-04-19 2004-08-17 International Business Machines Corporation Form recognition using reference areas
CN101447017A (zh) * 2008-11-27 2009-06-03 浙江工业大学 一种基于版面分析的选票快速识别统计方法及系统
US20090245652A1 (en) * 2008-03-31 2009-10-01 Perceptive Software, Inc. Automatic forms identification systems and methods
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
CN102236789A (zh) * 2010-04-26 2011-11-09 富士通株式会社 对表格图像进行校正的方法以及装置
CN102375978A (zh) * 2010-08-17 2012-03-14 富士通株式会社 处理图像的方法和设备
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN107133621A (zh) * 2017-05-12 2017-09-05 江苏鸿信系统集成有限公司 基于ocr的格式化传真的分类和信息提取方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007117334A2 (en) * 2006-01-03 2007-10-18 Kyos Systems Inc. Document analysis system for integration of paper records into a searchable electronic database
CN102479173B (zh) * 2010-11-25 2013-11-06 北京大学 识别版面阅读顺序的方法及装置
CN102750541B (zh) * 2011-04-22 2015-07-08 北京文通科技有限公司 一种文档图像分类识别方法及装置
KR101435860B1 (ko) * 2013-01-18 2014-08-29 주식회사 슈프리마 전자문서 템플릿 사용자 조작방법 및 템플릿을 이용한 전자문서 판독방법
US9779286B2 (en) * 2013-08-28 2017-10-03 Nec Corporation Feature point location estimation device, feature point location estimation method, and feature point location estimation program
CN106570105A (zh) * 2016-11-01 2017-04-19 广西电网有限责任公司电力科学研究院 一种电力设备试验报告的结构化处理方法
CN106845545B (zh) * 2017-01-20 2020-09-22 浙江省电力试验研究院技术服务中心 数字式电测仪表自动检定装置中的图像识别方法及装置
CN106909941A (zh) * 2017-02-27 2017-06-30 广东工业大学 基于机器视觉的多表字符识别系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778703B1 (en) * 2000-04-19 2004-08-17 International Business Machines Corporation Form recognition using reference areas
US20090245652A1 (en) * 2008-03-31 2009-10-01 Perceptive Software, Inc. Automatic forms identification systems and methods
CN101447017A (zh) * 2008-11-27 2009-06-03 浙江工业大学 一种基于版面分析的选票快速识别统计方法及系统
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
CN102236789A (zh) * 2010-04-26 2011-11-09 富士通株式会社 对表格图像进行校正的方法以及装置
CN102375978A (zh) * 2010-08-17 2012-03-14 富士通株式会社 处理图像的方法和设备
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN107133621A (zh) * 2017-05-12 2017-09-05 江苏鸿信系统集成有限公司 基于ocr的格式化传真的分类和信息提取方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390269B (zh) * 2019-06-26 2023-08-01 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110458161A (zh) * 2019-07-15 2019-11-15 天津大学 一种结合深度学习的移动机器人门牌定位方法
CN110458161B (zh) * 2019-07-15 2023-04-18 天津大学 一种结合深度学习的移动机器人门牌定位方法
CN110348415A (zh) * 2019-07-17 2019-10-18 济南大学 一种高分辨率遥感目标大数据集的高效标注方法及系统
CN110348415B (zh) * 2019-07-17 2022-09-30 济南大学 一种高分辨率遥感目标大数据集的高效标注方法及系统
CN111160193B (zh) * 2019-12-20 2024-02-09 中国平安财产保险股份有限公司 关键信息提取方法、装置及存储介质
CN111160193A (zh) * 2019-12-20 2020-05-15 中国平安财产保险股份有限公司 关键信息提取方法、装置及存储介质
CN111144282A (zh) * 2019-12-25 2020-05-12 北京同邦卓益科技有限公司 表格识别方法和装置、计算机可读存储介质
CN111144282B (zh) * 2019-12-25 2023-12-05 北京同邦卓益科技有限公司 表格识别方法和装置、计算机可读存储介质
CN111325182A (zh) * 2020-03-19 2020-06-23 四川骏逸富顿科技有限公司 一种基于ocr的医保报销欺诈检测方法
CN111768344A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证正面图像的校正方法、装置、设备及存储介质
CN111768344B (zh) * 2020-05-12 2023-06-30 北京奇艺世纪科技有限公司 身份证正面图像的校正方法、装置、设备及存储介质
CN112149561A (zh) * 2020-09-23 2020-12-29 杭州睿琪软件有限公司 图像处理方法和装置、电子设备和存储介质
CN112149561B (zh) * 2020-09-23 2024-04-16 杭州睿琪软件有限公司 图像处理方法和装置、电子设备和存储介质
CN112633118A (zh) * 2020-12-18 2021-04-09 上海眼控科技股份有限公司 一种文本信息提取方法、设备及存储介质
US11977533B2 (en) 2021-04-02 2024-05-07 Kofax, Inc. Automated document processing for detecting, extracting, and analyzing tables and tabular data
US11977534B2 (en) 2021-04-02 2024-05-07 Kofax, Inc. Automated document processing for detecting, extracting, and analyzing tables and tabular data
CN113158632B (zh) * 2021-04-30 2024-05-28 广联达科技股份有限公司 Cad图纸的表格重建方法和计算机可读存储介质
CN113158632A (zh) * 2021-04-30 2021-07-23 广联达科技股份有限公司 Cad图纸的表格重建方法和计算机可读存储介质
CN113139625B (zh) * 2021-05-18 2023-12-15 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113139625A (zh) * 2021-05-18 2021-07-20 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113221773B (zh) * 2021-05-19 2022-09-13 中国电子科技集团公司第二十八研究所 基于遥感影像快速构建飞机分类数据集的方法
CN113221773A (zh) * 2021-05-19 2021-08-06 中国电子科技集团公司第二十八研究所 基于遥感影像快速构建飞机分类数据集的方法
CN114842483A (zh) * 2022-06-27 2022-08-02 齐鲁工业大学 基于神经网络和模板匹配的标准文件信息提取方法及系统
CN114842483B (zh) * 2022-06-27 2023-11-28 齐鲁工业大学 基于神经网络和模板匹配的标准文件信息提取方法及系统

Also Published As

Publication number Publication date
CN107862303B (zh) 2019-04-26
CN107862303A (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
WO2019104879A1 (zh) 表格类图像的信息识别方法、电子装置及可读存储介质
CN107798299B (zh) 票据信息识别方法、电子装置及可读存储介质
CN107766809B (zh) 电子装置、票据信息识别方法和计算机可读存储介质
WO2019174130A1 (zh) 票据识别方法、服务器及计算机可读存储介质
WO2019037259A1 (zh) 电子装置、发票分类的方法、系统及计算机可读存储介质
CN109657665B (zh) 一种基于深度学习的发票批量自动识别系统
CN111680688B (zh) 字符识别方法及装置、电子设备、存储介质
WO2018205467A1 (zh) 车损部位的识别方法、系统、电子装置及存储介质
CN112528863A (zh) 表格结构的识别方法、装置、电子设备及存储介质
US9092697B2 (en) Image recognition system and method for identifying similarities in different images
US20180253852A1 (en) Method and device for locating image edge in natural background
JP2012043433A (ja) 画像処理方法及び装置
US20130177246A1 (en) Identification and Separation of Form and Feature Elements from Handwritten and Other User Supplied Elements
WO2023284784A1 (zh) 条码图像修复方法、装置、计算机设备和存储介质
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN116524527A (zh) 一种表格图像文本识别方法及系统
US11386685B2 (en) Multiple channels of rasterized content for page decomposition using machine learning
JP2008234291A (ja) 文字認識装置及び文字認識方法
CN114332883A (zh) 发票信息识别方法、装置、计算机设备及存储介质
CN112418206B (zh) 基于位置检测模型的图片分类方法及其相关设备
WO2021143058A1 (zh) 基于图像的信息比对方法、装置、电子设备及计算机可读存储介质
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
CN117115823A (zh) 一种篡改识别方法、装置、计算机设备和存储介质
CN116994269A (zh) 一种图像文档中印章相似度比对方法及对比系统
CN111241974B (zh) 票据信息获取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18883366

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS (EPO FORM 1205A DATED 14.09.2020)

122 Ep: pct application non-entry in european phase

Ref document number: 18883366

Country of ref document: EP

Kind code of ref document: A1