WO2021012570A1 - 数据录入方法、装置、设备及存储介质 - Google Patents

数据录入方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2021012570A1
WO2021012570A1 PCT/CN2019/122812 CN2019122812W WO2021012570A1 WO 2021012570 A1 WO2021012570 A1 WO 2021012570A1 CN 2019122812 W CN2019122812 W CN 2019122812W WO 2021012570 A1 WO2021012570 A1 WO 2021012570A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
text
information
text information
word segmentation
Prior art date
Application number
PCT/CN2019/122812
Other languages
English (en)
French (fr)
Inventor
胡苗青
Original Assignee
深圳壹账通智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳壹账通智能科技有限公司 filed Critical 深圳壹账通智能科技有限公司
Publication of WO2021012570A1 publication Critical patent/WO2021012570A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Definitions

  • This application relates to the field of data processing, and in particular to a data entry method, device, equipment and storage medium.
  • paper files are not only easy to lose, but also easy to be damaged due to accidents such as water and fire, and the search efficiency of paper files is relatively low when searching. .
  • the existing data storage method is usually to manually input the data on paper files into the data management system.
  • the existing manual entry method is not only inefficient in entry, but also prone to errors and low entry accuracy.
  • This application provides a data entry method, device, equipment, and storage medium, which provide an important reference for identifying fraudulent insurance fraud.
  • this application provides a data entry method, which includes:
  • the text information and the keywords corresponding to the text information are stored in the target database to complete data entry.
  • this application also provides a data entry device, which includes:
  • the to-be-processed image module is used to obtain the to-be-processed image corresponding to the text file, the to-be-processed image includes a text area;
  • a bounding box extraction module for recognizing the text area in the image to be processed to obtain size information and position information of the text area; and determining the bounding box of the text area according to the size information and position information , And use the to-be-processed image in the bounding box as the bounding image;
  • a text recognition module configured to input the boundary image into a pre-trained image text recognition model for text recognition, so as to output text information corresponding to the boundary image;
  • the keyword extraction module is used to input the text information into a pre-trained keyword extraction model for keyword extraction, so as to obtain keywords corresponding to the text information;
  • the data entry module is used to store the text information and the keywords corresponding to the text information in the target database to complete data entry.
  • the present application also provides a computer device, the computer device includes a memory and a processor; the memory is used to store a computer program; the processor is used to execute the computer program and execute the The computer program realizes the above-mentioned data entry method.
  • the present application also provides a computer-readable storage medium that stores a computer program, and when the computer program is executed by a processor, the processor implements the above-mentioned data entry method .
  • This application discloses a data entry method, device, equipment, and storage medium.
  • the image to be processed is obtained by obtaining the image to be processed corresponding to a text file, and then the bounding box of the text area in the image to be processed is extracted to obtain the boundary image, and the boundary image is input into the image text
  • the recognition model performs text recognition, outputs text information, and then enters the text information into the keyword extraction model for keyword extraction to obtain keywords.
  • the text information and keywords corresponding to the text information are stored in the target database to complete data entry .
  • this solution realizes the input of text information by processing the to-be-processed image corresponding to the text file, which improves the efficiency and accuracy of data input.
  • FIG. 1 is a schematic flowchart of a method for training an image text recognition model provided by an embodiment of the present application
  • Figure 2 is a schematic flowchart of a data entry method provided by an embodiment of the present application.
  • FIG. 3 is a schematic flowchart of sub-steps provided by an embodiment of the present application.
  • FIG. 5 is a schematic flowchart of the sub-steps of extracting keywords from text information according to an embodiment of the present application
  • FIG. 6 is a schematic flowchart of the steps of another data entry method provided by an embodiment of the present application.
  • FIG. 7 is a schematic flowchart of sub-steps provided by an embodiment of the present application.
  • FIG. 8 is a schematic block diagram of a model training device provided by an embodiment of the present application.
  • FIG. 9 is a schematic block diagram of a data entry device provided in an embodiment of the present application.
  • FIG. 10 is a schematic block diagram of another data entry device provided by an embodiment of the present application.
  • FIG. 11 is a schematic block diagram of the structure of a computer device according to an embodiment of the application.
  • the embodiments of the present application provide a data entry method, device, computer equipment, and storage medium.
  • the data entry method can be applied to a terminal or a server to improve the accuracy and efficiency of data entry.
  • FIG. 1 is a schematic flowchart of a method for training an image text recognition model provided by an embodiment of the present application.
  • the image text recognition model is obtained by model training based on a convolutional neural network.
  • a convolutional neural network Of course, other networks can also be used for training.
  • GoogLeNet is used for model training to obtain the target recognition model.
  • CNN Convolutional Neural Network
  • Deep Residual Network Deep Residual Network
  • DResNet Deep Residual Network
  • LSTM Long Short-Term Memory
  • the training method of the image text recognition model is used to train the image text recognition model for application in the data entry method.
  • the training method of the image text recognition model includes step S101 and step S102.
  • the text image sample is an image including a text area.
  • the content of the text area can be contract content, ID card content, or other text content. The following will take the content of the text area as the contract content as an example for detailed description.
  • the text image samples may be different types of contract images such as sales contract images, transportation contract images, technical contract images, etc. These contract images constitute text image samples for training the image text recognition model. Use a variety of different contract images as samples to improve the recognition accuracy of the image text recognition model.
  • S102 Based on the convolutional neural network, perform model training according to the text image sample to obtain an image text recognition model, and use the image text recognition model as a preset image text recognition model.
  • the constructed sample data is used for model training through GoogLeNet.
  • GoogLeNet Specifically, directional propagation training can be used.
  • the convolutional layer and pooling layer of GoogLeNet are used to extract features from the input sample data, and the fully connected layer is used as a classifier.
  • the output of this classifier is the probability value of different images and texts.
  • the convolutional neural network takes the trained sample data as input and goes through the forward propagation step (convolution, ReLU activation and pooling operations to forward propagation in the fully connected layer) , And finally get the output probability of each category.
  • the terminal can be an electronic device such as a mobile phone, a tablet computer, a notebook computer, a desktop computer, a personal digital assistant, and a wearable device
  • the server can be an independent server or a server cluster.
  • the compression processing specifically includes pruning processing, quantization processing, and Huffman coding processing on the image text recognition model, so as to reduce the size of the image text recognition model, and then it is convenient to save it in a terminal with a smaller capacity.
  • the training method provided in the above embodiment obtains an image text model by acquiring a variety of text image samples, and then based on a convolutional neural network, model training is performed according to the text image samples to obtain an image text model, and the obtained image text model is used as a pre-trained image text model Used in data entry methods, which can improve the accuracy of text recognition in images.
  • FIG. 2 is a schematic flowchart of a data entry method provided by an embodiment of the present application.
  • the data entry method is used to identify and enter data to improve entry efficiency and accuracy.
  • the following takes the data entry method applied to the server as an example to introduce.
  • the data entry method specifically includes: step S201 to step S205.
  • the image to be processed includes a text area and a non-text area.
  • the image to be processed corresponding to the text file can be collected by an image collection device such as a camera.
  • the server acquires the image to be processed collected by the image acquisition device to facilitate subsequent operations on the image to be processed.
  • S202 Extract a bounding box of the text area in the image to be processed to obtain a bounding image.
  • the boundary image is an image to be processed in the boundary box.
  • the boundary image is obtained, and then text recognition is performed on the extracted boundary image, which reduces the amount of calculation during contract image recognition, thereby improving the efficiency of contract image recognition.
  • extracting the bounding box of the text region in the image to be processed to obtain the bounding image specifically includes sub-steps S202a and S202b.
  • S202a Recognizing a text area in the image to be processed to obtain size information and position information of the text area.
  • recognizing the text area in the image to be processed refers to automatic analysis of the text, table information, and position relationship in the image to be processed.
  • the position information of the text area can be obtained by recognizing the text area in the image to be processed, and the size information of the text area can be determined according to the position information of the text area.
  • the text area in the image to be processed is first recognized to obtain the area coordinates of the text in the text area.
  • the area coordinates refer to the pixel position coordinates of the text area on the image to be processed; according to the area of the text in the text area
  • the coordinates are calculated for the outsourcing area to obtain size information of the text area.
  • the outsourcing area refers to the smallest area including the text area.
  • S202b Determine a bounding box of the text area according to the size information and position information, and use an image to be processed in the bounding box as a boundary image.
  • the bounding box of the text area can be determined according to the size information and position information of the text area, and then the image to be processed in the bounding box is extracted based on the bounding box, and the extracted image to be processed is used as the boundary image.
  • the boundary image is input to a pre-trained image text recognition model for text recognition, and the image text recognition model outputs the text information included in the boundary image.
  • S204 Input the text information into a pre-trained keyword extraction model to perform keyword extraction, so as to obtain keywords corresponding to the text information.
  • the text information recognized from the boundary image is input into a pre-trained keyword extraction model to perform keyword extraction, so as to obtain corresponding keywords.
  • the text information recognized from the border image is: The contract is valid from June 28, 2017 to June 28, 2019.
  • the keyword extraction model performs keyword extraction, the corresponding keywords are obtained as: effective date June 28, 2017, and termination date June 28, 2018.
  • performing keyword extraction on text information specifically includes sub-steps S204a to S204c.
  • S204a Perform word segmentation on the text information and obtain a word segmentation result.
  • the word segmentation result includes at least one word segmentation.
  • the maximum matching algorithm can be used to segment the text information to obtain each segmentation contained in the text information, and the set of each segmentation contained in the text information is used as the segmentation result.
  • the maximum matching algorithm refers to the dictionary as the basis, taking the longest word in the dictionary as the first scan string, and scanning in the dictionary. For example, if the longest word in the dictionary is "People's Republic of China" and a total of 7 Chinese characters, the maximum number of starting characters for matching is 7 Chinese characters. Then decrease it word by word, and look it up in the corresponding dictionary. It is understandable that in other embodiments, other methods may be used to segment the text information, for example, the Viterbi algorithm.
  • S204b Input at least one of the word segmentation into a pre-trained keyword extraction model to obtain the importance weight corresponding to each word segmentation.
  • the word vector corresponding to each word segmentation is input into the keyword extraction model, and the keyword extraction model outputs the importance weight of each word segmentation. The greater the importance weight, the stronger the importance of the word segmentation.
  • the keyword extraction model can be obtained by selecting a preset number of standard contract samples on the Internet to perform model training on the deep learning model. For example, select 1,000 standard contract samples for model training.
  • the keyword extraction model includes a two-way long and short-term memory (BLSTM) algorithm model, a maximum pooling (Max Pooling) algorithm model, and a Softmax algorithm model that are sequentially connected in sequence.
  • the keywords can be keywords such as contract signing date, effective date, expiration date, and timeliness.
  • the keyword extraction model extracts the keywords corresponding to the text information, so that when querying the text information, there is no need to traverse each word in the text information, avoiding excessive query data and improving query efficiency.
  • step S204c includes step S204c1 and step S204c2.
  • each word segmentation in the word segmentation result is sorted in descending order, and a preset number of word segments are selected as the keywords of the text information. For example, the top three words ranked by importance weight can be selected as the keywords of the ranking result.
  • the signing date of a certain insurance contract is April 10, 2018, the effective date is April 20, 2018, the termination date is April 10, 2019, and the time limit is one year.
  • the importance weight of the signing date is 0.28
  • the importance weight of the effective date is 0.22
  • the importance weight of the termination date is 0.42
  • the importance weight of timeliness is 0.08.
  • the sorting results are as follows: termination date April 10, 2019, contract date April 10, 2018, effective date April 20, 2018, and one-year statute of limitations.
  • the keywords are the expiry date April 10, 2019, the signing date April 10, 2018, and the effective date April 20, 2018.
  • the text information and the keywords are stored in the target database, thereby completing the entry of the text information, that is, completing the entry of contract-related information, which improves entry efficiency and entry accuracy.
  • the data entry method obtains a to-be-processed image including a text area; then extracts the bounding box of the text area in the to-be-processed image to obtain a boundary image; and inputs the boundary image into a pre-trained image text recognition model for text Recognition, thereby outputting text information; inputting the text information into the keyword extraction model for keyword extraction, thereby obtaining keywords; finally storing the text information and keywords corresponding to the text information in the target database to complete data entry.
  • Fig. 6 is a schematic flowchart of the steps of another data entry method provided by an embodiment of the present application.
  • the data entry method can improve the accuracy and efficiency of data entry, and improve the efficiency of data query.
  • the data entry method specifically includes: step S301 to step S308.
  • the image to be processed includes a text area and a non-text area.
  • the image to be processed corresponding to the text file can be collected by an image collection device such as a camera.
  • the server acquires the image to be processed collected by the image acquisition device to facilitate subsequent operations on the image to be processed.
  • the boundary image is an image to be processed in the boundary box.
  • the boundary image is obtained, and then text recognition is performed on the extracted boundary image, which reduces the amount of calculation in contract image recognition, thereby improving the efficiency of contract image recognition.
  • the sub-steps S302a to S302c are included.
  • S302a Perform image smoothing processing and wavelet filtering processing on the image to be processed in the bounding box to obtain a denoised image.
  • image smoothing processing and wavelet filtering processing can eliminate the noise points of the boundary image, thereby making the boundary image less blurred.
  • the image smoothing process can use the neighborhood average method.
  • the neighborhood average method is to assign a pixel and the average value of all pixels in its neighborhood to the corresponding pixel in the output image, so as to achieve the purpose of smoothing.
  • the process is to make a window slide on the image, and the value of the center position of the window is used
  • the average value of each point value in the window is replaced, that is, the gray value of a pixel is replaced by the average gray value of several pixels.
  • image balance processing methods such as median filtering, can also be used.
  • S302b Perform direction correction processing on the denoising image to obtain a corrected image.
  • the received contract may have multiple rotation angles, it is necessary to rotate the contract to the correct direction to facilitate the next operation. Perform direction correction processing on the denoised image to make the contract rotate in the correct direction to obtain a corrected image.
  • an image compression orthographic network can be used to rotate the denoised image to complete the direction correction of the denoised image, so that the contract text in the denoised image is in the correct direction and the corrected image is obtained.
  • the image compression orthographic network is trained through machine learning and has the function of image rotation.
  • S302c Perform background removal processing on the corrected image to obtain the background removal image as a boundary image.
  • the corrected image includes a contract and a background image
  • the interference of the background image in the corrected image can be removed by background removal processing.
  • the boundary image is input to a pre-trained image text recognition model for text recognition, thereby outputting the text information included in the boundary image.
  • the text classification model may identify that the classification category of the insurance contract includes information such as insurance subject matter and insurance protection risk.
  • the subject of insurance includes: personal insurance or property insurance.
  • Insurance protection risks include: life insurance, personal accident insurance or health insurance, etc.
  • the insurance subject and insurance protection risks of the recognized text information are life insurance and life insurance respectively.
  • the text information recognized from the boundary image is input into a pre-trained keyword extraction model to perform keyword extraction, so as to obtain corresponding keywords.
  • step S304 and step S305 are not limited in this solution.
  • S306 According to the classification category, store the text information and the keywords corresponding to the text information in a sub-database corresponding to the target database to complete data entry.
  • each classification category corresponds to a sub-database
  • the collection of each sub-database constitutes the target database.
  • the sub-database corresponding to the classification category in the target database can be determined, and the text information and the keyword information corresponding to the text information are stored in the sub-database, thereby completing the efficient contract information Entry, entry accuracy is high and labor costs are reduced.
  • the data query request includes query keywords, which may include classification categories, effective dates, and so on.
  • the query request may be a user input voice information through a questioning mode, and a text with a query request converted from the voice information, or a data query request directly sent by the user to the server.
  • S308 Match the keywords in the target database according to the query keywords to obtain target text information corresponding to the query keywords.
  • mapping is performed in the target database according to the query keywords in the data query request. If the query keyword matches the keyword in the target database, the text information corresponding to the matched keyword is output as the target text information, thereby efficiently completing the query of the target contract.
  • the query keyword includes a classification category
  • the data entry method obtains the image to be processed including the text area; then extracts the bounding box of the text area in the image to be processed to obtain the boundary image; performs text recognition on the boundary image to output text information; Recognize the information category to obtain the classification category of the text information; perform keyword extraction on the text information to obtain the keywords; finally store the text information and the keywords corresponding to the text information in the target database according to the classification category to complete data entry . Then, the data query request is received, and the keyword in the target database is matched according to the data query request, thereby obtaining text information.
  • the image to be processed corresponding to the text file the input of text information is realized, and the efficiency and accuracy of data input are improved. Categorize text information to improve the orderliness of data entry, and also improve query efficiency during data query.
  • Fig. 8 is a schematic block diagram of a model training device provided by an embodiment of the present application.
  • the model training device can be configured in a server and used to execute the aforementioned image text recognition model training method.
  • the model training device 400 includes: a sample acquisition module 401 and a model training module 402.
  • the sample acquisition module 401 is configured to acquire a text image sample, the text image sample being an image including a text area.
  • the model training module 402 is configured to perform model training according to the text image samples based on the convolutional neural network to obtain an image text recognition model, and use the image text recognition model as a preset image text recognition model.
  • FIG. 9 is a schematic block diagram of a data entry device according to an embodiment of the present application.
  • the data entry device is used to execute the aforementioned data entry method.
  • the data entry device can be configured in a server or a terminal.
  • the server can be an independent server or a server cluster.
  • the terminal can be an electronic device such as a mobile phone, a tablet computer, a notebook computer, a desktop computer, a personal digital assistant, and a wearable device.
  • the data entry device 500 includes: a to-be-processed image module 501, a bounding box extraction module 502, a text recognition module 503, a keyword extraction module 504, and a data entry module 505.
  • the to-be-processed image module 501 obtains a to-be-processed image corresponding to a text file, and the to-be-processed image includes a text area.
  • the bounding box extraction module 502 is configured to extract the bounding box of the text area in the image to be processed to obtain a bounding image, and the bounding image is the image to be processed in the bounding box.
  • the bounding box extraction module 502 includes a region recognition sub-module 5021 and a bounding box determination sub-module 5022.
  • the area recognition sub-module 5021 is configured to recognize the text area in the image to be processed to obtain size information and position information of the text area.
  • the bounding box determination sub-module 5022 is configured to determine the bounding box of the text area according to the size information and position information, and use the image to be processed in the bounding box as the bounding image.
  • the text recognition module 503 is configured to input the boundary image into a pre-trained image text recognition model for text recognition, so as to output text information corresponding to the boundary image.
  • the keyword extraction module 504 is configured to input the text information into a pre-trained keyword extraction model to perform keyword extraction, so as to obtain keywords corresponding to the text information.
  • the keyword extraction module 504 includes a word segmentation result submodule 5041, a weight acquisition submodule 5042, a keyword determination submodule 5043.
  • the word segmentation result sub-module 5041 is used to segment the text information and obtain the word segmentation result.
  • the weight obtaining sub-module 5042 is configured to input at least one of the word segmentation into a pre-trained keyword extraction model to obtain the importance weight corresponding to each word segmentation.
  • the keyword determination submodule 5043 is configured to select the word segmentation corresponding to the importance weight as the keyword of the text information according to the importance weight.
  • the keyword determination submodule 5043 is specifically configured to: sort each of the word segmentation according to the importance weight to obtain a ranking result; and select the word segmentation as a keyword of the text information based on the ranking result .
  • the data entry module 505 is configured to store the text information and keywords corresponding to the text information in a target database to complete data entry.
  • FIG. 10 is a schematic block diagram of another data entry device provided by an embodiment of the present application.
  • the data entry device is used to execute the aforementioned data entry method.
  • the data entry device can be configured in the server.
  • the data entry device 600 includes: an image to be processed module 601, a bounding box extraction module 602, a text recognition module 603, a category determination module 604, a keyword extraction module 605, a data entry module 606, and a request receiving module 607 ⁇ Query matching module 608.
  • the image to be processed module 601 obtains an image to be processed corresponding to a text file, and the image to be processed includes a text area.
  • the bounding box extraction module 602 is configured to extract a bounding box of the text area in the image to be processed to obtain a bounding image, and the boundary image is the image to be processed in the bounding box.
  • the bounding box extraction module 602 includes a denoising image sub-module 6021, a corrected image sub-module 6022, and a background image sub-module 6023.
  • the denoising image sub-module 6021 is used to perform image smoothing processing and wavelet filtering processing on the image to be processed in the bounding box to obtain a denoising image.
  • the image correction sub-module 6022 is used to perform direction correction processing on the denoising image to obtain a corrected image.
  • the background image removal sub-module 6023 is used to perform background removal processing on the corrected image to obtain the background image removed as a boundary image.
  • the text recognition module 603 is configured to input the boundary image into a pre-trained image text recognition model for text recognition, so as to output text information corresponding to the boundary image.
  • the category determination module 604 is configured to input the text information into a pre-trained text classification model for category recognition, so as to output a classification category corresponding to the text information.
  • the keyword extraction module 605 is configured to input the text information into a pre-trained keyword extraction model to perform keyword extraction, so as to obtain keywords corresponding to the text information.
  • the data entry module 606 is configured to store the text information and keywords corresponding to the text information in a sub-database corresponding to the target database according to the classification category, so as to complete data entry.
  • the request receiving module 607 is configured to receive a data query request, where the data query request includes query keywords.
  • the query matching module 608 is configured to match keywords in the target database according to the query keywords to obtain target text information corresponding to the query keywords.
  • the above-mentioned data entry device can be implemented in the form of a computer program, and the computer program can be run on a computer device as shown in FIG. 11.
  • FIG. 11 is a schematic block diagram of a structure of a computer device provided by an embodiment of the present application.
  • the computer equipment can be a server or a terminal.
  • the computer device includes a processor, a memory, and a network interface connected through a system bus, where the memory may include a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium can store an operating system and a computer program.
  • the computer program includes program instructions, and when the program instructions are executed, the processor can execute any data entry method.
  • the processor is used to provide computing and control capabilities and support the operation of the entire computer equipment.
  • the internal memory provides an environment for the operation of the computer program in the non-volatile storage medium, and when the computer program is executed by the processor, the processor can execute any data entry method.
  • the network interface is used for network communication, such as sending assigned tasks.
  • the network interface is used for network communication, such as sending assigned tasks.
  • FIG. 11 is only a block diagram of a part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device to which the solution of the present application is applied.
  • the specific computer device may Including more or fewer parts than shown in the figure, or combining some parts, or having a different arrangement of parts.
  • the processor may be a central processing unit (Central Processing Unit, CPU), the processor may also be other general-purpose processors, digital signal processors (Digital Signal Processor, DSP), and application specific integrated circuits (Application Specific Integrated Circuits). Circuit, ASIC), Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gates or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor may be a microprocessor or the processor may also be any conventional processor.
  • the processor is used to run a computer program stored in a memory to implement the following steps:
  • the to-be-processed image includes a text area; extract the bounding box of the text area in the to-be-processed image to obtain a bounding image, and the bounding image is within the bounding box Image to be processed; input the boundary image into a pre-trained image text recognition model for text recognition to output text information corresponding to the boundary image; input the text information into a pre-trained keyword extraction model for keyword extraction , To obtain the keywords corresponding to the text information; store the text information and the keywords corresponding to the text information in the target database to complete data entry.
  • the processor when the processor implements the extraction of the bounding box of the text area in the image to be processed to obtain a bounding image, it is used to implement:
  • the image to be processed is used as the boundary image.
  • the processor when the processor implements the extraction of the bounding box of the text area in the to-be-processed image to obtain a bounding image, it is used to implement:
  • the processor when the processor implements the input of the text information into a pre-trained keyword extraction model for keyword extraction to obtain keywords corresponding to the text information, the processor is used to implement:
  • the word segmentation result includes at least one word segmentation
  • input at least one word segmentation into a pre-trained keyword extraction model to obtain the importance weight corresponding to each word segmentation;
  • the word segmentation corresponding to the importance weight is selected as a keyword of the text information.
  • the processor when the processor implements the selection of the word segmentation corresponding to the importance weight as a keyword of the text information according to the importance weight, the processor is configured to implement:
  • the processor is used to run a computer program stored in the memory to implement the following steps:
  • the to-be-processed image includes a text area; extract the bounding box of the text area in the to-be-processed image to obtain a bounding image, and the bounding image is within the bounding box Image to be processed; input the boundary image into a pre-trained image text recognition model for text recognition to output text information corresponding to the boundary image; input the text information into a pre-trained keyword extraction model for keyword extraction , To obtain keywords corresponding to the text information; store the text information and keywords corresponding to the text information in the target database to complete data entry; receive a data query request, the data query request includes Query keywords; match keywords in the target database according to the query keywords to obtain target text information corresponding to the query keywords.
  • the processor is used to run a computer program stored in the memory to implement the following steps:
  • the text image sample is an image including a text area; based on a convolutional neural network, perform model training according to the text image sample to obtain an image text recognition model, and use the image text recognition model as a preset Image text recognition model.
  • the embodiments of the present application also provide a computer-readable storage medium, the computer-readable storage medium stores a computer program, the computer program includes program instructions, and the processor executes the program instructions to implement the present application Any data entry method provided in the embodiment.
  • the computer-readable storage medium may be the internal storage unit of the computer device described in the foregoing embodiment, such as the hard disk or memory of the computer device.
  • the computer-readable storage medium may also be an external storage device of the computer device, such as a plug-in hard disk, a smart memory card (SMC), or a secure digital (Secure Digital, SD) equipped on the computer device. ) Card, Flash Card, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Computer Graphics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

一种数据录入方法、装置、设备及存储介质,所述方法包括:获取文本文件对应的待处理图像;提取文本区域在待处理图像内的边界框得到边界图像;将边界图像输入图像文本识别模型输出对应的文本信息;将文本信息输入关键词提取模型进行关键词提取,获取对应的关键词;将文本信息和对应的关键词存储至目标数据库中完成数据录入。

Description

数据录入方法、装置、设备及存储介质
本申请要求于2019年7月22日提交中国专利局、申请号为201910663209.9、发明名称为“数据录入方法、装置、设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及数据处理领域,尤其涉及一种数据录入方法、装置、设备及存储介质。
背景技术
传统数据保存的方式大多是利用纸质文件对数据进行保存,但是纸质文件不仅容易丢失,也容易由于遇水、遇火等意外导致损毁,并且纸质文件在查找时,查找效率也比较低。
为了提高数据保存的安全性,现有的数据保存方式通常是将纸质文件上的数据人工输入数据管理系统。然而,现有的人工录入的方式不仅录入效率低,并且在录入时,容易出现错误,录入准确率低。
因此,如何提高数据录入的效率和准确率成为亟待解决的问题。
发明内容
本申请提供了一种数据录入方法、装置、设备及存储介质,为甄别骗保欺诈提供了重要参考。
第一方面,本申请提供了一种数据录入方法,所述方法包括:
获取文本文件对应的待处理图像,所述待处理图像包括文本区域;
对所述待处理图像中的文本区域进行识别,以获取所述文本区域的尺寸信息和位置信息;
根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像;
将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息;
将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词;
将所述文本信息和与所述文本信息对应的关键词存储至目标数据库中,以完成数据录入。
第二方面,本申请还提供了一种数据录入装置,所述装置包括:
待处理图像模块,用于获取文本文件对应的待处理图像,所述待处理图像包括文本区域;
边界框提取模块,用于对所述待处理图像中的文本区域进行识别,以获取所述文本区域的尺寸信息和位置信息;及根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像;
文本识别模块,用于将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息;
关键词提取模块,用于将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词;
数据录入模块,用于将所述文本信息和与所述文本信息对应的关键词存储至目标数据库中,以完成数据录入。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的数据录入方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的数据录入方法。
本申请公开了一种数据录入方法、装置、设备及存储介质,通过获取文本文件对应的待处理图像,然后提取待处理图像中的文本区域的边界框,得到边界图像,将边界图像输入图像文本识别模型进行文本识别,输出文本信息,再将文本信息输入关键词提取模型进行关键词提取,从而获得关键词,最后将文本信息和与文本信息对应的关键词存储在目标数据库中,完成数据录入。相对于需要通过人工对纸质文件的内容进行信息录入的方式,本方案通过对文本文件对应的待处理图像进行处理,实现文本信息的录入,提高了数据录入的效率和准确率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的实施例提供的图像文本识别模型的训练方法的示意流程图;
图2是本申请实施例提供的一种数据录入方法的示意流程图;
图3是本申请实施例提供的子步骤的示意流程图;
图4是本申请实施例提供的对文本信息进行关键词提取的示意流程图;
图5是本申请实施例提供的对文本信息进行关键词提取的子步骤的示意流程图;
图6是本申请实施例提供的另一种数据录入方法的步骤示意流程图;
图7是本申请实施例提供的子步骤的示意流程图;
图8是本申请一实施例提供的一种模型训练装置的示意性框图;
图9是本申请的实施例还提供一种数据录入装置的示意性框图;
图10是本申请的实施例还提供另一种数据录入装置的示意性框图;
图11为本申请一实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种数据录入方法、装置、计算机设备及存储介质。该数据录入方法可以应用于终端或服务器中,以提高数据录入的准确率和效率。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请的实施例提供的图像文本识别模型的训练方法的示意流程图。该图像文本识别模型是基于卷积神经网络进行模型训练得到的,当然也可以采用其他网络进行训练得到。
需要说明的是,在本实施例中,使用GoogLeNet进行模型训练以得到目标识别模型,当然也可以采用其他网络,比如采用卷积神经网络(Convolutional Neural Network,CNN)、深度残差网络(Deep Residual Network,DResNet)或长短期记忆网络(Long Short-Term Memory,LSTM)等中的一个或多个组合的深度学习算法等。以下将以GoogLeNet为例进行介绍。
如图1所示,该图像文本识别模型的训练方法,用于训练出图像文本识别模型以便应用在数据录入方法上。其中,该图像文本识别模型的训练方法包括步骤S101和步骤S102。
S101、获取文本图像样本。
其中,所述文本图像样本为包括文本区域的图像。文本区域的内容可以是合同内容,也可以是身份证内容,还可以是其他文字内容。以下将以文本区域的内容为合同内容为例进行详细说明。
在本实施例中,文本图像样本可以是买卖合同图像、运输合同图像、技术合同图像等不同类型的合同图像,这些合同图像构成文本图像样本,用于训练图像文本识别模型。将多种不同的合同图像作为样本,提高图像文本识别模型的识别准确率。
S102、基于卷积神经网络,根据所述文本图像样本进行模型训练以得到图像文本识别模型,并将所述图像文本识别模型作为预设的图像文本识别模型。
具体地,使用构建的样本数据,通过GoogLeNet进行模型训练,具体可以采用方向传播训练,使用GoogLeNet的卷积层和池化层从输入样本数据中提取特征,使用完全连接层用来做分类器,该分类器的输出是不同图像和文本的概率值。
用随机值初始化所有过滤器和参数/权重;卷积神经网络将训练的样本数据作为输入,经过前向传播步骤(卷积,ReLU激活和池化操作以在完全连接层中的前向传播),最终得到每个类别的输出概率。
将上述样本数据中的部分图像作为标定数据(ground truth),利用准备的样本数据通过大规模迭代训练,让卷积神经网络在学习图片语义信息后输出每个文本的输出概率,使用输出概率与标定数据(ground truth)的定义损失函数(loss),在模型训练中尽量缩小损失函数(loss),来保证模型的准确度,以完成模型训练。
由于,数据录入方法可以应用于终端或服务器中,因此需要将训练好的模型保存在终端或服务器中。其中,该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备;服务器可以为独立的服务器,也可以为服务器集群。
如果是应用于终端中,为了保证该终端的正常运行以及快速识别检测出图像的文本信息,还需要对训练得到的图像文本识别模型进行压缩处理,将压缩处理后的模型保存在终端。
其中,该压缩处理具体包括对图像文本识别模型进行剪枝处理、量化处理和哈夫曼编码处理等,以减小图像文本识别模型的大小,进而方便保存在容量较小的终端中。
上述实施例提供的训练方法,通过获取多种文本图像样本,然后基于卷积神经网络,根据文本图像样本进行模型训练以得到图像文本模型,并将得到的图像文本模型作为预先训练的图像文本模型应用于数据录入方法中,由此可提高图像中文本识别的准确度。
请参阅图2,图2是本申请实施例提供的一种数据录入方法的示意流程图。该数据录入方法用于对数据进行识别和录入,提高录入效率和准确率。以下以数据录入方法应用于服务器为例进行介绍。
如图2所示,该数据录入方法,具体包括:步骤S201至步骤S205。
S201、获取文本文件对应的待处理图像。
具体地,所述待处理图像包括文本区域和非文本区域。在具体实施过程中,文本文件对应的待处理图像可以通过图像采集设备例如摄像头进行采集。用户通过图像采集设备采集待处理图像后,由服务器对图像采集设备采集的待处理图像进行获取,以便于对待处理图像进行后续操作。
S202、提取所述文本区域在所述待处理图像内的边界框,以得到边界图像。
其中,所述边界图像为所述边界框内的待处理图像。通过对文本区域进行边界框提取,从而得到边界图像,再对提取后的边界图像进行文本识别,减少 合同图像识别时的计算量,进而提高合同图像的识别效率。
在一个实施例中,如图3所示,为了提高边界框提取的准确度,提取所述文本区域在所述待处理图像内的边界框,以得到边界图像,具体包括子步骤S202a和S202b。
S202a、对所述待处理图像中的文本区域进行识别,以获取所述文本区域的尺寸信息和位置信息。
其中,对所述待处理图像中的文本区域进行识别是指对待处理图像内的文本、表格信息和位置关系所进行的自动分析。通过对待处理图像中的文本区域进行识别可以获取文本区域的位置信息,并且可以根据文本区域的位置信息判断文本区域的尺寸信息。
具体地,首先对待处理图像中的文本区域进行识别,得到文本区域内文本的区域坐标,所述区域坐标是指文本区域在所述待处理图像上的像素位置坐标;根据文本区域内文本的区域坐标计算外包区域,从而得到文本区域的尺寸信息,所述外包区域是指包括了文本区域的最小区域。
S202b、根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像。
在具体实施过程中,根据文本区域的尺寸信息和位置信息即能够确定文本区域的边界框,然后基于该边界框提取边界框内的待处理图像,并将提取到的待处理图像作为边界图像。
S203、将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息。
具体地,将边界图像输入至预先训练好的图像文本识别模型进行文本识别,由图像文本识别模型输出边界图像中所包括的文本信息。
S204、将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词。
具体地,将从边界图像中识别出的文本信息,输入预先训练的关键词提取模型进行关键词提取,从而从中获得对应的关键词。
例如:从边界图像中识别出的文本信息为:本合同有效期自2017年6月28日起至2019年6月28日。经过关键词提取模型进行关键词提取,得出对应的关键词为:生效日期2017年6月28日,终止日期2018年6月28日。
在一些实施例中,如图4所示,对文本信息进行关键词提取,具体包括子步骤S204a至S204c。
S204a、对所述文本信息进行分词并得到分词结果。
其中,所述分词结果包括至少一个分词。具体地,可以采用最大匹配算法对文本信息进行分词,以得到文本信息包含的每一个分词,并将文本信息包含的各个分词的集合作为分词结果。
其中,最大匹配算法是指以词典为依据,取词典中最长单词为首次扫描串,在词典中进行扫描。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。可以理解的,在其他实施例中,也可以采用其他方法对文本信息进行分词,例如采 用维特比(Viterbi)算法等。
S204b、将至少一个所述分词分别输入预先训练好的关键词提取模型,以获取各所述分词对应的重要性权重。
具体地,将每个分词对应的词向量输入关键词提取模型,由关键词提取模型输出每个分词的重要性权重,重要性权重越大表示该分词的重要性越强。
其中,关键词提取模型可以网络上选取预设数量的标准合同样本对深度学习模型进行模型训练而获得。例如选取1000份标准合同样本进行模型训练。具体的,关键词提取模型包括前后依次连接的双向的长短时记忆(BLSTM)算法模型、最大池化(Max Pooling)算法模型和Softmax算法模型。
S204c、根据所述重要性权重,选取与所述重要性权重对应的所述分词作为所述文本信息的关键词。
其中,关键词可以为合同签约日期、生效日期、终止日期、时效等关键字样。通过关键词提取模型提取文本信息对应的关键词,使得在查询文本信息时,无需遍历文本信息中的每个词,避免查询数据量过大,提高查询效率。
在一些实施例中,请参考图5,步骤S204c包括步骤S204c1和步骤S204c2。
S204c1、根据所述重要性权重对各所述分词进行排序,以获得排序结果。
S204c2、基于所述排序结果选取分词作为所述文本信息的关键词。
具体地,根据重要性权重,对分词结果中的各个分词进行降序排序,选取预设数目的分词作为所述文本信息的关键词。例如,可以选取重要性权重排前三的词作为所述排序结果的关键词。
例如:某份保险合同的签约日期为2018年4月10日,生效日期为2018年4月20日,终止日期为2019年4月10日,时效为一年。其中,签约日期的重要性权重为0.28,生效日期的重要性权重为0.22,终止日期的重要性权重为0.42,时效的重要性权重为0.08。则排序结果如下:终止日期2019年4月10日、签约日期2018年4月10日、生效日期2018年4月20日、时效一年。关键词为终止日期2019年4月10日、签约日期2018年4月10日、生效日期2018年4月20日。
S205、将所述文本信息和与所述文本信息对应的关键词存储至目标数据库中,以完成数据录入。
具体地,在获得文本信息的关键词后,将文本信息和关键词存储至目标数据库,从而完成文本信息的录入,即完成合同相关信息的录入,提高了录入效率和录入准确度。
上述实施例提供的数据录入方法,通过获取包括文本区域的待处理图像;然后提取文本区域在待处理图像内的边界框,以得到边界图像;将边界图像输入预先训练的图像文本识别模型进行文本识别,从而输出文本信息;将文本信息输入关键词提取模型进行关键词提取,从而获取关键词;最终将文本信息和与文本信息对应的关键词存储至目标数据库中,以完成数据录入。通过对文本文件对应的待处理图像进行处理,实现文本信息的录入,提高了数据录入的效率和准确率。
请参阅图6,图6是本申请实施例提供的另一种数据录入方法的步骤示意流 程图。该数据录入方法能够提高数据录入的准确率和效率,并提高数据查询的效率。
如图6所示,该数据录入方法,具体包括:步骤S301至步骤S308。
S301、获取文本文件对应的待处理图像。
具体地,所述待处理图像包括文本区域和非文本区域。在具体实施过程中,文本文件对应的待处理图像可以通过图像采集设备例如摄像头进行采集。用户通过图像采集设备采集待处理图像后,由服务器对图像采集设备采集的待处理图像进行获取,以便于对待处理图像进行后续操作。
S302、提取所述文本区域在所述待处理图像内的边界框,以得到边界图像。
其中,所述边界图像为所述边界框内的待处理图像。通过对文本区域进行边界框提取,从而得到边界图像,再对提取后的边界图像进行文本识别,减少合同图像识别时的计算量,进而提高合同图像的识别效率。
具体地,如图7所示,为了避免待识别的合同图片中的噪声、杂点、背景图像等干扰,提高图片识别准确率,提取所述文本区域在所述待处理图像内的边界框,以得到边界图像,包括子步骤S302a至S302c。
S302a、对所述边界框内的待处理图像进行图像平滑处理和小波滤波处理,以得到去噪图像。
具体的,图像平滑处理和小波滤波处理可以消除边界图像的噪声点,从而使边界图像产生较少的模糊。
其中,图像平滑处理可采用邻域平均法。邻域平均法是指将一个像素及其邻域中所有像素的平均值赋输出图像中相应的像素,从而达到平滑的目的,其过程是使一个窗口在图像上滑动,窗口中心位置的值用窗内各点值的平均值来代替,即用几个像素的灰度平均值来代替一个像素的灰度。当然,在其他实施例中,也可以采用其他图像平衡处理的方法,例如中值滤波法。
S302b、对所述去噪图像进行方向矫正处理,以得到矫正图像。
由于所接收的合同可能会有多种旋转角度,因而需要将合同旋转到正确的方向,以便于下一步操作。对去噪图像进行方向矫正处理,以使合同旋转的正确的方向,从而得到矫正图像。
具体的,可以采用图像压缩正位网络对去噪图像进行旋转,完成去噪图像的方向矫正,从而使得去噪图像中的合同文本处于正确的方向,得到矫正图像。图像压缩正位网络是通过机器学习的方法训练得到的,具有图像旋转功能。
S302c、对所述矫正图像进行去背景处理,以得到去背景图像作为边界图像。
具体的,矫正图像包括合同及背景图像,通过去背景处理可以去除矫正图像中背景图像的干扰。
S303、将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息。
具体地,将边界图像输入至预先训练好的图像文本识别模型进行文本识别,从而输出边界图像中所包括的文本信息。
S304、将所述文本信息输入预先训练的文本分类模型进行类别识别,以输出所述文本信息对应的分类类别。
比如,文本信息为保险合同,则该文本分类模型可能识别出保险合同的分类类别包括保险标的和保险保障风险等信息。保险标的包括:人身保险或财产保险。保险保障风险包括:人寿保险、人身意外伤害保险或健康保险等。例如识别的文本信息的保险标的和保险保障风险分别为人身保险和人寿保险。
S305、将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词。
具体地,将从边界图像中识别出的文本信息,输入预先训练的关键词提取模型进行关键词提取,从而从中获得对应的关键词。
需要说明的是,本方案中并不限制步骤S304和步骤S305之间的执行顺序。
S306、根据所述分类类别,将所述文本信息和与所述文本信息对应的关键词存储至目标数据库对应的子数据库中,以完成数据录入。
具体地,每一分类类别对应有一个子数据库,各子数据库的集合构成目标数据库。在获得文本信息对应的分类类别后,可以确定目标数据库中与该分类类别对应的子数据库,将文本信息和该文本信息对应的关键词信息存储至该子数据库中,从而完成对合同信息的高效录入,录入准确度高并降低了人力成本。
S307、接收数据查询请求。
其中,所述数据查询请求包括查询关键词,查询关键词可以包括分类类别、生效日期等等。具体地,查询请求可以是用户通过问话模式输入语音信息,由该语音信息所转化得到的具有查询请求的文本,也可以是用户直接向服务器发送的数据查询请求。
S308、根据所述查询关键词匹配所述目标数据库中的关键词,以获取与所述查询关键词对应的目标文本信息。
具体地,在接收到数据查询请求后,根据数据查询请求中的查询关键词在目标数据库中进行匹配。若查询关键词与目标数据库中的关键词匹配一致,则将匹配到的关键词对应的文本信息作为目标文本信息进行输出,从而高效的完成目标合同的查询。
当查询关键词中包括分类类别时,首先根据分类类别从目标数据库中选择与分类类别对应的子数据库,然后根据其他查询关键词在该子数据库中进行关键词匹配,提高查询的效率。
上述实施例提供的数据录入方法通过获取包括文本区域的待处理图像;然后提取文本区域在待处理图像内的边界框,以得到边界图像;对边界图像进行文本识别,从而输出文本信息;对文本信息进行类别识别,得到文本信息的分类类别;对文本信息进行关键词提取,从而获取关键词;最终根据分类类别将文本信息和与文本信息对应的关键词存储至目标数据库中,以完成数据录入。然后接收数据查询请求,并根据该数据查询请求匹配目标数据库中的关键词,从而获得文本信息。通过对文本文件对应的待处理图像进行处理,实现文本信息的录入,提高了数据录入的效率和准确率。对文本信息进行分类,提高数据录入时的条理性,也在进行数据查询时,提高查询效率。
请参阅图8,图8是本申请一实施例提供的一种模型训练装置的示意性框图,该模型训练装置可以配置于服务器中,用于执行前述的图像文本识别模型的训 练方法。
如图8所示,该模型训练装置400,包括:样本获取模块401和模型训练模块402。
样本获取模块401,用于获取文本图像样本,所述文本图像样本为包括文本区域的图像。
模型训练模块402,用于基于卷积神经网络,根据所述文本图像样本进行模型训练以得到图像文本识别模型,并将所述图像文本识别模型作为预设的图像文本识别模型。
请参阅图9,图9是本申请的实施例还提供一种数据录入装置的示意性框图,该数据录入装置用于执行前述的数据录入方法。其中,该数据录入装置可以配置于服务器或终端中。
其中,服务器可以为独立的服务器,也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
如图9所示,数据录入装置500包括:待处理图像模块501、边界框提取模块502、文本识别模块503、关键词提取模块504和数据录入模块505。
待处理图像模块501,获取文本文件对应的待处理图像,所述待处理图像包括文本区域。
边界框提取模块502,用于提取所述文本区域在所述待处理图像内的边界框,以得到边界图像,所述边界图像为所述边界框内的待处理图像。
在一个实施例中,边界框提取模块502包括区域识别子模块5021和边界框确定子模块5022。
其中,区域识别子模块5021,用于对所述待处理图像中的文本区域进行识别,以获取所述文本区域的尺寸信息和位置信息。边界框确定子模块5022,用于根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像。
文本识别模块503,用于将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息。
关键词提取模块504,用于将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词。
在一些实施例中,关键词提取模块504包括分词结果子模块5041、权重获取子模块5042、关键词确定子模块5043。
其中,分词结果子模块5041,用于对所述文本信息进行分词并得到分词结果。权重获取子模块5042,用于将至少一个所述分词分别输入预先训练好的关键词提取模型,以获取各所述分词对应的重要性权重。关键词确定子模块5043,用于根据所述重要性权重,选取与所述重要性权重对应的所述分词作为所述文本信息的关键词。
在一些实施例中,关键词确定子模块5043具体用于:根据所述重要性权重对各所述分词进行排序,以获得排序结果;基于所述排序结果选取分词作为所述文本信息的关键词。
数据录入模块505,用于将所述文本信息和与所述文本信息对应的关键词存储至目标数据库中,以完成数据录入。
请参阅图10,图10是本申请的实施例还提供另一种数据录入装置的示意性框图,该数据录入装置用于执行前述的数据录入方法。其中,该数据录入装置可以配置于服务器中。
如图10所示,该数据录入装置600包括:待处理图像模块601、边界框提取模块602、文本识别模块603、类别确定模块604、关键词提取模块605、数据录入模块606、请求接收模块607和查询匹配模块608。
待处理图像模块601,获取文本文件对应的待处理图像,所述待处理图像包括文本区域。
边界框提取模块602,用于提取所述文本区域在所述待处理图像内的边界框,以得到边界图像,所述边界图像为所述边界框内的待处理图像。
在一个实施例中,边界框提取模块602包括去噪图像子模块6021、矫正图像子模块6022和去背景图像子模块6023。
其中,去噪图像子模块6021,用于对所述边界框内的待处理图像进行图像平滑处理和小波滤波处理,以得到去噪图像。矫正图像子模块6022,用于对所述去噪图像进行方向矫正处理,以得到矫正图像。去背景图像子模块6023,用于对所述矫正图像进行去背景处理,以得到去背景图像作为边界图像。
文本识别模块603,用于将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息。
类别确定模块604,用于将所述文本信息输入预先训练的文本分类模型进行类别识别,以输出所述文本信息对应的分类类别。
关键词提取模块605,用于将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词。
数据录入模块606,用于根据所述分类类别,将所述文本信息和与所述文本信息对应的关键词存储至目标数据库对应的子数据库中,以完成数据录入。
请求接收模块607,用于接收数据查询请求,所述数据查询请求包括查询关键词。
查询匹配模块608,用于根据所述查询关键词匹配所述目标数据库中的关键词,以获取与所述查询关键词对应的目标文本信息。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的数据录入装置和各模块的具体工作过程,可以参考前述数据录入方法实施例中的对应过程,在此不再赘述。
上述的数据录入装置可以实现为一种计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
参阅图11,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序 指令,该程序指令被执行时,可使得处理器执行任意一种数据录入方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种数据录入方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取文本文件对应的待处理图像,所述待处理图像包括文本区域;提取所述文本区域在所述待处理图像内的边界框,以得到边界图像,所述边界图像为所述边界框内的待处理图像;将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息;将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词;将所述文本信息和与所述文本信息对应的关键词存储至目标数据库中,以完成数据录入。
在一个实施例中,所述处理器在实现所述提取所述文本区域在所述待处理图像内的边界框,以得到边界图像时,用于实现:
对所述待处理图像中的文本区域进行识别,以获取所述文本区域的尺寸信息和位置信息;根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像。
在另一个实施例中,所述处理器在实现所述提取所述文本区域在所述待处理图像内的边界框,以得到边界图像时,用于实现:
对所述边界框内的待处理图像进行图像平滑处理和小波滤波处理,以得到去噪图像;对所述去噪图像进行方向矫正处理,以得到矫正图像;对所述矫正图像进行去背景处理,以得到去背景图像作为边界图像。
在一些实施例中,所述处理器在实现所述将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词时,用于实现:
对所述文本信息进行分词并得到分词结果,所述分词结果包括至少一个分词;将至少一个所述分词分别输入预先训练好的关键词提取模型,以获取各所述分词对应的重要性权重;根据所述重要性权重,选取与所述重要性权重对应 的所述分词作为所述文本信息的关键词。
在一个实施例中,所述处理器在实现所述根据所述重要性权重,选取与所述重要性权重对应的所述分词作为所述文本信息的关键词时,用于实现:
根据所述重要性权重对各所述分词进行排序,以获得排序结果;基于所述排序结果选取分词作为所述文本信息的关键词。
其中,在另一实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取文本文件对应的待处理图像,所述待处理图像包括文本区域;提取所述文本区域在所述待处理图像内的边界框,以得到边界图像,所述边界图像为所述边界框内的待处理图像;将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息;将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词;将所述文本信息和与所述文本信息对应的关键词存储至目标数据库中,以完成数据录入;接收数据查询请求,所述数据查询请求包括查询关键词;根据所述查询关键词匹配所述目标数据库中的关键词,以获取与所述查询关键词对应的目标文本信息。
其中,在另一实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取文本图像样本,所述文本图像样本为包括文本区域的图像;基于卷积神经网络,根据所述文本图像样本进行模型训练以得到图像文本识别模型,并将所述图像文本识别模型作为预设的图像文本识别模型。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项数据录入方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

  1. 一种数据录入方法,所述方法包括:
    获取文本文件对应的待处理图像,所述待处理图像包括文本区域;
    对所述待处理图像中的文本区域进行识别,以获取所述文本区域的尺寸信息和位置信息;
    根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像;
    将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息;
    将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词;
    将所述文本信息和与所述文本信息对应的关键词存储至目标数据库中,以完成数据录入。
  2. 根据权利要求1所述的数据录入方法,其中,所述根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像,包括:
    对所述边界框内的待处理图像进行图像平滑处理和小波滤波处理,以得到去噪图像;
    对所述去噪图像进行方向矫正处理,以得到矫正图像;
    对所述矫正图像进行去背景处理,以得到去背景图像作为边界图像。
  3. 根据权利要求1所述的数据录入方法,其中,所述将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词,包括:
    对所述文本信息进行分词并得到分词结果,所述分词结果包括至少一个分词;
    将至少一个所述分词分别输入预先训练好的关键词提取模型,以获取各所述分词对应的重要性权重;
    根据所述重要性权重,选取与所述重要性权重对应的所述分词作为所述文本信息的关键词。
  4. 根据权利要求3所述的数据录入方法,其中,所述根据所述重要性权重,选取与所述重要性权重对应的所述分词作为所述文本信息的关键词,包括:
    根据所述重要性权重对各所述分词进行排序,以获得排序结果;
    基于所述排序结果选取分词作为所述文本信息的关键词。
  5. 根据权利要求1所述的数据录入方法,其中,还包括:
    接收数据查询请求,所述数据查询请求包括查询关键词;
    根据所述查询关键词匹配所述目标数据库中的关键词,以获取与所述查询关键词对应的目标文本信息。
  6. 根据权利要求1所述的数据录入方法,其中,还包括:
    获取文本图像样本,所述文本图像样本为包括文本区域的图像;
    基于卷积神经网络,根据所述文本图像样本进行模型训练以得到图像文本识别模型,并将所述图像文本识别模型作为预设的图像文本识别模型。
  7. 根据权利要求1所述的数据录入方法,其中,所述关键词包括合同签约日期、生效日期、终止日期和时效。
  8. 一种数据录入装置,所述装置包括:
    待处理图像模块,用于获取文本文件对应的待处理图像,所述待处理图像包括文本区域;
    边界框提取模块,用于对所述待处理图像中的文本区域进行识别,以获取所述文本区域的尺寸信息和位置信息;及根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像;
    文本识别模块,用于将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息;
    关键词提取模块,用于将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词;
    数据录入模块,用于将所述文本信息和与所述文本信息对应的关键词存储至目标数据库中,以完成数据录入。
  9. 一种计算机设备,所述计算机设备包括存储器和处理器;
    所述存储器用于存储计算机程序;
    所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如下步骤:
    获取文本文件对应的待处理图像,所述待处理图像包括文本区域;
    对所述待处理图像中的文本区域进行识别,以获取所述文本区域的尺寸信息和位置信息;
    根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像;
    将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息;
    将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词;
    将所述文本信息和与所述文本信息对应的关键词存储至目标数据库中,以完成数据录入。
  10. 如权利要求9所述的计算机设备,其中,所述处理器在实现所述根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像时,用于实现:
    对所述边界框内的待处理图像进行图像平滑处理和小波滤波处理,以得到去噪图像;
    对所述去噪图像进行方向矫正处理,以得到矫正图像;
    对所述矫正图像进行去背景处理,以得到去背景图像作为边界图像。
  11. 如权利要求9所述的计算机设备,其中,所述处理器在实现所述将所述 文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词时,用于实现:
    对所述文本信息进行分词并得到分词结果,所述分词结果包括至少一个分词;
    将至少一个所述分词分别输入预先训练好的关键词提取模型,以获取各所述分词对应的重要性权重;
    根据所述重要性权重,选取与所述重要性权重对应的所述分词作为所述文本信息的关键词。
  12. 如权利要求11所述的计算机设备,其中,所述处理器在实现所述根据所述重要性权重,选取与所述重要性权重对应的所述分词作为所述文本信息的关键词时,用于实现:
    根据所述重要性权重对各所述分词进行排序,以获得排序结果;
    基于所述排序结果选取分词作为所述文本信息的关键词。
  13. 如权利要求9所述的计算机设备,其中,所述处理器还用于实现:
    接收数据查询请求,所述数据查询请求包括查询关键词;
    根据所述查询关键词匹配所述目标数据库中的关键词,以获取与所述查询关键词对应的目标文本信息。
  14. 如权利要求9所述的计算机设备,其中,所述处理器还用于实现:
    获取文本图像样本,所述文本图像样本为包括文本区域的图像;
    基于卷积神经网络,根据所述文本图像样本进行模型训练以得到图像文本识别模型,并将所述图像文本识别模型作为预设的图像文本识别模型。
  15. 如权利要求9所述的计算机设备,其中,所述关键词包括合同签约日期、生效日期、终止日期和时效。
  16. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如下步骤:
    获取文本文件对应的待处理图像,所述待处理图像包括文本区域;
    对所述待处理图像中的文本区域进行识别,以获取所述文本区域的尺寸信息和位置信息;
    根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像;
    将所述边界图像输入预先训练的图像文本识别模型进行文本识别,以输出与所述边界图像对应的文本信息;
    将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词;
    将所述文本信息和与所述文本信息对应的关键词存储至目标数据库中,以完成数据录入。
  17. 如权利要求16所述的计算机可读存储介质,其中,所述处理器在实现所述根据所述尺寸信息和位置信息确定所述文本区域的边界框,并将所述边界框内的待处理图像作为边界图像时,用于实现:
    对所述边界框内的待处理图像进行图像平滑处理和小波滤波处理,以得到 去噪图像;
    对所述去噪图像进行方向矫正处理,以得到矫正图像;
    对所述矫正图像进行去背景处理,以得到去背景图像作为边界图像。
  18. 如权利要求16所述的计算机可读存储介质,其中,所述处理器在实现所述将所述文本信息输入预先训练的关键词提取模型进行关键词提取,以获取与所述文本信息对应的关键词时,用于实现:
    对所述文本信息进行分词并得到分词结果,所述分词结果包括至少一个分词;
    将至少一个所述分词分别输入预先训练好的关键词提取模型,以获取各所述分词对应的重要性权重;
    根据所述重要性权重,选取与所述重要性权重对应的所述分词作为所述文本信息的关键词。
  19. 如权利要求18所述的计算机可读存储介质,其中,所述处理器在实现所述根据所述重要性权重,选取与所述重要性权重对应的所述分词作为所述文本信息的关键词时,用于实现:
    根据所述重要性权重对各所述分词进行排序,以获得排序结果;
    基于所述排序结果选取分词作为所述文本信息的关键词。
  20. 如权利要求16所述的计算机可读存储介质,其中,所述处理器还用于实现:
    接收数据查询请求,所述数据查询请求包括查询关键词;
    根据所述查询关键词匹配所述目标数据库中的关键词,以获取与所述查询关键词对应的目标文本信息。
PCT/CN2019/122812 2019-07-22 2019-12-03 数据录入方法、装置、设备及存储介质 WO2021012570A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910663209.9A CN110555372A (zh) 2019-07-22 2019-07-22 数据录入方法、装置、设备及存储介质
CN201910663209.9 2019-07-22

Publications (1)

Publication Number Publication Date
WO2021012570A1 true WO2021012570A1 (zh) 2021-01-28

Family

ID=68735720

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/122812 WO2021012570A1 (zh) 2019-07-22 2019-12-03 数据录入方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110555372A (zh)
WO (1) WO2021012570A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966583A (zh) * 2021-02-26 2021-06-15 深圳壹账通智能科技有限公司 图像处理方法、装置、计算机设备和存储介质
CN113094473A (zh) * 2021-04-30 2021-07-09 平安国际智慧城市科技股份有限公司 关键词的权重计算方法、装置、计算机设备及存储介质
CN113505588A (zh) * 2021-07-14 2021-10-15 京东科技控股股份有限公司 信息抽取方法、装置和电子设备
CN114187605A (zh) * 2021-12-13 2022-03-15 苏州方兴信息技术有限公司 一种数据集成方法、装置和可读存储介质
WO2022267387A1 (zh) * 2021-06-21 2022-12-29 梅卡曼德(北京)机器人科技有限公司 图像识别方法、装置、电子设备和存储介质
WO2023035332A1 (zh) * 2021-09-08 2023-03-16 深圳前海环融联易信息科技服务有限公司 一种日期提取方法、装置、计算机设备及存储介质
CN115862036A (zh) * 2022-12-14 2023-03-28 北京瑞莱智慧科技有限公司 信息干扰模型训练方法、信息干扰方法、相关装置及介质
CN116522011A (zh) * 2023-05-16 2023-08-01 深圳九星互动科技有限公司 一种基于大数据的推送方法及推送系统
CN116757886A (zh) * 2023-08-16 2023-09-15 南京尘与土信息技术有限公司 数据分析方法及分析装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507850A (zh) * 2020-03-25 2020-08-07 上海商汤智能科技有限公司 核保方法及相关装置、设备
CN111401042B (zh) * 2020-03-26 2023-04-14 支付宝(杭州)信息技术有限公司 一种训练文本关键内容提取模型的方法和系统
CN111507333B (zh) * 2020-04-21 2023-09-15 腾讯科技(深圳)有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN111652229B (zh) * 2020-05-25 2023-09-12 泰康保险集团股份有限公司 一种信息输入方法、装置、电子设备及存储介质
CN111723816B (zh) * 2020-06-28 2023-10-27 北京联想软件有限公司 一种教学笔记的获取方法及电子设备
CN111950353B (zh) * 2020-06-30 2024-04-19 深圳市雄帝科技股份有限公司 印章文本识别方法、装置及电子设备
CN112381038B (zh) * 2020-11-26 2024-04-19 中国船舶工业系统工程研究院 一种基于图像的文本识别方法、系统和介质
CN112560411A (zh) * 2020-12-21 2021-03-26 深圳供电局有限公司 一种人员信息智能录入方法及其系统
CN113033832B (zh) * 2021-01-21 2024-04-26 深圳市轱辘车联数据技术有限公司 一种汽修数据录入方法、装置、终端设备及可读存储介质
CN112906801A (zh) * 2021-02-26 2021-06-04 北京房江湖科技有限公司 一种图像处理的方法、装置和存储介质
CN116894937B (zh) * 2023-06-25 2024-02-06 德联易控科技(北京)有限公司 获取车轮定位仪参数的方法、系统及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102317955A (zh) * 2009-04-20 2012-01-11 万涛国际有限公司 基于图像的数据管理方法与系统
CN109492143A (zh) * 2018-09-21 2019-03-19 平安科技(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质
US20190155887A1 (en) * 2017-11-22 2019-05-23 Adp, Llc Methods and devices for enabling computers to automatically enter information into a unified database from heterogeneous documents
CN109977956A (zh) * 2019-04-29 2019-07-05 腾讯科技(深圳)有限公司 一种图像处理方法、装置、电子设备以及存储介质
CN110032990A (zh) * 2019-04-23 2019-07-19 杭州智趣智能信息技术有限公司 一种发票文本识别方法、系统及相关组件

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609057B (zh) * 2017-08-25 2020-12-22 百度在线网络技术(北京)有限公司 一种获取商标图像的文字数据的方法与装置
CN108764226B (zh) * 2018-04-13 2022-05-03 顺丰科技有限公司 图像文本识别方法、装置、设备及其存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102317955A (zh) * 2009-04-20 2012-01-11 万涛国际有限公司 基于图像的数据管理方法与系统
US20190155887A1 (en) * 2017-11-22 2019-05-23 Adp, Llc Methods and devices for enabling computers to automatically enter information into a unified database from heterogeneous documents
CN109492143A (zh) * 2018-09-21 2019-03-19 平安科技(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质
CN110032990A (zh) * 2019-04-23 2019-07-19 杭州智趣智能信息技术有限公司 一种发票文本识别方法、系统及相关组件
CN109977956A (zh) * 2019-04-29 2019-07-05 腾讯科技(深圳)有限公司 一种图像处理方法、装置、电子设备以及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966583A (zh) * 2021-02-26 2021-06-15 深圳壹账通智能科技有限公司 图像处理方法、装置、计算机设备和存储介质
CN113094473A (zh) * 2021-04-30 2021-07-09 平安国际智慧城市科技股份有限公司 关键词的权重计算方法、装置、计算机设备及存储介质
WO2022267387A1 (zh) * 2021-06-21 2022-12-29 梅卡曼德(北京)机器人科技有限公司 图像识别方法、装置、电子设备和存储介质
CN113505588A (zh) * 2021-07-14 2021-10-15 京东科技控股股份有限公司 信息抽取方法、装置和电子设备
WO2023035332A1 (zh) * 2021-09-08 2023-03-16 深圳前海环融联易信息科技服务有限公司 一种日期提取方法、装置、计算机设备及存储介质
CN114187605A (zh) * 2021-12-13 2022-03-15 苏州方兴信息技术有限公司 一种数据集成方法、装置和可读存储介质
CN115862036A (zh) * 2022-12-14 2023-03-28 北京瑞莱智慧科技有限公司 信息干扰模型训练方法、信息干扰方法、相关装置及介质
CN115862036B (zh) * 2022-12-14 2024-02-23 北京瑞莱智慧科技有限公司 信息干扰模型训练方法、信息干扰方法、相关装置及介质
CN116522011A (zh) * 2023-05-16 2023-08-01 深圳九星互动科技有限公司 一种基于大数据的推送方法及推送系统
CN116522011B (zh) * 2023-05-16 2024-02-13 深圳九星互动科技有限公司 一种基于大数据的推送方法及推送系统
CN116757886A (zh) * 2023-08-16 2023-09-15 南京尘与土信息技术有限公司 数据分析方法及分析装置
CN116757886B (zh) * 2023-08-16 2023-11-28 南京尘与土信息技术有限公司 数据分析方法及分析装置

Also Published As

Publication number Publication date
CN110555372A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
WO2021012570A1 (zh) 数据录入方法、装置、设备及存储介质
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
WO2021072885A1 (zh) 识别文本的方法、装置、设备及存储介质
CN109829453B (zh) 一种卡证中文字的识别方法、装置以及计算设备
WO2019085064A1 (zh) 医疗理赔拒付方法、装置、终端设备及存储介质
CN111460250B (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
WO2018040068A1 (zh) 基于知识图谱的语意分析系统及方法
US20150379343A1 (en) System and Method for Data Extraction and Searching
US11430202B2 (en) Enhanced optical character recognition (OCR) image segmentation system and method
WO2020253506A1 (zh) 合同内容的提取方法及装置、计算机设备、存储介质
CN105808649A (zh) 一种搜索结果排序方法及其设备
US11727701B2 (en) Techniques to determine document recognition errors
US9256805B2 (en) Method and system of identifying an entity from a digital image of a physical text
CN113657274A (zh) 表格生成方法、装置、电子设备、存储介质及产品
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN114241501B (zh) 影像文档处理方法、装置及电子设备
US10963690B2 (en) Method for identifying main picture in web page
WO2024051427A1 (zh) 硬币识别方法、系统及存储介质
CN111382254A (zh) 电子名片推荐方法、装置、设备及计算机可读存储介质
CN108073567A (zh) 一种特征词提取处理方法、系统及服务器
CN114443864A (zh) 跨模态数据的匹配方法、装置及计算机程序产品
CN114463746A (zh) 目标识别模型训练以及细胞识别方法、装置及电子设备
CN112163090A (zh) 一种法律裁判文书的案由分类方法和终端
CN110610213A (zh) 一种邮件分类方法、装置、设备及计算机可读存储介质
CN117493645B (zh) 一种基于大数据的电子档案推荐系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19938368

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19938368

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 16.08.2022)

122 Ep: pct application non-entry in european phase

Ref document number: 19938368

Country of ref document: EP

Kind code of ref document: A1