WO2021072885A1 - 识别文本的方法、装置、设备及存储介质 - Google Patents

识别文本的方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2021072885A1
WO2021072885A1 PCT/CN2019/119102 CN2019119102W WO2021072885A1 WO 2021072885 A1 WO2021072885 A1 WO 2021072885A1 CN 2019119102 W CN2019119102 W CN 2019119102W WO 2021072885 A1 WO2021072885 A1 WO 2021072885A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
text
word
image
thesaurus
Prior art date
Application number
PCT/CN2019/119102
Other languages
English (en)
French (fr)
Inventor
周罡
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021072885A1 publication Critical patent/WO2021072885A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Definitions

  • This application relates to the field of scene text detection, in particular to methods, devices, equipment and storage media for text recognition.
  • OCR Optical Character Recognition
  • processing information is obtained by scanning and recognizing input files, feature extraction is performed on the processing information, text recognition information is obtained according to the characteristics, and the text recognition information is combined with the word database Match the words of, and obtain multiple matching values, use the word corresponding to the largest matching value in the word database as the text recognition result, and output the text recognition result.
  • the inventor realizes that since the text recognition information is obtained according to the characteristics of the acquired processing information, the text recognition information is directly matched with words in a unified word database to obtain the words with the highest matching degree as the text Recognition results can easily cause the obtained text recognition information to match the matching of professional terms, common phrases, and domain-specific languages in a large-scale word database, resulting in that the output text recognition results are not input
  • the document corresponding to the recognition result required by the business scenario therefore, the accuracy of text recognition is low.
  • the present application provides a method, device, device, and storage medium for text recognition, which can solve the problem of low accuracy of text recognition in the prior art.
  • this application provides a method for recognizing text.
  • the method includes:
  • the word with the highest matching degree with the target word is obtained from the data structure tree, and the word with the highest matching degree is output as a text recognition result.
  • the present application provides a device for recognizing text.
  • the device for recognizing text includes:
  • Input and output module used to obtain the target image, used to obtain the collected word data set
  • the processing module is used to classify the collected word data set obtained by the input and output module according to the industry category, establish a plurality of category thesaurus, and calculate the word frequency-inverse text frequency index of the words in the plurality of the category thesaurus TF-IDF value, and according to the TF-IDF value from large to small, respectively set the corresponding priority of the category thesaurus; classify a plurality of the category thesaurus according to the business type to obtain multiple candidate business type words Database, sorting the plurality of candidate service type thesauruses according to the priority, and selecting from the sorted plurality of candidate service type thesauruses, the TF-IDF value corresponding to the priority is greater than a preset threshold
  • Candidate business type thesaurus obtain multiple initial business type thesaurus; through the preset image text recognition model based on the multiple initial business type thesaurus, the target image obtained by the input and output module is recognized and processed to obtain all The text prediction result corresponding to the target image and the target business type vocabulary; all
  • the display module is configured to display the word with the highest matching degree as a text recognition result.
  • Another aspect of the present application provides a computer-readable storage medium having computer instructions stored in the computer-readable storage medium, and when the computer instructions are executed on a computer, the computer executes the method described in the first aspect. .
  • this application classifies the collected word data sets according to industry categories, establishes multiple category thesauruses, and obtains multiple target business-type thesauruses according to the multiple categories, so that text recognition can be based on
  • the business type corresponding to the input target image obtains the corresponding vocabulary, and compares and corrects errors with the vocabulary corresponding to the business scenario in a purposeful and targeted manner in combination with the specific business scenario.
  • the acquired vocabulary can be quickly and accurately Recognize text for comparison and error correction, and because this application obtains the target word from the lexicon corresponding to the target business type, any word in the target word is used as the root node, and the target word except the root Words other than the node are used as child nodes, a data structure tree is established according to the root node and the child nodes, the word with the highest degree of matching with the target word is obtained from the data structure tree as the text recognition result, and the text recognition result is The same or similar target words are used as root nodes and child nodes to improve the speed and accuracy of acquiring the words with the highest matching degree. Therefore, the present application can improve the accuracy of text recognition.
  • FIG. 1 is a schematic flowchart of a method for recognizing text in an embodiment of this application
  • FIG. 2 is an illustrative diagram of an example of the classification of a word data set in an embodiment of the application
  • FIG. 3 is a diagram illustrating an example of obtaining the word with the highest matching degree with the target word in the embodiment of this application;
  • FIG. 4 is a schematic diagram of a structure of an apparatus for recognizing text in an embodiment of the application
  • FIG. 5 is a schematic diagram of a structure of a computer device in an embodiment of the application.
  • This application provides a method, device, equipment, and storage medium for text recognition, which can be used in a scanning detection system to recognize and detect text information in an image.
  • this application mainly provides the following technical solutions:
  • the following is an example of a method for recognizing text provided by the present application.
  • the method is executed by a computer device.
  • the computer device may be a server or a terminal.
  • the terminal In order to install the terminal of the device 40 shown in FIG. 4, this application does not limit the type of execution subject, and the method includes:
  • the collected word data sets are classified into the thesaurus corresponding to the industry category to establish the category thesaurus.
  • the service industry thesaurus includes basic terms, technical terms and conventional terms of the service industry, as well as basic terms of other industries related to the service industry , Professional terms and conventional terms
  • the financial industry thesaurus includes basic terms, professional terms and conventional terms in the financial industry, as well as basic terms, professional terms and conventional terms in other industries related to the financial industry.
  • TF-IDF Term Frequency-Inverse Document Frequency
  • the obtained thesaurus is subdivided and ordered, and the acquired thesaurus is set priority, and the priority is used to facilitate rapid and accurate in the thesaurus To get the matched words.
  • the above-mentioned classification of the collected word data sets according to industry categories to establish multiple category thesaurus includes: classifying the collected word data sets according to the first industry category to establish the first category words Database; classify the first category thesaurus according to the second industry category, and establish the second category sub-thesaurus, where the second industry category is a subcategory of the first industry category; according to the third industry category, the second category sub-category
  • the thesaurus is classified, and the third category sub-thesaurus is established.
  • the third industry category is a sub-category of the second industry category; through the first category of thesaurus, the second category of sub-thesaurus, and the third category of sub-thesaurus, Establish category thesaurus.
  • the collected word data sets are classified into three levels, and multiple sub-word databases are created on the basis of the parent word database.
  • the category thesaurus is made more specific and orderly, so as to reduce the difficulty of searching the thesaurus and improve the speed and accuracy of the thesaurus search.
  • the collected word data sets are divided into the electronic information industry thesaurus and the financial industry thesaurus.
  • the electronic information industry thesaurus is taken as an example.
  • the electronic information industry lexicon is divided into two levels, divided into computer service industry sub-thesaurus, telecommunication and other information transmission service industry sub-thesaurus, and software industry sub-thesaurus;
  • computer service industry sub-thesaurus is divided into three levels, divided For the computer system service industry sub-thesaurus, computer maintenance industry sub-thesaurus, computer processing industry sub-thesaurus and other computer service industry sub-thesaurus;
  • the telecommunications and other information transmission service industry sub-thesaurus is divided into three levels, divided into Internet Information service industry sub-thesaurus, radio and television transmission service industry sub-thesaurus and satellite transmission service industry sub-thesaurus;
  • the software industry sub-thesaurus is divided into three levels, divided into basic software service industry sub-thesaurus, application software service industry sub-thesaurus Thesaurus and other software service industry sub-thesaurus.
  • the content of Figure 2 is for reference only, and the accuracy of the content and actual operation are not considered.
  • the candidate business type thesaurus includes financial industry thesaurus and communications industry thesaurus.
  • financial industry thesaurus we take the financial industry thesaurus as an example to classify the financial industry thesaurus into insurance sub-thesaurus and banking sub-thesaurus.
  • TF -IDF value is 0.4
  • level three TF-IDF value is 0.2
  • level two TF-IDF value is 0.3
  • level four TF-IDF value is 0.1
  • initial business type thesaurus, insurance industry sub-thesaurus, banking industry sub-thesaurus and securities industry sub-thesaurus are multiple initial business type thesauruses.
  • the content of the above examples is for reference only, and the accuracy of the content and actual operation are not considered.
  • the target image through a preset image and text recognition model, recognize the shape and/or image components of the target image based on multiple initial business type lexicons, and match in the business type matching library according to the shape and image components of the target image Corresponding business type, and obtain the text information of the target image, detect and predict the text information to obtain the text prediction result, and call the corresponding target business type thesaurus according to the target business type.
  • the preset image text recognition model can be a neural network combination model with fast operation speed, high accuracy and customizable loss function characteristics. By using the model's fault tolerance, self-learning ability and self-adapting ability, it can improve the text collection of the image The accuracy of the identification information.
  • the target image may be a directly input picture, or may be an image generated by scanning the input information.
  • the embodiment of the present application includes a service type matching library.
  • the target image in the input preset image text recognition model is the target image of the medical bill generated by scanning a medical bill, and the target image of the medical bill is recognized to obtain the content of the medical bill.
  • the constituent content of the charge receipt is matched in the business type matching library to the target business type whose corresponding business type is medical charging, and the text part of the target image of the medical charge receipt is recognized to obtain the text recognition information, and the text recognition information is performed Detect and predict to obtain the text prediction result, and call the corresponding medical charging vocabulary according to the medical charging service type (that is, the target service type vocabulary).
  • the aforementioned acquisition of the target image, through a preset image text recognition model based on a plurality of initial business type lexicons is used to recognize the target image to obtain the text prediction result corresponding to the target image and the target business type lexicon, including: Acquire the target image, perform image recognition processing on the target image through a preset image text recognition model to obtain first feature information, and perform text recognition processing on the target image to obtain second feature information, the first feature information includes the overall constituent parts of the target image
  • the second feature information includes the information of the text component of the target image; the first service type corresponding to the first feature information is analyzed and obtained, and the first target is obtained from multiple initial service type lexicons according to the first service type
  • the business type thesaurus, the first target business type thesaurus includes a plurality of thesaurus corresponding to and/or associated with the first business type; performing text prediction processing on the second feature information to obtain the text prediction result; analyzing and obtaining the prediction result based on the text Corresponding to the second business type
  • the dictionary corresponding to the maximum similarity is obtained as the final called thesaurus, so as to improve the accuracy of obtaining the dictionary corresponding to the target business type Sex.
  • the target image in the input preset image text recognition model is the insurance policy list target image generated by scanning an insurance policy list
  • the preset image text recognition model is used to perform image recognition on the insurance policy list target image Process to obtain the information of the overall component of the insurance policy schedule (ie the first feature information), and perform text recognition processing on the target image of the insurance policy schedule to obtain the information of the text component of the insurance policy schedule (ie, the second feature information)
  • the information of the text component in the insurance policy schedule obtains the second business type of the medical insurance business type, and obtains the medical insurance lexicon as the second target business type lexicon from multiple initial business type lexicons according to the second business type
  • the target image is acquired through a preset image text recognition model, and before the target image is recognized according to the multiple initial business type thesauruses, the method further includes: The target business type vocabulary and training images train the preset image text recognition model to obtain the final preset image text recognition model.
  • the model is trained to obtain an image and text recognition model with the functions of image recognition and text recognition error correction.
  • the preset image text recognition model is trained on the basis of multiple target business type vocabularies and training images, such as weight update, parameter adjustment, and data input and output adjustment.
  • the foregoing training of the preset image text recognition model based on multiple target business type vocabularies and training images to obtain the final preset image text recognition model includes: obtaining training images and inputting the training images to In the preset image text recognition model, the training image is preprocessed through the preset image text recognition model.
  • the preprocessing includes image acquisition, image enhancement, image restoration, image coding and compression, and image segmentation; the training after preprocessing Perform feature extraction and edge feature extraction on the image to obtain third feature information; generate feature descriptors from the third feature information, call the preset template library, and obtain the template with the greatest similarity to the feature descriptor in the template library according to the feature descriptor Image, get the target template image; get the business type corresponding to the target template image, get the target business type, mark the target business type correspondingly on the training image, the business type includes the name and keywords associated with the business type; according to the target business Sort and classify the training images to obtain the image set of the business type; divide the image set of the business type into a text area and a non-text area, and obtain the first coordinates and first area description information of each area of the text area, and obtain The second coordinates of each area of the non-text area and the second area description information; according to the first coordinates, the second coordinates, the first area description information, and the second area description information,
  • the foregoing sorting of the multiple business type vocabularies according to priority includes sorting the multiple business type vocabularies according to the priority according to the TF-IDF value from large to small to obtain a sorting table, for example, the sorting table includes parent Thesaurus and multiple sub-thesaurus sorting tables.
  • the parent vocabulary is an insurance vocabulary.
  • the medical insurance sub vocabulary, pension insurance sub vocabulary, agricultural insurance sub vocabulary and other insurance sub vocabularies are from left to right, according to the TF-IDF value Sort in order of largest to smallest
  • the foregoing obtaining the target business type vocabulary and text prediction result corresponding to the target image includes at least one of the following implementation manners:
  • Method 1 Obtain the first target business type corresponding to the target image, and retrieve the third target business type vocabulary corresponding to the first target industry type according to the first target business type; call the third target business type words in turn according to the sorting table Sub-thesaurus in the library.
  • the sub-thesaurus in the insurance vocabulary includes medical insurance sub-thesaurus, pension insurance sub-thesaurus, agricultural insurance sub-thesaurus and other insurance sub-thesaurus.
  • the sub-thesaurus is medical insurance sub-thesaurus, endowment insurance sub-thesaurus, agricultural insurance sub-thesaurus and other insurance sub-thesaurus in the order of the sorting table.
  • the target image is recognized by the image text recognition model, and the first target business type obtained is "insurance", and the word database is first searched according to "insurance” to obtain an insurance word database.
  • Method 2 Obtain the first target service type corresponding to the target image, and retrieve the third target service type word database corresponding to the first target service type according to the first target service type; according to the category in the first target service type, in the first target service type Obtain the corresponding sub-thesaurus from the three-target business type thesaurus.
  • the third target business type thesaurus "medicine thesaurus” includes gynecological medicine sub-thesaurus.
  • the first target business type obtained by recognizing the target image with the image text recognition model is "gynecological drugs”, first search according to "drugs” to obtain the medical vocabulary, and then search for gynecology in the medical vocabulary according to "gynecology” Medical sub-thesaurus.
  • Method 3 Obtain the first target service type corresponding to the target image, and retrieve the third target service type dictionary corresponding to the first target service type according to the first target service type; according to the category in the first target service type, in the first target service type Obtain the corresponding first sub-thesaurus from the three-target business type thesaurus; according to the sorting table, sequentially call the sub-thesaurus of the third target business type thesaurus except the first sub-thesaurus.
  • the sub-thesaurus in the insurance thesaurus includes medical insurance sub-thesaurus, endowment insurance sub-thesaurus, agricultural insurance sub-thesaurus and other insurance sub-thesaurus, and the sub-thesaurus is in order
  • the order of the table is medical insurance sub-thesaurus, endowment insurance sub-thesaurus, agricultural insurance sub-thesaurus and other insurance sub-thesaurus, among which the medical insurance sub-thesaurus is the first sub-thesaurus.
  • the first target business type obtained by recognizing the target image with the image text recognition model is "pension insurance", first search according to "insurance” to obtain the insurance vocabulary, and then obtain pension insurance in the insurance vocabulary according to "endowment" Sub-thesaurus.
  • the data structure tree may be a (Burkhard-Keller, BK) tree.
  • BK Bernkhard-Keller
  • the word in the target word that is the same as or most similar to the text prediction result is taken as the root.
  • any word in the target word is used as the root node, and other words in the target word except the root node are used as sub-nodes, and a data structure tree is established according to the root node and the sub-nodes, including: traversing the target business type correspondingly The target business type vocabulary of, obtains multiple target words that have the same or similar parts as the text prediction result; calculates multiple similarities between multiple target words and the text prediction result, compares the magnitude of the multiple similarity values, and The target word corresponding to the highest similarity degree is regarded as the root node; according to the order of multiple similarity values, multiple target words other than the root node are successively regarded as child nodes, and placed on the connecting line of the child nodes.
  • the word with the highest matching degree with the target word is obtained in the data structure tree, and the word with the highest matching degree is output as a text recognition result.
  • the query threshold analysis of the data structure tree can be the calculation of the edit distance.
  • the edit distance algorithm is used to find the word with the highest degree of matching with the text sequence in the text prediction result through the edit distance algorithm, so as to realize the prediction result of this article. Text error correction to obtain a relatively accurate output text effect.
  • the output text is correspondingly encapsulated according to the input frame format to obtain an output text file.
  • the frame network or frame model will typeset and edit the output text according to the coordinate points and format of the text sequence obtained during text detection and recognition.
  • the above-mentioned query threshold analysis is performed on the data structure tree, the word with the highest matching degree with the target word is obtained in the data structure tree, and the word with the highest matching degree is output as the text recognition result, including: calculating the text prediction result The edit distance between the text sequence and the root node; calculate the query threshold, the query threshold is not less than the difference between the edit distance and the maximum distance, the query threshold is not greater than the sum of the edit distance and the maximum distance, and the maximum distance is the word and text returned in the data structure tree
  • the minimum fault-tolerant distance of the sequence; the word corresponding to the connection edge whose value falls within the query threshold is obtained from the data structure tree in a recursive query.
  • the data structure tree includes multiple connection edges, and the connection edges are used to connect the root node and the child nodes, and Used to connect between child nodes; identify the shape of the word corresponding to the connected edge and the corresponding text shape in the target image, calculate the matching degree between the word corresponding to the connected edge and the target image, obtain multiple matching degrees, and combine multiple matching degrees The word corresponding to the largest matching degree in the, is output as the text recognition result.
  • the data structure tree is a Burkhard-Keller tree, and the maximum distance can be understood as a fault-tolerant value, that is, the minimum edit distance between the words returned in the Burkhard-Keller tree and the text sequence.
  • the maximum distance is usually very small. The smaller the setting, the smaller the search accuracy. The higher, if you want to perform an accurate search, you can do it very effectively by simply setting the maximum distance to 0.
  • the first edit distance corresponding to the root of the text sequence and the Burkhard-Keller tree, and the query threshold is not greater than the first edit distance and the maximum distance
  • the sum is not less than the difference between the first edit distance and the maximum distance, and then recursively search for the corresponding word in the subtree connected by the edge within the range of the query threshold.
  • the minimum edit distance between the word returned in the Burkhard-Keller tree and the text sequence that is, the maximum distance is 1, the text sequence is "bush”, the root of the Burkhard-Keller tree is "busy”, then the first edit distance is 1 ,
  • the query threshold is 0 to 2, and the corresponding word is searched in the subtree connected by the edges numbered 0 to 2 recursively.
  • the drug word database is called, with "Compound Xikangkou Ointment” as the root of the Burkhard-Keller tree, and other related words as Burkhard -Child nodes of the Keller tree.
  • the first edit distance of "Compound Tongkangzao Ointment” and “Compound Xikangkou Ointment” is 2, the maximum distance is 1, and the sum and difference of the first edit distance and the maximum distance are 3 and 1, respectively, Then find out “Compound Ciconazole Ointment” and “Compound Ketoconazole Ointment”, “Compound Tongledong Ointment”, “Compound Tonglexing Ointment”, “Compound Ketoconazole Ointment” and “Compound Tongkangxing Ointment”, Identify “Compound Xiconazole Ointment” and “Compound Ketoconazole Ointment”, “Compound Tongletong Ointment”, “Compound Tonglexing Ointment”, “Compound Ketoconazole Ointment” and “Compound Tongkangxing Ointment” and target images Calculate the matching degree.
  • the text content in the target image is "Compound Ketoconazole Ointment", then the “Compound Ketoconazole Ointment” matches its shape the most, and then “Compound Ketoconazole Ointment” is the output text.
  • the content of Figure 3 is for reference only, and the accuracy of the content and actual operation are not considered.
  • this application classifies the collected word data sets according to industry categories, establishes multiple category thesauruses, and obtains multiple targets according to multiple category thesauruses
  • the business type lexicon enables text recognition to obtain the corresponding lexicon according to the business type corresponding to the input target image, and compares and corrects errors with the lexicon corresponding to the business scene in a purposeful and targeted manner in combination with specific business scenarios Therefore, it is possible to quickly and accurately compare and correct the acquired recognized text.
  • this application acquires the target word from the vocabulary corresponding to the target business type, any word in the target word is used as the root node, and the target word Words other than the root node are used as child nodes.
  • a data structure tree is established based on the root node and child nodes.
  • the word with the highest degree of matching with the target word is obtained from the data structure tree as the text recognition result.
  • FIGS. 1 to 3 The technical features mentioned in any of the alternative embodiments or alternative implementations in the above-mentioned FIGS. 1 to 3 are also applicable to the embodiments corresponding to FIGS. 4 and 5 in this application, and the similarities will not be repeated any more. Go into details.
  • the foregoing describes a method for recognizing text in the present application, and the following describes a device that executes the foregoing method for recognizing text.
  • a schematic structural diagram of a text recognition device 40 can be applied to a scanning detection system to recognize and detect text information of an image.
  • the device 40 in the embodiment of the present application can implement the steps corresponding to the method for recognizing text executed in any of the optional embodiments or optional implementations in FIG. 1 to FIG. 3 described above.
  • the functions implemented by the device 40 can be implemented by hardware, or can be implemented by hardware executing corresponding software.
  • the hardware or software includes one or more modules corresponding to the above-mentioned functions, and the modules may be software and/or hardware.
  • the device 40 may include an input/output module 401, a processing module 402, and a display module 403.
  • the processing module 402 can be used to control the receiving and sending operations of the input and output module 401, and the display module 403 can be used to display the processing operations of the processing module 402.
  • the input/output module 401 is used to obtain a target image, which is used to obtain a collected word data set;
  • the processing module 402 is used to classify the collected word data set obtained by the input and output module 401 according to the industry category, establish multiple category thesaurus, and calculate the word frequency-inverse text frequency index TF- of the words in the multiple category thesaurus IDF value, and set the corresponding priority of the category thesaurus according to the TF-IDF value from large to small; classify multiple category thesaurus according to business type, obtain multiple business type thesaurus, and select multiple candidates according to priority
  • the business type thesaurus is sorted, and the candidate business type thesaurus whose priority corresponding to the TF-IDF value is greater than the preset threshold is selected from the sorted multiple candidate business type thesaurus, and multiple initial business type thesauruses are obtained;
  • the built-in image text recognition model performs recognition processing on the target image obtained by the input and output module based on the multiple initial business type lexicons, and obtains the text prediction result corresponding to the target image and the target business type lexicon; from the target business type lexicon Get
  • the display module 403 is used to display the word with the highest matching degree as a text recognition result.
  • the aforementioned processing module 402 is specifically configured to: classify the collected word data set according to the first industry category to establish a first-category thesaurus; classify the first-category thesaurus according to the second industry category, Establish a second-category sub-thesaurus, where the second industry category is a sub-category of the first industry category; according to the third industry category, classify the second-category sub-thesaurus, and establish a third-category sub-thesaurus, where the first The three-industry category is a sub-category of the second industry category; the category thesaurus is established through the first category thesaurus, the second category sub-thesaurus, and the third category sub-thesaurus.
  • the aforementioned processing module 402 is specifically configured to: obtain a target image, perform image recognition processing on the target image through a preset image text recognition model to obtain first feature information, and perform text recognition processing on the target image to obtain a second feature Information, the first feature information includes the information of the integral part of the target image, and the second feature information includes the information of the text part of the target image; analyze and obtain the first service type corresponding to the first characteristic information, and according to the first service type Obtain a first target business type thesaurus from a plurality of initial business type thesaurus, the first target business type thesaurus includes a plurality of thesaurus corresponding to and/or associated with the first business type; perform text prediction on the second feature information Process to obtain the text prediction result; analyze and obtain the second business type corresponding to the text prediction result, and obtain the second target business type lexicon from multiple initial business type lexicons according to the second business type, and the second target business type lexicon Including multiple lexicons corresponding to and/or associated with the second business
  • the above-mentioned processing module 402 is specifically configured to: traverse the target business type vocabulary to obtain multiple target words that have the same or similar parts as the text prediction result; calculate multiple similarities between the multiple target words and the text prediction result Degree, compare the magnitude of multiple similarity values, and use the target word with the largest similarity value as the root node; according to the order of multiple similarity values from large to small, it will be used as multiple targets other than the root node Words are taken as child nodes in turn, and the similarity corresponding to the child nodes is marked on the connection line of the child nodes; a data structure tree is established according to the root node and the child nodes.
  • the aforementioned processing module 402 is specifically configured to: calculate the edit distance between the text sequence in the text prediction result and the root node; calculate the query threshold, the query threshold is not less than the difference between the edit distance and the maximum distance, and the query threshold is not greater than the edit distance
  • the sum of the maximum distance and the maximum distance is the minimum error-tolerant distance between the words returned in the data structure tree and the text sequence; the words corresponding to the connection edges whose values fall within the query threshold are obtained from the data structure tree in a recursive query, the data structure tree Including multiple connecting edges, connecting edges are used to connect the root node and child nodes, and to connect between child nodes; identify the shape of the word corresponding to the connecting edge and the corresponding text shape in the target image, and calculate the word corresponding to the connecting edge
  • the matching degree with the target image is obtained, and multiple matching degrees are obtained, and the word corresponding to the maximum matching degree among the plurality of matching degrees is output as the text recognition result.
  • the aforementioned device 40 for recognizing text further includes: a training module for recognizing the shape of the word corresponding to the connecting edge and the corresponding text shape in the target image, calculating the matching degree between the word corresponding to the connecting edge and the target image, and obtaining For multiple matching degrees, the word corresponding to the highest matching degree among the multiple matching degrees is output as the text recognition result.
  • the above-mentioned training module is specifically used to obtain training images, input the training images into a preset image text recognition model, and preprocess the training images through the preset image text recognition model.
  • the preprocessing includes image acquisition. , Image enhancement, image restoration, image coding and compression, and image segmentation; perform feature extraction and edge feature extraction on preprocessed training images to obtain third feature information; generate feature descriptors from the third feature information, and call presets
  • the template library obtains the template image with the greatest similarity with the feature descriptor in the template library according to the feature descriptor to obtain the target template image; obtains the business type corresponding to the target template image, obtains the target business type, and marks the target business type accordingly
  • the business type includes the name and keywords associated with the business type; sort and classify the training images according to the target business type to obtain the image set of the business type; divide the image set of the business type into text areas and non-text Area, and obtain the first coordinates and first area description information of each area of the text area,
  • this application classifies the collected word data sets according to industry categories, establishes multiple category thesauruses, and obtains multiple target business type thesauruses according to the multiple category thesaurus, so that the text During recognition, the corresponding vocabulary can be obtained according to the business type corresponding to the input target image, and the vocabulary corresponding to the business scenario can be compared and corrected in a purposeful and targeted manner in combination with the specific business scenario.
  • any word in the target word is used as the root node, and the target word except the root node Other words are used as child nodes, and a data structure tree is established based on the root node and child nodes.
  • the word with the highest degree of matching with the target word is obtained from the data structure tree as the text recognition result.
  • the device 40 in the embodiment of the present application is described above from the perspective of modular functional entities.
  • the following describes a computer device from the perspective of hardware, as shown in FIG. 5, which includes: a processor, a memory, a display, and an input and output unit ( It may also be a transceiver (not identified in FIG. 5) and a computer program stored in the memory and running on the processor.
  • the computer program may be a program corresponding to the method of recognizing text in any of the optional embodiments or optional implementations shown in FIGS. 1 to 3.
  • the processor executes the computer program to implement each of the methods for recognizing text executed by the device 40 in the embodiment corresponding to FIG.
  • the computer program may be a program corresponding to any of the alternative embodiments or alternative implementation methods in FIGS. 1 to 3.
  • the so-called processor can be a central processing unit (Central Processing Unit, CPU), other general-purpose processors, digital signal processors (Digital Signal Processor, DSP), application specific integrated circuits (Application Specific Integrated Circuit, ASIC), off-the-shelf Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gates or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor may be a microprocessor or the processor may also be any conventional processor, etc.
  • the processor is the control center of the computer device, and various interfaces and lines are used to connect various parts of the entire computer device.
  • the memory may be used to store the computer program and/or module, and the processor implements the computer by running or executing the computer program and/or module stored in the memory and calling data stored in the memory.
  • the memory may mainly include a storage program area and a storage data area.
  • the storage program area may store an operating system, an application program required by at least one function (such as a sound playback function, an image playback function, etc.), etc.; the storage data area may store Data created based on the use of mobile phones (such as audio data, video data, etc.), etc.
  • the memory can include high-speed random access memory, and can also include non-volatile memory, such as hard disks, memory, plug-in hard disks, smart media cards (SMC), and secure digital (SD) cards.
  • non-volatile memory such as hard disks, memory, plug-in hard disks, smart media cards (SMC), and secure digital (SD) cards.
  • Flash Card at least one magnetic disk storage device, flash memory device, or other volatile solid-state storage device.
  • the input and output units can also be replaced by receivers and transmitters, and they can be the same or different physical entities. When they are the same physical entity, they can be collectively referred to as input and output units.
  • the input and output unit may be a transceiver.
  • the memory may be integrated in the processor, or may be provided separately from the processor.
  • the present application also provides a computer-readable storage medium.
  • the computer-readable storage medium may be a non-volatile computer-readable storage medium or a volatile computer-readable storage medium.
  • the computer-readable storage medium stores computer instructions, and when the computer instructions are executed on the computer, the computer executes the following steps:
  • the corresponding TF-IDF value is greater than the preset threshold of candidate business type thesaurus, to obtain multiple initial business type thesaurus;
  • the word with the highest matching degree with the target word is obtained from the data structure tree, and the word with the highest matching degree is output as the text recognition result.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

提供一种识别文本的方法、装置、设备及存储介质。该方法包括:根据行业类别对所收集的字词数据集进行分类,建立多个类别词库;根据业务类型对多个所述类别词库进行分类获得多个候选业务类型词库,根据优先级对多个候选业务类型词库进行排序,获得多个初始目标业务词库;通过预置的图像文本识别模型基于所述多个初始业务类型词库对目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;在所述目标业务类型词库获取目标词,根据所述目标词建立数据结构树;在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。

Description

识别文本的方法、装置、设备及存储介质
本申请要求于2019年10月18日提交中国专利局、申请号为201910990783.5,发明名称为“识别文本的方法、装置、设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
技术领域
本申请涉及场景文本检测领域,尤其涉及识别文本的方法、装置、设备及存储介质。
背景技术
信息电子化时代,随着档案数字化、信息采集和证件录入等数据量大、录入繁琐的工作发展,对图像中的文字转换成文本格式的需求越来越大,OCR(光学字符识别)识别技术发展成为当今模式识别领域中最活跃的分支之一。
目前的OCR文本识别中,通过对输入的文件进行扫描和识别以获取处理信息,对所述处理信息进行特征提取,根据所述特征获取文本识别信息,将所述文本识别信息与字词数据库中的字词进行匹配,并获取多个匹配值,以所述字词数据库中最大的匹配值对应的字词作为文本识别结果,并输出所述文本识别结果。
发明人意识到由于是通过根据获取的处理信息的特征获取文本识别信息,将所述文本识别信息直接与统一的一个字词数据库中的字词进行匹配,以获取匹配度最大的字词作为文本识别结果,易造成所获取的文本识别信息在大范围的字词数据库的匹配中存在与专业术语、常用词组和领域专用语言等的匹配不对应的问题,从而导致所输出的文本识别结果不是输入的文件对应的业务场景所需的识别结果,因而,导致文本识别的准确率低。
发明内容
本申请提供了一种识别文本的方法、装置、设备及存储介质,能够解决现有技术中文本识别的准确率低的问题。
第一方面,本申请提供一种识别文本的方法,所述方法包括:
根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置多个所述类别词库对应的优先级;
根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;
获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;
从所述目标业务类型词库中获取所有与所述文本预测结果存在相同或相似部分的目标词,将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根和所述子节点建立数据结构树;
通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。
第二方面,本申请提供一种识别文本的装置,所述识别文本的装置包括:
输入输出模块,用于获取目标图像,用于获取所收集的字词数据集;
处理模块,用于根据行业类别对所述输入输出模块获取的所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置所述类别词库对应的优先级;根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,并从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述输入输出模块获取的目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;从所述目标业务类型词库中获取所有与所述文本预测结果存在相同或相似部分的目标词,将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树;通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输入至显示模块,并通过所述显示模块输出所述匹配度最高的词;
所述显示模块,用于显示作为文本识别结果的所述匹配度最高的词。
本申请又一方面提供了一种计算机设备,其包括至少一个连接的处理器、存储器、显示器和输入输出单元,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。
本申请又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行上述第一方面所述的方法。
相较于现有技术,本申请提供的方案中,通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库;根据业务类型对多个所述类别词库进行分类获得多个业务类型词库,根据优先级对所述多个业务类型词库进行排序,获得多个初始目标业务词库;通过预置的图像文本识别模型基于所述多个初始业务类型词库对目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;在所述目标业务词库获取目标词,根据所述目标词建立数据结构树;在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。由于本申请是通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,根据多个所述类别词库,获取多个目标业务类型词库,使文本识别时能根据输入的目标图像对应的业务类型获取对应的词库,结合具体的业务场景有目的地、有针对性地与业务场景对应的词库进行对比和纠错,因而,能够快速而准确地对获取的识别文本进行对比与纠错,又由于本申请是在所述目标业务类型相应的词库获取目标词,以所述目标词中任意一个词作为根节点,以所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树,从所述数据结构树中获取与所述目标词匹配度最高的词作为文本识别结果,通过以相同或相似的目标词作为根节点和子节点,以提高对匹配度最高的词获取的速度和准确性,所以,本申请能够提高文本识别的准确率。
附图说明
图1为本申请实施例中识别文本的方法的一种流程示意图;
图2为本申请实施例中字词数据集分类的一种举例说明图;
图3为本申请实施例中获取与目标词匹配度最高的词的一种举例说明图;
图4为本申请实施例中识别文本的装置的一种结构示意图;
图5为本申请实施例中计算机装置的一种结构示意图。
具体实施方式
本申请提供一种文本识别的方法、装置、设备及存储介质,可用于扫描检测系统,对图像的文本信息进行识别和检测。
为解决上述技术问题,本申请主要提供以下技术方案:
请参照图1,以下对本申请提供一种识别文本的方法进行举例说明,该方法由计算机设备执行,计算机设备可为服务器或者终端,当图4所示的装置40为应用或者执行程序时,终端为安装图4所示的装置40的终端,本申请不对执行主体的类型作限制,所述方法包括:
101、根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,计算多个类别词库中词的词频-逆文本频率指数TF-IDF值,并按照TF-IDF值从大到小分别设置多个类别词库对应的优先级。
对所收集的字词数据集进行分类成行业类别对应的词库,以建立类别词库。例如:对所收集的字词数据集进行分类成服务业词库和金融业词库,服务业词库包括服务业的基础语、专业术语和常规用语,以及关联服务业的其他行业的基础用语、专业术语和常规用语,金融业词库包括金融业的基础语、专业术语和常规用语,以及关联金融业的其他行业的基础用语、专业术语和常规用语。
获取多个参考文件,根据多个参考文件计算多个类别词库中的每个词的词频-逆文本频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)值,计算类别词库中所有词的TF-IDF值的加权平均值,以TF-IDF值的加权平均值作为类别词库的TF-IDF值,根据类别词库的TF-IDF值对类别词库设置优先级。
通过对所收集的字词数据集按照行业类别进行分类,以使所获得的词库细分而有序,并对获取的词库设置优先级,通过优先级以便于在词库中快速而准确地获取所匹配的词。
可选的,上述的根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,包括:根据第一行业类别对所收集的字词数据集进行分类,建立第一类别词库;根据第二行业类别对第一类别词库进行分类,建立第二类别子词库,其中,第二行业类别是第一行业类别的子类别;根据第三行业类别,对第二类别子词库进行分类,建立第三类别子词库,其中,第三行业类别是第二行业类别的子类别;通过第一类别词库、第二类别子词库和第三类别子词库,以建立类别词库。对所收集的字词数据集进行三级分类,在母词库基础上创建多个子词库。
通过对所收集的字词数据集进行多级分类,使类别词库更具体和有序,以便于降低对词库搜索的难度和提高对词库搜索的速度和准确度。例如:根据行业类型对所收集的字词 数据集进行一级划分,划分为电子信息产业词库和金融业词库,其中,以电子信息产业词库为例。对电子信息产业词库进行二级划分,划分为计算机服务业子词库、电信和其他信息传输服务业子词库和软件业子词库;对计算机服务业子词库进行三级划分,划分为计算机系统服务业子词库、计算机维修业子词库、计算机处理业子词库和其他计算机服务业子词库;对电信和其他信息传输服务业子词库进行三级划分,划分为互联网信息服务业子词库、广播电视传输服务业子词库和卫星传输服务业子词库;对软件业子词库进行三级划分,划分为基础软件服务业子词库、应用软件服务业子词库和其他软件服务业子词库。如图2所示,图2内容仅作举例说明参考,其内容准确性和实际操作与否不作考虑。
102、根据业务类型对多个类别词库进行分类,获得多个候选业务类型词库,根据优先级对多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择优先级对应的TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库。
通过在类别词库基础上再进行业务类型分类,获得多个候选业务类型词库,并对多个候选业务类型词库进行优先级排序,以获取更加细分而有序的初始业务类型词库,从而便于快速地对词库进行遍历。例如:候选业务类型词库分别有金融业词库和通信业词库,在此以金融业词库为例说明,对金融业词库进行业务类型分类成保险业子词库、银行业子词库、证券业子词库和其他金融服务业子词库,保险业子词库、银行业子词库、证券业子词库和其他金融服务业子词库的优先级分别为一级(TF-IDF值为0.4)、三级(TF-IDF值为0.2)、二级(TF-IDF值为0.3)和四级(TF-IDF值为0.1),选取TF-IDF值大于预设阈值0.11的业务类型词库,作为初始业务类型词库,则保险业子词库、银行业子词库和证券业子词库为多个初始业务类型词库。上述举例内容仅作举例说明参考,其内容准确性和实际操作与否不作考虑。
103、获取目标图像,通过预置的图像文本识别模型基于多个初始业务类型词库对目标图像进行识别处理,获得目标图像对应的文本预测结果和目标业务类型词库。
通过预置的图像文本识别模型获取目标图像,基于多个初始业务类型词库对目标图像的形状和/或图像构成部分进行识别,根据目标图像的形状和图像组成部分在业务类型匹配库中匹配与其对应的业务类型,以及获取目标图像的文本信息,并对文本信息进行检测和预测,以得到文本预测结果,并根据目标业务类型调用相应的目标业务类型词库。预置的图像文本识别模型可为具有操作速度快、精度高和可定制损失函数特性的神经网络组合模型,通过利用模型的容错能力、自学习能力和自适应能力,以提高对图像采集的文本识别信息的准确性。其中,该目标图像可为直接输入的图片,也可为通过对输入信息进行扫描后生成的图像,本申请实施例包括业务类型匹配库。
例如:输入预置的图像文本识别模型中的目标图像是对一份医疗收费票据扫描生成的医疗收费票据目标图像,对医疗收费票据目标图像进行识别,以获取医疗收费票据的构成内容,根据医疗收费票据的构成内容在业务类型匹配库中匹配到与其对应的业务类型为医疗收费的目标业务类型,以及对医疗收费票据目标图像的文本部分进行识别以获取文本识别信息,并对文本识别信息进行检测和预测,以获取文本预测结果,并根据医疗收费业务类型调用相应的医疗收费词库(即目标业务类型词库)。
可选的,上述的获取目标图像,通过预置的图像文本识别模型基于多个初始业务类型词库对目标图像进行识别处理,获得目标图像对应的文本预测结果和目标业务类型词库,包括:获取目标图像,通过预置的图像文本识别模型对目标图像进行图像识别处理获得第一特征信息,以及对目标图像进行文本识别处理获得第二特征信息,第一特征信息包括目标图像的整体构成部分的信息,第二特征信息包括目标图像的文本构成部分的信息;分析并获取第一特征信息对应的第一业务类型,并根据第一业务类型从多个初始业务类型词库中获取第一目标业务类型词库,第一目标业务类型词库包括与第一业务类型对应和/或关联的多个词库;对第二特征信息进行文本预测处理获得文本预测结果;分析并获取根据文本预测结果对应的第二业务类型,并根据第二业务类型从多个初始业务类型词库中获取第二目标业务类型词库,第二目标业务类型词库包括与第二业务类型对应和/或关联的多个词库;计算文本预测结果与第一目标业务类型词库的第一相似度,以及计算文本预测结果与第二目标业务类型词库的第二相似度;比较第一相似度和第二相似度获得最大值的相似度,将最大值的相似度对应的第一目标业务类型词库或第二目标业务类型词库作为最终的目标业务类型词库。
通过比较获取的第一目标业务类型词库和第二目标业务类型词库的相似度,获取最大相似度对应的词库作为最终调用的词库,以提高获取目标业务类型对应的词库的准确性。例如:输入预置的图像文本识别模型中的目标图像是对一份保险单明细表扫描生成的保险单明细表目标图像,通过预置的图像文本识别模型对保险单明细表目标图像进行图像识别处理获得保险单明细表整体构成部分的信息(即第一特征信息),以及对保险单明细表目标图像进行文本识别处理获得保险单明细表中的文本构成部分的信息(即第二特征信息),分析保险单明细表整体构成部分的信息获得保险业务类型的第一业务类型,根据第一业务类型从多个初始业务类型词库中获得作为第一目标业务类型词库的保险词库,分析保险单明细表中的文本构成部分的信息得到医疗保险业务类型的第二业务类型,根据第二业务类型从多个初始业务类型词库中获得作为第二目标业务类型词库的医疗保险词库,计算文本预测结果与保险词库的第一相似度为65%,以及计算文本预测结果与医疗保险词库的第二相似度为80%,则以医疗保险词库作为最终的目标业务类型词库。
可选的,上述的获得多个初始业务类型词库之后,通过预置的图像文本识别模型获取目标图像,根据多个初始业务类型词库对目标图像进行识别处理之前,还包括:基于多个目标业务类型词库和训练图像对预置的图像文本识别模型进行训练,得到最终的预置的图像文本识别模型。
对模型进行训练,以获得具备对图像进行识别和文本识别纠错功能的图像文本识别模型。通过基于多个目标业务类型词库和训练图像对预置的图像文本识别模型进行权重更新、参数的调整以及数据的输入和输出的调整等训练。
可选的,上述的基于多个目标业务类型词库和训练图像对预置的图像文本识别模型进行训练,得到最终的预置的图像文本识别模型,包括:获取训练图像,将训练图像输入到预置的图像文本识别模型中,通过预置的图像文本识别模型对训练图像进行预处理,预处理包括图像采集、图像增强、图像复原、图像编码与压缩和图像分割;对经过预处理的训 练图像进行特征提取和边缘特征提取,获得第三特征信息;将第三特征信息生成特征描述子,调用预置的模板图库根据特征描述子在模板图库中获取与特征描述子的相似度最大的模板图像,得到目标模板图像;获取与目标模板图像对应的业务类型,得到目标业务类型,将目标业务类型对应地标记在训练图像上,业务类型包括与业务类型关联的名称和关键词;根据目标业务类型对训练图像进行整理和分类,得到业务类型的图像集;将业务类型的图像集分割成文字区域与非文字区域,并获取文字区域各区域的第一坐标和第一区域描述信息,以及获取非文字区域各区域的第二坐标和第二区域描述信息;根据第一坐标、第二坐标、第一区域描述信息和第二区域描述信息建立训练图像与目标业务类型词库的对应关系;在文字区域的范围内标记文字区域的多边形的顶点坐标和文本字符串;通过业务类型的图像集、对应关系、多边形的顶点坐标和文本字符串,使得预置的图像文本识别模型满足预设规则条件,获取与训练图像相应的文本识别结果,预设规则条件包括结合业务类型对输入的训练图像进行文本识别与文本纠错。通过训练模型,使其具备对图像进行文本识别和文本纠错的功能,以使其能快速而准确地获取文本识别结果。通过对预置的图像文本识别模型的输入数据的处理过程和输出数据的获取进行训练。
可选的,上述的根据优先级对多个业务类型词库进行排序包括根据优先级按照TF-IDF值从大到小对多个业务类型词库进行排序得到排序表,例如,排序表包括父词库和多个子词库排序表。父词库为保险词库,在子词库排序表中,医疗保险子词库、养老保险子词库、农业保险子词库和其他保险子词库从左至右,按照TF-IDF值从大到小的顺序排序。
上述的获得目标图像对应的目标业务类型词库和文本预测结果之后,上述的获得目标图像对应的目标业务类型词库和文本预测结果之后,包括以下实现方式中的至少一个:
方式一:获取目标图像对应的第一目标业务类型,根据第一目标业务类型,检索到第一目标行业类型对应的第三目标业务类型词库;按照排序表,依次调用第三目标业务类型词库中的子词库。
例如:作为第三目标业务类型词库的保险词库(即父词库)中的子词库包括医疗保险子词库、养老保险子词库、农业保险子词库和其他保险子词库,且子词库按照排序表顺序为医疗保险子词库、养老保险子词库、农业保险子词库和其他保险子词库。以所述图像文本识别模型对目标图像进行识别处理,获取的第一目标业务类型为“保险”,先根据“保险”对词库进行搜索以获取保险词库。按照排序表中的顺序,先调用医疗保险子词库对文本预测结果进行匹配,然后调用养老保险子词库对文本预测结果进行匹配,接着调用农业保险子词库对文本预测结果进行匹配,最后调用其他保险子词库对文本预测结果进行匹配,以获取最匹配的词。
方式二:获取目标图像对应的第一目标业务类型,根据第一目标业务类型,检索到第一目标业务类型对应的第三目标业务类型词库;根据第一目标业务类型中的类别,在第三目标业务类型词库中获取对应的子词库。
例如:第三目标业务类型词库“医药词库”包括妇科医药子词库。以图像文本识别模型对目标图像进行识别处理获取的第一目标业务类型为“妇科药品”,先根据“药品”进行搜索以获取医药词库,然后根据“妇科”在医药词库中搜索到妇科医药子词库。
方式三:获取目标图像对应的第一目标业务类型,根据第一目标业务类型,检索到第一目标业务类型对应的第三目标业务类型词库;根据第一目标业务类型中的类别,在第三目标业务类型词库中获取对应的第一子词库;根据排序表,依次调用第三目标业务类型词库中除了第一子词库外的子词库。
例如:作为第三目标业务类型词库的保险词库中的子词库包括医疗保险子词库、养老保险子词库、农业保险子词库和其他保险子词库,且子词库按照排序表顺序为医疗保险子词库、养老保险子词库、农业保险子词库和其他保险子词库,其中,医疗保险子词库为第一子词库。以图像文本识别模型对目标图像进行识别处理获取的第一目标业务类型为“养老保险”,先根据“保险”进行搜索以获取保险词库,然后根据“养老”在保险词库中获取养老保险子词库。按照排序表中的顺序,先调用养老保险子词库对文本预测结果进行匹配,然后调用农业保险子词库对文本预测结果进行匹配,最后调用其他保险子词库对文本预测结果进行匹配,以获取最匹配的词。
104、从目标业务类型词库中获取所有与文本预测结果存在相同或相似部分的目标词,将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树。
其中,数据结构树可为(Burkhard-Keller,BK)树。本申请实施例中,以目标词中与与文本预测结果相同或者最为相似的词作为根。通过结合目标业务类型词库中的基础用语、专业术语和常规用语,并以与文本预测结果存在相同或相似部分的目标词构建数据结构树,以减少查找的节点数和降低查找的复杂称帝,进而提高识别效率和识别准确性。
可选的,上述的将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树,包括:遍历目标业务类型相应的目标业务类型词库获取与文本预测结果存在相同或相似部分的多个目标词;计算多个目标词与文本预测结果之间的多个相似度,比较多个相似度的值的大小,将值最大的相似度对应的目标词作为根节点;按照多个相似度的值从大到小的顺序,将作为根节点之外的多个目标词依次作为子节点,并在子节点的连接线上标记子节点对应的相似度;根据根节点和子节点,建立数据结构树。通过根据相似度大小进行根节点和子节点的创建,以减少在数据结构树中获取最匹配的词时对数据结构树的遍历操作,从而能快速而准确地获取最匹配的词。例如:遍历目标业务类型相应的目标业务类型词库获取与文本预测结果存在相同或相似部分的四个目标词“比比皆是、笔笔皆是、比比街市、逼比街市”,文本预测结果为“比比比是”,“比比比是”与“比比皆是、笔笔皆是、比比街市、逼比街市”的相似度分别为75%、25%、50%和25%,则“比比皆是”作为根节点,“比比街市”、“笔笔皆是”和“逼比街市”依次为子节点,并分别在子节点的连接线上标记子节点对应的相似度75%、50%、25%和25%,得到数据结构树。
105、通过对数据结构树进行查询阈值分析,在数据结构树中获取与目标词匹配度最高的词,将匹配度最高的词作为文本识别结果输出。
其中,对数据结构树进行查询阈值分析可为对编辑距离的计算,通过编辑距离算法在数据结构树中查找与文本预测结果中的文本序列匹配度最高的词,以实现通过对本文预测 结果进行文本纠错以获得相对准确的输出文本的效果。
可选的,将匹配度最高的词作为文本识别结果输出之后,根据输入的框架格式对应封装输出文本,获得输出文本文件。例如:用户需要输出文本文件的文本序列位置和格式和图像的一样,则框架网络或框架模型根据在文本检测识别时所获得的文本序列的坐标点和格式,对输出文本进行排版编辑。
可选的,上述的通过对数据结构树进行查询阈值分析,在数据结构树中获取与目标词匹配度最高的词,将匹配度最高的词作为文本识别结果输出,包括:计算文本预测结果中的文本序列与根节点的编辑距离;计算查询阈值,查询阈值不小于编辑距离与最大距离之差,查询阈值不大于编辑距离与最大距离之和,最大距离为数据结构树中返回的词与文本序列的最小容错距离;以递归查询方式从数据结构树中获取数值落在查询阈值内的连接边对应的词,数据结构树包括多个连接边,连接边用于连接根节点与子节点,以及用于子节点之间的连接;识别连接边对应的词的形状与目标图像中对应的文字形状,计算连接边对应的词与目标图像的匹配度,获得多个匹配度,将多个匹配度中最大的匹配度对应的词作为文本识别结果输出。
数据结构树为Burkhard-Keller树,最大距离可理解为容错值,即允许在Burkhard-Keller树返回的词与文本序列的最小编辑距离,最大距离通常很小,设置得越小,其查找准确率越高,若要进行精确查找,则可以非常有效地通过简单地将最大距离设置为0进行。在Burkhard-Keller树返回与文本序列的距离不超过最大距离的词,该文本序列与Burkhard-Keller树根所对应的第一编辑距离,查询阈值不大于所述第一编辑距离与所述最大距离之和,不小于所述第一编辑距离与所述最大距离之差,接下来递归地在编号为查询阈值范围内的边所连接的子树查找对应的词。例如:允许在Burkhard-Keller树返回的词与文本序列的最小编辑距离,即最大距离为1,文本序列为“bush”,Burkhard-Keller树的根为“busy”,则第一编辑距离为1,则查询阈值为0至2,则递归地在编号为0至2的边所连接的子树查找对应的词。
例如:文本预测结果为“复方同康坐软膏”,所获取的业务类型信息为“药品”,则调用药品词库,以“复方西康口软膏”为Burkhard-Keller树的根,其他关联词做Burkhard-Keller树的子节点。“复方同康坐软膏”与“复方西康口软膏”的第一编辑距离为2,最大距离为1,所述第一编辑距离与所述最大距离的和值与差值分别为3和1,则查找出“复方西康唑软膏”和“复方酮康唑软膏”、“复方同乐东软膏”、“复方同乐星软膏”、“复方酮康唑软膏”和“复方同康星软膏”,识别“复方西康唑软膏”和“复方酮康唑软膏”、“复方同乐东软膏”、“复方同乐星软膏”、“复方酮康唑软膏”和“复方同康星软膏”与目标图像中的文字形状,计算匹配度,目标图像中的文字内容为“复方酮康唑软膏”,则“复方酮康唑软膏”与其形状的匹配度最大,则以“复方酮康唑软膏”为输出文本。如图3所示,图3内容仅作举例说明参考,其内容准确性和实际操作与否不作考虑。
与现有机制相比,本申请实施例中,由于本申请是通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,根据多个类别词库,获取多个目标业务类型词库,使文本识别时能根据输入的目标图像对应的业务类型获取对应的词库,结合具体的业务场 景有目的地、有针对性地与业务场景对应的词库进行对比和纠错,因而,能够快速而准确地对获取的识别文本进行对比与纠错,又由于本申请是在目标业务类型相应的词库获取目标词,将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树,从数据结构树中获取与目标词匹配度最高的词作为文本识别结果,通过以相同或相似的目标词作为根节点和子节点,以提高对匹配度最高的词获取的速度和准确性,所以,本申请能够提高文本识别的准确率。
上述图1-图3中任一可选实施例或可选实施方式中所提及的技术特征也同样适用于本申请中的图4和图5所对应的实施例,后续类似之处不再赘述。
以上对本申请中一种识别文本的方法进行说明,以下对执行上述识别文本的方法的装置进行描述。
如图4所示的一种识别文本的装置40的结构示意图,其可应用于扫描检测系统,对图像的文本信息进行识别和检测。本申请实施例中的装置40能够实现对应于上述图1-图3中任一可选实施例或可选实施方式中所执行的识别文本的方法的步骤。装置40实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述装置40可包括输入输出模块401、处理模块402和显示模块403,所述输入输出模块401、处理模块402和显示模块403的功能实现可参考图1-图3中任一可选实施例或可选实施方式中所执行的操作,此处不作赘述。所述处理模块402可用于控制所述输入输出模块401的收发操作,显示模块403可用于显示处理模块402的处理操作。
一些实施方式中,输入输出模块401,用于获取目标图像,用于获取所收集的字词数据集;
处理模块402,用于根据行业类别对输入输出模块401获取的所收集的字词数据集进行分类,建立多个类别词库,计算多个类别词库中词的词频-逆文本频率指数TF-IDF值,并按照TF-IDF值从大到小分别设置类别词库对应的优先级;根据业务类型对多个类别词库进行分类,获得多个业务类型词库,根据优先级对多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择优先级对应的TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;通过预置的图像文本识别模型基于所述多个初始业务类型词库对输入输出模块获取的目标图像进行识别处理,获取目标图像对应的文本预测结果和目标业务类型词库;从目标业务类型词库中获取所有与文本预测结果存在相同或相似部分的目标词,将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树;通过对数据结构树进行查询阈值分析,在数据结构树中获取与目标词匹配度最高的词,将匹配度最高的词作为文本识别结果输入至显示模块403,并通过显示模块403输出匹配度最高的词;
显示模块403,用于显示作为文本识别结果的匹配度最高的词。
可选的,上述的处理模块402具体用于:根据第一行业类别对所收集的字词数据集进行分类,建立第一类别词库;根据第二行业类别对第一类别词库进行分类,建立第二类别 子词库,其中,第二行业类别是第一行业类别的子类别;根据第三行业类别,对第二类别子词库进行分类,建立第三类别子词库,其中,第三行业类别是第二行业类别的子类别;通过第一类别词库、第二类别子词库和第三类别子词库,以建立类别词库。
可选的,上述的处理模块402具体用于:获取目标图像,通过预置的图像文本识别模型对目标图像进行图像识别处理获得第一特征信息,以及对目标图像进行文本识别处理获得第二特征信息,第一特征信息包括目标图像的整体构成部分的信息,第二特征信息包括目标图像的文本构成部分的信息;分析并获取第一特征信息对应的第一业务类型,并根据第一业务类型从多个初始业务类型词库中获取第一目标业务类型词库,第一目标业务类型词库包括与第一业务类型对应和/或关联的多个词库;对第二特征信息进行文本预测处理获得文本预测结果;分析并获取文本预测结果对应的第二业务类型,并根据第二业务类型从多个初始业务类型词库中获取第二目标业务类型词库,第二目标业务类型词库包括与第二业务类型对应和/或关联的多个词库;计算文本预测结果与第一目标业务类型词库的第一相似度,以及计算文本预测结果与第二目标业务类型词库的第二相似度;比较第一相似度和第二相似度获得最大值的相似度,将最大值的相似度对应的第一目标业务类型词库或第二目标业务类型词库作为最终的目标业务类型词库。
可选的,上述的处理模块402具体用于:遍历目标业务类型词库获取与文本预测结果存在相同或相似部分的多个目标词;计算多个目标词与文本预测结果之间的多个相似度,比较多个相似度的值的大小,将值最大的相似度对应的目标词作为根节点;按照多个相似度的值从大到小的顺序,将作为根节点之外的多个目标词依次作为子节点,并在子节点的连接线上标记子节点对应的相似度;根据根节点和子节点,建立数据结构树。
可选的,上述的处理模块402具体用于:计算文本预测结果中的文本序列与根节点的编辑距离;计算查询阈值,查询阈值不小于编辑距离与最大距离之差,查询阈值不大于编辑距离与最大距离之和,最大距离为数据结构树中返回的词与文本序列的最小容错距离;以递归查询方式从数据结构树中获取数值落在查询阈值内的连接边对应的词,数据结构树包括多个连接边,连接边用于连接根节点与子节点,以及用于子节点之间的连接;识别连接边对应的词的形状与目标图像中对应的文字形状,计算连接边对应的词与目标图像的匹配度,获得多个匹配度,将多个匹配度中值最大的匹配度对应的词作为文本识别结果输出。
可选的,上述的识别文本的装置40还包括:训练模块,用于识别连接边对应的词的形状与目标图像中对应的文字形状,计算连接边对应的词与目标图像的匹配度,获得多个匹配度,将多个匹配度中值最大的匹配度对应的词作为文本识别结果输出。
可选的,上述的训练模块具体用于:获取训练图像,将训练图像输入到预置的图像文本识别模型中,通过预置的图像文本识别模型对训练图像进行预处理,预处理包括图像采集、图像增强、图像复原、图像编码与压缩和图像分割;对经过预处理的训练图像进行特征提取和边缘特征提取,获得第三特征信息;将第三特征信息生成特征描述子,调用预置的模板图库根据特征描述子在模板图库中获取与特征描述子的相似度最大的模板图像,得到目标模板图像;获取与目标模板图像对应的业务类型,得到目标业务类型,将目标业务类型对应地标记在训练图像上,业务类型包括与业务类型关联的名称和关键词;根据目标 业务类型对训练图像进行整理和分类,得到业务类型的图像集;将业务类型的图像集分割成文字区域与非文字区域,并获取文字区域各区域的第一坐标和第一区域描述信息,以及获取非文字区域各区域的第二坐标和第二区域描述信息;根据第一坐标、第二坐标、第一区域描述信息和第二区域描述信息建立训练图像与目标业务类型词库的对应关系;在文字区域的范围内标记文字区域的多边形的顶点坐标和文本字符串;通过业务类型的图像集、对应关系、多边形的顶点坐标和文本字符串,使得预置的图像文本识别模型满足预设规则条件,获取与训练图像相应的文本识别结果,预设规则条件包括结合业务类型对输入的训练图像进行文本识别与文本纠错。
上述识别文本的装置中各个单元的功能实现与上述识别文本的方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本申请实施例中,由于本申请是通过根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,根据多个类别词库,获取多个目标业务类型词库,使文本识别时能根据输入的目标图像对应的业务类型获取对应的词库,结合具体的业务场景有目的地、有针对性地与业务场景对应的词库进行对比和纠错,因而,能够快速而准确地对获取的识别文本进行对比与纠错,又由于本申请是在目标业务类型相应的词库获取目标词,将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树,从数据结构树中获取与目标词匹配度最高的词作为文本识别结果,通过以相同或相似的目标词作为根节点和子节点,以提高对匹配度最高的词获取的速度和准确性,所以,本申请能够提高文本识别的准确率。
上面从模块化功能实体的角度分别介绍了本申请实施例中的装置40,以下从硬件角度介绍一种计算机装置,如图5所示,其包括:处理器、存储器、显示器、输入输出单元(也可以是收发器,图5中未标识出)以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如,该计算机程序可以为图1-图3中任一可选实施例或可选实施方式中识别文本的方法对应的程序。例如,当计算机装置实现如图4所示的装置40的功能时,所述处理器执行所述计算机程序时实现上述图4所对应的实施例中由装置40执行的识别文本的方法中的各步骤;或者,所述处理器执行所述计算机程序时实现上述图4所对应的实施例的装置40中各模块的功能。又例如,该计算机程序可以为图1-图3中任一可选实施例或可选实施方式的方法对应的程序。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在 所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述输入输出单元也可以用接收器和发送器代替,可以为相同或者不同的物理实体。为相同的物理实体时,可以统称为输入输出单元。该输入输出单元可以为收发器。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
此外,本申请还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,也可以为易失性计算机可读存储介质。计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如下步骤:
根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,计算多个类别词库中词的词频-逆文本频率指数TF-IDF值,并按照TF-IDF值从大到小分别设置多个类别词库对应的优先级;
根据业务类型对多个类别词库进行分类,获得多个候选业务类型词库,根据优先级对多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择优先级对应的TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;
获取目标图像,通过预置的图像文本识别模型基于多个初始业务类型词库对目标图像进行识别处理,获得目标图像对应的文本预测结果和目标业务类型词库;
从目标业务类型词库中获取所有与文本预测结果存在相同或相似部分的目标词,将目标词中任意一个词作为根节点,将目标词中除了根节点之外的其他词作为子节点,根据根节点和子节点建立数据结构树;
通过对数据结构树进行查询阈值分析,在数据结构树中获取与目标词匹配度最高的词,将匹配度最高的词作为文本识别结果输出。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本申请的保护之内。

Claims (20)

  1. 一种识别文本的方法,所述方法包括:
    根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置多个所述类别词库对应的优先级;
    根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;
    获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;
    从所述目标业务类型词库中获取所有与所述文本预测结果存在相同或相似部分的目标词,将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树;
    通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。
  2. 根据权利要求1所述的方法,所述根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,包括:
    根据第一行业类别对所收集的字词数据集进行分类,建立第一类别词库;
    根据第二行业类别对所述第一类别词库进行分类,建立第二类别子词库,其中,所述第二行业类别是所述第一行业类别的子类别;
    根据第三行业类别,对所述第二类别子词库进行分类,建立第三类别子词库,其中,所述第三行业类别是所述第二行业类别的子类别;
    通过所述第一类别词库、所述第二类别子词库和所述第三类别子词库,建立类别词库。
  3. 根据权利要求1所述的方法,所述获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库,包括:
    获取目标图像,通过所述预置的图像文本识别模型对所述目标图像进行图像识别处理获得第一特征信息,以及对所述目标图像进行文本识别处理获得第二特征信息,所述第一特征信息包括所述目标图像的整体构成部分的信息,所述第二特征信息包括所述目标图像的文本构成部分的信息;
    分析并获取所述第一特征信息对应的第一业务类型,并根据所述第一业务类型从所述多个初始业务类型词库中获取第一目标业务类型词库,所述第一目标业务类型词库包括与所述第一业务类型对应和/或关联的多个词库;
    对所述第二特征信息进行文本预测处理获得文本预测结果;
    分析并获取所述文本预测结果对应的第二业务类型,并根据所述第二业务类型从所述多个初始业务类型词库中获取第二目标业务类型词库,所述第二目标业务类型词库包括与所述第二业务类型对应和/或关联的多个词库;
    计算所述文本预测结果与所述第一目标业务类型词库的第一相似度,以及计算所述文本预测结果与所述第二目标业务类型词库的第二相似度;
    比较所述第一相似度和所述第二相似度获得最大值的相似度,将所述最大值的相似度对应的第一目标业务类型词库或第二目标业务类型词库作为最终的目标业务类型词库。
  4. 根据权利要求1所述的方法,所述将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树,包括:
    遍历所述目标业务类型词库获取与所述文本预测结果存在相同或相似部分的多个目标词;
    计算多个所述目标词与所述文本预测结果之间的多个相似度,比较多个所述相似度的值的大小,将值最大的相似度对应的目标词作为根节点;
    按照多个所述相似度的值从大到小的顺序,将作为所述根节点之外的多个目标词依次作为子节点,并在所述子节点的连接线上标记所述子节点对应的相似度;
    根据所述根节点和所述子节点,建立数据结构树。
  5. 根据权利要求1-4任一所述的方法,所述通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出,包括:
    计算所述文本预测结果中的文本序列与所述根节点的编辑距离;
    计算查询阈值,所述查询阈值不小于所述编辑距离与最大距离之差,所述查询阈值不大于所述编辑距离与所述最大距离之和,所述最大距离为所述数据结构树中返回的词与所述文本序列的最小容错距离;
    以递归查询方式从所述数据结构树中获取数值落在所述查询阈值内的连接边对应的词,所述数据结构树包括多个连接边,所述连接边用于连接所述根节点与所述子节点,以及用于所述子节点之间的连接;
    识别所述连接边对应的词的形状与所述目标图像中对应的文字形状,计算所述连接边对应的词与所述目标图像的匹配度,获得多个匹配度,将多个所述匹配度中值最大的匹配度对应的词作为文本识别结果输出。
  6. 根据权利要求1所述的方法,所述获得多个初始业务类型词库之后,所述通过预置的图像文本识别模型获取目标图像,根据所述多个初始业务类型词库对所述目标图像进行识别处理之前,所述方法还包括:
    基于所述多个目标业务类型词库和训练图像对预置的图像文本识别模型进行训练,得 到最终的预置的图像文本识别模型。
  7. 根据权利要求6所述的方法,所述基于所述多个目标业务类型词库和训练图像对预置的图像文本识别模型进行训练,得到最终的预置的图像文本识别模型,包括:
    获取训练图像,将所述训练图像输入到预置的图像文本识别模型中,通过所述预置的图像文本识别模型对所述训练图像进行预处理,所述预处理包括图像采集、图像增强、图像复原、图像编码与压缩和图像分割;
    对经过预处理的训练图像进行特征提取和边缘特征提取,获得第三特征信息;
    将所述第三特征信息生成特征描述子,调用预置的模板图库根据所述特征描述子在所述模板图库中获取与所述特征描述子的相似度最大的模板图像,得到目标模板图像;
    获取与所述目标模板图像对应的业务类型,得到目标业务类型,将所述目标业务类型对应地标记在所述训练图像上,所述业务类型包括与业务类型关联的名称和关键词;
    根据所述目标业务类型对所述训练图像进行整理和分类,得到业务类型的图像集;
    将所述业务类型的图像集分割成文字区域与非文字区域,并获取所述文字区域各区域的第一坐标和第一区域描述信息,以及获取所述非文字区域各区域的第二坐标和第二区域描述信息;
    根据所述第一坐标、所述第二坐标、所述第一区域描述信息和所述第二区域描述信息建立所述训练图像与所述目标业务类型词库的对应关系;
    在所述文字区域的范围内标记所述文字区域的多边形的顶点坐标和文本字符串;
    通过所述业务类型的图像集、所述对应关系、所述多边形的顶点坐标和文本字符串,使得所述预置的图像文本识别模型满足预设规则条件,获取与所述训练图像相应的文本识别结果,所述预设规则条件包括结合业务类型对输入的训练图像进行文本识别与文本纠错。
  8. 一种识别文本的装置,所述装置包括:
    输入输出模块,用于获取目标图像,用于获取所收集的字词数据集;
    处理模块,用于根据行业类别对所述输入输出模块获取的所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置所述类别词库对应的优先级;根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,并从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述输入输出模块获取的目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;从所述目标业务类型词库中获取所有与所述文本预测结果存在相同或相似部分的目标词,将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树;通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词的匹配度最高的词,将所述匹配度最高的词作为文 本识别结果输入至显示模块,并通过所述显示模块输出所述匹配度最高的词;
    所述显示模块,用于显示作为文本识别结果的所述匹配度最高的词。
  9. 根据权利要求8所述的装置,所述处理模块具体用于:
    根据第一行业类别对所收集的字词数据集进行分类,建立第一类别词库;
    根据第二行业类别对所述第一类别词库进行分类,建立第二类别子词库,其中,所述第二行业类别是所述第一行业类别的子类别;
    根据第三行业类别,对所述第二类别子词库进行分类,建立第三类别子词库,其中,所述第三行业类别是所述第二行业类别的子类别;
    通过所述第一类别词库、所述第二类别子词库和所述第三类别子词库,建立类别词库。
  10. 根据权利要求8所述的装置,所述处理模块具体用于:
    获取目标图像,通过所述预置的图像文本识别模型对所述目标图像进行图像识别处理获得第一特征信息,以及对所述目标图像进行文本识别处理获得第二特征信息,所述第一特征信息包括所述目标图像的整体构成部分的信息,所述第二特征信息包括所述目标图像的文本构成部分的信息;
    分析并获取所述第一特征信息对应的第一业务类型,并根据所述第一业务类型从所述多个初始业务类型词库中获取第一目标业务类型词库,所述第一目标业务类型词库包括与所述第一业务类型对应和/或关联的多个词库;
    对所述第二特征信息进行文本预测处理获得文本预测结果;
    分析并获取所述文本预测结果对应的第二业务类型,并根据所述第二业务类型从所述多个初始业务类型词库中获取第二目标业务类型词库,所述第二目标业务类型词库包括与所述第二业务类型对应和/或关联的多个词库;
    计算所述文本预测结果与所述第一目标业务类型词库的第一相似度,以及计算所述文本预测结果与所述第二目标业务类型词库的第二相似度;
    比较所述第一相似度和所述第二相似度获得最大值的相似度,将所述最大值的相似度对应的第一目标业务类型词库或第二目标业务类型词库作为最终的目标业务类型词库。
  11. 根据权利要求8所述的装置,所述处理模块具体用于:
    遍历所述目标业务类型词库获取与所述文本预测结果存在相同或相似部分的多个目标词;
    计算多个所述目标词与所述文本预测结果之间的多个相似度,比较多个所述相似度的值的大小,将值最大的相似度对应的目标词作为根节点;
    按照多个所述相似度的值从大到小的顺序,将作为所述根节点之外的多个目标词依次作为子节点,并在所述子节点的连接线上标记所述子节点对应的相似度;
    根据所述根节点和所述子节点,建立数据结构树。
  12. 根据权利要求8-11任一所述的装置,所述处理模块具体用于:
    计算所述文本预测结果中的文本序列与所述根节点的编辑距离;
    计算查询阈值,所述查询阈值不小于所述编辑距离与最大距离之差,所述查询阈值不大于所述编辑距离与所述最大距离之和,所述最大距离为所述数据结构树中返回的词与所述文本序列的最小容错距离;
    以递归查询方式从所述数据结构树中获取数值落在所述查询阈值内的连接边对应的词,所述数据结构树包括多个连接边,所述连接边用于连接所述根节点与所述子节点,以及用于所述子节点之间的连接;
    识别所述连接边对应的词的形状与所述目标图像中对应的文字形状,计算所述连接边对应的词与所述目标图像的匹配度,获得多个匹配度,将多个所述匹配度中值最大的匹配度对应的词作为文本识别结果输出。
  13. 根据权利要求8所述的装置,还包括:
    训练模块,用于识别所述连接边对应的词的形状与所述目标图像中对应的文字形状,计算所述连接边对应的词与所述目标图像的匹配度,获得多个匹配度,将多个所述匹配度中值最大的匹配度对应的词作为文本识别结果输出。
  14. 根据权利要求13所述的装置,所述训练模块具体用于:
    获取训练图像,将所述训练图像输入到预置的图像文本识别模型中,通过所述预置的图像文本识别模型对所述训练图像进行预处理,所述预处理包括图像采集、图像增强、图像复原、图像编码与压缩和图像分割;
    对经过预处理的训练图像进行特征提取和边缘特征提取,获得第三特征信息;
    将所述第三特征信息生成特征描述子,调用预置的模板图库根据所述特征描述子在所述模板图库中获取与所述特征描述子的相似度最大的模板图像,得到目标模板图像;
    获取与所述目标模板图像对应的业务类型,得到目标业务类型,将所述目标业务类型对应地标记在所述训练图像上,所述业务类型包括与业务类型关联的名称和关键词;
    根据所述目标业务类型对所述训练图像进行整理和分类,得到业务类型的图像集;
    将所述业务类型的图像集分割成文字区域与非文字区域,并获取所述文字区域各区域的第一坐标和第一区域描述信息,以及获取所述非文字区域各区域的第二坐标和第二区域描述信息;
    根据所述第一坐标、所述第二坐标、所述第一区域描述信息和所述第二区域描述信息建立所述训练图像与所述目标业务类型词库的对应关系;
    在所述文字区域的范围内标记所述文字区域的多边形的顶点坐标和文本字符串;
    通过所述业务类型的图像集、所述对应关系、所述多边形的顶点坐标和文本字符串,使得所述预置的图像文本识别模型满足预设规则条件,获取与所述训练图像相应的文本识别结果,所述预设规则条件包括结合业务类型对输入的训练图像进行文本识别与文本纠错。
  15. 一种识别文本的设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
    根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置多个所述类别词库对应的优先级;
    根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;
    获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;
    从所述目标业务类型词库中获取所有与所述文本预测结果存在相同或相似部分的目标词,将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树;
    通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。
  16. 根据权利要求15所述的设备,所述处理器执行所述计算机程序时实现所述根据行业类别对所收集的字词数据集进行分类,建立多个类别词库时,包括以下步骤:
    根据第一行业类别对所收集的字词数据集进行分类,建立第一类别词库;
    根据第二行业类别对所述第一类别词库进行分类,建立第二类别子词库,其中,所述第二行业类别是所述第一行业类别的子类别;
    根据第三行业类别,对所述第二类别子词库进行分类,建立第三类别子词库,其中,所述第三行业类别是所述第二行业类别的子类别;
    通过所述第一类别词库、所述第二类别子词库和所述第三类别子词库,建立类别词库。
  17. 根据权利要求15所述的设备,所述处理器执行所述计算机程序时实现所述获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库时,包括以下步骤:
    获取目标图像,通过所述预置的图像文本识别模型对所述目标图像进行图像识别处理获得第一特征信息,以及对所述目标图像进行文本识别处理获得第二特征信息,所述第一特征信息包括所述目标图像的整体构成部分的信息,所述第二特征信息包括所述目标图像的文本构成部分的信息;
    分析并获取所述第一特征信息对应的第一业务类型,并根据所述第一业务类型从所述多个初始业务类型词库中获取第一目标业务类型词库,所述第一目标业务类型词库包括与所述第一业务类型对应和/或关联的多个词库;
    对所述第二特征信息进行文本预测处理获得文本预测结果;
    分析并获取所述文本预测结果对应的第二业务类型,并根据所述第二业务类型从所述多个初始业务类型词库中获取第二目标业务类型词库,所述第二目标业务类型词库包括与所述第二业务类型对应和/或关联的多个词库;
    计算所述文本预测结果与所述第一目标业务类型词库的第一相似度,以及计算所述文本预测结果与所述第二目标业务类型词库的第二相似度;
    比较所述第一相似度和所述第二相似度获得最大值的相似度,将所述最大值的相似度对应的第一目标业务类型词库或第二目标业务类型词库作为最终的目标业务类型词库。
  18. 根据权利要求15所述的设备,所述处理器执行所述计算机程序时实现所述将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树时,包括以下步骤:
    遍历所述目标业务类型词库获取与所述文本预测结果存在相同或相似部分的多个目标词;
    计算多个所述目标词与所述文本预测结果之间的多个相似度,比较多个所述相似度的值的大小,将值最大的相似度对应的目标词作为根节点;
    按照多个所述相似度的值从大到小的顺序,将作为所述根节点之外的多个目标词依次作为子节点,并在所述子节点的连接线上标记所述子节点对应的相似度;
    根据所述根节点和所述子节点,建立数据结构树。
  19. 根据权利要求15-18所述的设备,所述处理器执行所述计算机程序时实现所述通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出时,包括以下步骤:
    计算所述文本预测结果中的文本序列与所述根节点的编辑距离;
    计算查询阈值,所述查询阈值不小于所述编辑距离与最大距离之差,所述查询阈值不大于所述编辑距离与所述最大距离之和,所述最大距离为所述数据结构树中返回的词与所述文本序列的最小容错距离;
    以递归查询方式从所述数据结构树中获取数值落在所述查询阈值内的连接边对应的词,所述数据结构树包括多个连接边,所述连接边用于连接所述根节点与所述子节点,以及用于所述子节点之间的连接;
    识别所述连接边对应的词的形状与所述目标图像中对应的文字形状,计算所述连接边对应的词与所述目标图像的匹配度,获得多个匹配度,将多个所述匹配度中值最大的匹配度对应的词作为文本识别结果输出。
  20. 一种计算机可读存储介质,所述计算机可读存储介质中存储计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如下步骤:
    根据行业类别对所收集的字词数据集进行分类,建立多个类别词库,计算多个所述类 别词库中词的词频-逆文本频率指数TF-IDF值,并按照所述TF-IDF值从大到小分别设置多个所述类别词库对应的优先级;
    根据业务类型对多个所述类别词库进行分类,获得多个候选业务类型词库,根据所述优先级对所述多个候选业务类型词库进行排序,从经过排序的多个候选业务类型词库中选择所述优先级对应的所述TF-IDF值大于预设阈值的候选业务类型词库,获得多个初始业务类型词库;
    获取目标图像,通过预置的图像文本识别模型基于所述多个初始业务类型词库对所述目标图像进行识别处理,获得所述目标图像对应的文本预测结果和目标业务类型词库;
    从所述目标业务类型词库中获取所有与所述文本预测结果存在相同或相似部分的目标词,将所述目标词中任意一个词作为根节点,将所述目标词中除了所述根节点之外的其他词作为子节点,根据所述根节点和所述子节点建立数据结构树;
    通过对所述数据结构树进行查询阈值分析,在所述数据结构树中获取与所述目标词匹配度最高的词,将所述匹配度最高的词作为文本识别结果输出。
PCT/CN2019/119102 2019-10-18 2019-11-18 识别文本的方法、装置、设备及存储介质 WO2021072885A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910990783.5 2019-10-18
CN201910990783.5A CN110909725B (zh) 2019-10-18 2019-10-18 识别文本的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
WO2021072885A1 true WO2021072885A1 (zh) 2021-04-22

Family

ID=69815466

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/119102 WO2021072885A1 (zh) 2019-10-18 2019-11-18 识别文本的方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110909725B (zh)
WO (1) WO2021072885A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221890A (zh) * 2021-05-25 2021-08-06 深圳市瑞驰信息技术有限公司 一种基于ocr的云手机文字内容监管方法和系统和系统
CN113268613A (zh) * 2021-04-30 2021-08-17 上海右云信息技术有限公司 一种用于获取侵权线索的方法、设备、介质及程序产品
CN113420564A (zh) * 2021-06-21 2021-09-21 国网山东省电力公司物资公司 一种基于混合匹配的电力铭牌语义结构化方法及系统
CN113420541A (zh) * 2021-07-16 2021-09-21 四川医枢科技有限责任公司 一种信息处理方法、装置、设备及存储介质
CN113553428A (zh) * 2021-06-30 2021-10-26 北京百度网讯科技有限公司 文档分类方法、装置及电子设备
CN113656451A (zh) * 2021-07-21 2021-11-16 浙江大华技术股份有限公司 数据挖掘方法、电子设备和计算机可读存储介质
CN113761192A (zh) * 2021-05-18 2021-12-07 腾讯云计算(北京)有限责任公司 文本处理方法、文本处理装置及文本处理设备
CN113807090A (zh) * 2021-08-10 2021-12-17 三峡大学 一种基于词义加权tf-idf疾病表征词提取方法
CN113807429A (zh) * 2021-09-14 2021-12-17 企查查科技有限公司 企业的分类方法、装置、计算机设备和存储介质
CN113836131A (zh) * 2021-09-29 2021-12-24 平安科技(深圳)有限公司 一种大数据清洗方法、装置、计算机设备及存储介质
CN114077682A (zh) * 2022-01-19 2022-02-22 广州拟实网络科技有限公司 一种图像检索智能识别匹配处理方法、系统和存储介质
CN114168715A (zh) * 2022-02-10 2022-03-11 深圳希施玛数据科技有限公司 生成目标数据集的方法、装置、设备及存储介质
CN114328884A (zh) * 2021-12-03 2022-04-12 腾讯科技(深圳)有限公司 一种图文去重方法及装置
CN114926831A (zh) * 2022-05-31 2022-08-19 平安普惠企业管理有限公司 基于文本识别方法、装置、电子设备及可读存储介质
CN115455950A (zh) * 2022-09-27 2022-12-09 中科雨辰科技有限公司 一种获取文本的数据处理系统
CN115630099A (zh) * 2022-11-29 2023-01-20 桂林信佳科技有限公司 一种基于大数据的辅助决策方法及ai系统
CN116188875A (zh) * 2023-03-29 2023-05-30 北京百度网讯科技有限公司 图像分类方法、装置、电子设备、介质和产品

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782601A (zh) * 2020-06-08 2020-10-16 北京海泰方圆科技股份有限公司 电子文件的处理方法、装置、电子设备及机器可读介质
CN111767921A (zh) * 2020-06-30 2020-10-13 上海媒智科技有限公司 一种快递面单定位矫正方法及设备
CN112069890B (zh) * 2020-07-31 2023-04-14 飞诺门阵(北京)科技有限公司 一种药剂标签的识别方法、装置和存储介质
CN112148750B (zh) * 2020-10-20 2023-04-25 成都中科大旗软件股份有限公司 一种数据集成方法及系统
CN112529008A (zh) * 2020-11-03 2021-03-19 浙江大华技术股份有限公司 图像识别和图像特征处理方法、电子设备及存储介质
CN112559865B (zh) * 2020-12-15 2023-12-08 泰康保险集团股份有限公司 信息处理系统、计算机可读存储介质及电子设备
CN112528882B (zh) * 2020-12-15 2024-05-10 平安科技(深圳)有限公司 基于ocr识别房产证信息确定方法、装置、设备及介质
CN112613522B (zh) * 2021-01-04 2023-03-14 重庆邮电大学 一种基于融合字形信息的服药单识别结果纠错方法
CN112883980B (zh) * 2021-04-28 2021-09-21 明品云(北京)数据科技有限公司 一种数据处理方法及系统
CN112862024B (zh) * 2021-04-28 2021-09-21 明品云(北京)数据科技有限公司 一种文本识别方法及系统
CN113408446B (zh) * 2021-06-24 2022-11-29 成都新希望金融信息有限公司 账单核算方法、装置、电子设备及存储介质
CN113569024A (zh) * 2021-07-19 2021-10-29 上海明略人工智能(集团)有限公司 卡片类别的识别方法、装置、电子设备和计算机存储介质
CN113688291B (zh) * 2021-08-24 2023-09-01 北京恒安嘉新安全技术有限公司 一种流媒体网络数据的异常行为检测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07271915A (ja) * 1994-03-31 1995-10-20 Xerox Corp 予測合成形状によるテキスト認識
CN104298715A (zh) * 2014-09-16 2015-01-21 北京航空航天大学 一种基于tf-idf的多索引结果合并排序方法
US9330311B1 (en) * 2014-06-17 2016-05-03 Amazon Technologies, Inc. Optical character recognition
CN108734089A (zh) * 2018-04-02 2018-11-02 腾讯科技(深圳)有限公司 识别图片文件中表格内容的方法、装置、设备及存储介质
US10176500B1 (en) * 2013-05-29 2019-01-08 A9.Com, Inc. Content classification based on data recognition

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN108520002A (zh) * 2018-03-12 2018-09-11 平安科技(深圳)有限公司 数据处理方法、服务器及计算机存储介质
CN110019742B (zh) * 2018-06-19 2024-05-17 北京京东尚科信息技术有限公司 用于处理信息的方法和装置
CN109255013A (zh) * 2018-08-14 2019-01-22 平安医疗健康管理股份有限公司 理赔决策方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07271915A (ja) * 1994-03-31 1995-10-20 Xerox Corp 予測合成形状によるテキスト認識
US10176500B1 (en) * 2013-05-29 2019-01-08 A9.Com, Inc. Content classification based on data recognition
US9330311B1 (en) * 2014-06-17 2016-05-03 Amazon Technologies, Inc. Optical character recognition
CN104298715A (zh) * 2014-09-16 2015-01-21 北京航空航天大学 一种基于tf-idf的多索引结果合并排序方法
CN108734089A (zh) * 2018-04-02 2018-11-02 腾讯科技(深圳)有限公司 识别图片文件中表格内容的方法、装置、设备及存储介质

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268613A (zh) * 2021-04-30 2021-08-17 上海右云信息技术有限公司 一种用于获取侵权线索的方法、设备、介质及程序产品
CN113268613B (zh) * 2021-04-30 2024-04-09 上海右云信息技术有限公司 一种用于获取侵权线索的方法、设备、介质及程序产品
CN113761192B (zh) * 2021-05-18 2024-05-28 腾讯云计算(北京)有限责任公司 文本处理方法、文本处理装置及文本处理设备
CN113761192A (zh) * 2021-05-18 2021-12-07 腾讯云计算(北京)有限责任公司 文本处理方法、文本处理装置及文本处理设备
CN113221890A (zh) * 2021-05-25 2021-08-06 深圳市瑞驰信息技术有限公司 一种基于ocr的云手机文字内容监管方法和系统和系统
CN113420564A (zh) * 2021-06-21 2021-09-21 国网山东省电力公司物资公司 一种基于混合匹配的电力铭牌语义结构化方法及系统
CN113420564B (zh) * 2021-06-21 2022-11-22 国网山东省电力公司物资公司 一种基于混合匹配的电力铭牌语义结构化方法及系统
CN113553428A (zh) * 2021-06-30 2021-10-26 北京百度网讯科技有限公司 文档分类方法、装置及电子设备
CN113553428B (zh) * 2021-06-30 2024-04-23 北京百度网讯科技有限公司 文档分类方法、装置及电子设备
CN113420541A (zh) * 2021-07-16 2021-09-21 四川医枢科技有限责任公司 一种信息处理方法、装置、设备及存储介质
CN113656451A (zh) * 2021-07-21 2021-11-16 浙江大华技术股份有限公司 数据挖掘方法、电子设备和计算机可读存储介质
CN113807090A (zh) * 2021-08-10 2021-12-17 三峡大学 一种基于词义加权tf-idf疾病表征词提取方法
CN113807090B (zh) * 2021-08-10 2024-04-30 三峡大学 一种基于词义加权tf-idf疾病表征词提取方法
CN113807429A (zh) * 2021-09-14 2021-12-17 企查查科技有限公司 企业的分类方法、装置、计算机设备和存储介质
CN113807429B (zh) * 2021-09-14 2024-03-29 企查查科技股份有限公司 企业的分类方法、装置、计算机设备和存储介质
CN113836131A (zh) * 2021-09-29 2021-12-24 平安科技(深圳)有限公司 一种大数据清洗方法、装置、计算机设备及存储介质
CN113836131B (zh) * 2021-09-29 2024-02-02 平安科技(深圳)有限公司 一种大数据清洗方法、装置、计算机设备及存储介质
CN114328884A (zh) * 2021-12-03 2022-04-12 腾讯科技(深圳)有限公司 一种图文去重方法及装置
CN114077682A (zh) * 2022-01-19 2022-02-22 广州拟实网络科技有限公司 一种图像检索智能识别匹配处理方法、系统和存储介质
CN114168715A (zh) * 2022-02-10 2022-03-11 深圳希施玛数据科技有限公司 生成目标数据集的方法、装置、设备及存储介质
CN114926831A (zh) * 2022-05-31 2022-08-19 平安普惠企业管理有限公司 基于文本识别方法、装置、电子设备及可读存储介质
CN115455950B (zh) * 2022-09-27 2023-06-16 中科雨辰科技有限公司 一种获取文本的数据处理系统
CN115455950A (zh) * 2022-09-27 2022-12-09 中科雨辰科技有限公司 一种获取文本的数据处理系统
CN115630099B (zh) * 2022-11-29 2023-10-10 云工工业科技(深圳)有限公司 一种基于大数据的辅助决策方法及ai系统
CN115630099A (zh) * 2022-11-29 2023-01-20 桂林信佳科技有限公司 一种基于大数据的辅助决策方法及ai系统
CN116188875A (zh) * 2023-03-29 2023-05-30 北京百度网讯科技有限公司 图像分类方法、装置、电子设备、介质和产品
CN116188875B (zh) * 2023-03-29 2024-03-01 北京百度网讯科技有限公司 图像分类方法、装置、电子设备、介质和产品

Also Published As

Publication number Publication date
CN110909725A (zh) 2020-03-24
CN110909725B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
WO2021072885A1 (zh) 识别文本的方法、装置、设备及存储介质
US10013636B2 (en) Image object category recognition method and device
WO2020244066A1 (zh) 一种文本分类方法、装置、设备及存储介质
US10331737B2 (en) System for generation of a large-scale database of hetrogeneous speech
US20210049401A1 (en) Analyzing content of digital images
US10262059B2 (en) Method, apparatus, and storage medium for text information processing
WO2021012570A1 (zh) 数据录入方法、装置、设备及存储介质
WO2019153551A1 (zh) 文章分类方法、装置、计算机设备及存储介质
US11195006B2 (en) Multi-modal document feature extraction
WO2020140373A1 (zh) 一种意图识别方法、识别设备及计算机可读存储介质
US20240012846A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US10438083B1 (en) Method and system for processing candidate strings generated by an optical character recognition process
CN111325156B (zh) 人脸识别方法、装置、设备和存储介质
CN108229481B (zh) 屏幕内容分析方法、装置、计算设备及存储介质
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN111177375A (zh) 一种电子文档分类方法及装置
CN110968686A (zh) 意图识别方法、装置、设备及计算机可读介质
CN106844381B (zh) 图像处理装置及方法
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
US11281714B2 (en) Image retrieval
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
WO2023001308A1 (zh) 文本识别方法及装置、计算机可读存储介质和电子设备
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
WO2022257455A1 (zh) 一种相似文本的确定方法、装置、终端设备及存储介质
CN111488400A (zh) 数据分类方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19949098

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19949098

Country of ref document: EP

Kind code of ref document: A1