WO2020218512A1 - 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム - Google Patents

学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム Download PDF

Info

Publication number
WO2020218512A1
WO2020218512A1 PCT/JP2020/017696 JP2020017696W WO2020218512A1 WO 2020218512 A1 WO2020218512 A1 WO 2020218512A1 JP 2020017696 W JP2020017696 W JP 2020017696W WO 2020218512 A1 WO2020218512 A1 WO 2020218512A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
learning model
learning
handwritten
area
Prior art date
Application number
PCT/JP2020/017696
Other languages
English (en)
French (fr)
Inventor
昂平 安田
Original Assignee
Arithmer株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=68235000&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=WO2020218512(A1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Arithmer株式会社 filed Critical Arithmer株式会社
Publication of WO2020218512A1 publication Critical patent/WO2020218512A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Definitions

  • the present invention relates to a learning model generator, a character recognition device, a learning model generation method, a character recognition method, and a program.
  • image data obtained by scanning a form in which handwritten characters are entered with an image scanner or the like is subjected to optical character recognition processing, that is, ⁇ CR (Optical Character Recognition) processing to generate digital data converted into a predetermined character code.
  • optical character recognition processing that is, ⁇ CR (Optical Character Recognition) processing to generate digital data converted into a predetermined character code.
  • ⁇ CR Optical Character Recognition
  • Patent Document 1 discloses a system for recognizing characters in documents such as handwriting and print, and images such as videos and photographs, and related services. More specifically, Patent Document 1 describes a character image input receiving unit that accepts input of a sample character image, character component extraction that extracts a character component based on the sample character image, and a pseudo character model based on the character component.
  • a character identification system is described that includes a pseudo-character model generation unit that generates a pseudo-character model, and an identification dictionary generation that generates a character identification pattern based on the pseudo-character model to generate an identification dictionary.
  • Patent Document 1 In the conventional system described in Patent Document 1, it is described that a character registered as an external character or a new character image is learned based on a small number of sample images and the character is recognized with higher accuracy. ..
  • the character recognition technique described in Patent Document 1 is for recognizing each character individually, and is not for reading a character string composed of a plurality of characters with high accuracy.
  • the learning model generator is based on a database in which one or more words that can be entered in the handwritten character area of the form are registered, and a data set of handwritten character images for each character. It includes a learning data generation unit that generates learning data including a column image and a correct answer label, and a learning model generation unit that generates a learning model by the first learning using the training data.
  • the character recognition device is a character recognition device that recognizes handwritten characters written on a form, and is based on an image data acquisition unit that acquires image data of the form and the acquired image data.
  • Handwritten characters using a learning model that has a network structure in which a first neural network and a second neural network are combined with an area identification unit that specifies one or more handwritten character areas including a character string written in handwritten characters. It is provided with a character recognition unit that recognizes the contents of the character string written in the area.
  • the learning model generation method is a learning model generation method executed by a computer that generates a learning model, and is a database in which one or more words that can be entered in the handwritten character area of the form are registered.
  • the character recognition method is a character recognition method executed by a computer that recognizes handwritten characters written on a form, based on a step of acquiring image data of the form and the acquired image data.
  • Handwritten characters using a trained model that has a network structure in which a first neural network and a second neural network are combined, with steps to identify one or more handwritten character areas containing a character string written in handwritten characters. Includes a step of recognizing the contents of the string entered in the area.
  • the program uses a computer based on a database in which one or more words that can be entered in the handwritten character area of a form are registered, and a data set of handwritten character images for each character. It functions as a learning data generation unit that generates learning data including a column image and a correct answer label, and a learning model generation unit that generates a learning model by the first learning using the training data.
  • a computer that recognizes the handwritten characters written on the form is written in handwritten characters based on the image data acquisition unit that acquires the image data of the form and the acquired image data.
  • the handwritten character area was filled in using a trained model having a network structure in which a first neural network and a second neural network are combined with an area specifying part that specifies one or more handwritten character areas including a character string. It functions as a character recognition unit that recognizes the contents of a character string.
  • the "part” does not simply mean a physical means, but also includes a case where the function of the "part” is realized by software. Further, even if the function of one "part” or device is realized by two or more physical means or devices, the function of two or more "parts” or devices is realized by one physical means or device. You may.
  • FIG. 1 is a schematic configuration diagram (system configuration diagram) of the character recognition device according to the first embodiment of the present invention.
  • the character recognition device 100A is a device that recognizes handwritten characters written on a form, and is, for example, an information processing device such as a server.
  • the character recognition device 100A may be, for example, another information processing device such as a laptop computer or a notebook computer.
  • the character recognition device 100A is, for example, an information processing unit 1 that executes information processing for recognizing handwritten characters written in a form, a corpus as a dictionary database (DB) 3, and a handwritten character data set for each character.
  • DB dictionary database
  • the character recognition device 100A may recognize characters other than the handwritten characters written on the form. Further, at least one of the corpus 3, the handwritten character data set DB5, the handwritten character data set DB7, or the layout information DB9 may be configured as a device separate from the character recognition device 100A or as a database.
  • Form is a document in which a character string is entered, and is a general term for books and slips.
  • the form includes, for example, documents such as securities, applications, contracts, etc. handled by securities companies and the like.
  • FIG. 2 is a diagram showing an example of securities (forms) according to the first embodiment.
  • securities C1 is an automobile insurance policy of a specific insurance company “ ⁇ Non-life Insurance Co., Ltd.”.
  • Securities C1 include, for example, an address field 20 (handwritten character area related to an address) and a name field 22 as fields (handwritten character area) in which handwritten characters are entered. These fields exemplify the fields for recognizing characters by the character recognition device 100A, and the security C1 may have other fields in which characters are described.
  • the security C1 may have an insurance period field (not shown) for manually entering the insurance start date and the insurance maturity date included in the “contract details”.
  • the securities C1 includes a chassis number field (not shown) for handwriting the chassis number and a registration number field (not shown) for handwriting the registration number, which are included in the "contracted car”. (Fig.) And the like may be further provided.
  • the character recognition device 100A may recognize handwritten characters in other fields. It should be noted that it is not necessary to recognize handwritten characters in all of the above-exemplified fields.
  • the information processing unit 1 functionally includes, for example, an image data acquisition unit 11, a learning data generation unit 12, a learning model generation unit 13, a learning model update unit 14, an area identification unit 15, and characters. It is configured to include a recognition unit 16.
  • the above-mentioned parts of the information processing unit 1 can be realized, for example, by using a storage area such as a memory or a hard disk, or by executing a program stored in the storage area by a processor. Further, the corpus 3 of the character recognition device 100A and the DBs 5, 7 and 9 can be realized by being executed by the processor.
  • the image data acquisition unit 11 acquires the image data of the security C1. Further, the image data acquisition unit 11 may, for example, obtain image data generated by the image data acquisition unit 11 taking an image with an image pickup device such as a camera, which is an example of the input / output interface 44 described later with reference to FIG. You may get it.
  • an image pickup device such as a camera
  • the image data acquisition unit 11 acquires image data generated by imaging the securities C1 with an external device 50 including an image pickup device such as a camera via a predetermined communication network N.
  • the communication network N is, for example, a communication line or a communication network related to information processing including the Internet and the like, and its specific configuration is configured so that data can be transmitted and received between the character recognition device 100A and the external device 50. If it is done, there is no particular limitation.
  • FIG. 3 is a conceptual diagram showing an example of the learning data generation process and the learning model generation process according to the first embodiment.
  • the learning data generation unit 12 includes a corpus 3 in which one or a plurality of words that can be entered in one or a plurality of handwritten character areas in the securities C1 are registered, and a handwritten character data set DB5.
  • a learning data including a character string image and a correct answer label is generated based on the data set DS1 of the handwritten character image for each character recorded in.
  • FIG. 4 is a diagram showing an example of the address corpus according to the first embodiment.
  • the corpus 3 shown in FIGS. 1 and 3 for example, an address in which possible combinations of prefecture names, city / ward / town / village names, area names, and building names are hierarchically registered.
  • the address corpus may be registered in which the old name and the current name are associated with each other for the prefecture name, city / ward / town / village name, and area name that have undergone administrative changes.
  • the corpus 3 shown in FIGS. 1 and 3 may include various corpora specialized in name, vehicle name, occupation, insurance period, chassis number, registration number, etc., in addition to the address corpus specialized in the address. Good.
  • the learning data generation unit 12 extracts the text information CL1 of one or more words that can be entered in one or more fields in the security C1 from the corpus 3.
  • the address text information "Tokyo" is extracted from the address corpus.
  • the handwritten character image of each character included in the text information CL1 extracted from the corpus 3 is read from the handwritten character data set DB5, respectively, and the handwritten character string image CSI1 “Tokyo” is generated.
  • the handwritten character data set DB5 a plurality of corresponding handwritten character images are stored in association with each character (one character) such as hiragana, katakana, and kanji.
  • a plurality of handwritten character images "A” are stored for the text information "A".
  • the handwritten character data set DB5 a data set DS1 in which a plurality of handwritten character images (handwritten character images in units of one character) are associated with each character other than the text information “A” is stored. That is, the learning data generation unit 12 reads the corresponding handwritten character image from the handwritten character data set DB5 for each character included in the text information CL1 extracted from the corpus 3, and generates the handwritten character string image CSI1. To do.
  • the handwritten character data set DB5 As a data set of handwritten character images for each character, a set of hiragana or kanji text information and a plurality of handwritten character images corresponding to each of the hiragana or kanji text information are set. May be included. Further, the handwritten character data set DB 5 may include a data set of handwritten character images in units of one character in a foreign language. For example, as a data set of handwritten character images for each character, a set of alphabet text information and a plurality of handwritten character images corresponding to each of the alphabet text information may be included.
  • the learning model generation unit 13 generates a learning model by the first learning using the learning data generated by the learning data generation unit 12. As shown in FIG. 3, the learning model generation unit 13 generates the learning model LM1 from a network structure including, for example, a CRNN (Convolutional Recurrent Neural Network).
  • the CRNN is, for example, a network structure in which a convolutional neural network (first neural network), that is, a CNN (Convolutional Neural Network) and a recurrent neural network (second neural network), that is, an RNN (Recurrent Neural Network) are combined. .. CNN calculates a feature map for handwritten character strings included in one or more fields in securities C1.
  • RNN is a neural network that can handle time-series data such as moving images and sounds, and has a recursive structure, so it is possible to make predictions including past information.
  • the character string index is calculated based on the context of a plurality of continuous feature data obtained from the feature map.
  • the network structure may adopt a configuration other than the above. Further, as the neural network, a neural network other than CNN and RNN may be adopted.
  • the learning model generation unit 13 generates the learning model from the network structure including the CRNN, so that the handwritten character string can be recognized with high accuracy.
  • the learning model generation unit 13 generates the address CRNN learning model.
  • the learning model generation unit 13 may generate another type of CRNN learning model. For example, when the learning data generation unit 12 generates learning data related to the name, insurance period, chassis number, registration number, etc., the learning model generation unit 13 uses the name, vehicle name, occupation, insurance period, chassis number, and the like. , And the CRNN learning model related to the name, insurance period, chassis number, registration number, etc. may be generated by the first learning using each of the learning data related to the registration number and the like.
  • the learning model updating unit 14 strengthens (updates) the learning model generated by the second learning using the character string image cut out from the image data of the security C1 as the learning data. ).
  • FIG. 5 is a conceptual diagram showing an example of the learning model strengthening (update) process according to the first embodiment.
  • the learning model update unit 14 shown in FIG. 1 sets a handwritten character data set using a plurality of character string images such as an address and a name cut out from image data of a plurality of securities C1 as learning data.
  • DB7 Stores in DB7.
  • the learning model update unit 14 uses the existing learning model generated in the first learning shown in FIG.
  • the text information "Tokyo” is generated (inferred) based on. This is because the "U” in the handwritten character string image "Tokyo” was unclear, and the image "U” was mistakenly recognized as "K”.
  • the user who operates the character recognition device 100A shown in FIG. 1 may perform a manual correction for correcting the erroneously recognized text information "Tokyo" to the text information "Tokyo".
  • the learning model update unit 14 generates (infers) text information based on the handwritten character string image using the existing learning model generated in the first learning, and if it is erroneously recognized, the user The text information manually corrected by is given as the correct answer label of the handwritten character string image. On the other hand, if it is not erroneously recognized, the generated (inferred) text information is added as the correct label of the handwritten character string image without executing the manual correction.
  • the annotation is semi-automatically generated. That is, learning data including the handwritten character string image and the corresponding correct answer label, that is, in this example, the text information "Tokyo" corresponding to the handwritten character string image "Tokyo" is generated. Then, the learning model update unit 14 can strengthen the learning model by adding the newly generated learning data to the existing learning model.
  • the learning model update unit 14 extracts handwritten character strings of each item (name, address, name, etc.) from the image data of securities C1 and assigns correct answer labels to them. Therefore, the learning model generated in the first learning can be strengthened by the second learning of the handwritten character strings to which these correct answer labels are attached.
  • the area identification unit 15 identifies one or a plurality of fields including a character string written in handwritten characters on the security C1 based on the image data of the security C1 acquired by the image data acquisition unit 11.
  • Various methods can be adopted as a method for specifying a field in the security C1, but as an example, a method using layout information for specifying a field in the security C1 will be described below.
  • the character recognition device 100A further includes a layout information DB 9 (recording unit) that records layout information for identifying a field in association with a predetermined position in the security C1.
  • a layout information DB 9 recording unit
  • FIG. 6 is a conceptual diagram showing an example of layout information according to the first embodiment.
  • the layout information is stored in association with each field name of a plurality of fields and the start point position and end point position of the field for each securities template ID.
  • the field name is an example of information for identifying which of the plurality of fields it is.
  • the position of the field name "address” is represented by the coordinates of the start point (X21, Y21) and the coordinates of the end point (X22, Y22).
  • the field with the field name "address” is a rectangular area designated by these start points and end points.
  • These coordinates are preferably positions when the entire security C1 is normalized to a predetermined size.
  • the method of specifying the position of the field is not limited to the example shown in FIG. 6, and other methods may be used.
  • the layout information is stored in the layout information DB 9 prior to the character recognition process of the character recognition device 100A.
  • the layout information about the security is added to the layout information DB 9 by the user of the character recognition device 100A or the like.
  • the layout information stores information on positions that identify each of the plurality of fields for each securities template.
  • the area specifying unit 15 identifies the field based on the layout information. According to this configuration, for example, even in a plurality of securities having different layouts, the positions of each field such as the address field 20 and the name field 22 can be specified.
  • the method for identifying the field in securities C1 is not limited to the above.
  • an example of the specific method that does not use the securities template described above will be described as the third embodiment.
  • the character recognition unit 16 recognizes the content of the character string written in the handwritten character area by using the generated learning model or the enhanced (updated) learning model.
  • the character recognition unit 16 recognizes the content of the character string entered in the field of the security C1 by using, for example, a learning model having a CRNN in which CNN and RNN are combined. According to this configuration, the character recognition unit 16 recognizes the handwritten character string by using the network structure in which the CNN and the RNN are combined, so that the handwritten character string can be recognized with high accuracy.
  • FIG. 7 is a flowchart showing an example of the character recognition process according to the first embodiment.
  • the image data acquisition unit 11 shown in FIG. 1 acquires the image data of the security C1 shown in FIG. 2 (step S1).
  • the learning data generation unit 12 has a corpus 3 in which one or more words that can be entered in the handwritten character area of the securities C1 are registered, and data of a handwritten character image for each character recorded in the handwritten character data set DB5.
  • a training data including a character string image and a correct answer label is generated based on the set DS1 (step S3).
  • the learning model generation unit 13 generates a learning model (step S5).
  • the learning model generation process and update process will be described later with reference to FIG.
  • the area specifying unit 15 identifies one or a plurality of fields including a character string written in handwritten characters on the security C1 based on the image data acquired by the image data acquisition unit 11 (step S7).
  • the character recognition unit 16 uses the generated learning model or the enhanced (updated) learning model to write a character string in one or more fields including a character string written in handwritten characters on the securities C1. Recognize the contents of (step S9).
  • FIG. 8 is a flowchart showing an example of the learning model generation process (step S5 in FIG. 7) according to the first embodiment.
  • the learning model generation unit 13 generates a learning model by the first learning using the learning data generated by the learning data generation unit 12 (step S51).
  • the learning model updating unit 14 updates the learning model by the second learning using the character string image cut out from the image data of the security C1 as the learning data (step S53).
  • the character string image and the correct answer label are generated based on the corpus 3 and the data set DS1 of the handwritten character image of one character unit recorded in the handwritten character data set DB5.
  • a learning model is generated by the first learning using the generated learning data. Therefore, the content of the character string entered in one or more fields in the security C1 can be recognized by using the learning model generated by the first learning. Therefore, it is possible to improve the accuracy of the recognition process of the handwritten character string written in the security C1.
  • the learning model generation process and the learning model update process of the second embodiment will be described with reference to FIGS. 9 and 10.
  • the character string images included in the handwritten character data sets DB5 and DB7 shown in FIGS. 1, 3 and 5 are superposed with at least a part of the watermark printed on the form as learning data. In that it is generated, it is different from the first embodiment in which the watermark is not superimposed on the character string images included in the handwritten character data sets DB5 and DB7 shown in FIGS. 1, 3 and 5.
  • the second embodiment is in that the character string images included in the handwritten character data sets DB5 and DB7 shown in FIGS.
  • FIG. 9 is a diagram showing an example of a security having a watermark printed according to the second embodiment.
  • the security C3 is, for example, an automobile insurance policy, and the security C3 is printed with a watermark W of “copy”.
  • FIG. 10 is a diagram showing an example of learning data in which at least a part of the watermark printed on the security C3 is superimposed on the character string image according to the second embodiment.
  • FIG. 10 (a) in the one-character unit handwritten character data set DB5 shown in FIGS. 1 and 3, for example, a plurality of one-character unit handwritten character images "ki" including at least a part of a watermark are provided. The pattern is stored.
  • the handwritten character data set DB5 is not limited to this, and a plurality of patterns may be stored for each of the handwritten character images "a” ... “n” in units of one character including at least a part of the watermark.
  • the learning data generation unit 12 shown in FIG. 1 randomly reads a plurality of patterns of handwritten character images "a” ... "n” including at least a part of the watermark from the handwritten character data set DB5, and learn data. To generate.
  • the handwritten character data set DB5 as a data set of handwritten character images for each character including at least a part of the watermark, a plurality of handwritten characters corresponding to the text information of hiragana or kanji and the text information of hiragana or kanji are provided.
  • a character image and may be included as a set.
  • the handwritten character data set DB 5 may include a data set of handwritten character images for each character in a foreign language including at least a part of the watermark.
  • a set of alphabet text information and a plurality of handwritten character images corresponding to each of the alphabet text information may be included.
  • the handwritten character data set DB7 for each character string image shown in FIGS. 1 and 5 contains, for example, the handwritten character string image “Tokyo *” for each character string including at least a part of the watermark. ** ... "is stored.
  • the handwritten character data set DB7 for each character string image shown in FIGS. 1 and 5 contains, for example, a handwritten character string image for each character string including at least a part of a watermark. "Tokyo" (a part of the handwritten character string image shown in FIG. 10B) may be stored.
  • the learning model updating unit 14 is a character string image cut out from the image data of the securities C3 after the first learning shown in FIG. 3, and at least a part of the watermark is superimposed on the character string image. Read the image from the handwritten character data set DB7. Then, the learning model updating unit 14 strengthens (updates) the generated learning model by, for example, the second learning using the read-out character string image on which at least a part of the watermark is superimposed as the learning data. ..
  • the learning data used in at least one of the learning model generation process and the learning model enhancement process is a character string image in which at least a part of the watermark printed on the securities is superimposed on the character string image. May include a superposition of noise in the securities.
  • At least one of the learning model generation process and the learning model enhancement process in which at least a part of the watermark printed on the form is superimposed on the character string image. Is generated as training data. Therefore, robustness is improved in the recognition process of the character string image in the form on which the watermark is printed.
  • a character string image superimposed with noise in the form is generated as learning data. Therefore, robustness is improved in the recognition processing of the character string image in the form on which noise is superimposed.
  • the character recognition device according to the third embodiment will be described with reference to FIG.
  • the character recognition device 100B according to the third embodiment performs processing such as extracting an item area including an item name described in the form and assigning an attribute to the item area in the process of specifying the field of the form.
  • the first embodiment is different from the third embodiment in that these processes of the third embodiment are not performed and the fields of the form are specified with reference to the layout information shown in FIG.
  • the points different from the first embodiment will be particularly described.
  • FIG. 11 is a schematic configuration diagram (system configuration diagram) of the character recognition device according to the third embodiment.
  • the character recognition device 100B does not include the layout information DB 9 shown in FIG. 1 as compared with the character recognition device 100A according to the first embodiment shown in FIG.
  • an item extraction unit 151 and an attribute allocation unit 152 are further provided.
  • the area identification unit 15 targets an item area including an item name such as "name” or "address” described in a security as an extraction target, and assigns an attribute to the item area using a predetermined neural network.
  • the item extraction unit 151 to be extracted is provided.
  • the item extraction unit 151 extracts the item area including the item name printed in print on the security as the extraction target, and individually extracts the item area included in the image data of the security with the attribute classification. For example, when image data of securities has image areas such as "name” and "address”, each image area is extracted as an item area, and "name” and "address” are used for each item area. Attributes such as are added.
  • the item region is extracted by using an object detection algorithm by deep learning.
  • the attributes of the extracted item area are classified with reference to a predetermined learning model constructed based on this algorithm. Further, for the classified attributes, the classification accuracy may also be calculated and output.
  • the area specifying unit 15 associates the item area with the field (handwritten character area) located in the vicinity of the item area based on the position and attribute of the item area in the image data of the security, and relates the field to the field.
  • the attribute allocation unit 152 for allocating the attributes of the item area is provided.
  • the attribute allocation unit 152 analyzes the layout of the security image based on the position of the item area in the image data of the security and its attributes, and identifies which attribute information is entered where. Specifically, one of the attributes classified by the item extraction unit 151 is assigned to each of the fields in the security.
  • the item area included in the image data of the security and its attributes are acquired. From this information, it is possible to identify what kind of information is described at which position in the form image. This makes it possible to perform layout analysis even for unknown securities that are not registered in the character recognition device in advance.
  • the character recognition device and the learning model generation device according to the fourth embodiment will be described with reference to FIG.
  • the character recognition device 100C and the learning model generation device 200 according to the fourth embodiment shown in FIG. 12 are configured by separating each configuration included in the character recognition device 100A according to the first embodiment shown in FIG. ..
  • the character recognition device 100C uses a learning model generated by the learning model generation device 200, for example, having a network structure in which the first neural network and the second neural network are combined, and the content of the character string entered in the field. Recognize. Further, the character recognition device 100C and the learning model generation device 200 may be configured so that data can be transmitted and received via the communication network N.
  • the learning model generated by the learning model generation device 200 is stored in the main recording device of the character recognition device 100C by any means.
  • each configuration included in the character recognition device 100B may be separated to form a character recognition device and a learning model generation device.
  • the character recognition device and the learning model generation device may be configured so that data can be transmitted and received via the communication network N, in which each configuration of the character recognition device 100B is separated.
  • the character recognition device 100A according to the first embodiment or the character recognition device 100C according to the third embodiment can configure a character recognition device and a learning model generation device which are separate devices. is there.
  • FIG. 13 is a schematic configuration diagram (system configuration diagram) of the character recognition device and the external device according to the fifth embodiment.
  • the character recognition device 100C according to the fifth embodiment may acquire image data generated by the external device 50 via a predetermined communication network N.
  • the character recognition device 100C can acquire the image data generated by the external device 50 and execute the character recognition process based on the acquired image data.
  • FIG. 14 is a diagram showing an example of the hardware configuration of the computer according to the embodiment of the present invention.
  • the character recognition device 100A shown in FIGS. 1 and 15 the character recognition device 100B shown in FIG. 11, the character recognition device 100C shown in FIGS. 12 and 13, the learning model generation device 200 shown in FIG.
  • An example of the hardware configuration of the computer that can be used to configure the external device shown in FIGS. 13 and 15 will be described.
  • the computer 40 mainly includes a processor 41, a main recording device 42, an auxiliary recording device 43, an input / output interface 44, and a communication interface 45 as hardware resources. These are connected to each other via a bus line 46 including an address bus, a data bus, a control bus, and the like. An interface circuit (not shown) may be appropriately interposed between the bus line 46 and each hardware resource.
  • the processor 41 controls the entire computer.
  • the processor 41 corresponds to, for example, the information processing unit 1 shown in FIGS. 1 and 11.
  • the main recording device 42 provides a work area for the processor 41, and is a volatile memory such as SRAM (Static Random Access Memory) or DRAM (Dynamic Random Access Memory).
  • the auxiliary recording device 43 is a non-volatile memory such as an HDD, SSD, or flash memory that stores software programs or the like or data. The program, data, or the like is loaded from the auxiliary recording device 43 to the main recording device 42 via the bus line 46 at an arbitrary time.
  • the auxiliary recording device 43 corresponds to, for example, the corpus 3, the handwritten character data set DB5, the handwritten character data set DB7, and the layout information DB9 shown in FIG. Further, the auxiliary recording device 43 corresponds to, for example, the corpus 3, the handwritten character data set DB5, and the handwritten character data set DB7 shown in FIG.
  • the input / output interface 44 performs one or both of presenting information and receiving input of information, and is a camera, keyboard, mouse, display, touch panel display, microphone, speaker, temperature sensor, and the like.
  • the communication interface 45 is connected to the communication network N shown in FIGS. 1, 11 and 12, and transmits / receives data via the communication network N.
  • the communication interface 45 and the communication network N can be connected by wire or wirelessly.
  • the communication interface 45 may also acquire information related to the network, for example, information related to a Wi-Fi access point, information related to a base station of a communication carrier, and the like.
  • each of the above embodiments is for facilitating the understanding of the present invention, and does not limit the interpretation of the present invention.
  • the present invention can be modified / improved without departing from the spirit thereof, and the present invention also includes an equivalent thereof.
  • the present invention can form various disclosures by appropriately combining the plurality of components disclosed in each of the above embodiments. For example, some components may be removed from all the components shown in the embodiments. Further, the components may be appropriately combined in different embodiments.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

学習モデル生成装置は、帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたコーパス(3)と、1文字単位の手書き文字画像のデータセット(DS1)と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部(12)と、学習用データを用いた第1学習により、学習モデルを生成する学習モデル生成部(13)と、を備える。これにより、帳票に記入された手書き文字列の認識処理の精度を改善することができる。

Description

学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム
 本発明は、学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラムに関する。
 従来、手書き文字が記入された帳票をイメージスキャナ等で読み取った画像データについて、光学的文字認識処理、つまりОCR(Optical Character Recognition)処理することにより、所定の文字コードに変換したデジタルデータを生成する手法が知られている。
 例えば、特許文献1には、手書きや活字等の文書や、映像や写真などの画像において文字を認識するシステム及び関連サービスが開示されている。より具体的には、特許文献1には、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、を含むことを特徴とする文字識別システムが記載されている。
特開2015-069256号公報
 特許文献1に記載の従来システムにおいては、少数の見本画像をもとに、外字または新しい文字画像として登録された文字を学習して、当該文字をより高精度に認識することが記載されている。しかしながら、特許文献1に記載の文字認識技術は、1つ1つの文字を個別に認識するためのものであって、複数の文字からなる文字列を高精度に読み取るためのものではない。
 そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、帳票に記入された手書き文字列の認識処理の精度を改善する学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラムを提供することを目的とする。
 本発明の一態様に係る学習モデル生成装置は、帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、学習用データを用いた第1学習により、学習モデルを生成する学習モデル生成部と、を備える。
 本発明の一態様に係る文字認識装置は、帳票に記入された手書き文字を認識する文字認識装置であって、帳票の画像データを取得する画像データ取得部と、取得した画像データに基づいて、手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定する領域特定部と、第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造を有する学習モデルを用いて、手書き文字領域に記入された文字列の内容を認識する文字認識部と、を備える。
 本発明の一態様に係る学習モデル生成方法は、学習モデルを生成するコンピュータが実行する学習モデル生成方法であって、帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成するステップと、学習用データを用いた第1学習により、学習モデルを生成するステップと、を含む。
 本発明の一態様に係る文字認識方法は、帳票に記入された手書き文字を認識するコンピュータが実行する文字認識方法であって、帳票の画像データを取得するステップと、取得した画像データに基づいて、手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定するステップと、第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造を有する学習済モデルを用いて、手書き文字領域に記入された文字列の内容を認識するステップと、を含む。
 本発明の一態様に係るプログラムは、コンピュータを、帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、学習用データを用いた第1学習により、学習モデルを生成する、学習モデル生成部と、して機能させる。
 本発明の一態様に係るプログラムは、帳票に記入された手書き文字を認識するコンピュータを、帳票の画像データを取得する画像データ取得部と、取得した画像データに基づいて、手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定する領域特定部と、第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造を有する学習済モデルを用いて、手書き文字領域に記入された文字列の内容を認識する文字認識部と、して機能させる。
 なお、本発明において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や装置が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や装置の機能が1つの物理的手段や装置により実現されても良い。
 本発明によれば、帳票に記入された手書き文字列の認識処理の精度を改善することができる。
第1実施形態に係る文字認識装置の概略構成図(システム構成図)である。 第1実施形態に係る証券の一例を示す図である。 第1実施形態に係る学習用データ生成処理、及び、学習モデル生成処理の一例を示す概念図である。 第1実施形態に係る住所コーパスの一例を示す図である。 第1実施形態に係る学習モデル強化(更新)処理の一例を示す概念図である。 第1実施形態に係るレイアウト情報の一例を示す概念図である。 第1実施形態に係る文字認識処理の一例を示すフローチャートである。 第1実施形態に係る学習モデル生成処理の一例を示すフローチャートである。 第2実施形態に係る透かしが印刷された帳票の一例を示す図である。 第2実施形態に係る、文字列画像に、帳票に印刷される透かしの少なくとも一部を重畳した学習用データの一例を示す図である。 第3実施形態に係る文字認識装置の概略構成図(システム構成図)である。 第4実施形態に係る文字認識装置及び学習モデル生成装置の概略構成図(システム構成図)である。 第5実施形態に係る文字認識装置及び外部装置の概略構成図(システム構成図)である。 本発明の実施形態に係るコンピュータのハードウェア構成の一例を示す図である。 第1実施形態に係る文字認識装置の変形例を示す概略構成図(システム構成図)である。
 以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。
 <第1実施形態>
 図1は、本発明の第1実施形態に係る文字認識装置の概略構成図(システム構成図)である。図1に示すように、文字認識装置100Aは、帳票に記入された手書き文字を認識する装置であり、例えばサーバ等の情報処理装置である。文字認識装置100Aは、例えば、ラップトップ又はノートブック型コンピュータ等の他の情報処理装置であってもよい。文字認識装置100Aは、例示的に、帳票に記入された手書き文字を認識するための情報処理を実行する情報処理部1、辞書データベース(DB)としてのコーパス3、1文字単位の手書き文字データセットDB5、文字列画像単位の手書き文字データセットDB7、及びレイアウト情報DB9を備えて構成されている。なお、文字認識装置100Aは、帳票に記入された手書き文字以外の文字を認識してもよい。また、コーパス3、手書き文字データセットDB5、手書き文字データセットDB7、又は、レイアウト情報DB9の少なくとも一つは、文字認識装置100Aとは別個の装置、又は、データベースとして構成されてもよい。
 「帳票」とは、文字列が記入された書類をいい、帳簿や伝票の総称である。帳票とは、例えば、証券会社等が扱う証券、申請書、又は、契約書等の書類を含む。
 図2は、第1実施形態に係る証券(帳票)の一例を示す図である。図2に示すように、証券C1は、特定の保険会社「○○損害保険株式会社」の自動車保険証券である。
 証券C1は、手書き文字が記入されたフィールド(手書き文字領域)として、例えば、住所フィールド20(住所に関する手書き文字領域)、及び、氏名フィールド22を含む。これらのフィールドは、文字認識装置100Aで文字を認識するフィールドを例示したものであって、証券C1は他にも文字が記載されたフィールドを有してもよい。例えば、証券C1は、「ご契約内容」に含まれる、保険の開始日及び保険の満期日を手書きで記入するための保険期間フィールド(不図示)を有してもよい。さらに、証券C1は、「ご契約のお車」に含まれる、車台番号を手書きで記入するための車台番号フィールド(不図示)、及び、登録番号を手書きで記入するための登録番号フィールド(不図示)等を更に有してもよい。また、文字認識装置100Aは、他のフィールドの手書き文字を認識してもよい。なお、例示した上記フィールドのすべてについて手書き文字を認識しなければならないわけではない。
 図1に戻り、情報処理部1は、例えば、機能的に、画像データ取得部11、学習用データ生成部12、学習モデル生成部13、学習モデル更新部14、領域特定部15、及び、文字認識部16を含んで構成されている。
 なお、情報処理部1の上記各部は、例えば、メモリやハードディスク等の記憶領域を用いたり、記憶領域に格納されているプログラムをプロセッサが実行したりすることにより実現することができる。また、文字認識装置100Aのコーパス3、並びに、各DB5、7及び9は、プロセッサが実行することにより実現することができる。
 画像データ取得部11は、証券C1の画像データを取得する。また、画像データ取得部11は、例えば、画像データ取得部11は、図14を参照して後述する入出力インターフェース44の一例であるカメラ等の撮像装置で撮像することによって生成される画像データを取得してもよい。
 図15に示すように、画像データ取得部11は、証券C1をカメラ等の撮像装置を含む外部装置50で撮像することによって生成される画像データを、所定の通信ネットワークNを介して取得してもよい。通信ネットワークNは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、その具体的な構成は、文字認識装置100Aと外部装置50との間でデータの送受信が可能なように構成されていれば特に制限されない。
 図3は、第1実施形態に係る学習用データ生成処理、及び、学習モデル生成処理の一例を示す概念図である。図1及び図3に示すように、学習用データ生成部12は、証券C1における1又は複数の手書き文字領域に記入されうる1又は複数の単語が登録されたコーパス3と、手書き文字データセットDB5に記録されている1文字単位の手書き文字画像のデータセットDS1と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する。
 図4は、第1実施形態に係る住所コーパスの一例を示す図である。図4に示すように、図1及び図3に示すコーパス3には、例えば、都道府県名、市区町村名、地域名、及び建物名の可能な組み合わせが階層化されて登録されている住所コーパスが含まれる。つまり、各都道府県名の下位階層には、当該都道府県に属する市区町村名が含まれる。同様に、各市区町村名の下位階層には、当該市区町村に属する地域名が含まれる。住所コーパスにはさらに、行政上の変更があった都道府県名、市区町村名および地域名について、旧名称と現名称とが対応付けられて登録されてもよい。
 図1及び図3に示すコーパス3には、住所に特化した住所コーパスの他、氏名、車名、職業、保険期間、車台番号、及び登録番号等に特化した各種コーパスが含まれてもよい。
 図3及び図4に示すように、学習用データ生成部12は、証券C1における1又は複数のフィールドに記入されうる1又は複数の単語のテキスト情報CL1をコーパス3から抽出する。図3に示す例では、例えば住所テキスト情報「トウキョウト」を住所コーパスから抽出する。次に、コーパス3から抽出したテキスト情報CL1に含まれる各文字の手書き文字画像を手書き文字データセットDB5からそれぞれ読み出して、手書き文字列画像CSI1「トウキョウト」を生成する。ここで、図3に示すように、手書き文字データセットDB5には、ひらがな、カタカナ、漢字等の文字(1文字)ごとに、対応する手書き文字画像が複数対応付けられて格納されている。具体的には、テキスト情報「ア」に対して、複数の手書き文字画像「ア」(すなわち、手書きで「ア」と記載された画像)が格納されている。手書き文字データセットDB5には、テキスト情報「ア」以外の各文字についても同様に、複数の手書き文字画像(1文字単位の手書き文字画像)が対応付けられたデータセットDS1が格納されている。
 すなわち、学習用データ生成部12は、コーパス3から抽出されたテキスト情報CL1に含まれる文字ごとに、手書き文字データセットDB5から、対応する手書き文字画像を読みだして、手書き文字列画像CSI1を生成する。例えば、テキスト情報CL1が「トウキョウト」のとき、テキスト情報「ト」に対応する手書き文字画像「ト」を手書き文字データセットDB5から任意に1つ抽出する。続いて、テキスト情報「ウ」に対応する手書き文字画像「ウ」を手書き文字データセットDB5から任意に1つ抽出する。残りの、テキスト情報「キ」「ョ」「ウ」「ト」についても同様にして、対応する手書き文字画像「キ」「ョ」「ウ」「ト」を手書き文字データセットDB5からそれぞれ任意に1つ抽出する。そして、抽出された手書き文字画像「ト」「ウ」「キ」「ョ」「ウ」「ト」を1つにまとめて、文字列画像CSI1「トウキョウト」を生成する。このようにして生成された手書き文字列画像CSI1「トウキョウト」に対して、コーパス3から抽出されたテキスト情報CL1「トウキョウト」を正解ラベルとする学習用データを生成する。なお、手書き文字列画像CSI1を生成する際に、任意に抽出された手書き文字画像「ト」「ウ」「キ」「ョ」「ウ」「ト」のそれぞれを、回転、拡大、縮小、移動、又は、歪みを付加させてもよい。
 手書き文字データセットDB5には、1文字単位の手書き文字画像のデータセットとして、ひらがな又は漢字のテキスト情報と、ひらがな又は漢字のテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。また、手書き文字データセットDB5には、外国語の1文字単位の手書き文字画像のデータセットが含まれてもよい。例えば、1文字単位の手書き文字画像のデータセットとして、アルファベットのテキスト情報と、アルファベットのテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。
 学習モデル生成部13は、学習用データ生成部12が生成した学習用データを用いた第1学習により、学習モデルを生成する。図3に示すように、学習モデル生成部13は、例えば、CRNN(Convolutional Recurrent Neural Network)を含むネットワーク構造から学習モデルLM1を生成する。CRNNは、例えば、畳み込みニューラルネットワーク(第1ニューラルネットワーク)、つまりCNN(Convolutional Neural Network)と、リカレントニューラルネットワーク(第2ニューラルネットワーク)、つまりRNN(Recurrent Neural Network)とが結合されたネットワーク構造である。CNNでは、証券C1における1又は複数のフィールドに含まれる手書き文字列に関する特徴量マップを算出する。RNNでは、動画像・音声などの時系列データを扱うことができるニューラルネットワークであり、再帰構造をもつため過去の情報を含めた予測が可能となる。RNNを用いて、特徴量マップから得られた複数の連続的な特徴データの前後関係を踏まえて文字列インデックスを算出する。なお、ネットワーク構造は上記以外の構成を採用してもよい。また、ニューラルネットワークについても、CNN及びRNN以外のニューラルネットワークを採用してもよい。
 この構成によれば、学習モデル生成部13は、CRNNを含むネットワーク構造から学習モデルを生成するので、高精度に手書き文字列を認識することができる。
 上記したとおり、学習モデル生成部13は、住所CRNN学習モデルを生成する。学習モデル生成部13は、他の種別のCRNN学習モデルを生成してもよい。例えば、学習用データ生成部12が、氏名、保険期間、車台番号、及び登録番号等に関する学習用データを生成する場合、学習モデル生成部13は、氏名、車名、職業、保険期間、車台番号、及び登録番号等に関する学習用データのそれぞれを用いた第1学習により、氏名、保険期間、車台番号、及び登録番号等に関するCRNN学習モデルを生成してもよい。
 学習モデル更新部14は、図3に示す第1学習の後、証券C1の画像データから切り出された文字列画像を学習用データとして用いた第2学習により、生成された学習モデルを強化(更新)する。
 図5は、第1実施形態に係る学習モデル強化(更新)処理の一例を示す概念図である。図5に示すように、図1に示す学習モデル更新部14は、複数の証券C1の画像データから切り出された、住所及び氏名等の複数の文字列画像を学習用データとして、手書き文字データセットDB7に格納する。手書き文字データセットDB7には、例えば、複数の手書き文字列画像「トウキョウト」を含む文字列画像単位の手書き文字画像のデータセットDS3が格納されている。学習モデル更新部14は、図3に示す第1学習で生成された既存学習モデルを使用して、例えば、手書き文字データセットDB7に含まれる手書き文字列画像「トウキョウト」(「ウ」が不鮮明)に基づいて、テキスト情報「トウキョクト」を生成(推論)する。これは、手書き文字列画像「トウキョウト」の「ウ」が不鮮明であったため、画像「ウ」を「ク」と誤認識したものである。この場合は、例えば、図1に示す文字認識装置100Aを操作するユーザにより、誤認識されたテキスト情報「トウキョクト」をテキスト情報「トウキョウト」に修正するマニュアル修正を実行してもよい。
 このように、学習モデル更新部14は、第1学習で生成された既存学習モデルを使用して、手書き文字列画像に基づいてテキスト情報を生成(推論)し、誤認識された場合は、ユーザによってマニュアル修正されたテキスト情報を、手書き文字列画像の正解ラベルとしてとして付与する。他方、誤認識されなかった場合は、マニュアル修正を実行せず、生成(推論)されたテキスト情報を、手書き文字列画像の正解ラベルとして付与する。これにより、第2学習では、半自動的にアノテーションが生成される。すなわち、手書き文字列画像とそれに対応する正解ラベル、すなわち、この例では、手書き文字列画像「トウキョウト」に対応するテキスト情報の「トウキョウト」、を含む学習用データが生成される。そして、学習モデル更新部14は、新たに生成された学習用データを既存学習モデルに追加することにより、学習モデルを強化することができる。
 この構成によれば、学習モデル更新部14は、証券C1の画像データから各項目(氏住所、氏名等)の手書き文字列を抽出し、これらに正解ラベルを付与する。よって、これらの正解ラベルが付与された手書き文字列を第2学習することにより、第1学習で生成された学習モデルを強化することができる。
 図1に戻り、領域特定部15は、画像データ取得部11が取得した証券C1の画像データに基づいて、証券C1に手書き文字で記入された文字列を含む1又は複数のフィールドを特定する。証券C1におけるフィールドを特定する手法は様々な手法を採り得るが、一例として、以下では、証券C1内のフィールドを特定するためのレイアウト情報を使用する手法を説明する。
 図1に示すように、文字認識装置100Aは、証券C1における所定位置に対応付けて、フィールドを特定するためのレイアウト情報を記録するレイアウト情報DB9(記録部)を更に備える。
 図6は、第1実施形態に係るレイアウト情報の一例を示す概念図である。図6に示すように、レイアウト情報は、証券テンプレートIDごとに、複数のフィールドの各フィールド名と当該フィールドの始点位置と終点位置とが対応付けて格納されている。ここでフィールド名は複数のフィールドのいずれであるかを特定する情報の例となっている。
 図6の例では証券テンプレートID「001」について、フィールド名「住所」の位置が始点の座標(X21,Y21)および終点の座標(X22,Y22)で表されている。これにより、フィールド名「住所」のフィールドは、これら始点と終点とで指定される矩形の領域である。これらの座標は、証券C1全体を予め定められた大きさに正規化したときの位置であることが好ましい。ただし、フィールドの位置の指定方法は図6に示す例に限られず、他の方法が用いられてもよい。
 レイアウト情報は文字認識装置100Aの文字認識処理に先立って、レイアウト情報DB9に格納される。新たなフォーマットの証券が発行された場合には、文字認識装置100Aのユーザ等により、当該証券についてのレイアウト情報がレイアウト情報DB9に追加されることが好ましい。
以上の通り、レイアウト情報は証券テンプレートごとに複数のフィールドのそれぞれを特定する位置の情報が格納されている。領域特定部15は、レイアウト情報に基づいて、フィールドを特定する。この構成によれば、例えば、互いに異なるレイアウトの複数の証券においても、それぞれにおける住所フィールド20、及び、氏名フィールド22等の各フィールドの位置が特定できる。
 なお、証券C1内のフィールドを特定する手法は上記に限られない。例えば、上記した証券テンプレートを使用しない特定手法の一例については、第3実施形態として説明する
 文字認識部16は、生成された学習モデル、又は、強化(更新)された学習モデルを用いて、手書き文字領域に記入された文字列の内容を認識する。文字認識部16は、例えば、CNN及びRNNが結合されたCRNNを有する学習モデルを用いて、証券C1のフィールドに記入された文字列の内容を認識する。この構成によれば、文字認識部16は、CNN及びRNNが結合されたネットワーク構造を用いて、手書き文字列を認識するので、高精度に手書き文字列を認識することができる。
 (文字認識処理)
 図7及び図8を用いて、本発明の第1実施形態に係る文字認識処理の一例を説明する。図7は、第1実施形態に係る文字認識処理の一例を示すフローチャートである。
 図7に示すように、図1に示す画像データ取得部11は、図2に示す証券C1の画像データを取得する(ステップS1)。学習用データ生成部12は、証券C1の手書き文字領域に記入されうる1又は複数の単語が登録されたコーパス3と、手書き文字データセットDB5に記録されている1文字単位の手書き文字画像のデータセットDS1と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する(ステップS3)。学習モデル生成部13は、学習モデルを生成する(ステップS5)。なお、学習モデルの生成処理及び更新処理については、図8を参照して後述する。領域特定部15は、画像データ取得部11が取得した画像データに基づいて、証券C1に手書き文字で記入された文字列を含む1又は複数のフィールドを特定する(ステップS7)。文字認識部16は、生成された学習モデル、又は、強化(更新)された学習モデルを用いて、証券C1に手書き文字で記入された文字列を含む1又は複数のフィールドに記入された文字列の内容を認識する(ステップS9)。
 図8は、第1実施形態に係る学習モデル生成処理(図7におけるステップS5)の一例を示すフローチャートである。図8に示すように、学習モデル生成部13は、学習用データ生成部12が生成した学習用データを用いた第1学習により、学習モデルを生成する(ステップS51)。次に、学習モデル更新部14は、第1学習の後、証券C1の画像データから切り出された文字列画像を学習用データとして用いた第2学習により、学習モデルを更新する(ステップS53)。
 以上、本発明の第1実施形態によれば、コーパス3と、手書き文字データセットDB5に記録されている1文字単位の手書き文字画像のデータセットDS1と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する。生成された学習用データを用いた第1学習により、学習モデルを生成する。よって、第1学習により生成された学習モデルを用いて、証券C1における1又は複数のフィールドに記入された文字列の内容を認識することができる。したがって、証券C1に記入された手書き文字列の認識処理の精度を改善することができる。
 <第2実施形態>
 図9及び図10を参照して第2実施形態の学習モデル生成処理及び学習モデル更新処理を説明する。第2実施形態は、図1、図3及び図5に示す手書き文字データセットDB5,DB7に含まれる文字列画像に、帳票に印刷される透かしの少なくとも一部を重畳したものを学習用データとして生成する点で、図1、図3及び図5に示す手書き文字データセットDB5,DB7に含まれる文字列画像に透かしが重畳されていない第1実施形態とは異なる。また、第2実施形態は、図1、図3及び図5に示す手書き文字データセットDB5,DB7に含まれる文字列画像に、帳票におけるノイズを重畳したものを学習用データとして生成する点で、図1、図3及び図5に示す手書き文字データセットDB5,DB7に含まれる文字列画像にノイズが重畳されていない第1実施形態とは異なる。以下では、第1実施形態と異なる点について特に説明する。
 図9は、第2実施形態に係る透かしが印刷された証券の一例を示す図である。図9に示すように、証券C3は、例えば自動車保険証券であり、証券C3には、「複写」という透かしWが印刷されている。図10は、第2実施形態に係る、文字列画像に、証券C3に印刷される透かしの少なくとも一部を重畳した学習用データの一例を示す図である。
 図10(a)に示すように、図1及び図3に示す1文字単位の手書き文字データセットDB5には、例えば、透かしの少なくとも一部を含む1文字単位の手書き文字画像「キ」が複数パターン格納されている。手書き文字データセットDB5には、これに限られず、透かしの少なくとも一部を含む1文字単位の手書き文字画像「ア」…「ン」のそれぞれについて複数パターン格納されてもよい。図1に示す学習用データ生成部12は、手書き文字データセットDB5から、ランダムに、透かしの少なくとも一部を含む、複数パターンの手書き文字画像「ア」…「ン」を読みだして学習用データを生成する。
 手書き文字データセットDB5には、透かしの少なくとも一部を含む1文字単位の手書き文字画像のデータセットとして、ひらがな又は漢字のテキスト情報と、ひらがな又は漢字のテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。また、手書き文字データセットDB5には、透かしの少なくとも一部を含む外国語の1文字単位の手書き文字画像のデータセットが含まれてもよい。例えば、1文字単位の手書き文字画像のデータセットとして、アルファベットのテキスト情報と、アルファベットのテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。
 図10(b)に示すように、図1及び図5に示す文字列画像単位の手書き文字データセットDB7には、例えば、透かしの少なくとも一部を含む文字列単位の手書き文字列画像「トウキョウト***…」が格納されている。さらに、図10(c)に示すように、図1及び図5に示す文字列画像単位の手書き文字データセットDB7には、例えば、透かしの少なくとも一部を含む文字列単位の手書き文字列画像「トウキョウト」(図10(b)に示す手書き文字列画像の一部)が格納されてもよい。
 本実施形態に係る学習モデル更新部14では、図3に示す第1学習の後、証券C3の画像データ)から切り出された文字列画像であって、透かしの少なくとも一部が重畳された文字列画像を手書き文字データセットDB7から読みだす。そして、学習モデル更新部14は、例えば、読みだした、透かしの少なくとも一部が重畳された文字列画像を学習用データとして用いた第2学習により、生成された学習モデルを強化(更新)する。
 なお、学習モデルの生成処理、又は、学習モデルの強化処理の少なくとも一方において用いられる学習用データは、文字列画像に、証券に印刷される透かしの少なくとも一部を重畳したものの他、文字列画像に、証券におけるノイズを重畳したものを含んでもよい。
 以上、本発明の第2実施形態によれば、学習モデルの生成処理、又は、学習モデルの強化処理の少なくとも一方において、文字列画像に、帳票に印刷される透かしの少なくとも一部を重畳したものを学習用データとして生成する。よって、透かしが印刷される帳票における文字列画像の認識処理においてロバスト性が向上する。
 また、学習モデルの生成処理、又は、学習モデルの強化処理の少なくとも一方において、文字列画像に、前記帳票におけるノイズを重畳したものを学習用データとして生成する。よって、ノイズが重畳された帳票における文字列画像の認識処理においてロバスト性が向上する。
 <第3実施形態>
 図11を参照して、第3実施形態に係る文字認識装置を説明する。第3実施形態に係る文字認識装置100Bは、帳票のフィールドを特定する処理において、帳票に記載された項目名を含む項目領域を抽出し、項目領域に属性を割り当てる等の処理を行う。第1実施形態では、第3実施形態のこれらの処理は行わず、図1に示すレイアウト情報を参照して帳票のフィールドを特定する点で第3実施形態とは異なる。以下では、第1実施形態と異なる点について特に説明する。
 図11は、第3実施形態に係る文字認識装置の概略構成図(システム構成図)である。図11に示すように、文字認識装置100Bは、図1に示す第1実施形態に係る文字認識装置100Aと比較すると、図1に示すレイアウト情報DB9は備えておらず、領域特定部15が、例示的に、項目抽出部151と属性割当部152とを更に備えている。
 領域特定部15は、例えば証券に記載された「氏名」や「住所」等の項目名を含む項目領域を抽出対象として、所定のニューラルネットワークを用いて、項目領域を、属性を付与した上で抽出する項目抽出部151を備える。項目抽出部151は、例えば証券上に活字で印刷された項目名を含む項目領域を抽出対象として、証券の画像データに含まれる項目領域を属性の分類付きで個別に抽出する。例えば、証券の画像データに「氏名」や「住所」などの画像領域が存在する場合、それぞれの画像領域が項目領域として抽出されると共に、それぞれの項目領域に対して「name」や「address」といった属性が付加される。項目領域の抽出は、深層学習による物体検出アルゴリズムを用いて行われる。また、このアルゴリズムに基づき構築された所定の学習モデルを参照して、抽出した項目領域の属性の分類が行われる。また、分類された属性については、その分類確度も算出・出力されてもよい。
 領域特定部15は、証券の画像データにおける項目領域の位置及び属性に基づいて、項目領域と、当該項目領域の近傍に位置するフィールド(手書き文字領域)とを対応づけ、且つ、フィールドに対して項目領域の属性を割り当てる属性割当部152を備える。属性割当部152は、証券の画像データにおける項目領域の位置およびその属性に基づいて、証券画像のレイアウトを解析し、どの属性に関する情報がどこに記入されているのかを特定する。具体的には、証券におけるフィールドのそれぞれに対して、項目抽出部151によって分類された属性のいずれかが割り当てられる。基本的に、証券の画像データにおいて、ある項目領域と、ある手書き文字領域とが近接、すなわち、両者の距離が所定のしきい値以下である場合、両者の対応付けが行われる。そして、このフィールド(手書き文字領域)に対して、項目領域の属性が割り当てられる。例えば、「name」という属性を有する項目領域の近傍にフィールドが存在する場合、このフィールドに対して「name」という属性が割り当てられる。また、項目領域とフィールドとの具体的な対応規則については、所定の対応規則テーブル等において予め設定・定義されている。
 以上、第3実施形態によれば、証券の画像データに含まれる項目領域と、その属性とが取得される。これらの情報から、帳票画像中のどの位置にどのような情報が記載されているのかを特定することができる。これにより、予め、文字認識装置に登録されていない未知の証券であっても、レイアウト解析を行うことが可能になる。
 <第4実施形態>
 図12を参照して、第4実施形態に係る文字認識装置及び学習モデル生成装置を説明する。図12に示す第4実施形態に係る文字認識装置100C及び学習モデル生成装置200は、図1に示す第1実施形態に係る文字認識装置100Aが備える各構成が分離されて構成されたものである。文字認識装置100Cは、学習モデル生成装置200で生成された、例えば、第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造を有する学習モデルを用いて、フィールドに記入された文字列の内容を認識する。また、文字認識装置100Cと学習モデル生成装置200とが通信ネットワークNを介してデータの送受信が可能なように構成されるものでもよい。ただし、これに限らず、学習モデル生成装置200で生成された学習モデルは、任意の手段で、文字認識装置100Cの主記録装置に格納されるものである。なお、同様に、図11に示す第3実施形態に係る文字認識装置100Bについても、文字認識装置100Bが備える各構成が分離されて文字認識装置及び学習モデル生成装置が構成されてもよい。また、文字認識装置100Bが備える各構成が分離された、文字認識装置と学習モデル生成装置とが通信ネットワークNを介してデータの送受信が可能なように構成されるものでもよい。
 以上、第4実施形態によれば、第1実施形態に係る文字認識装置100A又は第3実施形態に係る文字認識装置100Cは、別個の装置である文字認識装置及び学習モデル生成装置を構成可能である。
<第5実施形態>
 図13を参照して、第5実施形態に係る文字認識装置及び外部装置を説明する。図13は、第5実施形態に係る文字認識装置及び外部装置の概略構成図(システム構成図)である。図13に示すように、第5実施形態に係る文字認識装置100Cは、外部装置50によって生成される画像データを所定の通信ネットワークNを介して取得するものでもよい。
 以上、第5実施形態によれば、文字認識装置100Cは、外部装置50によって生成される画像データを取得し、取得した画像データに基づいて文字認識処理を実行することができる。
 図14は、本発明の実施形態に係るコンピュータのハードウェア構成の一例を示す図である。図14を参照して、図1及び15に示す文字認識装置100A、図11に示す文字認識装置100B、図12及び13に示す文字認識装置100C、図12に示す学習モデル生成装置200、並びに、図13及び15に示す外部装置を構成するのに用いることができるコンピュータのハードウェア構成の一例について説明する。
 図14に示すように、コンピュータ40は、ハードウェア資源として、主に、プロセッサ41と、主記録装置42と、補助記録装置43と、入出力インターフェース44と、通信インターフェース45とを備えており、これらはアドレスバス、データバス、コントロールバス等を含むバスライン46を介して相互に接続されている。なお、バスライン46と各ハードウェア資源との間には適宜インターフェース回路(図示せず)が介在している場合もある。
 プロセッサ41は、コンピュータ全体の制御を行う。プロセッサ41は、例えば、図1及び図11に示す情報処理部1に相当する。主記録装置42は、プロセッサ41に対して作業領域を提供し、SRAM(Static Random Access Memory)やDRAM(Dynamic Random Access Memory)等の揮発性メモリである。補助記録装置43は、ソフトウェアであるプログラム等やデータ等を格納する、HDDやSSD、フラッシュメモリ等の不揮発性メモリである。当該プログラムやデータ等は、任意の時点で補助記録装置43からバスライン46を介して主記録装置42へとロードされる。補助記録装置43は、例えば、図1に示すコーパス3、手書き文字データセットDB5、手書き文字データセットDB7、及び、レイアウト情報DB9に相当する。また、補助記録装置43は、例えば、図11に示すコーパス3、手書き文字データセットDB5、及び、手書き文字データセットDB7に相当する。
 入出力インターフェース44は、情報を提示すること及び情報の入力を受けることの一方又は双方を行うものであり、カメラ、キーボード、マウス、ディスプレイ、タッチパネル・ディスプレイ、マイク、スピーカ、温度センサ等である。通信インターフェース45は、図1、11及び12に示す通信ネットワークNと接続されるものであり、通信ネットワークNを介してデータを送受する。通信インターフェース45と通信ネットワークNとは、有線又は無線で接続されうる。通信インターフェース45は、ネットワークに係る情報、例えば、Wi-Fiのアクセスポイントに係る情報、通信キャリアの基地局に関する情報等も取得することがある。
 上に例示したハードウェア資源とソフトウェアとの協働により、コンピュータ40は、所望の手段として機能し、所望のステップを実行し、所望の機能を実現させることできることは、当業者には明らかである。
 なお、上記各実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するものではない。本発明はその趣旨を逸脱することなく、変更/改良され得るとともに、本発明にはその等価物も含まれる。また、本発明は、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の開示を形成できるものである。例えば、実施形態に示される全構成要素から幾つかの構成要素は削除してもよいものである。さらに、異なる実施形態に構成要素を適宜組み合わせてもよいものである。
1,1A,1B…情報処理部、3…コーパス、5,7…手書き文字データセット、9…レイアウト情報DB、11…画像データ取得部、12…学習用データ生成部、13…学習モデル生成部、14…学習モデル更新部、15…領域特定部、16…文字認識部、41…プロセッサ、42…主記録装置、43…補助記録装置、44…入出力インターフェース、45…通信インターフェース、46…バス、50…外部装置、100A,100B,100C…文字認識装置、151…項目抽出部、152…属性割当部、200…学習モデル生成装置

Claims (15)

  1.  帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、
     前記学習用データを用いた第1学習により、学習モデルを生成する学習モデル生成部と、を備える、
     学習モデル生成装置。
  2.  前記第1学習の後、前記帳票の画像データから切り出された文字列画像を学習用データとして用いた第2学習により、前記学習モデルを更新する学習モデル更新部をさらに備える、
     請求項1に記載の学習モデル生成装置。
  3.  前記学習用データ生成部は、前記文字列画像に、前記帳票に印刷される透かしの少なくとも一部を重畳したものを学習用データとして生成する、
     請求項1又は2に記載の学習モデル生成装置。
  4.  前記学習用データ生成部は、前記文字列画像に、前記帳票におけるノイズを重畳したものを学習用データとして生成する、
     請求項1~3のいずれか一項に記載の学習モデル生成装置。
  5.  前記学習モデル生成部は、
     第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造から学習モデルを生成するものであり、
     前記第1ニューラルネットワークは畳み込みニューラルネットワークにより構成され、前記手書き文字領域に含まれる前記文字列に関する特徴量マップを算出し、
     第2ニューラルネットワークはリカレントニューラルネットワークにより構成され、前記特徴量マップから文字列インデックスを算出する、
     請求項1~4のいずれか一項に記載の学習モデル生成装置。
  6.  前記手書き文字領域の少なくとも一つの領域は、住所に関する手書き文字領域であり、
     前記住所に関する前記手書き文字領域に対応づけられた前記コーパスには、都道府県名、市区町村名、地域名、又は、建物名の少なくとも一つの名称を含む組み合わせが登録されている、
     請求項1~5のいずれか一項に記載の学習モデル生成装置。
  7.  前記帳票を撮像装置で撮像することによって生成される画像データを、通信ネットワークを介して取得する画像データ取得部をさらに備える、
     請求項1~6のいずれか一項に記載の学習モデル生成装置。
  8.  帳票の画像データに基づいて、手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定する領域特定部と、
     請求項1~7のいずれか一項に記載の学習モデル生成部により生成された学習モデルを用いて、前記手書き文字領域に記入された文字列の内容を認識する文字認識部と、を備える、
     文字認識装置。
  9.  帳票に記入された手書き文字を認識する文字認識装置であって、
     前記帳票の画像データを取得する画像データ取得部と、
     取得した前記画像データに基づいて、手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定する領域特定部と、
     第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造を有する学習モデルを用いて、前記手書き文字領域に記入された文字列の内容を認識する文字認識部と、を備える、
     文字認識装置。
  10.  前記帳票における所定位置に対応付けて、前記手書き文字領域を特定するためのレイアウト情報を記録する記録部を更に備え、こう
     前記領域特定部は、前記レイアウト情報に基づいて、前記手書き文字領域を特定する、
     請求項8又は9に記載の文字認識装置。
  11.  前記領域特定部は、
     前記帳票に記載された項目名を含む項目領域を、属性を付与した上で抽出する項目抽出部と、
     前記帳票の画像データにおける項目領域の位置及び前記属性に基づいて、前記項目領域と、当該項目領域の近傍に位置する前記手書き文字領域とを対応づけ、且つ、前記手書き文字領域の属性を割り当てる属性割当部と、を更に備える、
     請求項8~10のいずれか一項に記載の文字認識装置。
  12.  学習モデルを生成するコンピュータが実行する学習モデル生成方法であって、
     帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成するステップと、
     前記学習用データを用いた第1学習により、学習モデルを生成するステップと、
    を含む、
     学習モデル生成方法。
  13.  帳票に記入された手書き文字を認識するコンピュータが実行する文字認識方法であって、
     前記帳票の画像データを取得するステップと、
     取得した前記画像データに基づいて、前記手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定するステップと、
     第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造を有する学習済モデルを用いて、前記手書き文字領域に記入された文字列の内容を認識するステップと、
    を含む、
    文字認識方法。
  14.  コンピュータを、
     帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、
     前記学習用データを用いた第1学習により、学習モデルを生成する、学習モデル生成部と、
     して機能させるプログラム。
  15.  帳票に記入された手書き文字を認識するコンピュータを、
     前記帳票の画像データを取得する画像データ取得部と、
     取得した前記画像データに基づいて、前記手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定する領域特定部と、
     第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造を有する学習済モデルを用いて、前記手書き文字領域に記入された文字列の内容を認識する文字認識部と、
     して機能させるプログラム。
PCT/JP2020/017696 2019-04-26 2020-04-24 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム WO2020218512A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-086630 2019-04-26
JP2019086630A JP6590355B1 (ja) 2019-04-26 2019-04-26 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2020218512A1 true WO2020218512A1 (ja) 2020-10-29

Family

ID=68235000

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/017696 WO2020218512A1 (ja) 2019-04-26 2020-04-24 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP6590355B1 (ja)
WO (1) WO2020218512A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948578A (zh) * 2021-01-29 2021-06-11 浙江大学 一种dga域名开集分类方法、装置、电子设备及介质
CN113361666A (zh) * 2021-06-15 2021-09-07 浪潮金融信息技术有限公司 一种手写字符识别方法、系统及介质
CN113591866A (zh) * 2021-07-29 2021-11-02 云南大学 基于db与crnn的特种作业证件检测方法及系统
CN115439850A (zh) * 2022-10-08 2022-12-06 招商局通商融资租赁有限公司 基于审单的图文字符识别方法、装置、设备及存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6810365B2 (ja) * 2019-05-31 2021-01-06 キヤノンマーケティングジャパン株式会社 学習済みモデル、プログラム
JP6896260B1 (ja) * 2020-04-08 2021-06-30 Arithmer株式会社 レイアウト解析装置、その解析プログラムおよびその解析方法
CN111695518B (zh) 2020-06-12 2023-09-29 北京百度网讯科技有限公司 结构化文档信息标注的方法、装置及电子设备
KR102265947B1 (ko) * 2020-11-23 2021-06-17 주식회사 엠로 기계 학습 기반 정보 제공 방법 및 장치
JP2022088183A (ja) * 2020-12-02 2022-06-14 株式会社三菱Ufj銀行 帳票読取装置及び帳票読取方法
JP7150809B2 (ja) * 2020-12-28 2022-10-11 有限責任監査法人トーマツ 多モデル深層学習による文書のデジタル化アーキテクチャ、文書画像処理プログラム
KR102501576B1 (ko) * 2022-11-22 2023-02-21 주식회사 아무랩스 뉴럴 네트워크를 이용하여 도표에 대한 정보를 사용자 단말에게 전송하는 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101028A (ja) * 1991-10-04 1993-04-23 Nippon Telegr & Teleph Corp <Ntt> 複数特徴量の統合判定方法
JPH05258114A (ja) * 1992-03-11 1993-10-08 Toshiba Corp 文字認識装置
JP2012059226A (ja) * 2010-09-13 2012-03-22 Ricoh Co Ltd 帳票処理装置、帳票処理方法、帳票処理プログラム、及びそのプログラムを記録した記録媒体
JP2015069256A (ja) * 2013-09-27 2015-04-13 株式会社日立製作所 文字識別システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2712260B2 (ja) * 1988-04-05 1998-02-10 富士通株式会社 文字認識装置
JPH052661A (ja) * 1991-06-25 1993-01-08 Mitsubishi Electric Corp 単語読取装置
JP2003187188A (ja) * 2001-12-13 2003-07-04 Canon Inc 文字認識結果の後処理方法、後処理装置、および記録媒体
JP5974576B2 (ja) * 2012-03-26 2016-08-23 富士ゼロックス株式会社 文字認識学習装置、文字認識装置、およびプログラム
JP6430672B1 (ja) * 2018-03-16 2018-11-28 株式会社三井E&Sマシナリー 読取システム及び読取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101028A (ja) * 1991-10-04 1993-04-23 Nippon Telegr & Teleph Corp <Ntt> 複数特徴量の統合判定方法
JPH05258114A (ja) * 1992-03-11 1993-10-08 Toshiba Corp 文字認識装置
JP2012059226A (ja) * 2010-09-13 2012-03-22 Ricoh Co Ltd 帳票処理装置、帳票処理方法、帳票処理プログラム、及びそのプログラムを記録した記録媒体
JP2015069256A (ja) * 2013-09-27 2015-04-13 株式会社日立製作所 文字識別システム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948578A (zh) * 2021-01-29 2021-06-11 浙江大学 一种dga域名开集分类方法、装置、电子设备及介质
CN112948578B (zh) * 2021-01-29 2022-05-17 浙江大学 一种dga域名开集分类方法、装置、电子设备及介质
CN113361666A (zh) * 2021-06-15 2021-09-07 浪潮金融信息技术有限公司 一种手写字符识别方法、系统及介质
CN113361666B (zh) * 2021-06-15 2023-10-10 浪潮金融信息技术有限公司 一种手写字符识别方法、系统及介质
CN113591866A (zh) * 2021-07-29 2021-11-02 云南大学 基于db与crnn的特种作业证件检测方法及系统
CN113591866B (zh) * 2021-07-29 2023-07-07 云南大学 基于db与crnn的特种作业证件检测方法及系统
CN115439850A (zh) * 2022-10-08 2022-12-06 招商局通商融资租赁有限公司 基于审单的图文字符识别方法、装置、设备及存储介质
CN115439850B (zh) * 2022-10-08 2024-06-04 招商局智融供应链服务有限公司 基于审单的图文字符识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP6590355B1 (ja) 2019-10-16
JP2020184109A (ja) 2020-11-12

Similar Documents

Publication Publication Date Title
WO2020218512A1 (ja) 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム
US9384389B1 (en) Detecting errors in recognized text
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
US8015203B2 (en) Document recognizing apparatus and method
CN103577818B (zh) 一种图像文字识别的方法和装置
US10726300B2 (en) System and method for generating and processing training data
US20080170785A1 (en) Converting Text
JPH08305803A (ja) 文字テンプレートセット学習マシン動作方法
JP2008276766A (ja) フォーム自動埋込方法及び装置
KR20090079226A (ko) 하드카피 서식으로부터 서식 정의의 자동 발생
US9286526B1 (en) Cohort-based learning from user edits
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质
US12008830B2 (en) System for template invariant information extraction
CN111753120A (zh) 一种搜题的方法、装置、电子设备和存储介质
CN111276149A (zh) 语音识别方法、装置、设备及可读存储介质
US20230134169A1 (en) Text-based document classification method and document classification device
CN116384344A (zh) 一种文档转换方法、装置及存储介质
JP2008282094A (ja) 文字認識処理装置
CN115543915A (zh) 人事档案目录自动化建库方法及系统
US11335108B2 (en) System and method to recognise characters from an image
CN112396057A (zh) 一种字符识别方法、装置及电子设备
US9443139B1 (en) Methods and apparatus for identifying labels and/or information associated with a label and/or using identified information
JP7322468B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6676121B2 (ja) データ入力装置及びデータ入力プログラム
JP6759955B2 (ja) 地名抽出プログラム、地名抽出装置および地名抽出方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20795562

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20795562

Country of ref document: EP

Kind code of ref document: A1