WO2019194028A1 - 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体 - Google Patents

画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体 Download PDF

Info

Publication number
WO2019194028A1
WO2019194028A1 PCT/JP2019/012888 JP2019012888W WO2019194028A1 WO 2019194028 A1 WO2019194028 A1 WO 2019194028A1 JP 2019012888 W JP2019012888 W JP 2019012888W WO 2019194028 A1 WO2019194028 A1 WO 2019194028A1
Authority
WO
WIPO (PCT)
Prior art keywords
character string
image processing
feature amount
image
recorded
Prior art date
Application number
PCT/JP2019/012888
Other languages
English (en)
French (fr)
Inventor
裕一 中谷
克彦 近藤
哲 ▲瀬▼川
杉本 充
康 日高
隼哉 秋山
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to SG11202009548UA priority Critical patent/SG11202009548UA/en
Priority to EP19781603.6A priority patent/EP3779782A4/en
Priority to US17/043,361 priority patent/US11328504B2/en
Publication of WO2019194028A1 publication Critical patent/WO2019194028A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Definitions

  • the present invention relates to an image processing apparatus, an image processing method, and a storage medium for storing a program.
  • Patent Document 1 describes a method for selecting a form format based on a read form image.
  • the form formats are grouped, and one representative form format is determined for each group.
  • any one group is selected based on the feature match rate between the read form image and the representative form format.
  • the form format having the highest feature matching rate with the read form image is selected from the form formats in the selected group.
  • Patent document 2 discloses machine learning using a neural network. It is conceivable to improve reading accuracy by using machine learning in reading a form.
  • the reading result is distributed so that the reading result can be checked and corrected efficiently.
  • An object of the present invention is to provide an image processing apparatus, an image processing method, and a program that can solve the above-described problems.
  • the image processing apparatus includes: a character recognition processing result for a character recognition processing target document image based on a feature amount of a character string of a specific item included in the document image; A reliability calculation unit that calculates the reliability of the character recognition process, and an output destination selection unit that selects an output destination of the character recognition processing result according to the reliability.
  • the image processing method calculates the reliability of the character recognition processing result for the character recognition processing target document image based on the feature amount of the character string of the specific item included in the document image. Then, an output destination of the character recognition processing result is selected according to the reliability.
  • the program stored in the storage medium causes the computer to perform character recognition on the document image to be subjected to character recognition processing based on the feature amount of the character string of the specific item included in the document image. Processing for calculating the reliability of the processing result and selecting the output destination of the character recognition processing result according to the reliability is executed.
  • the present invention when there are a plurality of persons who check and correct the reading result of the form, it is possible to sort the reading result so that the reading result can be checked and corrected efficiently.
  • 1 is a diagram illustrating an apparatus configuration example of an image processing system including an image processing apparatus according to an embodiment.
  • 1 is a diagram illustrating a hardware configuration example of an image processing apparatus according to an embodiment. It is a schematic block diagram which shows the function structure of the image processing apparatus which concerns on 1st embodiment. It is a schematic block diagram which shows the function structure of the terminal device which concerns on 1st embodiment. It is a figure which shows an example of a document form. It is a figure which shows the outline
  • FIG. 1 is a diagram illustrating an apparatus configuration example of an image processing system including an image processing apparatus according to an embodiment.
  • the image processing system 100 includes an image processing device 1, an image reading device 2, a recording device 3, a database 4, a terminal device 6-1 and a terminal device 6-2.
  • the image processing apparatus 1 is connected to the image reading apparatus 2 via a communication cable.
  • the image reading device 2 optically acquires image data such as a document form and outputs it to the image processing device 1.
  • the image processing apparatus 1 performs character recognition by performing OCR (Optical character recognition) processing on image data of a document form.
  • the image processing apparatus 1 outputs the character recognition result to the recording device 3, and the recording device 3 records the character recognition result in the database.
  • OCR Optical character recognition
  • the terminal device 6-1 and the terminal device 6-2 are each connected to the image processing apparatus 1.
  • the terminal device 6-1 is connected to the terminal device 6-2.
  • Both of the terminal devices 6-1 and 6-2 are terminal devices for confirming and correcting the processing result in the image processing device 1.
  • the terminal device 6-1 and the terminal device 6-2 have different users.
  • the terminal device 6-2 is used by a person who makes a more substantive judgment regarding the work than the terminal device 6-1. For example, when the image processing system 100 is used at customs to read characters in documents such as import application documents, the terminal device 6-1 is used by a key puncher, and the terminal device 6-2 is a customs officer or examiner (customs officer). ) Etc. may be used.
  • the terminal device 6-1 and the terminal device 6-2 have different usage patterns depending on the user.
  • the terminal apparatus 6-1 receives confirmation and correction of the processing result, and then performs processing at the terminal apparatus 6-2. Receive confirmation and correction of results.
  • the terminal device 6-1 may reflect the confirmation / correction in the terminal device 6-1 to the processing result of the image processing device 1, and directly transmit the result to the terminal device 6-2.
  • the terminal device 6-1 transmits the confirmation / correction result in the terminal device 6-1 to the image processing device 1, and the image processing device 1 determines that the processing result of the image processing device 1 is
  • the confirmation / correction may be reflected and transmitted to the terminal device 6-2.
  • the terminal device 6-1 and the terminal device 6-2 are collectively referred to as a terminal device 6.
  • the number of terminal devices 6 included in the image processing system 100 may be two or more. Accordingly, the number of terminal devices 6 included in the image processing system 100 is not limited to two as illustrated in FIG. 1 and may be three or more.
  • the database 4 is connected to the image processing apparatus 1 and the recording apparatus 3.
  • the database 4 stores a correspondence relationship between image data of a plurality of document forms registered in the past from the recording device 3 and a recorded character string indicating a character string to be recorded among character strings included in the image data.
  • the character string indicated by the recorded character string is an important character string to be recorded and stored in the database 4 among the character strings described in the document form.
  • An operator who uses the image processing system 100 registers in advance in the database 4 the image data of a plurality of document forms registered in the past using the recording device 3 and the recorded character strings among the character strings included in the image data. Keep it.
  • the worker is also referred to as a user of the image processing apparatus 1 or simply a user.
  • the worker (who prepares to actually operate the image processing system 100) and the person who actually operates the image processing system 100 and obtains the OCR processing result may be the same person or different persons. It may be.
  • the image processing apparatus 1 performs processing.
  • FIG. 2 is a diagram illustrating a hardware configuration example of the image processing apparatus.
  • the image processing apparatus 1 includes a CPU (Central Processing Unit) 11, an IF (Interface) 12, a communication module 13, a ROM (Read Only Memory) 14, a RAM (Random Access Memory) 15, an HDD (Hard Disk Drive) 16, and the like. It is a computer equipped with.
  • the communication module 13 may perform wireless communication with each of the image reading device 2, the recording device 3, the database 4, and the terminal device 6, or may perform wired communication. It may have one function.
  • FIG. 3 is a schematic block diagram illustrating a functional configuration of the image processing apparatus 1 according to the first embodiment.
  • the communication unit 110 is configured using the communication module of FIG. 2 and communicates with other devices. In particular, the communication unit 110 communicates with each of the image reading device 2, the recording device 3, the database 4, and the terminal device 6.
  • the storage unit 180 is configured using the ROM 14, RAM 15, and HDD 16 of FIG. 2 and stores various data.
  • the control unit 190 is configured by the CPU 11 in FIG. 2 reading and executing a program from the storage unit 180 (ROM 14, RAM 15 and HDD 16 in FIG. 2). The control unit 190 controls each unit of the image processing apparatus 1 and executes various processes.
  • the acquisition unit 191 acquires image data of a document form.
  • the feature amount extraction unit 192 extracts, for each image data of the document form, the first feature amount indicating the feature of the recorded character string included in the image data of the document form based on the recognition processing result of the image data of the plurality of document forms. To do.
  • the feature amount extraction is also referred to as feature amount generation.
  • the recording unit 193 extracts and records a recording character string from the character string information read from the image data of the new document form, using the character string feature amount in the image data of the new document form.
  • the reliability calculation unit 196 calculates the reliability of the processing result of the image processing apparatus 1.
  • the reliability calculation unit 196 calculates the reliability of the obtained recorded character string when the image processing apparatus 1 extracts a recorded character string from an image of a new document form during actual operation of the image processing system 100.
  • the reliability calculation unit 196 calculates the reliability of the character recognition processing result for the character recognition processing target document image based on the feature amount of the character string of the specific item included in the document image.
  • the character string of the specific item here may be a recorded character string or a predetermined character string other than the recorded character string.
  • the character string of the specific item may be a character string other than the recorded character string and a character string whose position is designated in advance.
  • the reliability calculation unit 196 calculates the reliability of the processing result of the image processing apparatus 1 based on the reliability of the character recognition itself (the certainty of the character or character string obtained by the character recognition). Also good.
  • the reliability calculation unit 196 is recorded in advance based on a learning result using a plurality of document images, and among the feature amounts indicating the character string features of the item for each type of document image and for each specific item, The reliability may be calculated based on the feature amount of the format of the document image to be subjected to character recognition processing.
  • the reliability calculation unit 196 determines whether the image is based on a characteristic amount related to the format characteristic of the character string of the specific item such as the attribute of the character included in the character string of the specific item or the coordinates of the range of the character string
  • the reliability of the processing result of the processing device 1 may be calculated.
  • the item indicates, for example, a predetermined type of information included in the document image.
  • the items are, for example, date information, address information, affiliation information, product information, numerical information, and the like.
  • the specific item is one or a plurality of items specified in advance among a plurality of items included in the document image.
  • the feature amount is, for example, a value that quantitatively indicates a predetermined feature related to a format in a document image of a character string of a specific item.
  • the predetermined feature may be different depending on the character string, or may be the same among a plurality of character strings.
  • the reliability indicates, for example, the degree of correlation between the character string feature amount for each specific item acquired based on a plurality of document images and the character string feature amount for each specific item in the processing target document image.
  • the reliability may be, for example, the similarity between the character string feature amount for each specific item acquired based on a plurality of document images and the character string feature amount for each specific item in the processing target document image. Good.
  • the format here includes character attributes and coordinates of a character string range.
  • the character attribute (character attribute) here is information represented by numbers, alphabets, hiragana, kanji, number of characters, character height, font, and the like.
  • the coordinates of the range of the character string are coordinates indicating the position of the character string in the document form.
  • the coordinates of the range of the character string may be information indicating the coordinates of the first character and the end character included in the character string.
  • the attribute of the character included in the character string and the coordinates of the range of the character string are collectively referred to as a character string attribute or a character string attribute.
  • the reliability calculation unit 196 calculates the reliability of the processing result of the image processing apparatus 1 based on both the reliability of the character recognition itself and the feature amount related to the format characteristic of the character string of the specific item. You may do it.
  • the reliability calculation unit 196 calculates the reliability of the processing result of the image processing apparatus 1 based on the feature amount related to the format characteristic of the character string of the specific item, the document format is not limited to the document image to be processed. You may make it use the feature-value of the document image processed by the analysis of (Format) etc. For example, the reliability calculation unit 196 may calculate the reliability based on the variation degree of the feature amount recorded in advance for the processed document image. When the variation degree of the feature amount is large, the format of the document given to the image processing apparatus is not constant, or the feature of the format analyzed by the image processing apparatus 1 does not sufficiently reflect the actual format. Conceivable. In this case, it is relatively likely that the document image to be processed has a format different from the format assumed by the image processing apparatus 1. In this respect, it is considered that the reliability of the processing result of the image processing apparatus 1 for the document image to be processed is low.
  • the processing machine of the document image to be processed has the same format as that assumed by the image processing apparatus 1, and it is considered that the reliability of the processing result of the image processing apparatus 1 for the document image to be processed is high. That is, it is expected that the image processing apparatus 1 is appropriately processing an image to be processed.
  • the reliability calculation unit 196 may calculate the reliability based on the degree of deviation of the feature amount recorded in the character recognition target document image in the pre-recorded feature amount.
  • the degree of deviation here is the magnitude of a difference from a standard value such as an average value, median value, or mode value.
  • a large degree of deviation means that the difference from the standard value is large. That the degree of deviation is small means that the difference from the standard value is small.
  • the degree of deviation is large, the format of the document image to be processed is different from the format assumed by the image processing apparatus 1 or the format analyzed by the image processing apparatus 1 even if the assumed format matches.
  • a possible cause is that the feature is not appropriate for the document image to be processed. In this case, it is considered that the reliability of the processing result of the image processing apparatus 1 for the document image to be processed is relatively low.
  • the format of the processing target document image is the same as the format assumed by the image processing apparatus 1.
  • the characteristics of the format analyzed by the image processing apparatus 1 are appropriate for the document image to be processed.
  • the reliability of the processing result of the image processing apparatus 1 for the document image to be processed is relatively high. That is, it is expected that the image processing apparatus 1 is appropriately processing an image to be processed.
  • the output destination selection unit 197 selects an output destination of a character recognition processing result by the image processing apparatus 1 according to the reliability calculated by the reliability calculation unit. As described with reference to FIG. 1, when it is determined that the reliability calculated by the reliability calculation unit 196 is low, the output destination selection unit 197 displays the processing result of the image processing device 1 as a terminal device. Send to 6-1. In this case, the image processing apparatus 1 receives confirmation / correction in the terminal apparatus 6-2 after receiving confirmation / correction in the terminal apparatus 6-1 for the processing result of the image processing apparatus itself. On the other hand, when it is determined that the reliability calculated by the reliability calculation unit 196 is high, the output destination selection unit 197 transmits the processing result of the image processing device 1 to the terminal device 6-2. In this case, the image processing apparatus 1 receives confirmation and correction in the terminal device 6-2 by omitting confirmation and correction in the terminal device 6-1 for the processing result of the image processing apparatus itself.
  • the image processing apparatus 1 reduces the labor of recording character string information to be recorded included in the image data of the new document form.
  • FIG. 4 is a schematic block diagram illustrating a functional configuration of the terminal device 6 according to the first embodiment.
  • the communication unit 210 communicates with other devices.
  • the communication unit 210 communicates with the image processing device 1 or another terminal device 6, and the processing result of the document image to be processed by the image processing device 1 or the processing result is corrected by another terminal device. Get the processing result with.
  • the communication unit 210 transmits a result of confirmation and correction performed on the obtained processing result by the terminal device 6 to the image processing device 1 or another terminal device 6.
  • the display unit 220 includes a display screen such as a liquid crystal panel or an LED (Light Emitting Diode) panel, and displays various images.
  • the display unit 220 displays the processing result of the document image to be processed by the image processing apparatus 1 or the processing result obtained by correcting the processing result in another terminal device.
  • the display unit 220 displays a document image to be processed and a character string of an OCR result by the image processing apparatus 1 for the document image.
  • the operation input unit 230 includes an input device such as a keyboard and a mouse, a touch sensor provided on the display screen of the display unit 220 to form a touch panel, or a combination thereof, and receives a user operation.
  • the operation input unit 230 receives a correction operation for a processing result of a document image to be processed by the image processing apparatus 1 or a processing result obtained by correcting the processing result by another terminal device.
  • storage part 280 is comprised using the memory
  • the control unit 290 is configured by a CPU included in the terminal device 6 reading and executing a program from the storage unit 280, and controls each unit of the terminal device 6 to execute various processes.
  • the control unit 290 controls display of an image by the display unit 220 and communication by the communication unit 210.
  • the control unit 290 detects a user operation accepted by the operation input unit 230.
  • FIG. 5 shows an example of a document form.
  • the mark of the company that created the document, the creation date, the person in charge of the creation, the document content, etc. are described in a format specific to the document form.
  • the document form is an order form
  • the document content indicates one or a plurality of sets of information such as the name of the ordered product and the number of orders.
  • the operator records a specific character string (recorded character string) to be recorded among the character strings described in the document form in the database 4 using the recording device 3.
  • the operator inputs a recording character string to be recorded in the database 4 by the recording device 3 while looking at the document form.
  • the operator causes the image reading device 2 to read the image data of the document form.
  • the document form is read by the image reading device 2 and output to the image processing device 1 based on the operation of the operator.
  • the recording device 3 Based on the operator's operation and the control of the image processing apparatus 1, the recording device 3 associates the image data for one document form with the recorded character string among the character strings described in the document form. Record in database 4.
  • the items are, for example, date 51, supplier 52, product name 53, quantity 54, and amount 55.
  • a character string of date 51, supplier 52, product name 53, quantity 54, and amount 55 is a recorded character string.
  • Other information such as a non-recorded character string that is not recorded by the operator is also printed on the document form 5.
  • the information includes, for example, the name 501 of the orderer who issued the document form, the emblem image 502 of the orderer, the title 503 of the document form, the greeting 504, and the like.
  • FIG. 6 is a diagram showing an outline of a recording table stored in the database.
  • the database 4 associates image data of a document form with a recording character string among character strings described in the document form and stores them in a recording table.
  • FIG. 7 is a first diagram illustrating a processing flow of the image processing apparatus according to the first embodiment.
  • FIG. 7 shows an example of a processing procedure in which the image processing apparatus 1 extracts the first feature amount.
  • the processing flow of the image processing apparatus 1 will be described in order.
  • a combination of image data for a document form and a recording character string described in the document form is recorded for a plurality of document forms having the same format.
  • a plurality of pieces of recorded character string information information indicating recorded character strings
  • image data and the recorded character string information for example, image data and recorded character string information of a document form handled in the past business can be used.
  • the acquisition unit 191 of the image processing apparatus 1 controls the communication unit 110 to read the image data of the document form and the information of the recorded character string corresponding to the image data from the database 4 (step S601).
  • the acquisition unit 191 outputs the image data and the recorded character string to the feature amount extraction unit 192.
  • the feature amount extraction unit 192 performs OCR processing on the image data to detect all character strings in the image data and coordinates in the image data indicating the range of the character string (step S602).
  • the character string is a group of characters composed of a plurality of characters.
  • the feature quantity extraction unit 192 analyzes the range of the one group based on an interval with other characters, extracts one or more characters included in the range as a character string, and character strings in the image data The coordinates indicating the range of are detected. Characters included as a character string may include symbols such as ideograms and phonetic characters, marks, icon images, and the like.
  • the feature amount extraction unit 192 compares the character string extracted from the image data by the OCR process with the recorded character string read from the database 4 together with the image data. Of the character strings extracted from the image data by OCR processing, the feature amount extraction unit 192 includes a character string in the image data that matches the character information of the recorded character string, a character attribute included in the character string, and a range of the character string. The coordinates are specified (step S603).
  • character attributes are information represented by numbers, alphabets, hiragana, kanji, number of characters, character height, font, and the like.
  • the coordinates of the range of the character string are coordinates indicating the position of the character string in the document form.
  • the coordinates of the range of the character string may be information indicating the coordinates of the first character and the end character included in the character string.
  • the attribute of the character included in the character string and the coordinates of the range of the character string are collectively referred to as a character string attribute or a character string attribute.
  • the character information here may be only a character string or may include a character string attribute. That is, the feature amount extraction unit 192 may determine whether the recorded character string and the character string in the image data are the same as the character string. Alternatively, the feature quantity extraction unit 192 may determine the identity of character string attributes in addition to the identity of characters.
  • the image processing apparatus 1 excludes the document image from the processing target (first feature amount extraction target). You may do it.
  • the image processing apparatus 1 causes the display unit 220 of the terminal device 6 to display an image showing the range of each candidate for the recorded character string on the frame, and to specify the character string selected by the operator as the recorded character string. It may be.
  • the recorded character string candidate here is a character string associated with a recorded character string that is determined not to be uniquely identified among character strings whose character information matches the character information of the recorded character string. .
  • the specification of the recorded character string here is to determine one of the character strings in the document form as one recorded character string.
  • the feature amount extraction unit 192 determines that the character information of each of the plurality of character strings in the document form matches the character information of one recorded character string, the plurality of character strings are determined as candidates for the recorded information. Become. When the worker selects any one of the plurality of character strings, the recorded character string is uniquely specified.
  • the feature amount extraction unit 192 extracts a feature amount common to the document forms of the same format and for each recorded character string (step S604). . Specifically, the feature amount extraction unit 192 analyzes the character string attribute of the recorded character string in a plurality of document forms for each recorded character string, and extracts one feature amount in one recorded character string.
  • the method by which the feature amount extraction unit 192 extracts the feature amount common to the document forms having the same format and for each recorded character string is not limited to a specific method. For example, the feature amount extraction unit 192 determines the coordinates of the first character, the coordinates of the last character, the character type, the character height, the font type, etc.
  • the feature amount extraction unit 192 has an average value (Median) or a median value (Median) for each item regarding attributes indicated by numerical values such as the coordinates of the first character, the coordinates of the last character, the height of the character, and the distance between characters. ) May be requested.
  • the feature quantity extraction unit 192 uses a feature quantity having a range such as a maximum or minimum value of an item represented by a numerical value, or a feature quantity represented by a plurality of numerical values. It may be. Further, the feature quantity extraction unit 192 may obtain the feature quantity by digitizing attributes other than numeric values such as character type and font type.
  • the feature amount extraction unit 192 may extract feature amounts using a known machine learning algorithm.
  • the feature amount extraction unit 192 acquires a plurality of numerical values for one format and one recorded character string of the document form, the feature amount of one vector may be extracted by vectorizing the plurality of numerical values. .
  • the feature amount extraction unit 192 extracts feature amounts for each document form and for each character string (for example, for each recorded character string), and the reliability calculation unit 196 may use the feature amount for calculation of reliability. Good.
  • the feature quantity extracted by the feature quantity extraction unit 192 and common to document forms of the same format and for each recorded character string is referred to as a first feature quantity.
  • the feature quantity extraction unit 192 extracts a first feature quantity of each recorded character string in the format using a plurality of document forms having the same format.
  • the first feature amount is a feature amount for extracting a recorded character string.
  • the first feature amount may include information indicating the attribute of the character, coordinates indicating the range of the character string, or a combination thereof.
  • the feature quantity extraction unit 192 records the first feature quantity obtained for each recorded character string in the database 4 in association with the identifier of the document form format (step S605).
  • the feature amount extraction unit 192 stores the character attributes and character strings of the date 51, the supplier 52, the product name 53, the quantity 54, and the amount 55 that are recorded character strings included in the format of the document form 5 in FIG.
  • Each first feature quantity indicating the coordinates indicating the range is recorded in the database 4 in association with the format identifier of the document form 5.
  • the image processing apparatus 1 can extract information (first feature amount) used to reduce the labor of recording the operator's recorded character string and store it in the database 4. As a result, the image processing apparatus 1 can receive the input of image data of a new document form and automatically record the recorded character string included in the document form in the database 4. The processing will be described with reference to FIG.
  • FIG. 8 is a second diagram showing a processing flow of the image processing apparatus according to the first embodiment.
  • FIG. 8 shows an example of a processing procedure in which the image processing apparatus 1 extracts a recorded character string from newly input image data.
  • the operator performs an operation for causing the image reading apparatus 2 to read a new document form.
  • the image reading apparatus 2 generates image data of the document form and outputs (transmits) it to the image processing apparatus 1.
  • the acquisition unit 191 of the image processing apparatus 1 acquires image data from the reception data of the communication unit 110 (step S701).
  • the acquisition unit 191 outputs the image data to the feature amount extraction unit 192.
  • the feature amount extraction unit 192 performs OCR processing on the image data, and for each character string, character strings, character features (character attributes) included in the character strings, and coordinates in the image data within the character string range are displayed for each character string. Detection is performed (step S702).
  • the feature quantity extraction unit 192 extracts a third feature quantity obtained by converting the detected information into feature quantities for each character string in the image data (step S703). That is, the third feature amount is information indicating the feature of the character string included in the document form of the newly read image data.
  • the feature quantity extraction unit 192 reads the first feature quantity for each recorded character string from the database 4 (step S704).
  • the feature quantity extraction unit 192 outputs the third feature quantity and the first feature quantity to the recording unit 193.
  • the recording unit 193 acquires a third feature amount for each character string in the image data and a first feature amount for each recorded character string.
  • the recording unit 193 determines whether or not the third feature value is uniquely associated with each first feature value (step S705).
  • the first feature amount is configured to include coordinates indicating the range of a character string.
  • the recording unit 193 uses the coordinates indicating the range of the character string included in each first feature value, and all the third feature values having coordinates corresponding to the coordinates indicated by the first feature values exist. It is determined whether or not.
  • step S705 When all the third feature values having coordinates corresponding to the coordinates of the first feature values exist (step S705: YES), the description of characters is included in all the items to be written in the document form corresponding to the recorded character string. Exists. On the other hand, when all the third feature values having coordinates corresponding to the coordinates of the first feature values do not exist (step S705: NO), there is no description of characters in any description items in the document form. is there.
  • step S705 the recording unit 193 determines whether or not the character attribute included in the first feature amount matches the character attribute included in the third feature amount corresponding to the first feature amount (Ste S706).
  • step S706 When the determination result in step S706 is YES and the character attributes match (step S706: YES), the recording unit 193 records characters based on the coordinates indicated by one or more third feature values in the currently processed image data. Generate a confirmation screen displaying a rectangular frame in the range of the column. The recording unit 193 outputs the confirmation screen to the monitor (step S707).
  • the operator can confirm the rectangular area displayed on the confirmation screen and confirm the recorded character string that the image processing apparatus 1 intends to record. As a result, the operator can confirm whether or not the recorded character string is short. That is, the operator can confirm whether or not all the recorded character strings are selected (whether or not they are surrounded by a rectangular frame on the confirmation screen).
  • An icon image of either OK or NG button is displayed on the confirmation screen.
  • OK button among the icon images of this button the operator can instruct that there is no shortage of selection as a recorded character string.
  • NG button among the icon images of the buttons the operator can instruct that there is a lack in selection as a recorded character string.
  • the recording unit 193 determines whether all the recorded character strings have been selected in response to pressing of the icon image of the operator's button (step S708). When all the recorded character strings are selected by the recording unit 193 (step S708: YES), the image processing apparatus 1 uses the terminal device 6 for the recorded character strings obtained as the processing results of the image processing apparatus 1 itself. In step S709, a process for confirming / correcting is performed.
  • FIG. 9 is a diagram illustrating an example of a processing procedure of the image processing apparatus 1 for causing the terminal device 6 to confirm and correct the processing result of the image processing apparatus 1.
  • the image processing apparatus 1 performs the process of FIG. 9 in step S709 of FIG.
  • the reliability calculation unit 196 calculates the reliability of the processing result of the image processing apparatus 1 (step S801).
  • the reliability calculation unit 196 calculates the reliability of the recorded character string specified by the recording unit 193.
  • the reliability calculation unit 196 calculates the reliability of the entire document form to be processed, such as calculating the average value of the reliability of the recorded character strings.
  • various feature amounts can be used as the feature amount used by the reliability calculation unit 196 for the reliability calculation.
  • the output destination selection unit 197 determines whether or not the reliability calculated by the reliability calculation unit 196 is high (step S802). For example, the output destination selection unit 197 determines whether or not the reliability is equal to or higher than a predetermined threshold, and determines that the reliability is high when the reliability is equal to or higher than the threshold. If it is determined in step S802 that the reliability is low (step S802: NO), the image processing device 1 transmits the processing result of the image processing device 1 itself and the image of the document form to the terminal device 6-1, and the processing result Confirmation and correction are received (step S803). Specifically, the output destination selection unit 197 determines the processing result and the image sound transmission destination of the document form to the terminal device 6-1 based on the reliability determination result.
  • the output destination selection unit 197 controls the communication unit 110 to transmit the processing result of the image processing device 1 and the image of the document form to the terminal device 6-1.
  • the terminal device 6-1 is a terminal device that is used by a person who makes a more formal determination regarding work, such as a key puncher.
  • the image processing apparatus 1 receives confirmation and correction at the terminal device 6-2 for the processing result of the image processing apparatus 1 itself (step S804). Also in the case of YES at step S802, the process proceeds to step S804.
  • the processing result of the image processing apparatus 1 (after correction by the terminal apparatus 6-1) and the document form image may be transmitted from the terminal apparatus 6-1 to the terminal apparatus 6-2.
  • the terminal apparatus 6-1 transmits the confirmation / correction result to the image processing apparatus 1, and the image processing apparatus 1 performs processing results of the image processing apparatus 1 (after correction by the terminal apparatus 6-1) and an image of the document form. May be transmitted to the terminal device 6-2.
  • the terminal device 6-2 is used by a person who makes a more substantive judgment regarding the business such as a customs officer or a judge (customs officer).
  • the display of the processing result of the image processing apparatus 1 by the terminal device 6-2 has a meaning of confirmation / correction of the processing result, but has a strong meaning of providing information to the user of the terminal device 6-2.
  • the image processing apparatus 1 acquires a confirmation / correction result of the processing result of the image processing apparatus 1 itself (step S805). Specifically, the terminal device 6-2 transmits the confirmation / correction result of the processing result of the image processing device 1 to the image processing device 1 according to the user operation. In the image processing apparatus 1, the communication unit 110 receives the confirmation / correction result. After step S805, the process of FIG. 9 ends.
  • the recording unit 193 records the recording character string in the recording table in association with the identification information of the document form (step S710).
  • the third feature value a3, the third feature value b3, the third feature value c3, and the third feature value d3 can be acquired from the image data of the document form.
  • the third feature quantity a3 is recorded in advance in the database, the first feature quantity a1, the third feature quantity b3 is the first feature quantity b1, the third feature quantity c3 is the first feature quantity c1, and the third feature.
  • the amount d3 matches the first feature amount d1 with the feature amount.
  • the recording unit 193 stores the character strings corresponding to the third feature value a3, the third feature value b3, the third feature value c3, and the third feature value d3 in the record table of the document form as a record character string. Record.
  • the character string corresponding to the third feature value here is a character string from which the third feature value is extracted.
  • the recording unit 193 records the corrected recording character string in the recording table in association with the identification information of the document form. After step S710, the image processing apparatus 1 ends the process of FIG.
  • the recording unit 193 has a third feature amount having coordinates corresponding to the coordinates indicated by the first feature amount. If not, perform the process. Specifically, the recording unit 193 inputs a form image (document form image) in which an input field is provided in the coordinate range of the first feature amount in which the third feature amount of the corresponding coordinate in the image data does not exist. Image data is generated and output to the monitor (step S721).
  • the input image data may be data described in a markup language such as HTML or XML.
  • the operator While viewing the input image data, the operator operates an input device such as a keyboard of the image processing apparatus 1 to input a recorded character string in the input field in the input image data displayed on the monitor.
  • a save button is displayed in the input image data.
  • the recording unit 193 inputs a new feature value in the input field of the input image data in addition to the third feature amount already acquired for the document form.
  • a third feature amount including the character string thus extracted is extracted (step S722).
  • Step S723 is the same as step S709.
  • the recording unit 193 records the identifier of the form image data and the recording character string in association with each other in the database 4 (step S724). Specifically, the recording unit 193 sets the input character string as the recorded character string for the character string input in the input field in step S722, and the first feature amount and the third character string for the other recorded characters. A character string specified by comparison with the feature amount is set as a recorded character string.
  • the recording unit 193 records the recorded character string and the identifier of the form image data in the database 4 in association with each other.
  • the recording unit 193 records the corrected recorded character string and the form image data identifier in the database 4 in association with each other.
  • the image processing apparatus 1 may update the first feature amount by the process of FIG.
  • the image processing apparatus 1 may perform the processing flow of FIG. 7 again after step S723.
  • the image processing apparatus 1 may perform additional learning after step S723 to update the first feature amount without performing processing again on the data processed in FIG.
  • the image processing apparatus 1 may update the first feature amount by performing the processing flow in FIG. 7 again or performing additional learning even after step S709.
  • the image processing device 1 updates the first feature value in the process of FIG. 8, thereby increasing the number of sample data and improving the accuracy of the first feature value, and the accuracy with which the image processing device 1 extracts the recorded character string. Is expected to improve.
  • the image processing apparatus 1 can also extract a newly added recorded character string from the image data, and the operator has to input the character string. Expect to save.
  • the image processing apparatus 1 uses the document form image data and the recorded character string previously recorded by the operator to record the recorded character string in the newly entered document form image data. Can be recorded automatically. Therefore, the image processing apparatus 1 can reduce the labor of the operator who records the recorded character string in the document form. Further, even when the recorded character string is not described in the document form, the image processing apparatus 1 outputs the input image data when the description items corresponding to the recorded character string that should originally be described are not described. . This makes it possible to find an error that has not been entered for a description item to be described in the document form, and to easily record a recorded character string indicated by the description item.
  • FIG. 10 is a schematic block diagram showing a functional configuration of the image processing apparatus according to the second embodiment.
  • the image processing apparatus 1 according to the second embodiment has functions of a group classification unit 194 and a group identification unit 195 in addition to the functional units shown in FIG. 3.
  • the functional configuration of the terminal device 6 according to the second embodiment is the same as the configuration shown in FIG.
  • FIG. 11 is a first diagram illustrating a processing flow of the image processing apparatus according to the second embodiment.
  • the processing flow of the image processing apparatus 1 according to the second embodiment will be described in order.
  • the database 4 a large number of combinations of image data for a plurality of document forms having different formats and recorded character strings described in each document form are recorded for each document form.
  • the worker activates the image processing apparatus 1 and instructs the image processing apparatus 1 to start processing.
  • the acquisition unit 191 of the image processing apparatus 1 determines whether or not all of the image data of the document form and the information of the recorded character string corresponding to the image data have been read from the database 4 (step S901). In the case of NO, the acquisition unit 191 reads the image data of the document form and the information of the recorded character string corresponding to the image data from the database 4 (Step S902). The acquisition unit 191 outputs the image data and the recorded character string to the feature amount extraction unit 192. The feature amount extraction unit 192 performs OCR processing on the image data to detect all character strings in the image data and coordinates in the image data (step S903).
  • the character string is a group of characters composed of a plurality of characters.
  • the feature quantity extraction unit 192 analyzes the range of the one group based on an interval with other characters, extracts one or more characters included in the range as a character string, and character strings in the image data The coordinates indicating the range of are detected. Characters included as a character string may include symbols such as ideograms and phonetic characters, marks, icon images, and the like.
  • the feature amount extraction unit 192 compares the character string extracted from the image data by the OCR process with the recorded character string read from the database 4 together with the image data. Of the character strings extracted from the image data by OCR processing, the feature amount extraction unit 192 includes a character string in the image data that matches the character information of the recorded character string, a character attribute included in the character string, and a range of the character string. The coordinates are specified (step S904).
  • character attributes are information represented by numbers, alphabets, hiragana, kanji, number of characters, character height, font, and the like.
  • the coordinates of the range of the character string are coordinates indicating the position of the character string in the document form.
  • the coordinates of the range of the character string may be information indicating the coordinates of the first character and the end character included in the character string.
  • the attribute of the character included in the character string and the coordinates of the range of the character string are collectively referred to as a character string attribute or a character string attribute.
  • the character information here may be only a character string or may include a character string attribute. That is, the feature amount extraction unit 192 may determine whether the recorded character string and the character string in the image data are the same as the character string. Alternatively, the feature quantity extraction unit 192 may determine the identity of character string attributes in addition to the identity of characters.
  • the image processing apparatus 1 excludes the document image from the processing target (first feature amount extraction target). You may do it.
  • the image processing apparatus 1 causes the display unit 220 of the terminal device 6 to display an image showing the range of each candidate for the recorded character string on the frame, and identifies the recorded character string as the character string selected by the operator. It may be.
  • the recorded character string candidate here is a recorded character string that is determined not to be uniquely identified among character strings whose character information matches the character information of the recorded character string. Is a character string associated with.
  • the specification of the recorded character string here is to determine one of the character strings in the document form as one recorded character string.
  • the feature amount extraction unit 192 determines that the character information of each of the plurality of character strings in the document form matches the character information of one recorded character string, the plurality of character strings are determined as candidates for the recorded information. Become. When the worker selects any one of the plurality of character strings, the recorded character string is uniquely specified.
  • the feature amount extraction unit 192 extracts a feature amount for each document form and for each recorded character string using the character string attributes extracted for each document form and for each recorded character string (step S905). Specifically, the feature amount extraction unit 192 converts the character string attribute of the character string associated with the recorded character string into a feature amount in step S904. Since a plurality of types of formats are targeted in the second embodiment, the first feature amount is directly extracted at the time of step S905 in which the document forms are not grouped by format, unlike the case of step S604 in FIG. I can't. Therefore, the feature amount extraction unit 192 extracts the feature amount for each document form and each recorded character string as preparation for extracting the first feature amount for each group.
  • This feature amount for each document form and each recorded character string is referred to as an individual first feature amount.
  • the feature amount extraction unit 192 records the obtained individual first feature amount in the database 4 in association with the identifier of the document form and the identifier of the recording character string (step S906).
  • the identifier of the recorded character string for example, a coordinate value indicating the position of the recorded character string can be used.
  • the feature amount extraction unit 192 stores the character attributes and character strings of the date 51, the supplier 52, the product name 53, the quantity 54, and the amount 55 that are recorded character strings included in the format of the document form 5 in FIG.
  • the individual first feature amount indicating the coordinates indicating the range is recorded in the database 4 in association with the identifier of the document form 5 and the identifier of the recorded character string for each document form and for each recorded character string.
  • the feature amount extraction unit 192 also extracts a non-recorded character string in the image data that does not match the character information included in the recorded character string, and a character string attribute of the non-recorded character string (step S907).
  • the non-recorded character string is a character string that is not recorded by the operator, that is, a character string other than the recorded character string.
  • the character string attribute may include one or both of information indicating the attribute of the character included in the character string and information indicating the coordinates of the range of the character string.
  • the feature amount extraction unit 192 extracts a feature amount for each document form and for each non-recorded character string using the character string attributes extracted for each document form and for each non-recorded character string (step S908). Specifically, the feature amount extraction unit 192 converts the attribute of the character string (character string attribute) into a feature amount for each character string that is not associated with any recorded character string in step S904. Similar to the case of the first feature amount, at the time of step S908 when the document forms are not grouped for each format, it is not possible to generate a common feature amount for the document forms of the same format.
  • the feature amount extraction unit 192 extracts the feature amount for each document form and for each non-recorded character string as preparation for extracting the second feature amount for each group.
  • This feature amount for each document form and for each non-recorded character string is referred to as an individual second feature amount.
  • the feature amount extraction unit 192 may generate individual second feature amounts for each document form and a plurality of non-recorded character strings. For example, the feature quantity extraction unit 192 may generate one individual second feature quantity for one document form.
  • the feature amount extraction unit 192 records the obtained individual second feature amount in the database 4 in association with the identifier of the document form and the identifier of the non-recorded character string (step S909).
  • an identifier of the non-recorded character string for example, a coordinate value indicating the position of the non-recorded character string can be used.
  • the feature amount extraction unit 192 includes an orderer name 501, an orderer's emblem image, a document form title 503, a greeting sentence 504, etc., which are non-recorded character strings included in the format of the document form 5 in FIG. 5.
  • the second feature amount is recorded in the database 4 in association with the identifier of the document form 5 and the identifier of the non-recorded character string.
  • step S901 If it is determined in step S901 that the acquisition unit 191 has read all the image data of the document form and the recorded character string information corresponding to the image data from the database 4 (step S901: YES), the group classification unit 194 The forms are grouped (step S921).
  • the group classification unit 194 groups the document form based on the individual second feature amount included in the image data of the document form. For example, the group classification unit 194 groups each document form based on the degree of coincidence of the non-recorded character string indicated by the individual second feature quantity, the degree of coincidence of the emblem image, or the degree of coincidence of the coordinate range of the non-recorded character string. To do.
  • the group classification unit 194 determines the group identifier of the document form in this grouping process.
  • the group classification unit 194 determines whether grouping has been completed for all document forms (step S922).
  • the group classification unit 194 repeats the process of step S921 when the grouping of all document forms has not been completed. Specifically, in step S922, when the group classification unit 194 determines that there is a document form that has not been grouped (step S922: NO), the process returns to step S921. When grouping of all document forms is completed (step S922: YES), the group classification unit 194 associates the identifier of the document form with the group identifier assigned to the document form, and stores the group table (recording) in the database 4 Table) (step S923).
  • the feature quantity extraction unit 192 reads from the database 4 each individual first feature quantity and each individual second feature quantity of one or more document forms belonging to a certain group.
  • the feature quantity extraction unit 192 extracts each group first feature quantity corresponding to each individual first feature quantity and each individual second feature quantity of each document form belonging to the group, and each group second feature quantity (step S924). ).
  • Each group first feature amount may be a value such as an average of the individual first feature amounts of document forms belonging to the group.
  • each group second feature value may be a value such as an average of the individual second feature values of document forms belonging to the group.
  • Each group first feature amount, each group second feature amount is not the average of each individual first feature amount, the average of each individual second feature amount, using a method such as predetermined statistical processing or machine learning, As long as the feature amount is calculated so that the recorded character string or non-recorded character string of one or a plurality of document forms belonging to the group can be specified, any technique can be used.
  • Two feature amounts may be extracted.
  • the feature amount extraction unit 192 may generate a group first feature amount by extracting a character string attribute for each recorded character string from a plurality of document forms belonging to the same group in step S924. Good. In this case, the feature quantity extraction unit 192 passes the extraction and recording of the individual first feature quantities in steps S905 and S906 (no particular processing is performed).
  • the individual second feature amount is extracted in step S908 by the feature amount extraction unit 192 so that it can be used in the grouping in step S921.
  • the group classification unit 194 may perform grouping of document forms using a non-recorded character string without using the individual second feature amount.
  • the feature amount extraction unit 192 may extract the group second feature amount (directly) from the character string attributes of the non-recorded character strings of a plurality of document forms belonging to the same group in step S924.
  • the feature quantity extraction unit 192 performs no particular processing in steps S907 to S909.
  • the feature quantity extraction unit 192 calculates each group first feature quantity and each group second feature quantity for each group, and records them in the database 4 in association with the group identifier (step S925). After step S925, the image processing apparatus 1 ends the process of FIG.
  • the image processing apparatus 1 extracts information (group first feature amount and group second feature amount) necessary for reducing the labor of recording the recorded character string of the worker for each group of document forms. Can be stored in the database 4. As a result, the image processing apparatus 1 can receive the input of image data of a new document form and automatically record the recorded character string included in the document form in the database 4. The processing will be described with reference to FIG.
  • FIG. 12 is a second diagram illustrating a processing flow of the image processing apparatus according to the second embodiment.
  • FIG. 12 shows an example of a processing procedure in which the image processing apparatus 1 extracts a recorded character string from newly input image data.
  • the operator performs an operation for causing the image reading apparatus 2 to read a new document form.
  • the image reading apparatus 2 generates image data of the document form and outputs (transmits) it to the image processing apparatus 1.
  • the acquisition unit 191 of the image processing apparatus 1 acquires image data from the reception data of the communication unit 110 (step S1001).
  • the acquisition unit 191 outputs the image data to the feature amount extraction unit 192.
  • the feature amount extraction unit 192 performs OCR processing on the image data, and for each character string, character strings, character features (character attributes) included in the character strings, and coordinates in the image data within the character string range are displayed for each character string. Detection is performed (step S1002).
  • the feature quantity extraction unit 192 extracts a third feature quantity obtained by converting the detected information into feature quantities for each character string in the image data (step S1003).
  • the third feature amount is information indicating the character string feature included in the document form of the newly read image data.
  • the group identification unit 195 reads the group second feature quantity used for group identification of a new document form among the group second feature quantities stored in the database 4.
  • the group second feature amount may be, for example, a feature amount corresponding to the orderer's emblem image 502 displayed in the image data of the document form.
  • the group specifying unit 195 determines whether information indicated by a certain group second feature amount can be specified from the image data of the document form acquired in step S1001.
  • the group specifying unit 195 performs the same processing using the group second feature amount for all groups.
  • the group specifying unit 195 newly reads the group having the group second feature value.
  • the document form image data group is identified (step S1004). Thereafter, the group identification unit 195 reads one or more group first feature values for the group from the database 4 (step S1005). The group specifying unit 195 outputs the third feature value and one or more group first feature values to the recording unit 193.
  • the group first feature amount is a feature amount for specifying one or a plurality of recorded character strings in the document form belonging to the group.
  • the recording unit 193 acquires a third feature amount and one or more group first feature amounts for one or more character strings in the image data.
  • the recording unit 193 uses the coordinates indicating the range of the character string included in each group first feature amount to determine whether or not all the third feature amounts having coordinates corresponding to the coordinates indicated by each group first feature amount exist. Is determined (step S1006).
  • step S1006: YES When all the third feature amounts having coordinates corresponding to the coordinates of the first feature amount of each group exist (step S1006: YES), the characters are described in all the description items in the document form corresponding to the recorded character string. Exists.
  • step S1006: NO when all the third feature amounts having coordinates corresponding to the coordinates of the first feature amount of each group do not exist (step S1006: NO), there is no description of characters in any description items in the document form. It is.
  • step S1006 the recording unit 193 determines whether or not the character attribute included in the group first feature amount matches the character attribute included in the corresponding third feature amount specified based on the coordinates. Determination is made (step S1007).
  • step S1007 If the determination result in step S1007 is YES, that is, the character attributes match, the recording unit 193 falls within the recorded character string range based on the coordinates indicated by one or more third feature values in the currently processed image data.
  • a confirmation screen displaying a rectangular frame is generated.
  • the recording unit 193 outputs the confirmation screen to the monitor (step S1008).
  • the operator can confirm the rectangular area displayed on the confirmation screen and confirm the recorded character string that the image processing apparatus 1 intends to record. As a result, the operator can confirm whether or not the recorded character string is short. That is, the operator can confirm whether or not all the recorded character strings are selected (whether or not they are surrounded by a rectangular frame on the confirmation screen).
  • An icon image of either OK or NG button is displayed on the confirmation screen.
  • the recording unit 193 determines whether or not all the recorded character strings are selected in response to pressing of the icon image of the operator's button (step S1009).
  • step S1009 YES
  • the image processing apparatus 1 uses the terminal device 6 for the recorded character strings obtained as the processing results of the image processing apparatus 1 itself.
  • step S1010 a process for confirming / correcting is performed.
  • Step S1010 is the same as step S709 in FIG.
  • the recording unit 193 records the recording character string in the recording table in association with the identification information of the document form (step S1011).
  • the case where the third feature value a3, the third feature value b3, the third feature value c3, and the third feature value d3 can be acquired from the image data of the document form will be exemplified.
  • the third feature quantity g3 in which the third feature quantity a3 is recorded in the database in advance the third feature quantity b3 is the group first feature quantity g12
  • the third feature quantity c3 is the group first feature quantity g13
  • the case where the third feature value d3 and the group first feature value g14 respectively match the feature values is illustrated.
  • the recording unit 193 stores the character strings corresponding to the third feature value a3, the third feature value b3, the third feature value c3, and the third feature value d3 in the record table of the document form as a record character string. Record.
  • the character string corresponding to the third feature value here is a character string from which the third feature value is extracted.
  • the recording unit 193 has a third feature amount having coordinates corresponding to the coordinates indicated by the group first feature amount. Process when it does not exist. Specifically, the recording unit 193 generates a form image (document form image) in which an input field is provided in the coordinate range of the group first feature quantity in which the third feature quantity of the corresponding coordinate in the image data does not exist. Input image data is generated and output to the monitor (step S1021).
  • the input image data may be data described in a markup language such as HTML or XML.
  • Step S1023 is the same as step S1010.
  • the recording unit 193 records the identifier of the form image data and the recording character string in association with each other in the database 4 (step S1024). Specifically, the recording unit 193 sets the input character string as the recorded character string for the character string input in the input field in step S1022, and the first feature amount and the third character string for the other recorded characters. A character string specified by comparison with the feature amount is set as a recorded character string. Then, the recording unit 193 records the recorded character string and the identifier of the form image data in the database 4 in association with each other. When the terminal device 6-1 or 6-2 is corrected, the recording unit 193 records the corrected recorded character string and the form image data identifier in the database 4 in association with each other. After step S1024, the image processing apparatus 1 ends the process of FIG.
  • the image processing apparatus 1 may update the first feature amount by the process of FIG. For example, the image processing apparatus 1 may perform the processing flow of FIG. 7 again after step S1023. Alternatively, the image processing apparatus 1 may perform additional learning after step S1023 so that the first feature amount is updated without performing processing again on the data processed in FIG. Further, the image processing apparatus 1 may update the first feature amount by performing the processing flow of FIG. 7 again or performing additional learning after step S1010.
  • the image processing device 1 updates the first feature value in the process of FIG. 12, thereby increasing the number of sample data and improving the accuracy of the first feature value, and the accuracy with which the image processing device 1 extracts the recorded character string. Is expected to improve. When a recorded character string is added in the process of FIG. 12, the image processing apparatus 1 can also extract a newly added recorded character string from the image data, so that the operator has to input the character string. Expect to save.
  • the image processing apparatus 1 sets the type of the newly entered document form according to the image data and the recorded character string of each of the plurality of formats previously recorded by the operator. Regardless, the recorded character string in the image data of the document form can be automatically recorded. Therefore, the image processing apparatus 1 can reduce the labor of the operator who records the recorded character string in the document form. Further, even when the recorded character string is not described in the document form, the image processing apparatus 1 outputs the input image data when the description items corresponding to the recorded character string that should originally be described are not described. . This makes it possible to find an error that has not been entered for a description item to be described in the document form, and to easily record a recorded character string indicated by the description item.
  • an operator may register a document form group in the image processing apparatus 1 in advance. For example, when registering image data of a document form in the past, an operator inputs a group identifier according to the type of document form and registers it in the database 4 in association with the image data of the document form. As a result, different types of forms are not mixed in the same group due to processing errors of the image processing apparatus 1, and the first feature amount can be extracted with high accuracy. In this case, at the time of registration, the worker inputs a group of document forms, but for a new form, the group is specified using the second feature amount as in step S1004.
  • the image processing apparatus 1 not only uses the second feature value to group document forms but also uses the first feature value and also uses the second feature value.
  • the document form may be grouped using the first feature amount.
  • the first feature value is the feature value of the recorded character string, but if it is the same type of document form, the coordinates of the recorded character string and its character attributes are considered to be the same. It becomes possible to divide into groups.
  • the first grouping is performed by an operator as shown in the fourth embodiment, and a new document form is grouped using the first feature amount in the process of step S1004, thereby accurately recording in the OCR process.
  • the character string can be read.
  • the acquisition unit 191 acquires a plurality of form image data and a recorded character string that is a recording target among character strings included in the form image data. Then, the group classification unit 194 groups the form image data based on the first feature amount. Then, the feature amount extraction unit 192 extracts a recorded character string using the first feature amount corresponding to the form image data included in the group.
  • a new form group is specified based on the second feature amount in step S1004.
  • the image processing apparatus 1 does not perform the process of specifying the group, but sequentially specifies all the groups set by the operator and reads out the first feature amount for each group. The number that matches the third feature value is counted. In the case of a correct group, the first feature value and the third feature value should match most often. For this reason, the image processing apparatus 1 records the character string included in each of the third feature amount of the specific group when the number of matches is the largest in step S1008. As a result, the recorded character string can be recorded without specifying the group.
  • the acquisition unit 191 acquires a plurality of form image data and a recorded character string that is a recording target among character strings included in the form image data.
  • the feature quantity extraction unit 192 then recognizes the first feature quantity indicating the feature of the recorded character string or the second recognition information other than the recorded character string based on the result of the recognition processing of the form image data acquired by the acquisition unit 191. Extract features.
  • the feature amount extraction unit 192 extracts a recorded character string using the first feature amount corresponding to the form image data included in a predetermined group set in advance.
  • the reliability calculation unit 196 calculates the reliability of the character recognition processing result for the character recognition processing target document image based on the feature amount of the character string of the specific item included in the document image.
  • the output destination selection unit 197 selects the output destination of the character recognition processing result according to the reliability calculated by the reliability calculation unit 196. Thereby, when it is determined that the reliability of the character recognition processing result is low, the image processing apparatus 1 confirms and corrects the processing result by, for example, a key puncher, and then sends the processing result to a customs officer or a judge. Can be presented.
  • the image processing apparatus 1 may omit the confirmation / correction by a key puncher, for example, and present the processing result to a customs officer or a judge. it can.
  • the image processing apparatus 1 when there are a plurality of persons who check and correct the reading result of the form, the reading result can be distributed so that the reading result can be checked and corrected efficiently.
  • the reliability calculation unit 196 is recorded in advance based on a learning result using a plurality of document images, and among the feature amounts indicating the character string features of the item for each type of document image and for each specific item, The reliability is calculated based on the feature amount regarding the format of the document image to be subjected to character recognition processing. As described above, it is expected that the reliability calculation unit 196 can calculate the reliability with relatively high accuracy by calculating the reliability based on the feature amount of the format of the document image to be subjected to character recognition processing.
  • the reliability calculation unit 196 calculates only the reliability based on the reliability of the character recognition itself and the feature amount of the format of the document image to be subjected to character recognition processing, and based only on the reliability of the character recognition itself It is expected that the reliability can be calculated with higher accuracy.
  • the reliability calculation unit 196 can calculate the reliability based on the first feature amount used by the recording unit 193 to specify the recorded character string. It is expected that the reliability calculation unit 196 can calculate the reliability with high accuracy in that the recording unit 193 calculates the reliability based on the feature amount used for specifying the recorded character string.
  • the reliability calculation unit 196 calculates the reliability based on the pre-recorded feature amount variation degree.
  • the variation degree of the feature amount is large, the format of the document given to the image processing apparatus is not constant, or the feature of the format analyzed by the image processing apparatus 1 does not sufficiently reflect the actual format. Conceivable. In this case, it is relatively likely that the document image to be processed has a format different from the format assumed by the image processing apparatus 1. In this respect, it is considered that the reliability of the processing result of the image processing apparatus 1 for the document image to be processed is low.
  • the reliability calculation unit 196 can calculate the reliability with high accuracy by calculating the reliability based on the degree of variation of the feature amount recorded in advance.
  • the reliability calculation unit 196 calculates the reliability based on the degree of deviation of the feature amount in the character recognition target document image from the pre-recorded feature amount.
  • the degree of deviation is large, the format of the document image to be processed is different from the format assumed by the image processing apparatus 1 or the format analyzed by the image processing apparatus 1 even if the assumed format matches.
  • a possible cause is that the feature is not appropriate for the document image to be processed. In this case, it is considered that the reliability of the processing result of the image processing apparatus 1 for the document image to be processed is relatively low.
  • the reliability calculation unit 196 calculates the reliability with high accuracy by calculating the reliability based on the degree of deviation of the feature quantity in the document image that is the character recognition target in advance. it can.
  • FIG. 13 is a diagram illustrating an example of the configuration of the image processing apparatus according to the embodiment.
  • An image processing apparatus 600 illustrated in FIG. 13 includes a reliability calculation unit 601 and an output destination selection unit 602.
  • the reliability calculation unit 601 calculates the reliability of the character recognition processing result for the character recognition processing target document image based on the feature amount of the character string of the specific item included in the document image.
  • the output destination selection unit 602 selects an output destination of the character recognition processing result according to the reliability calculated by the reliability calculation unit 601.
  • the image processing apparatus 600 when it is determined that the reliability of the character recognition processing result is low, the image processing apparatus 600, for example, receives confirmation / correction of the processing result from a key puncher, and then sends the processing result to a customs officer or a judge. Can be presented. Further, when it is determined that the reliability of the character recognition processing result is high, the image processing apparatus 600 may omit the confirmation / correction by a key puncher, for example, and present the processing result to a customs officer or a judge. it can. As described above, according to the image processing apparatus 600, when there are a plurality of persons who check and correct the reading result of the form, it is possible to sort the reading result so that the reading result can be checked and corrected efficiently.
  • Each of the above devices has a computer system inside.
  • a program for causing each device to perform the above-described processes is stored in a computer-readable recording medium of each device, and the above-described processing is performed by the computer of each device reading and executing the program.
  • the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like.
  • the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.
  • the program may be a program for realizing a part of the functions of each processing unit described above. Furthermore, what can implement
  • the present invention when there are a plurality of persons who check and correct the reading result of the form, it is possible to sort the reading result so that the reading result can be checked and corrected efficiently.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Quality & Reliability (AREA)

Abstract

文書画像に含まれる特定項目の文字列の特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する信頼度算出部と、前記信頼度に応じて前記文字認識処理結果の出力先を選択する出力先選択部と、を備える画像処理装置。

Description

画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
 本発明は、画像処理装置、画像処理方法およびプログラムを記憶する記憶媒体に関する。
 帳票の読み取りに関連して特許文献1には、読み取った帳票画像に基づいて帳票フォーマットを選択する方法が記載されている。この方法では、帳票フォーマットをグループ分けし、グループ毎に代表帳票フォーマットを1つ定めておく。そして、この方法では、読み取った帳票画像と代表帳票フォーマットとの特徴合致率に基づいて何れか1つのグループを選出する。さらにこの方法では、選出したグループ内の各帳票フォーマットのうち、読み取った帳票画像との特徴合致率が最も高い帳票フォーマットを選択する。
 また、特許文献2には、ニューラルネットワークを用いた機械学習が示されている。帳票の読み取りにおいても機械学習を用いて読み取り精度を向上させることが考えられる。
特開2016-048444号公報 特開2008-040682号公報
 帳票の読み取りでは、読み取り結果の確認および修正を支援できることが好ましい。例えば、読み取り結果の確認および修正を行う者が複数いる場合に、読み取り結果の確認および修正を効率よく行えるように、読み取り結果を振り分けられることが好ましい。
 本発明は、上述の課題を解決することのできる画像処理装置、画像処理方法およびプログラムを提供することを目的としている。
 本発明の第1の態様によれば、画像処理装置は、画像処理装置は、文書画像に含まれる特定項目の文字列の特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する信頼度算出部と、前記信頼度に応じて前記文字認識処理結果の出力先を選択する出力先選択部と、を備える。
 本発明の第2の態様によれば、画像処理方法は、文書画像に含まれる特定項目の文字列の特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出し、前記信頼度に応じて前記文字認識処理結果の出力先を選択する。
 本発明の第3の態様によれば、記憶媒体に記憶されたプログラムは、コンピュータに、文書画像に含まれる特定項目の文字列の特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出し、前記信頼度に応じて前記文字認識処理結果の出力先を選択する、処理を実行させる。
 この発明によれば、帳票の読み取り結果の確認および修正を行う者が複数いる場合に、読み取り結果の確認および修正を効率よく行えるように、読み取り結果を振り分けることができる。
実施形態に係る画像処理装置を含む画像処理システムの装置構成例を示す図である。 実施形態に係る画像処理装置のハードウェア構成例を示す図である。 第一実施形態に係る画像処理装置の機能構成を示す概略ブロック図である。 第一実施形態に係る端末装置の機能構成を示す概略ブロック図である。 文書帳票の一例を示す図である。 第一実施形態に係るデータベースが記憶する記録テーブルの概要を示す図である。 第一実施形態に係る画像処理装置の処理フローを示す第一の図である。 第一実施形態に係る画像処理装置の処理フローを示す第二の図である。 第一実施形態に係る画像処理装置の処理結果について端末装置にて確認・修正を行わせるための、画像処理装置1の処理手順の例を示す図である。 第二実施形態に係る画像処理装置の機能構成を示す概略ブロック図である。 第二実施形態に係る画像処理装置の処理フローを示す第一の図である。 第二実施形態に係る画像処理装置の処理フローを示す第二の図である。 実施形態に係る画像処理装置の構成の例を示す図である。
 以下、本発明の実施形態を説明するが、以下の実施形態は請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
 図1は、実施形態に係る画像処理装置を含む画像処理システムの装置構成例を示す図である。
 図1に示す構成で、画像処理システム100は画像処理装置1、画像読取装置2、記録装置3、データベース4、端末装置6-1および端末装置6-2により構成される。
 画像処理装置1は画像読取装置2と通信ケーブルにより接続されている。画像読取装置2は光学的に文書帳票などの画像データを取得して画像処理装置1へ出力する。画像処理装置1は文書帳票の画像データをOCR(Optical character recognition)処理し文字認識する。画像処理装置1は文字認識結果を記録装置3に出力し、記録装置3がその文字認識結果をデータベースに記録する。
なお、画像処理装置1が処理対象とする文書は、特定の種類のものに限定されない。OCR処理可能ないろいろな文書を、画像処理装置1の処理対象とすることができる。
 端末装置6-1および端末装置6-2は、それぞれ画像処理装置1に接続されている。また、端末装置6-1は端末装置6-2に接続されている。端末装置6-1、6-2のいずれも、画像処理装置1での処理結果を確認および修正するための端末装置である。但し、端末装置6-1と端末装置6-2とでは、使用者が異なる。端末装置6-1よりも端末装置6-2の方が、業務に関してより実体的な判断を行う者が使用する。
 例えば、画像処理システム100が税関で使用されて輸入申請書類等の書類の文字を読み取る場合、端末装置6-1をキーパンチャーが使用し、端末装置6-2を通関士または審査員(税関職員)等が使用するようにしてもよい。
 端末装置6-1と端末装置6-2とでは、使用者の違いに応じて使用形態に差異がある。画像処理装置1は、自らの処理結果について信頼度を算出し、信頼度が低いと判断した場合、端末装置6-1で処理結果に対する確認および修正を受けた後、端末装置6-2で処理結果に対する確認および修正を受ける。この場合、端末装置6-1が、画像処理装置1の処理結果に端末装置6-1での確認・修正を反映させ、直接端末装置6-2へ送信するようにしてもよい。あるいは、端末装置6-1が、端末装置6-1での確認・修正結果を画像処理装置1へ送信し、画像処理装置1が、画像処理装置1の処理結果に端末装置6-1での確認・修正を反映させ、端末装置6-2へ送信するようにしてもよい。
 一方、画像処理装置1は、自らの処理結果の信頼度が高いと判断した場合、端末装置6-1での確認および修正を省略して、端末装置6-2で処理結果に対する確認および修正を受ける。
 端末装置6-1と端末装置6-2とを総称して端末装置6と表記する。画像処理システム100が備える端末装置6の数は、2つ以上であればよい。従って、画像処理システム100が備える端末装置6の数は、図1に示す2つに限定されず、3つ以上であってもよい。
 データベース4は画像処理装置1と記録装置3とに接続されている。データベース4は記録装置3から過去に登録された複数の文書帳票の画像データとその画像データに含まれる文字列のうち記録対象となる文字列を示す記録文字列の対応関係を記憶している。記録文字列が示す文字列は文書帳票に記述される文字列のうちデータベース4に記録、保存しておくべき重要な文字列である。画像処理システム100を利用する作業者は予め、記録装置3を用いて過去に登録された複数の文書帳票の画像データとその画像データに含まれる文字列のうちの記録文字列をデータベース4に登録しておく。
 作業者を、画像処理装置1のユーザ、または単にユーザとも称する。作業者(画像処理システム100を実運用するための準備を行う者)と、画像処理システム100を実運用してOCR処理結果を取得する者とは、同一人物であってもよいし、異なる人物であってもよい。
 そしてデータベース4には文書帳票の画像データとその画像データに含まれる文字列の情報のうち記録対象となる文字列を示す記録文字列の情報との対応関係が、多くの文書帳票について十分に記録されているものとする。このような状態において、画像処理装置1は処理を行う。
 図2は画像処理装置のハードウェア構成例を示す図である。
 画像処理装置1は、CPU(Central Processing Unit)11、IF(Interface)12、通信モジュール13、ROM(Read Only Memory)14、RAM(Random Access Memory)15、HDD(Hard Disk Drive)16などの構成を備えたコンピュータである。通信モジュール13は画像読取装置2、記録装置3、データベース4および端末装置6の各々との間で無線通信を行うものであってもよいし、有線通信を行うものであってもよく、それら2つの機能を有していてもよい。
<第一実施形態>
 図3は、第一実施形態に係る画像処理装置1の機能構成を示す概略ブロック図である。
 通信部110は、図2の通信モジュールを用いて構成され、他の装置と通信を行う。特に、通信部110は、画像読取装置2、記録装置3、データベース4および端末装置6の各々と通信を行う。
 記憶部180は、図2のROM14、RAM15およびHDD16を用いて構成され、各種データを記憶する。
 制御部190は、図2のCPU11が、記憶部180(図2のROM14、RAM15およびHDD16)からプログラムを読み出して実行することで構成される。制御部190は、画像処理装置1の各部を制御して各種処理を実行する。
 取得部191は、文書帳票の画像データを取得する。
 特徴量抽出部192は、複数の文書帳票の画像データの認識処理結果に基づいて、文書帳票の画像データに含まれる記録文字列の特徴を示す第一特徴量を文書帳票の画像データ毎に抽出する。特徴量の抽出を特徴量の生成とも称する。
 記録部193は、新たな文書帳票の画像データにおける文字列の特徴量を用いて、新たな文書帳票の画像データから読み取った文字列の情報のうちの記録文字列を抽出して記録する。
 信頼度算出部196は、画像処理装置1の処理結果の信頼度を算出する。特に、信頼度算出部196は、画像処理システム100の実運用の際、画像処理装置1が新たな文書帳票の画像から記録文字列を抽出すると、得られた記録文字列の信頼度を算出する。具体的には、信頼度算出部196は、文書画像に含まれる特定項目の文字列の特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する。ここでいう特定項目の文字列は、記録文字列であってもよいし、記録文字列以外の所定の文字列であってもよい。例えば、特定項目の文字列が、記録文字列以外の文字列、かつ、予め位置を指定された文字列であってもよい。
 信頼度算出部196が信頼度算出に用いる特徴量として、いろいろな特徴量を用いることができる。例えば、信頼度算出部196が、文字認識そのものの信頼度(文字認識で得られた文字または文字列の確信度)に基づいて、画像処理装置1の処理結果の信頼度を算出するようにしてもよい。
 あるいは、信頼度算出部196が、複数の文書画像を用いた学習の結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す特徴量のうち、文字認識処理対象の文書画像の書式についての特徴量に基づいて、信頼度を算出するようにしてもよい。例えば、信頼度算出部196が、特定項目の文字列に含まれる文字の属性、または、その文字列の範囲の座標など、特定項目の文字列の書式的な特性に関する特徴量に基づいて、画像処理装置1の処理結果の信頼度を算出するようにしてもよい。
 項目は、例えば、文書画像に含まれる情報の所定の種別を示す。項目は、例えば、日付情報、宛名情報、所属情報、商品情報、数値情報などである。特定項目は、文書画像に含まれる複数の項目のうち、予め特定された1つまたは複数の項目である。
 特徴量は、例えば、特定項目の文字列の、文書画像における、書式に関する所定の特徴を定量的に示す値である。所定の特徴は複数であってもよい。所定の特徴は、文字列に応じて異なっていてもよいし、複数の文字列の間で同一であってもよい。
 信頼度は、例えば、複数の文書画像に基づいて取得された特定項目毎の文字列の特徴量と、処理対象の文書画像における特定項目毎の文字列の特徴量との相関度を示す。信頼度は、例えば、複数の文書画像に基づいて取得された特定項目毎の文字列の特徴量と、処理対象の文書画像における特定項目毎の文字列の特徴量との類似度であってもよい。
 ここでいう書式には、文字の属性と文字列の範囲の座標とが含まれる。
 ここでいう文字の属性(文字属性)は、数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントなどにより表される情報である。また文字列の範囲の座標は、文書帳票における文字列の位置を示す座標である。例えば、文字列の範囲の座標は、文字列に含まれる先頭文字の座標、終了文字の座標などを示す情報であってもよい。以下、文字列に含まれる文字の属性と文字列の範囲の座標とを総称して、文字列の属性または文字列属性と表記する。
 あるいは、信頼度算出部196が、文字認識そのものの信頼度と、特定項目の文字列の書式的な特性に関する特徴量との両方に基づいて、画像処理装置1の処理結果の信頼度を算出するようにしてもよい。
 信頼度算出部196が、特定項目の文字列の書式的な特性に関する特徴量に基づいて画像処理装置1の処理結果の信頼度を算出する場合、処理対象の文書画像に限らず、文書の書式(Format)の解析等で処理済みの文書画像の特徴量を用いるようにしてもよい。
 例えば、信頼度算出部196が、処理済みの文書画像について予め記録された特徴量のばらつき度合いに基づいて信頼度を算出するようにしてもよい。特徴量のばらつき度合いが大きい場合、画像処理装置に与えられる文書の書式が一定していない、あるいは、画像処理装置1が解析した書式の特徴が実際の書式を十分に反映していないといった原因が考えられる。この場合、処理対象の文書画像についても、画像処理装置1が想定している書式と異なる書式である可能性が比較的高い。この点で、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が低いと考えられる。
 一方、特徴量のばらつき度合いが小さい場合、画像処理装置に与えられる文書の書式が一定しており、かつ、画像処理装置1が解析した書式の特徴が実際の書式を十分に反映していると考えられる。この場合、処理対象の文書画像の処理機が、画像処理装置1が想定している書式と同じであり、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が高いと考えられる。すなわち、画像処理装置1が、処理対象の画像を適切に処理していると期待される。
 あるいは、信頼度算出部196が、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いに基づいて信頼度を算出するようにしてもよい。ここでいう偏差の度合いは、平均値、中央値または最頻値などの標準値との差の大きさである。偏差の度合いが大きいとは、標準値との差が大きいことである。偏差の度合いが小さいとは、標準値との差が小さいことである。
 偏差の度合いが大きい場合、処理対象の文書画像の書式が、画像処理装置1が想定している書式と異なる、あるいは、想定している書式は合っていても画像処理装置1が解析した書式の特徴が、処理対象の文書画像については適切でないといった原因が考えられる。この場合、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が比較的低いと考えられる。
 一方、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いが小さい場合、処理対象の文書画像の書式が、画像処理装置1が想定している書式と同じであり、かつ、画像処理装置1が解析した書式の特徴が、処理対象の文書画像について適切であると考えられる。この場合、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が比較的高いと考えられる。すなわち、画像処理装置1が、処理対象の画像を適切に処理していると期待される。
 出力先選択部197は、信頼度算出部が算出した信頼度に応じて、画像処理装置1による文字認識処理結果の出力先を選択する。図1を参照して出力先選択について説明したように、信頼度算出部196が算出した信頼度が低いと判定された場合、出力先選択部197は、画像処理装置1の処理結果を端末装置6-1へ送信する。この場合、画像処理装置1は、画像処理装置自らの処理結果について、端末装置6-1での確認・修正を受けた後、端末装置6-2での確認修正を受ける。
 一方、信頼度算出部196が算出した信頼度が高いと判定された場合、出力先選択部197は、画像処理装置1の処理結果を端末装置6-2へ送信する。この場合、画像処理装置1は、画像処理装置自らの処理結果について、端末装置6-1での確認・修正を省略して、端末装置6-2における確認修正を受ける。
 このような処理により画像処理装置1は新たな文書帳票の画像データに含まれる記録するべき文字列情報の記録の労力を軽減する。
 図4は、第一実施形態に係る端末装置6の機能構成を示す概略ブロック図である。
 通信部210は、他の装置と通信を行う。特に、通信部210は、画像処理装置1または他の端末装置6と通信を行い、画像処理装置1による処理対象の文書画像の処理結果、あるいは、その処理結果に対して他の端末装置で修正が加えられた処理結果を取得する。
 また、通信部210は、得られた処理結果に対して端末装置6で確認・修正が行われた結果を、画像処理装置1または他の端末装置6へ送信する。
 表示部220は、例えば液晶パネルまたはLED(Light Emitting Diode)パネル等の表示画面を備え、各種画像を表示する。特に、表示部220は、画像処理装置1による処理対象の文書画像の処理結果、あるいは、その処理結果に対して他の端末装置で修正が加えられた処理結果を表示する。例えば、表示部220は、処理対象の文書画像と、その文書画像に対する画像処理装置1によるOCR結果の文字列とを表示する。
 操作入力部230は、例えばキーボードおよびマウス、あるいは、表示部220の表示画面に設けられてタッチパネルを構成するタッチセンサ、あるいはこれらの組み合わせなどの入力デバイスを備え、ユーザ操作を受け付ける。特に、操作入力部230は、画像処理装置1による処理対象の文書画像の処理結果、あるいは、その処理結果に対して他の端末装置で修正が加えられた処理結果に対する修正操作を受け付ける。
 記憶部280は、端末装置6が備える記憶デバイスを用いて構成され、各種データを記憶する。
 制御部290は、端末装置6が備えるCPUが記憶部280からプログラムを読み出して実行することで構成され、端末装置6の各部を制御して各種処理を実行する。特に、制御部290は、表示部220による画像の表示、および、通信部210による通信を制御する。また、制御部290は、操作入力部230が受け付けるユーザ操作を検出する。
 図5は文書帳票の一例を示す図である。
 この図が示すように文書帳票には、例えば、その文書を作成した企業のマーク、作成日、作成担当者、文書内容等が、その文書帳票に特有のフォーマットで記述されている。文書内容は、例えば文書帳票が発注票であれば発注した商品名やその発注個数などの情報の組が1つまたは複数示される。作業者はある1つの文書帳票に基づいて、その文書帳票に記述されている文字列のうち記録すべき特定の文字列(記録文字列)を、記録装置3を用いてデータベース4へ記録する。具体的には作業者は文書帳票を見ながら記録装置3がデータベース4に記録すべき記録文字列を入力する。また作業者は文書帳票の画像データを画像読取装置2に読み込ませる。文書帳票は作業者の操作に基づいて画像読取装置2が読み取り画像処理装置1へ出力する。そして記録装置3は作業者の操作と画像処理装置1の制御とに基づいて、1つの文書帳票についての画像データと、その文書帳票に記述されている文字列のうち記録文字列を対応付けてデータベース4に記録する。
 図5の例において、項目は、例えば、日付51、発注先52、商品名53、数量54、及び金額55である。また、図5の例においては、日付51、発注先52、商品名53、数量54、及び金額55の文字列が記録文字列である。文書帳票5には作業者によって記録されない非記録文字列等のその他の情報も印字されている。当該情報は例えば文書帳票を発行した発注者の名称501、発注者のエンブレム画像502、文書帳票のタイトル503、挨拶文504などである。
 図6はデータベースが記憶する記録テーブルの概要を示す図である。
 図6で示すようにデータベース4は文書帳票についての画像データと、その文書帳票に記述されている文字列のうち記録文字列を対応付けて記録テーブルに記憶する。
 図7は第一実施形態に係る画像処理装置の処理フローを示す第一の図である。図7は、画像処理装置1が第一特徴量を抽出する処理手順の例を示す。
 次に画像処理装置1の処理フローについて順を追って説明する。
 まずデータベース4にはある文書帳票についての画像データと、その文書帳票に記述されている記録文字列との組み合わせが、同じ書式の文書帳票複数枚分記録されている。例えば図5で示す文書帳票5の書式の記録文字列情報(記録文字列を示す情報)が複数枚分記録されているとする。
 これら画像データと記録文字列情報との組み合わせとして、例えば過去の業務で扱われた文書帳票の画像データおよび記録文字列情報を用いることができる。過去の業務から画像データおよび記録文字列情報を必要量確保できる場合、画像処理装置に第一特徴量を取得させるために画像データおよび記録文字列情報を別途用意する必要はない。
 このような状態で作業者が画像処理装置1を起動し、当該画像処理装置1へ処理開始を指示する。
 画像処理装置1の取得部191は、通信部110を制御してデータベース4から文書帳票の画像データとその画像データに対応する記録文字列の情報とを読み取る(ステップS601)。取得部191は画像データと記録文字列とを特徴量抽出部192へ出力する。
 特徴量抽出部192は画像データをOCR処理して画像データ中の全ての文字列と、当該文字列の範囲を示す画像データ内の座標とを検出する(ステップS602)。なお文字列は複数の文字によって構成される文字の纏まりである。特徴量抽出部192は他の文字との間隔などによってその1つの纏まりの範囲を解析し、その範囲に含まれる1つまたは複数の文字を文字列として抽出すると共に、その画像データ内の文字列の範囲を示す座標を検出する。文字列として含まれる文字は、表意文字、表音文字などの記号、マーク、アイコン画像などを含んでよい。
 特徴量抽出部192はOCR処理により画像データから抽出した文字列と、画像データと共にデータベース4から読み取った記録文字列とを比較する。特徴量抽出部192はOCR処理により画像データから抽出した文字列のうち、記録文字列の文字情報と一致した画像データ中の文字列と、その文字列に含まれる文字の属性と、その範囲の座標とを特定する(ステップS603)。
 上述したように、文字の属性(文字属性)は、数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントなどにより表される情報である。また文字列の範囲の座標は、文書帳票における文字列の位置を示す座標である。例えば、文字列の範囲の座標は、文字列に含まれる先頭文字の座標、終了文字の座標などを示す情報であってもよい。また、文字列に含まれる文字の属性と文字列の範囲の座標とを総称して、文字列の属性または文字列属性と表記する。
 また、ここでの文字情報は、文字列のみであってもよいし、文字列属性を含んでいてもよい。すなわち、特徴量抽出部192が、記録文字列と画像データ中の文字列とが文字列として同一か否かを判定するようにしてもよい。あるいは、特徴量抽出部192が、文字の同一性に加えて、文字列属性の同一性を判定するようにしてもよい。
 なお、特徴量抽出部192が記録文字列と文字情報が一致する文字列を一意に特定できない場合、画像処理装置1が、その文書画像を処理対象(第一特徴量の抽出対象)から除外するようにしてもよい。あるいは、画像処理装置1が、記録文字列の候補それぞれの範囲を枠で示した画像を端末装置6の表示部220に表示させ、作業者によって選択された文字列を記録文字列として特定させるようにしてもよい。ここでいう記録文字列の候補は、文字情報が記録文字列の文字情報と一致した文字列のうち、一意に特定されていないと判定された記録文字列に対応付けられている文字列である。また、ここでいう記録文字列の特定は、文書帳票における文字列のうち何れか1つを、1つの記録文字列に決定することである。
 特徴量抽出部192が、1つの記録文字列の文字情報に対して、文書帳票における複数の文字列それぞれの文字情報が一致すると判定した場合、これら複数の文字列が、その記録情報の候補となる。作業者が、これら複数の文字列のうち何れか1つを選択することで、記録文字列が一意に特定される。
 次に、特徴量抽出部192は、文書帳票毎かつ記録文字列毎に抽出した文字列属性を用いて、同じ書式の文書帳票に共通かつ記録文字列毎の特徴量を抽出する(ステップS604)。
 具体的には、特徴量抽出部192は、記録文字列毎に、複数の文書帳票におけるその記録文字列の文字列属性を解析して、1つの記録文字列に1つの特徴量を抽出する。
 特徴量抽出部192が、同じ書式の文書帳票に共通かつ記録文字列毎の特徴量を抽出する方法は、特定の方法に限定されない。例えば、特徴量抽出部192が、複数の文書帳票から得られた複数の文字列属性について、先頭の文字の座標、末尾の文字の座標、文字の種類、文字の高さ、フォントの種類などの項目毎に最頻値(Mode)を求めるようにしてもよい。また、特徴量抽出部192が、先頭の文字の座標、末尾の文字の座標、文字の高さ、文字間の距離など数値で示される属性について項目毎に平均値(Average)または中央値(Median)を求めるようにしてもよい。また、特徴量抽出部192が、数値で表される項目について、その最大値および最小値を特徴量とするなど、範囲を有する特徴量、あるいは、複数の数値で表される特徴量を用いるようにしてもよい。また、特徴量抽出部192が、文字の種類、フォントの種類など数値以外の属性を数値化して特徴量を求めるようにしてもよい。また、特徴量抽出部192が、公知の機械学習アルゴリズムを用いて特徴量を抽出するようにしてもよい。
 特徴量抽出部192が、文書帳票の1つの書式かつ1つの記録文字列について複数の数値を取得した場合、これら複数の数値をベクトル化して1つのベクトルの特徴量を抽出するようにしてもよい。
 特徴量抽出部192が、ステップS604で、文書帳票毎かつ文字列毎(例えば記録文字列毎)に特徴量を抽出しておき、信頼度算出部196が信頼度の算出に用いるようにしてもよい。
 特徴量抽出部192が抽出した、同じ書式の文書帳票に共通かつ記録文字列毎の特徴量を第一特徴量と称する。特徴量抽出部192は、同じ書式の複数枚の文書帳票を用いて、その書式における記録文字列それぞれの第一特徴量を抽出する。第一特徴量は記録文字列を抽出するための特徴量である。第一特徴量に、文字の属性を示す情報、文字列の範囲を示す座標の何れか、またはこれらの組み合わせが含まれていてもよい。
 特徴量抽出部192は、記録文字列毎に得られた第一特徴量を、文書帳票の書式の識別子に紐づけてデータベース4に記録する(ステップS605)。
 例えば特徴量抽出部192は、図5の文書帳票5の書式に含まれる記録文字列である日付51、発注先52、商品名53、数量54、及び金額55それぞれの、文字属性、文字列の範囲を示す座標などを示す各第一特徴量を、文書帳票5の書式識別子に紐づけてデータベース4に記録する。
 ステップS605の後、画像処理装置1は、図7の処理を終了する。
 以上の処理により画像処理装置1は、作業者の記録文字列を記録する労力を軽減するために利用する情報(第一特徴量)を抽出してデータベース4に蓄積することができる。これにより画像処理装置1は新たな文書帳票の画像データの入力を受けて、その文書帳票に含まれる記録文字列を自動でデータベース4に記録していくことができる。図8を参照して、その処理について説明する。
 図8は第一実施形態に係る画像処理装置の処理フローを示す第二の図である。図8は、画像処理装置1が、新たに入力された画像データから記録文字列を抽出する処理手順の例を示す。
 作業者は新たな文書帳票を画像読取装置2に読み取らせる操作を行う。これにより画像読取装置2は文書帳票の画像データを生成して画像処理装置1へ出力(送信)する。画像処理装置1の取得部191は、通信部110の受信データから画像データを取得する(ステップS701)。取得部191は画像データを特徴量抽出部192へ出力する。特徴量抽出部192は画像データをOCR処理して、文字列と、その文字列に含まれる文字の特徴(文字属性)と、その文字列の範囲の画像データ中の座標とを文字列毎に検出する(ステップS702)。特徴量抽出部192はそれら検出した情報を特徴量化した第三特徴量を、画像データ中の文字列毎に抽出する(ステップS703)。つまり第三特徴量は新たに読み込んだ画像データの文書帳票に含まれる文字列の特徴を示す情報である。その後、特徴量抽出部192はデータベース4から記録文字列毎の第一特徴量を読み出す(ステップS704)。特徴量抽出部192は記録部193へ第三特徴量と第一特徴量とを出力する。
 記録部193は画像データ中の文字列毎の第三特徴量と、記録文字列毎の第一特徴量とを取得する。記録部193は、各第一特徴量に対して第三特徴量が一意に対応付けられるか否かを判定する(ステップS705)。例えば、第一特徴量が文字列の範囲を示す座標を含んで構成されている。この場合、記録部193は、各第一特徴量に含まれる文字列の範囲を示す座標を用いて、各第一特徴量が示す当該座標に対応する座標を有する第三特徴量が全て存在するか否かを判定する。
 各第一特徴量の座標に対応する座標を有する第三特徴量が全て存在する場合(ステップS705:YES)には、記録文字列に対応する文書帳票内の全ての記載事項に文字の記載が存在する。一方、各第一特徴量の座標に対応する座標を有する第三特徴量が全て存在しない場合には(ステップS705:NO)、文書帳票内の何れかの記載事項に文字の記載が無い状態である。
 ステップS705でYESの場合、記録部193は、第一特徴量に含まれる文字属性と、その第一特徴量に対応する第三特徴量に含まれる文字属性がそれぞれ一致するかどうかを判定する(ステップS706)。
 記録部193は、ステップS706の判定結果がYESとなり文字属性が一致する場合(ステップS706:YES)、現在処理している画像データにおいて1つまたは複数の第三特徴量が示す座標に基づく記録文字列の範囲に矩形枠を表示した確認画面を生成する。記録部193はその確認画面をモニタに出力する(ステップS707)。作業者はこの確認画面に表示された矩形領域を確認して、画像処理装置1が記録しようとする記録文字列を確認することができる。これにより作業者は記録文字列に不足が無いか否かを確認することができる。すなわち、作業者は全ての記録文字列が選択されているか否かを(確認画面において矩形枠で囲まれているか否か)確認することができる。
 確認画面にはOKまたはNGの何れかのボタンのアイコン画像が表示されている。このボタンのアイコン画像のうちOKのボタンを選択することにより作業者は記録文字列としての選択に不足がないことを指示することができる。他方、ボタンのアイコン画像のうちNGのボタンを選択することにより作業者は記録文字列としての選択に不足があることを指示することができる。
 なお確認画面をモニタに出力する理由を、図5を用いて説明する。図5では、記録文字列のうち商品名53が6つ記入されている。過去の文書帳票においても6つの商品名53の記入が最大だった場合、新たな文書帳票に対して、商品名53は1~6個の範囲内で自動的に記録文字列と判定される。したがって、例えば新たな帳票では商品名53が7つ記載されていた場合、1~6個目までの部分については、ステップS705、S706いずれもYESとなる。このため、画像処理装置1は7個目の文字列を記録せずに終了してしまう。
 このような事象が改善されるように、画像処理装置1は、ステップS707で記録文字列を記録する前に、確認画面を表示して、作業者に対して、記録して終了してよいか否かの確認を行う。
 記録部193は作業者のボタンのアイコン画像の押下に応じて、全ての記録文字列が選択されているかを判定する(ステップS708)。記録部193は全ての記録文字列が選択されている場合(ステップS708:YES)には、画像処理装置1は、画像処理装置1自らの処理結果として得られた記録文字列について、端末装置6にて確認・修正を行わせるための処理を行う(ステップS709)。
 図9は、画像処理装置1の処理結果について端末装置6にて確認・修正を行わせるための、画像処理装置1の処理手順の例を示す図である。画像処理装置1は、図8のステップS709で図9の処理を行う。
 図9の処理で、信頼度算出部196は、画像処理装置1の処理結果の信頼度を算出する(ステップS801)。例えば、信頼度算出部196は、記録部193が特定した記録文字列の信頼度を算出する。記録文字列が複数ある場合、信頼度算出部196は、記録文字列の信頼度の平均値を算出するなど、処理対象の文書帳票全体についての信頼度を算出する。上述したように、信頼度算出部196が信頼度算出に用いる特徴量として、いろいろな特徴量を用いることができる。
 次に、出力先選択部197は、信頼度算出部196が算出した信頼度が高いか否かの判定を行う(ステップS802)。例えば、出力先選択部197は、信頼度が所定の閾値以上か否かを判定し、閾値以上である場合に信頼度が高いと判定する。
 ステップS802で信頼度が低いと判定した場合(ステップS802:NO)、画像処理装置1は、画像処理装置1自らの処理結果および文書帳票の画像を端末装置6-1へ送信し、処理結果の確認および修正を受ける(ステップS803)。具体的には、出力先選択部197が、信頼度の判定結果に基づいて、処理結果および文書帳票の画像音送信先を端末装置6-1に決定する。そして、出力先選択部197は、通信部110を制御して、画像処理装置1の処理結果および文書帳票の画像を端末装置6-1へ送信させる。
 端末装置6-1は、例えばキーパンチャーなど、業務に関してより形式的な判断を行う者が使用する端末装置である。
 次に画像処理装置1は、画像処理装置1自らの処理結果について、端末装置6-2での確認および修正を受ける(ステップS804)。ステップS802でYESの場合も、処理がステップS804へ進む。上述したように、端末装置6-1から端末装置6-2へ、(端末装置6-1で修正後の)画像処理装置1の処理結果および文書帳票の画像を送信するようにしてもよい。あるいは、端末装置6-1が確認・修正結果を画像処理装置1へ送信し、画像処理装置1が、(端末装置6-1で修正後の)画像処理装置1の処理結果および文書帳票の画像を端末装置6-2へ送信するようにしてもよい。
 端末装置6-2は、例えば通関士または審査員(税関職員)など、業務に関してより実体的な判断を行う者が使用する。端末装置6-2による画像処理装置1の処理結果の表示は、処理結果の確認・修正の意味合いもあるが、端末装置6-2の使用者への情報提供の意味合いが強い。
 その後、画像処理装置1は、画像処理装置1自らの処理結果の確認・修正結果を取得する(ステップS805)。具体的には、端末装置6-2がユーザ操作に従って画像処理装置1の処理結果の確認・修正結果を画像処理装置1へ送信する。画像処理装置1では、通信部110が、その確認・修正結果を受信する。
 ステップS805の後、図9の処理を終了する。
 図8のステップS709の後、記録部193は、記録文字列を文書帳票の識別情報に対応付けて記録テーブルに記録する(ステップS710)。
 例えば、文書帳票の画像データ中から第三特徴量a3、第三特徴量b3、第三特徴量c3、第三特徴量d3が取得できたとする。そして第三特徴量a3が予めデータベースに記録されている第一特徴量a1と、第三特徴量b3が第一特徴量b1と、第三特徴量c3が第一特徴量c1と、第三特徴量d3が第一特徴量d1とそれぞれ特徴量が一致したとする。この場合、記録部193は、第三特徴量a3、第三特徴量b3、第三特徴量c3、及び第三特徴量d3それぞれに対応する文字列を、記録文字列として文書帳票の記録テーブルに記録する。ここでいう第三特徴量に対応する文字列は、その第三特徴量の抽出元の文字列である。
 端末装置6-1または端末装置6-2で記録文字列が修正された場合、記録部193は、修正後の記録文字列を文書帳票の識別情報に対応付けて記録テーブルに記録する。
 ステップS710の後、画像処理装置1は、図8の処理を終了する。
 上述のステップS705でNOの場合、またはステップS706でNOの場合、またはステップS708でNOの場合、記録部193は、第一特徴量が示す当該座標に対応する座標を有する第三特徴量が存在しなかった場合の処理を行う。具体的には記録部193は、画像データ中の対応する座標の第三特徴量が存在しなかった第一特徴量の座標の範囲に入力欄を設けた帳票画像(文書帳票の画像)の入力用画像データを生成してモニタに出力する(ステップS721)。入力用画像データはHTMLやXMLなどのマークアップ言語で記述されたデータであってよい。作業者はこの入力用画像データを見ながら、画像処理装置1のキーボード等の入力装置を操作して、モニタに表示されている入力用画像データ内の入力欄に記録文字列を入力する。当該入力用画像データには保存ボタンが表示されており、保存ボタンの押下操作をすると記録部193は既に文書帳票について取得した第三特徴量の他、新たに入力用画像データの入力欄に入力された文字列を含む第三特徴量を抽出する(ステップS722)。
 次に、画像処理装置1は、画像処理装置1自らの処理結果として得られた記録文字列について、端末装置6にて確認・修正を行わせるための処理を行う(ステップS723)。ステップS723は、ステップS709と同様である。
 ステップS723の後、記録部193は、帳票画像データの識別子と記録文字列とを対応付けてデータベース4に記録する(ステップS724)。具体的には、記録部193は、ステップS722で入力欄に入力された文字列については、入力された文字列を記録文字列とし、それ以外の記録文字については、第一特徴量と第三特徴量との比較で特定された文字列を記録文字列とする。そして、記録部193は、記録文字列と帳票画像データの識別子とを対応付けてデータベース4に記録する。端末装置6-1または6-2で修正があった場合、記録部193は、修正後の記録文字列と帳票画像データの識別子とを対応付けてデータベース4に記録する。
 ステップS724の後、画像処理装置1は、図8の処理を終了する。
 画像処理装置1が、図8の処理で第一特徴量を更新するようにしてもよい。例えば画像処理装置1が、ステップS723の後、図7の処理フローを再度実施するようにしてもよい。あるいは画像処理装置1が、ステップS723の後に追加学習を行うことで、図7で処理済みのデータについては再度処理を行うことなく第一特徴量を更新するようにしてもよい。さらに、画像処理装置1が、ステップS709の後も、図7の処理フローの再実施または追加学習にて第一特徴量を更新するようにしてもよい。
 画像処理装置1が、図8の処理で第一特徴量を更新することで、サンプルデータ数が増加して第一特徴量の精度が向上し、画像処理装置1が記録文字列を抽出する精度が向上することが期待される。また、図8の処理で記録文字列が追加された場合、画像処理装置1が新たに追加された記録文字列についても画像データから抽出できるようになり、作業者が文字列を入力する手間を省けることが期待される。
 図8に示す処理によれば、画像処理装置1は予め作業者が記録しておいた文書帳票の画像データと記録文字列とによって、新たに入力させた文書帳票の画像データにおける記録文字列を自動的に記録することができる。したがって画像処理装置1は文書帳票における記録文字列の記録の作業者の労力を軽減することができる。
 また文書帳票に記録文字列が記載されていない場合でも、本来、記載されているべき記録文字列に対応する記載事項が記載されていない場合には画像処理装置1は入力用画像データを出力する。これにより文書帳票において記載すべき記載事項に対して入力していない誤りが見つかると共に、その記載事項が示す記録文字列を容易に記録することができる。
<第二実施形態>
 第二実施形態では、画像処理装置1が、文書帳票の複数の書式に対応する場合について説明する。
 図10は第二実施形態に係る画像処理装置の機能構成を示す概略ブロック図である。
 図10に示すように第二実施形態に係る画像処理装置1は、図3で示した各機能部に加え、さらにグループ分類部194、及びグループ特定部195の機能を有する。第二実施形態に係る端末装置6の機能構成は図4で示した構成と同様である。
 図11は第二実施形態に係る画像処理装置の処理フローを示す第一の図である。
 次に第二実施形態に係る画像処理装置1の処理フローについて順を追って説明する。
 データベース4には書式が異なる複数の文書帳票についての画像データと、各文書帳票に記述されている記録文字列の組み合わせが、その文書帳票毎に多数記録されている。このような状態で作業者が画像処理装置1を起動し、当該画像処理装置1へ処理開始を指示する。
 画像処理装置1の取得部191はデータベース4から文書帳票の画像データとその画像データに対応する記録文字列の情報とを全て読み込んだか否かを判定する(ステップS901)。NOの場合、取得部191はデータベース4から文書帳票の画像データとその画像データに対応する記録文字列の情報とを読み取る(ステップS902)。取得部191は画像データと記録文字列とを特徴量抽出部192へ出力する。特徴量抽出部192は画像データをOCR処理して画像データ中の全ての文字列とその画像データ内の座標とを検出する(ステップS903)。なお文字列は複数の文字によって構成される文字の纏まりである。特徴量抽出部192は他の文字との間隔などによってその1つの纏まりの範囲を解析し、その範囲に含まれる1つまたは複数の文字を文字列として抽出すると共に、その画像データ内の文字列の範囲を示す座標を検出する。文字列として含まれる文字は、表意文字、表音文字などの記号、マーク、アイコン画像などを含んでよい。
 特徴量抽出部192はOCR処理により画像データから抽出した文字列と、画像データと共にデータベース4から読み取った記録文字列とを比較する。特徴量抽出部192はOCR処理により画像データから抽出した文字列のうち、記録文字列の文字情報と一致した画像データ中の文字列と、その文字列に含まれる文字の属性と、その範囲の座標とを特定する(ステップS904)。
 第一実施形態で説明したように、文字の属性は、数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントなどにより表される情報である。また文字列の範囲の座標は、文書帳票における文字列の位置を示す座標である。例えば、文字列の範囲の座標は、文字列に含まれる先頭文字の座標、終了文字の座標などを示す情報であってもよい。文字列に含まれる文字の属性と文字列の範囲の座標とを総称して、文字列の属性または文字列属性と表記する。
 第一実施形態の場合と同様、ここでの文字情報は、文字列のみであってもよいし、文字列属性を含んでいてもよい。すなわち、特徴量抽出部192が、記録文字列と画像データ中の文字列とが文字列として同一か否かを判定するようにしてもよい。あるいは、特徴量抽出部192が、文字の同一性に加えて、文字列属性の同一性を判定するようにしてもよい。
 なお、特徴量抽出部192が記録文字列と文字情報が一致する文字列を一意に特定できない場合、画像処理装置1が、その文書画像を処理対象(第一特徴量の抽出対象)から除外するようにしてもよい。あるいは、画像処理装置1が、記録文字列の候補それぞれの範囲を枠で示した画像を端末装置6の表示部220に表示させ、作業者によって選択された文字列に記録文字列を特定するようにしてもよい。第一実施形態で説明したように、ここでいう記録文字列の候補は、文字情報が記録文字列の文字情報と一致した文字列のうち、一意に特定されていないと判定された記録文字列に対応付けられている文字列である。また、ここでいう記録文字列の特定は、文書帳票における文字列のうち何れか1つを、1つの記録文字列に決定することである。
 特徴量抽出部192が、1つの記録文字列の文字情報に対して、文書帳票における複数の文字列それぞれの文字情報が一致すると判定した場合、これら複数の文字列が、その記録情報の候補となる。作業者が、これら複数の文字列のうち何れか1つを選択することで、記録文字列が一意に特定される。
 次に、特徴量抽出部192は、文書帳票毎かつ記録文字列毎に抽出した文字列属性を用いて、文書帳票毎かつ記録文字列毎の特徴量を抽出する(ステップS905)。具体的には、特徴量抽出部192は、ステップS904で記録文字列に対応付けた文字列の文字列属性を特徴量化する。第二実施形態では複数種類の書式を対象とするため、文書帳票を書式毎にグループ分けしていないステップS905の時点では、図7のステップS604の場合と異なり直接第一特徴量を抽出することはできない。そこで、特徴量抽出部192は、グループ毎の第一特徴量を抽出する準備として、文書帳票毎かつ記録文字列毎の特徴量を抽出しておく。この文書帳票毎かつ記録文字列毎の特徴量を個別第一特徴量と称する。
 特徴量抽出部192は、得られた個別第一特徴量を、文書帳票の識別子および記録文字列の識別子に紐づけてデータベース4に記録する(ステップS906)。記録文字列の識別子として、例えばその記録文字列の位置を示す座標値を用いることができる。
 例えば特徴量抽出部192は、図5の文書帳票5の書式に含まれる記録文字列である日付51、発注先52、商品名53、数量54、及び金額55それぞれの、文字属性、文字列の範囲を示す座標などを示す個別第一特徴量を、文書帳票毎かつ記録文字列毎に、文書帳票5の識別子および記録文字列の識別子に紐づけてデータベース4に記録する。
 特徴量抽出部192はまた、記録文字列に含まれる文字情報と一致しない画像データ中の非記録文字列と、その非記録文字列の文字列属性とを抽出する(ステップS907)。
 上述したように、非記録文字列は、作業者によって記録されない文字列、すなわち、記録文字列以外の文字列である。文字列属性には、その文字列に含まれる文字の属性を示す情報、その文字列の範囲の座標を示す情報の何れか一方あるは両方が含まれていてもよい。
 特徴量抽出部192は、文書帳票毎かつ非記録文字列毎に抽出した文字列属性を用いて、文書帳票毎かつ非記録文字列毎の特徴量を抽出する(ステップS908)。
 具体的には、特徴量抽出部192は、ステップS904で何れの記録文字列にも対応付けられなかった文字列の各々について、その文字列の属性(文字列属性)を特徴量化する。第一特徴量の場合と同様、文書帳票を書式毎にグループ分けしていないステップS908の時点では、同じ書式の文書帳票に共通の特徴量を生成することはできない。そこで、特徴量抽出部192は、グループ毎の第二特徴量を抽出する準備として、文書帳票毎かつ非記録文字列毎の特徴量を抽出しておく。この文書帳票毎かつ非記録文字列毎の特徴量を個別第二特徴量と称する。
 特徴量抽出部192が、文書帳票毎、かつ、複数の非記録文字列を纏めた個別第二特徴量を生成するようにしてもよい。例えば、特徴量抽出部192が、1つの文書帳票につき1つの個別第二特徴量を生成するようにしてもよい。
 特徴量抽出部192は、得られた個別第二特徴量を、文書帳票の識別子および非記録文字列の識別子に紐づけてデータベース4に記録する(ステップS909)。非記録文字列の識別子として、例えばその非記録文字列の位置を示す座標値を用いることができる。
 例えば特徴量抽出部192は、図5の文書帳票5の書式に含まれる非記録文字列である発注者の名称501、発注者のエンブレム画像、文書帳票のタイトル503、挨拶文504などを示す個別第二特徴量を、文書帳票5の識別子および非記録文字列の識別子に紐づけてデータベース4に記録する。
 データベース4には、文書帳票の複数の書式それぞれについて、その書式の文書帳票の画像データとその画像データに対応する記録文字列の情報が記録されている。画像処理装置1の取得部191は全ての文書帳票についての画像データと記録文字列の情報を読み込むまでステップS901~ステップS909の処理を繰り返す。
 ステップS901で、取得部191がデータベース4から文書帳票の画像データとその画像データに対応する記録文字列の情報とを全て読み込んだと判定した場合(ステップS901:YES)、グループ分類部194が文書帳票をグループ分けする(ステップS921)。グループ分類部194は、文書帳票の画像データに含まれる個別第二特徴量に基づいて、文書帳票をグループ分けする。例えばグループ分類部194は、各文書帳票を、個別第二特徴量が示す非記録文字列の一致度、エンブレム画像の一致度、又は非記録文字列の座標範囲の一致度などに基づいてグループ分けする。グループ分類部194はこのグループ分けの処理において文書帳票のグループ識別子を決定する。グループ分類部194は全ての文書帳票についてグループ分けが終了したか否かを判定する(ステップS922)。
 グループ分類部194は全ての文書帳票のグループ分けが完了していない場合にはステップS921の処理を繰り返す。具体的には、ステップS922で、グループ分けを終了していない文書帳票があるとグループ分類部194が判定した場合(ステップS922:NO)、処理がステップS921へ戻る。
 グループ分類部194は、全ての文書帳票のグループ分けが完了した場合(ステップS922:YES)、文書帳票の識別子とその文書帳票に付与されたグループ識別子とを対応付けてデータベース4のグループテーブル(記録テーブル)に記録する(ステップS923)。
 そして特徴量抽出部192は、あるグループに属する1つまたは複数の文書帳票の各個別第一特徴量および各個別第二特徴量をデータベース4から読み取る。特徴量抽出部192は、グループに属する文書帳票の各個別第一特徴量および各個別第二特徴量に対応する各グループ第一特徴量と、各グループ第二特徴量とを抽出する(ステップS924)。各グループ第一特徴量はグループに属する文書帳票の各個別第一特徴量の平均等の値であってもよい。同様に各グループ第二特徴量はグループに属する文書帳票の各個別第二特徴量の平均等の値であってもよい。各グループ第一特徴量、各グループ第二特徴量は、各個別第一特徴量の平均、各個別第二特徴量の平均でなくとも、所定の統計処理や機械学習等の手法を用いて、グループに属する1つ又は複数の文書帳票の記録文字列や非記録文字列を特定できるよう算出された特徴量であれば、どのような手法を用いて、各グループ第一特徴量、各グループ第二特徴量を抽出してもよい。
 例えば、特徴量抽出部192がステップS924で、同一グループに属する複数の文書帳票から記録文字列毎に文字列属性を抽出して(直接的に)グループ第一特徴量を生成するようにしてもよい。この場合、特徴量抽出部192が、ステップS905およびステップS906での個別第一特徴量の抽出および記録をパスする(特に何も処理を行わない)。
 一方、個別第二特徴量については、ステップS921でのグループ分けで使用できるように、特徴量抽出部192がステップS908で抽出しておく。但し、ステップ921で、グループ分類部194が、個別第二特徴量を用いず非記録文字列を用いて文書帳票のグループ分けを行うようにしてもよい。この場合、特徴量抽出部192がステップS924で、同一グループに属する複数の文書帳票の非記録文字列の文字列属性から(直接的に)グループ第二特徴量を抽出するようにしてもよい。この場合、特徴量抽出部192は、ステップS907~ステップS909では特に何も処理を行わない。
 特徴量抽出部192は、グループそれぞれについて各グループ第一特徴量、各グループ第二特徴量を算出し、グループの識別子に対応付けてデータベース4に記録する(ステップS925)。
 ステップS925の後、画像処理装置1は、図11の処理を終了する。
 以上の処理により画像処理装置1は、作業者の記録文字列を記録する労力を軽減するために必要な情報(グループ第一特徴量およびグループ第二特徴量)を文書帳票のグループ毎に抽出してデータベース4に蓄積することができる。これにより画像処理装置1は新たな文書帳票の画像データの入力を受けて、その文書帳票に含まれる記録文字列を自動でデータベース4に記録していくことができる。図12を参照して、その処理について説明する。
 図12は第二実施形態に係る画像処理装置の処理フローを示す第二の図である。図12は、画像処理装置1が、新たに入力された画像データから記録文字列を抽出する処理手順の例を示す。
 作業者は新たな文書帳票を画像読取装置2に読み取らせる操作を行う。これにより画像読取装置2は文書帳票の画像データを生成して画像処理装置1へ出力(送信)する。画像処理装置1の取得部191は、通信部110の受信データから画像データを取得する(ステップS1001)。取得部191は画像データを特徴量抽出部192へ出力する。特徴量抽出部192は画像データをOCR処理して、文字列と、その文字列に含まれる文字の特徴(文字属性)と、その文字列の範囲の画像データ中の座標とを文字列毎に検出する(ステップS1002)。特徴量抽出部192はそれら検出した情報を特徴量化した第三特徴量を、画像データ中の文字列毎に抽出する(ステップS1003)。第三特徴量は新たに読み込んだ画像データの文書帳票に含まれる文字列の特徴を示す情報である。
 次にグループ特定部195が、データベース4が記憶しているグループ第二特徴量のうち新たな文書帳票のグループ特定に利用するグループ第二特徴量を読み取る。当該グループ第二特徴量は例えば文書帳票の画像データに表示される発注者のエンブレム画像502に対応する特徴量であってよい。グループ特定部195はあるグループ第二特徴量に示す情報が、ステップS1001で取得した文書帳票の画像データから特定できるかどうかを判定する。グループ特定部195は全てのグループについてのグループ第二特徴量を用いて同様の処理を行う。グループ特定部195はデータベース4から読み取ったグループ第二特徴量に一致する情報が新たに読み込んだ文書帳票の画像データから特定できた場合、そのグループ第二特徴量を有するグループを、新たに読み込んだ文書帳票の画像データのグループと特定する(ステップS1004)。その後、グループ特定部195はデータベース4からそのグループについての1つまたは複数のグループ第一特徴量を読み出す(ステップS1005)。グループ特定部195は記録部193へ第三特徴量と1つまたは複数のグループ第一特徴量とを出力する。グループ第一特徴量はそのグループに属する文書帳票内の1つまたは複数の記録文字列を特定するための特徴量である。
 記録部193は画像データ中の1つまたは複数の文字列についての第三特徴量と、1つまたは複数のグループ第一特徴量とを取得する。記録部193は各グループ第一特徴量に含まれる文字列の範囲を示す座標を用いて、各グループ第一特徴量が示す当該座標に対応する座標を有する第三特徴量が全て存在するか否かを判定する(ステップS1006)。各グループ第一特徴量の座標に対応する座標を有する第三特徴量が全て存在する場合には(ステップS1006:YES)、記録文字列に対応する文書帳票内の全ての記載事項に文字の記載が存在する。一方、各グループ第一特徴量の座標に対応する座標を有する第三特徴量が全て存在しない場合には(ステップS1006:NO)、文書帳票内の何れかの記載事項に文字の記載が無い状態である。
 ステップS1006でYESの場合、記録部193は、グループ第一特徴量に含まれる文字属性と、座標に基づいて特定された対応する第三特徴量に含まれる文字属性とがそれぞれ一致するかどうかを判定する(ステップS1007)。
 記録部193は、ステップS1007の判定結果がYESとなり、すなわち文字属性が一致する場合、現在処理している画像データにおいて1つまたは複数の第三特徴量が示す座標に基づく記録文字列の範囲に矩形枠を表示した確認画面を生成する。記録部193はその確認画面をモニタに出力する(ステップS1008)。作業者はこの確認画面に表示された矩形領域を確認して、画像処理装置1が記録しようとする記録文字列を確認することができる。これにより作業者は記録文字列に不足が無いか否かを確認することができる。すなわち、作業者は全ての記録文字列が選択されているか否かを(確認画面において矩形枠で囲まれているか否か)確認することができる。
 確認画面にはOKまたはNGの何れかのボタンのアイコン画像が表示されている。このボタンのアイコン画像のうちOKのボタンを選択することにより作業者は記録文字列としての選択に不足がないことを指示することができる。他方、ボタンのアイコン画像のうちNGのボタンを選択することにより作業者は記録文字列としての選択に不足があることを指示することができる。
 記録部193は作業者のボタンのアイコン画像の押下に応じて、全ての記録文字列が選択されているか否かを判定する(ステップS1009)。記録部193は全ての記録文字列が選択されている場合(ステップS1009:YES)には、画像処理装置1は、画像処理装置1自らの処理結果として得られた記録文字列について、端末装置6にて確認・修正を行わせるための処理を行う(ステップS1010)。ステップS1010は、図8のステップS709と同様である。
 ステップS1010の後、記録部193は、記録文字列を文書帳票の識別情報に対応付けて記録テーブルに記録する(ステップS1011)。
 例えば、文書帳票の画像データ中から第三特徴量a3、第三特徴量b3、第三特徴量c3、及び第三特徴量d3が取得できた場合を例示する。そして第三特徴量a3が予めデータベースに記録されているグループ第一特徴量g11と、第三特徴量b3がグループ第一特徴量g12と、第三特徴量c3がグループ第一特徴量g13と、第三特徴量d3がグループ第一特徴量g14とそれぞれ特徴量が一致した場合を例示する。この場合、記録部193は、第三特徴量a3、第三特徴量b3、第三特徴量c3、及び第三特徴量d3それぞれに対応する文字列を、記録文字列として文書帳票の記録テーブルに記録する。ここでいう第三特徴量に対応する文字列は、その第三特徴量の抽出元の文字列である。
 ステップS1011の後、画像処理装置1は、図12の処理を終了する。
 上述のステップS1006でNOの場合、またはステップS1007でNOの場合、またはステップS1009でNOの場合、記録部193は、グループ第一特徴量が示す当該座標に対応する座標を有する第三特徴量が存在しなかった場合の処理を行う。具体的には記録部193は、画像データ中の対応する座標の第三特徴量が存在しなかったグループ第一特徴量の座標の範囲に入力欄を設けた帳票画像(文書帳票の画像)の入力用画像データを生成してモニタに出力する(ステップS1021)。入力用画像データはHTMLやXMLなどのマークアップ言語で記述されたデータであってよい。作業者はこの入力用画像データを見ながら、画像処理装置1のキーボード等の入力装置を操作して、モニタに表示されている入力用画像データ内の入力欄に記録文字列を入力する。当該入力用画像データには保存ボタンが表示されており、保存ボタンの押下操作をすると記録部193は既に文書帳票について取得した第三特徴量の他、新たに入力用画像データの入力欄に入力された文字列を含む第三特徴量を抽出する(ステップS1022)。
 次に、画像処理装置1は、画像処理装置1自らの処理結果として得られた記録文字列について、端末装置6にて確認・修正を行わせるための処理を行う(ステップS1023)。ステップS1023は、ステップS1010と同様である。
 ステップS1023の後、記録部193は帳票画像データの識別子と記録文字列とを対応付けてデータベース4に記録する(ステップS1024)。具体的には、記録部193は、ステップS1022で入力欄に入力された文字列については、入力された文字列を記録文字列とし、それ以外の記録文字については、第一特徴量と第三特徴量との比較で特定された文字列を記録文字列とする。そして、記録部193は、記録文字列と帳票画像データの識別子とを対応付けてデータベース4に記録する。端末装置6-1または6-2で修正があった場合、記録部193は、修正後の記録文字列と帳票画像データの識別子とを対応付けてデータベース4に記録する。
 ステップS1024の後、画像処理装置1は、図12の処理を終了する。
 画像処理装置1が、図12の処理で第一特徴量を更新するようにしてもよい。例えば画像処理装置1が、ステップS1023の後、図7の処理フローを再度実施するようにしてもよい。あるいは画像処理装置1が、ステップS1023の後に追加学習を行うことで、図7で処理済みのデータについては再度処理を行うことなく第一特徴量を更新するようにしてもよい。さらに、画像処理装置1が、ステップS1010の後も、図7の処理フローの再実施または追加学習にて第一特徴量を更新するようにしてもよい。
 画像処理装置1が、図12の処理で第一特徴量を更新することで、サンプルデータ数が増加して第一特徴量の精度が向上し、画像処理装置1が記録文字列を抽出する精度が向上することが期待される。また、図12の処理で記録文字列が追加された場合、画像処理装置1が新たに追加された記録文字列についても画像データから抽出できるようになり、作業者が文字列を入力する手間を省けることが期待される。
 図12に示す処理によれば、画像処理装置1は予め作業者が記録しておいた複数の書式それぞれの文書帳票の画像データと記録文字列とによって、新たに入力させた文書帳票の種別によらずにその文書帳票の画像データにおける記録文字列を自動的に記録することができる。したがって画像処理装置1は文書帳票における記録文字列の記録の作業者の労力を軽減することができる。
 また文書帳票に記録文字列が記載されていない場合でも、本来、記載されているべき記録文字列に対応する記載事項が記載されていない場合には画像処理装置1は入力用画像データを出力する。これにより文書帳票において記載すべき記載事項に対して入力していない誤りが見つかると共に、その記載事項が示す記録文字列を容易に記録することができる。
<第三実施形態>
 なお、画像処理装置1の処理の他の例としては、作業者が予め文書帳票のグループを画像処理装置1に登録しておいてもよい。例えば作業者は、過去において文書帳票の画像データを登録する際、文書帳票の種類に合わせてグループ識別子を入力しておき文書帳票の画像データと紐づけてデータベース4に登録しておく。これにより、同一グループ内に画像処理装置1の処理誤り等により異種の帳票が混じることがなくなり、精度のよい第一特徴量を抽出することができる。なおこの場合、登録時は作業者が文書帳票のグループを入力するが、新たな帳票に対しては、ステップS1004と同じく、第二特徴量を用いてグループ特定する。
<第四実施形態>
 また、画像処理装置1の処理の他の例としては、画像処理装置1は第二特徴量を用いて文書帳票をグループ分けするだけでなく、第一特徴量を用いて、また第二特徴量と共に第一特徴量を用いて、文書帳票をグループ分けするようにしてもよい。第一特徴量は記録文字列の特徴量であるが、同じ種類の文書帳票であれば、記録文字列の座標やその文字属性は同じであると考えられ、第一特徴量を用いて帳票をグループ分けすることが可能となる。最初のグループ分けを第四実施形態で示すように作業者が行い、新たな文書帳票に対してはステップS1004の処理により第一特徴量を用いてグループ分けすることにより、OCR処理において精度よく記録文字列を読み取ることが可能となる。
 この場合、取得部191が、複数の帳票画像データとその帳票画像データに含まれる文字列のうち記録対象となった記録文字列とを取得する。そしてグループ分類部194が第一特徴量に基づいて帳票画像データをグループ分けする。そして、特徴量抽出部192は、グループに含まれる帳票画像データに対応する第一特徴量を用いて記録文字列を抽出する。
<第五実施形態>
 第二実施形態においてはステップS1004において第二特徴量に基づいて新たな帳票のグループを特定している。しかしながら、別の処理態様として、画像処理装置1はグループを特定する処理を行わずに、作業者により設定された全グループに対して、1グループごとに順に特定して第一特徴量を読み出し、第三特徴量と一致する個数をカウントする。正しいグループの場合には最も多く第一特徴量と第三特徴量とが一致するはずである。このため、画像処理装置1は一致個数が最も多いときの特定グループの第三特徴量それぞれに含まれる文字列をステップS1008において記録する。これにより、グループを特定しなくても記録文字列を記録することができる。
 この場合、取得部191が、複数の帳票画像データとその帳票画像データに含まれる文字列のうち記録対象となった記録文字列とを取得する。そして、特徴量抽出部192は、取得部191の取得した帳票画像データを認識処理した結果に基づいて、記録文字列の特徴を示す第一特徴量または記録文字列以外の認識情報を示す第二特徴量を抽出する。特徴量抽出部192は、予め設定された所定のグループに含まれる帳票画像データに対応する第一特徴量を用いて記録文字列を抽出する。
 以上のように、信頼度算出部196は、文書画像に含まれる特定項目の文字列の特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する。出力先選択部197は、信頼度算出部196が算出した信頼度に応じて文字認識処理結果の出力先を選択する。
 これにより、画像処理装置1は、文字認識処理結果の信頼度が低いと判定された場合には、例えばキーパンチャーに処理結果の確認・修正を受けた後、通関士または審査員に処理結果を提示することができる。また、画像処理装置1は、文字認識処理結果の信頼度が高いと判定された場合には、例えばキーパンチャーによる確認・修正を省略して、通関士または審査員に処理結果を提示することができる。
 このように、画像処理装置1によれば、帳票の読み取り結果の確認および修正を行う者が複数いる場合に、読み取り結果の確認および修正を効率よく行えるように、読み取り結果を振り分けることができる。
 また、信頼度算出部196は、複数の文書画像を用いた学習の結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す特徴量のうち、文字認識処理対象の文書画像の書式についての特徴量に基づいて、信頼度を算出する。
 このように、信頼度算出部196が、文字認識処理対象の文書画像の書式についての特徴量に基づいて信頼度を算出することで、信頼度を比較的高精度に算出できることが期待される。例えば、信頼度算出部196が、文字認識そのものの信頼度と、文字認識処理対象の文書画像の書式についての特徴量に基づいて信頼度を算出することで文字認識そのものの信頼度のみに基づく場合よりも、信頼度を高精度に算出できることが期待される。
 また、信頼度算出部196は、記録部193が記録文字列の特定に用いる第一特徴量に基づいて信頼度を算出することができる。記録部193が記録文字列の特定に用いる特徴量に基づいて信頼度を算出する点で、信頼度算出部196が、精度の高い信頼度を算出できることが期待される。
 また、信頼度算出部196は、予め記録された特徴量のばらつき度合いに基づいて信頼度を算出する。
 特徴量のばらつき度合いが大きい場合、画像処理装置に与えられる文書の書式が一定していない、あるいは、画像処理装置1が解析した書式の特徴が実際の書式を十分に反映していないといった原因が考えられる。この場合、処理対象の文書画像についても、画像処理装置1が想定している書式と異なる書式である可能性が比較的高い。この点で、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が低いと考えられる。
 一方、特徴量のばらつき度合いが小さい場合、画像処理装置に与えられる文書の書式が一定しており、かつ、画像処理装置1が解析した書式の特徴が実際の書式を十分に反映していると考えられる。この場合、処理対象の文書画像の処理機が、画像処理装置1が想定している書式と同じであり、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が高いと考えられる。すなわち、画像処理装置1が、処理対象の画像を適切に処理していると期待される。
 この点で、信頼度算出部196が、予め記録された特徴量のばらつき度合いに基づいて信頼度を算出することで、高精度に信頼度を算出できる。
 また、信頼度算出部196は、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いに基づいて信頼度を算出する。
 偏差の度合いが大きい場合、処理対象の文書画像の書式が、画像処理装置1が想定している書式と異なる、あるいは、想定している書式は合っていても画像処理装置1が解析した書式の特徴が、処理対象の文書画像については適切でないといった原因が考えられる。この場合、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が比較的低いと考えられる。
 一方、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いが小さい場合、処理対象の文書画像の書式が、画像処理装置1が想定している書式と同じであり、かつ、画像処理装置1が解析した書式の特徴が、処理対象の文書画像について適切であると考えられる。この場合、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が比較的高いと考えられる。すなわち、画像処理装置1が、処理対象の画像を適切に処理していると期待される。
 この点で、信頼度算出部196が、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いに基づいて信頼度を算出することで、高精度に信頼度を算出できる。
 次に、図13を参照して、本発明の実施形態の構成について説明する。
 図13は、実施形態に係る画像処理装置の構成の例を示す図である。図13に示す画像処理装置600は、信頼度算出部601と、出力先選択部602とを備える。
 かかる構成にて、信頼度算出部601は、文書画像に含まれる特定項目の文字列の特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する。出力先選択部602は、信頼度算出部601が算出した信頼度に応じて前記文字認識処理結果の出力先を選択する。
 これにより、画像処理装置600は、文字認識処理結果の信頼度が低いと判定された場合には、例えばキーパンチャーに処理結果の確認・修正を受けた後、通関士または審査員に処理結果を提示することができる。また、画像処理装置600は、文字認識処理結果の信頼度が高いと判定された場合には、例えばキーパンチャーによる確認・修正を省略して、通関士または審査員に処理結果を提示することができる。
 このように、画像処理装置600によれば、帳票の読み取り結果の確認および修正を行う者が複数いる場合に、読み取り結果の確認および修正を効率よく行えるように、読み取り結果を振り分けることができる。
 上述の各装置は内部に、コンピュータシステムを有している。そして、各装置に上述した各処理を行わせるためのプログラムは、それら装置のコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムを各装置のコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。
また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
 また、上記プログラムは、前述した各処理部の機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 この出願は、2018年4月2日に日本出願された特願2018-071145号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 この発明によれば、帳票の読み取り結果の確認および修正を行う者が複数いる場合に、読み取り結果の確認および修正を効率よく行えるように、読み取り結果を振り分けることができる。
 1 画像処理装置
 2 画像読取装置
 3 記録装置
 4 データベース
 6、6-1、6-2 端末装置
 110 通信部
 180 記憶部
 190 制御部
 191 取得部
 192 特徴量抽出部
 193 記録部
 194 グループ分類部
 195 グループ特定部
 196 信頼度算出部
 197 出力先選択部

Claims (6)

  1.  文書画像に含まれる特定項目の文字列の特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する信頼度算出部と、
     前記信頼度に応じて前記文字認識処理結果の出力先を選択する出力先選択部と、
     を備える画像処理装置。
  2.  前記信頼度算出部は、複数の前記文書画像を用いた学習の結果に基づいて予め記録され、前記文書画像の種別毎かつ特定項目毎に前記項目の文字列の特徴を示す特徴量のうち、文字認識処理対象の前記文書画像の書式についての前記特徴量に基づいて、前記信頼度を算出する
     請求項1に記載の画像処理装置。
  3.  前記信頼度算出部は、予め記録された前記特徴量のばらつき度合いに基づいて前記信頼度を算出する、
     請求項2に記載の画像処理装置。
  4.  前記信頼度算出部は、前記文字認識対象の前記文書画像における前記特徴量の、予め記録された前記特徴量における偏差の度合いに基づいて前記信頼度を算出する、
     請求項2または請求項3に記載の画像処理装置。
  5.  文書画像に含まれる特定項目の文字列の特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出し、
     前記信頼度に応じて前記文字認識処理結果の出力先を選択する、
     画像処理方法。
  6.  コンピュータに、
     文書画像に含まれる特定項目の文字列の特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出し、
     前記信頼度に応じて前記文字認識処理結果の出力先を選択する、
     処理を実行させるためのプログラムを記憶する記憶媒体。
PCT/JP2019/012888 2018-04-02 2019-03-26 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体 WO2019194028A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
SG11202009548UA SG11202009548UA (en) 2018-04-02 2019-03-26 Image-processing device, image-processing method, and storage medium on which program is stored
EP19781603.6A EP3779782A4 (en) 2018-04-02 2019-03-26 IMAGE PROCESSING DEVICE, IMAGE PROCESSING METHOD, AND STORAGE MEDIA FOR STORING A PROGRAM
US17/043,361 US11328504B2 (en) 2018-04-02 2019-03-26 Image-processing device for document image, image-processing method for document image, and storage medium on which program is stored

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018071145A JP6874729B2 (ja) 2018-04-02 2018-04-02 画像処理装置、画像処理方法およびプログラム
JP2018-071145 2018-04-02

Publications (1)

Publication Number Publication Date
WO2019194028A1 true WO2019194028A1 (ja) 2019-10-10

Family

ID=68100533

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/012888 WO2019194028A1 (ja) 2018-04-02 2019-03-26 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体

Country Status (5)

Country Link
US (1) US11328504B2 (ja)
EP (1) EP3779782A4 (ja)
JP (1) JP6874729B2 (ja)
SG (1) SG11202009548UA (ja)
WO (1) WO2019194028A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7459635B2 (ja) 2020-04-17 2024-04-02 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6791191B2 (ja) * 2018-04-02 2020-11-25 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
WO2021039114A1 (ja) * 2019-08-29 2021-03-04 富士フイルム株式会社 撮像装置、撮像装置の動作方法、及びプログラム
JP2021043775A (ja) * 2019-09-12 2021-03-18 富士ゼロックス株式会社 情報処理装置及びプログラム
US11275934B2 (en) * 2019-11-20 2022-03-15 Sap Se Positional embeddings for document processing
JP7478345B2 (ja) * 2020-05-12 2024-05-07 京セラドキュメントソリューションズ株式会社 帳票データ取得システムおよび帳票データ取得プログラム
JP7086361B2 (ja) * 2020-06-30 2022-06-20 Arithmer株式会社 帳票情報生成装置、方法及びプログラム
JP2022097259A (ja) * 2020-12-18 2022-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004152115A (ja) * 2002-10-31 2004-05-27 Toshiba Corp 入力修正方法および入力修正支援システム
JP2008040682A (ja) 2006-08-03 2008-02-21 Matsushita Electric Works Ltd 異常監視装置
JP2014063507A (ja) * 2013-11-14 2014-04-10 Oki Electric Ind Co Ltd 帳票処理システム、サーバ、プログラムおよび帳票処理方法
JP2014137605A (ja) * 2013-01-15 2014-07-28 Fujitsu Marketing Ltd レシート定義データ作成装置およびそのプログラム
JP2016048444A (ja) 2014-08-27 2016-04-07 沖電気工業株式会社 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法
JP2018071145A (ja) 2016-10-27 2018-05-10 三井住友建設株式会社 手摺装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0887753B1 (en) * 1996-11-15 2007-10-24 Toho Business Management Center Business management system
JP2003242441A (ja) * 2002-02-15 2003-08-29 Glory Ltd 帳票処理方法および装置並びにプログラム
US8175394B2 (en) * 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
WO2008112132A1 (en) * 2007-03-09 2008-09-18 Cummins-Allison Corp. Document imaging and processing system
US8385593B2 (en) * 2010-06-18 2013-02-26 Google Inc. Selecting representative images for establishments
US8494273B2 (en) * 2010-09-05 2013-07-23 International Business Machines Corporation Adaptive optical character recognition on a document with distorted characters
EP2779138B1 (de) * 2013-03-13 2015-11-18 Kapsch TrafficCom AG Verfahren zum Lesen von Fahrzeug-Kennzeichen
JP6066108B2 (ja) * 2014-04-16 2017-01-25 コニカミノルタ株式会社 電子文書生成システムおよびプログラム
US10210384B2 (en) * 2016-07-25 2019-02-19 Intuit Inc. Optical character recognition (OCR) accuracy by combining results across video frames
JP6900164B2 (ja) * 2016-09-27 2021-07-07 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2020067959A (ja) * 2018-10-26 2020-04-30 キヤノン株式会社 画像処理装置、その制御方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004152115A (ja) * 2002-10-31 2004-05-27 Toshiba Corp 入力修正方法および入力修正支援システム
JP2008040682A (ja) 2006-08-03 2008-02-21 Matsushita Electric Works Ltd 異常監視装置
JP2014137605A (ja) * 2013-01-15 2014-07-28 Fujitsu Marketing Ltd レシート定義データ作成装置およびそのプログラム
JP2014063507A (ja) * 2013-11-14 2014-04-10 Oki Electric Ind Co Ltd 帳票処理システム、サーバ、プログラムおよび帳票処理方法
JP2016048444A (ja) 2014-08-27 2016-04-07 沖電気工業株式会社 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法
JP2018071145A (ja) 2016-10-27 2018-05-10 三井住友建設株式会社 手摺装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3779782A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7459635B2 (ja) 2020-04-17 2024-04-02 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
SG11202009548UA (en) 2020-10-29
JP2019185141A (ja) 2019-10-24
JP6874729B2 (ja) 2021-05-19
US11328504B2 (en) 2022-05-10
EP3779782A4 (en) 2021-05-05
US20210049394A1 (en) 2021-02-18
EP3779782A1 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
WO2019194028A1 (ja) 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
WO2019194026A1 (ja) 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
JP6859977B2 (ja) 画像処理装置、画像処理システム、画像処理方法およびプログラム
US6525716B1 (en) Handwritten data input device having coordinate detection tablet
US20190294912A1 (en) Image processing device, image processing method, and image processing program
WO2019194052A1 (ja) 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
JP2019008775A (ja) 画像処理装置、画像処理システム、画像処理方法、プログラム
JP7111143B2 (ja) 画像処理装置、画像処理方法およびプログラム
US20180067916A1 (en) Analysis apparatus, analysis method, and recording medium
WO2019193923A1 (ja) 画像処理装置、画像処理方法および記録媒体
JP5443788B2 (ja) 正式名称判定システム及び正式名称判定プログラム
WO2019194029A1 (ja) 画像処理装置、画像処理方法、及びプログラムを記憶する記憶媒体
US20210065212A1 (en) Date generation apparatus, control method, and program
CN112149402A (zh) 文档对比方法、装置、电子设备和计算机可读存储介质
JP2007280413A (ja) 財務諸表自動入力装置
JP6028566B2 (ja) プログラム、表示制御方法及び表示制御装置
JP2878772B2 (ja) 光学的文字読取装置
JP2017215826A (ja) 文書データ変換装置及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19781603

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019781603

Country of ref document: EP

Effective date: 20201102