WO2023062799A1 - 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム - Google Patents

情報処理システム、原稿種識別方法、モデル生成方法及びプログラム Download PDF

Info

Publication number
WO2023062799A1
WO2023062799A1 PCT/JP2021/038148 JP2021038148W WO2023062799A1 WO 2023062799 A1 WO2023062799 A1 WO 2023062799A1 JP 2021038148 W JP2021038148 W JP 2021038148W WO 2023062799 A1 WO2023062799 A1 WO 2023062799A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
predetermined
word string
type
feature amount
Prior art date
Application number
PCT/JP2021/038148
Other languages
English (en)
French (fr)
Inventor
祥太 横川
Original Assignee
株式会社Pfu
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Pfu filed Critical 株式会社Pfu
Priority to PCT/JP2021/038148 priority Critical patent/WO2023062799A1/ja
Publication of WO2023062799A1 publication Critical patent/WO2023062799A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Definitions

  • the present disclosure relates to technology for identifying the type of manuscript.
  • a scanner that reads an original image, classifies color information such as RGB signals of the read original for each color space divided in advance, extracts the feature amount of the image, and stores the extracted feature amount in advance.
  • a proposed device is equipped with a document type registration/document type determination circuit that determines the type of a read document by comparing it with the feature amount, and switches the image processing content based on the determination result of the document type registration/document type determination circuit. (See Patent Document 1).
  • image information of an image formed on a document is acquired, a first recognition process is executed for classifying the image based on the feature amount of the image, and a second recognition process is executed for classifying the character information of the image.
  • An image reading apparatus has been proposed that performs one or both of the recognition processes and classifies an image based on the processing result of either one of the recognition processes (see Patent Document 2).
  • a model for classifying documents which is a device for generating a document classification model for outputting identification information for identifying a result of classification based on an input document by machine learning, wherein the document and the document Acquiring training data containing identification information associated with a word contained in the document and a character string consisting of one character or a plurality of consecutive characters in the word that constitutes the word, Character information, which is information that can be extracted from one or more words, is extracted as a feature amount, machine learning is performed based on the feature amount extracted from the document and the identification information associated with the document, and a document classification model is created.
  • a document classification device that generates a document has been proposed (see Patent Document 3).
  • image data representing an image of the document is acquired
  • layout information representing the layout of the constituent elements that make up each page of the document is acquired by analyzing the image represented by the image data, and the text is spaced within the page.
  • extract text regions that are continuously continuous recognize character strings contained in the text regions, extract visually emphasized character strings from the recognized character strings, use the extracted character strings as keywords
  • Structural data representing the hierarchical structure on the layout of the text area is generated for each page, the logical structure of the document is extracted using the structural data and keywords, and the extracted logical structure is used to classify and store the document.
  • a document classification device has been proposed (see Patent Document 4).
  • the present disclosure aims to appropriately identify the type of document even if the document has an undefined layout.
  • An example of the present disclosure includes recognition result acquisition means for acquiring character recognition results for an identification target image that is an image of a document to be identified, frequent word storage means for storing frequent word strings of a predetermined document type, and the identification detection means for acquiring information about the position of the frequent word string in the document to be identified by detecting the frequent word string from the character recognition result of the target image; and the frequent word string and other word strings.
  • feature generation means for generating a feature amount related to the document to be identified, including a positional relationship feature amount related to the positional relationship in the document to be identified, using the information regarding the position; By inputting a feature amount related to the document including a positional relationship feature amount relating to the positional relationship in the document with the word string, information indicating the validity that the document is the document of the predetermined document type is output.
  • model storage means for storing a learned model for identifying the predetermined document type, which is generated by machine learning so that the and an information processing system comprising identification means for identifying whether or not the document to be identified is of the predetermined document type.
  • the present disclosure can be understood as an information processing device, a system, a method executed by a computer, or a program to be executed by a computer.
  • the present disclosure can also be understood as recording such a program in a recording medium readable by a computer, other device, machine, or the like.
  • a computer-readable recording medium is a recording medium that stores information such as data and programs by electrical, magnetic, optical, mechanical or chemical action and can be read by a computer. say.
  • FIG. 1 is a schematic diagram showing the configuration of an information processing system according to an embodiment
  • FIG. 1 is a diagram showing an outline of a functional configuration of a learning device according to an embodiment
  • FIG. FIG. 4 is a diagram showing an example of a high-frequency word list according to the first embodiment
  • FIG. 4 is a diagram showing an example of an INVOICE document according to the embodiment
  • FIG. 4 is a diagram for explaining a position feature amount according to the embodiment
  • FIG. It is a figure which shows an example of the coordinate information arrangement
  • FIG. 4 is a diagram for explaining distance feature amounts according to the embodiment; It is a figure which shows an example of the distance information arrangement
  • FIG. 4 is a diagram for explaining size feature amounts according to the embodiment; It is a figure which shows an example of the size information arrangement
  • FIG. 4 is a diagram for explaining line feature amounts according to the embodiment; It is a figure which shows an example of the line information arrangement
  • the information processing system, method, and program according to the present disclosure are described as an embodiment when implemented in a system for identifying INVOICE (INVOICE manuscript).
  • the information processing system, method, and program according to the present disclosure can be widely used for techniques for identifying any document type (document type), and the application target of the present disclosure is the Examples are not limiting.
  • FIG. 1 is a schematic diagram showing the configuration of an information processing system 9 according to this embodiment.
  • An information processing system 9 according to the present embodiment includes one or a plurality of information processing devices 1, a learning device 2, and document reading devices 3 (3A, 3B) that can communicate with each other by being connected to a network.
  • the learning device 2 performs a learning process for identifying a predetermined document type (hereinafter, the document type is referred to as "document type"), and generates a trained model for identifying the predetermined document type.
  • the type of document to be identified is identified using the learned model generated by the learning apparatus 2.
  • FIG. 1 is a schematic diagram showing the configuration of an information processing system 9 according to this embodiment.
  • An information processing system 9 according to the present embodiment includes one or a plurality of information processing devices 1, a learning device 2, and document reading devices 3 (3A, 3B) that can communicate with each other by being connected to a network.
  • the learning device 2 performs a learning process for identifying a predetermined document type (herein
  • INVOICE is exemplified as a predetermined document type, and learning processing and identification processing for identifying INVOICE (INVOICE document) are exemplified.
  • the document type to be identified may be any document type other than INVOICE, such as bills, irregular receipts, notices, guarantees, and the like.
  • the document includes not only a paper medium document but also an electronic document (image).
  • the information processing device 1 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, an EEPROM (Electrically Erasable and Programmable Read Only Memory), HDD (Hard Disk) storage, etc. It is a computer including a device 14, a communication unit 15 such as a NIC (Network Interface Card), an input device 16 such as a keyboard or touch panel, and an output device 17 such as a display.
  • NIC Network Interface Card
  • the specific hardware configuration of the information processing apparatus 1 can be appropriately omitted, replaced, or added according to the mode of implementation.
  • the information processing device 1 is not limited to a device consisting of a single housing.
  • the information processing device 1 may be realized by a plurality of devices using so-called cloud or distributed computing technology.
  • the information processing device 1 acquires from the learning device 2 the learned model and the high-frequency word list generated by the learning device 2 and stores them.
  • the information processing apparatus 1 also acquires a document image (identification target image), which is an image of a document to be identified, from the document reading device 3A. Then, the information processing apparatus 1 identifies the document type of the identification target document (the document indicated in the identification target image) by using the learned model and the high-frequency word list.
  • the document image is not limited to electronic data (image data) such as TIFF (Tagged Image File Format), JPEG (Joint Photograph Experts Group), PNG (Portable Network Graphics), but electronic data in PDF (Portable Document Format).
  • image data such as TIFF (Tagged Image File Format), JPEG (Joint Photograph Experts Group), PNG (Portable Network Graphics), but electronic data in PDF (Portable Document Format).
  • PDF Portable Document Format
  • the document image may be electronic data (PDF file) obtained by scanning a document and converted to PDF, or electronic data (electronic document) originally created as a PDF file.
  • the method of acquiring the identification target image is not limited to the above example, and a method of acquiring via another device, a USB (Universal Serial Bus) memory, an SD memory card (Secure Digital memory card), an optical disc, etc.
  • An arbitrary method may be used, such as a method of acquiring by reading from an external recording medium or the storage device 14 .
  • the identification target image is not acquired from the document reading device 3A, the information processing system 9 does not have to include the document reading device 3A.
  • the method of acquiring the learned model and the high-frequency word list is not limited to the examples described above, and any method may be used.
  • the learning device 2 is a computer including a CPU 21, a ROM 22, a RAM 23, a storage device 24, a communication unit 25, and the like.
  • the specific hardware configuration of the learning device 2 can be appropriately omitted, replaced, or added according to the mode of implementation.
  • the learning device 2 is not limited to a device consisting of a single housing.
  • the learning device 2 may be realized by a plurality of devices using so-called cloud or distributed computing technology.
  • the learning device 2 acquires a document image (learning image) from the document reading device 3B. Then, the learning device 2 performs learning processing using the learning image to generate a learned model and a high-frequency word list for identifying a predetermined document type (a document of a predetermined document type).
  • the method of acquiring the learning image is not limited to the example described above, and any method such as a method of acquiring via another device, a method of acquiring by reading from an external recording medium or the storage device 24, etc. can be used. may be used.
  • the document reading device 3B may not be provided in the information processing system 9 when the learning images are not acquired from the document reading device 3B.
  • the information processing device 1 and the learning device 2 which are separate devices (separate housings), are exemplified, but the present invention is not limited to this example, and the information processing device 9 performs learning processing and document type identification processing. A single device (casing) that performs both may be provided.
  • the document reading device 3 is a device for obtaining a document image (original image) by optically reading a paper medium document (original) in response to a scan instruction or the like from a user.
  • An example is a multi-function machine.
  • the document reading device 3A obtains an identification target image by reading a document whose type the user wants to identify.
  • the document reading device 3B obtains a plurality of learning images by reading manuscripts of a plurality of manuscript types including a predetermined manuscript type (for example, INVOICE).
  • the document reading device 3A and the document reading device 3B may be the same device (housing).
  • the document reading device 3 is not limited to having a function of transmitting an image to another device, and may be an imaging device such as a digital camera or a smart phone. Also, the document reading device 3 may not have a character recognition (OCR) function.
  • OCR character recognition
  • FIG. 2 is a diagram showing an outline of the functional configuration of the learning device according to this embodiment.
  • the program recorded in the storage device 24 is read out to the RAM 23, executed by the CPU 21, and each hardware provided in the learning device 2 is controlled, so that the image acquisition unit 51, It functions as a device including a recognition result acquisition unit 52 , a correct definition acquisition unit 53 , a frequent word acquisition unit 54 , a detection unit 55 , a feature generation unit 56 , a model generation unit 57 and a storage unit 58 .
  • each function of the learning device 2 is executed by the CPU 21, which is a general-purpose processor. may be performed by
  • each functional unit included in the learning device 2 is not limited to being implemented in a device consisting of a single housing (one device), but is remotely and/or distributed (for example, on the cloud). MAY be implemented.
  • the image acquisition unit 51 acquires a plurality of document images (learning images) used in the learning process.
  • the image acquiring unit 51 acquires scanned images of documents of a plurality of document types including a predetermined document type (INVOICE) as learning images.
  • the image acquisition unit 51 obtains images of documents (a plurality of documents) of a predetermined document type (a plurality of documents) having different layouts as images of documents of a predetermined document type (INVOICE) (hereinafter referred to as "predetermined document type images").
  • the image acquisition unit 51 acquires a scanned image that is the reading result as a learning image.
  • the image of the manuscript contains the information in the manuscript as an image.
  • the learning image and the identification target image which will be described later, are images that have undergone preprocessing (such as trimming to match the size of the document) so that they match the target document (the document shown in the image). be. Therefore, the position within the document can be treated as being equivalent to the position within the image.
  • document images of document types other than the predetermined document type are used as incorrect answer learning data during learning, but the number of learning images for the predetermined document type and other document types is arbitrary. be.
  • the recognition result acquisition unit 52 acquires the character recognition result (character string data) for each learning image.
  • the recognition result acquisition unit 52 acquires the character recognition result (full-text OCR result) for the learning image by reading the entire learning image (entire region) using OCR.
  • the character recognition results may have any data structure as long as the character recognition results for each character string (character string image) in the learning image are included.
  • the method of acquiring the character recognition result is not limited to the above example. Any method, such as a method of obtaining, may be used.
  • a character string is a string of one or more characters (a string of characters), and the characters include hiragana, katakana, kanji, alphabets, numerals, symbols, and the like.
  • the correct definition acquisition unit 53 acquires a learning image (learning image identification information) and information indicating whether or not the document shown in the learning image is a document of a predetermined document type for each learning image. Acquire the correct answer definition (correct answer definition table) associated with . For example, in the correct answer definition, a document type name (INVOICE), a label "1", etc. are stored as information indicating that the learning image is an image of a predetermined document type (INVOICE). be done. As for the learning image used as incorrect answer data, the document type name, label "0", etc. of the learning image are stored as information indicating that the document type is not the predetermined document type.
  • the identification information of the learning image is arbitrary as long as it is information that indicates the learning image, such as a file name, number, or symbol.
  • the correct definition acquisition unit 53 acquires the correct definition by inputting the correct definition generated (defined) by the user to the learning device 2 .
  • the data structure for storing information indicating whether or not the document is of a predetermined document type is not limited to a table format such as a CSV (comma-separated values) format, and may be of any format.
  • the method for obtaining the correct answer definition is not limited to the example described above, and any method such as a method of obtaining via another device, a method of obtaining by reading from an external recording medium or the storage device 24, or the like can be used. you can
  • the frequent word acquisition unit 54 acquires (extracts) one or more frequent word strings (frequent word strings of a predetermined document type) that are word strings that frequently appear in a document (image) of a predetermined document type.
  • a word string that appears more frequently in a plurality of learning images that are images of a predetermined document type is extracted as a frequent word string. From this, it is possible to obtain a word string that is characteristic of a predetermined document type.
  • a word string means a string of one or more words (a row of words), and includes a word string consisting of a plurality of words and a single word.
  • an image of a document of a predetermined document type (learning image) will be referred to as a "predetermined document type image”.
  • the frequent word acquisition unit 54 extracts word strings (frequent word strings) that frequently appear in documents (images) of a predetermined document type by performing frequency analysis on a plurality of predetermined document type images. In this embodiment, frequency analysis is performed on each of a word string consisting of two consecutive words and words included in the character recognition result of each predetermined document type image, and a predetermined number (N (N ⁇ 1 )) is extracted as a frequent word string.
  • the frequent word acquisition unit 54 generates a high frequency word list that stores the extracted frequent word strings.
  • FIG. 3 is a diagram showing an example of a high-frequency word list according to this embodiment.
  • the high-frequency word list for a given manuscript type contains frequently occurring word strings (word string 1 to word string M (M frequent word strings)) of the given manuscript type and
  • the identification information of the trained model for identifying is stored.
  • the identification information of the learned model may be any model name (Model1, etc.), number, symbol, etc., as long as it is information indicating the learned model.
  • the frequent word string and the learned model may be associated with each other. Note that in the present embodiment, since the case where there is one predetermined document type is exemplified, the identification information of the learned model does not have to be stored.
  • the high-frequency word list generated in this way is stored in the storage unit 58.
  • the degree of appearance (number of appearances, etc.) of each word string included in each predetermined document type image may be obtained, or a word string with a high appearance frequency in a plurality of predetermined document type images may be obtained.
  • the method of extracting frequent word strings is not limited to the above example, and a predetermined threshold for frequency (number of appearances) may be set, and word strings whose frequencies exceed the threshold may be extracted as frequent word strings.
  • the method of acquiring the frequently appearing word string (highly frequent word list) includes a method of acquiring via another device, a method of acquiring by reading from an external recording medium or the storage device 24, etc. Any method may be used.
  • the detection unit 55 performs detection processing of the frequent word string (the frequent word string stored in the high frequency word list) extracted by the frequent word acquisition unit 54 in each learning image.
  • the detection unit 55 acquires information on the position of the frequent word string within the document (learning image) (position information related to the frequent word string) for each learning image.
  • the detection unit 55 detects a frequent word string included in the character recognition result of the learning image from the frequent word strings stored in the high frequency word list.
  • the detection unit 55 acquires information (position information related to the frequent word string) on the position of the detected frequent word string within the learning image (original), for example, from the character recognition result of the learning image. do.
  • the detection unit 55 acquires information about the position of the frequent word string in each document (learning image) by executing these processes for each learning image.
  • the position information related to the frequent word string is the position information of the frequent word string and/or the position information of the line containing the frequent word string. In this embodiment, both position information is used. Further, in this embodiment, position coordinates are used as position information. Therefore, in this embodiment, the positional coordinates of the frequent word string and the positional coordinates (row coordinates) of the line containing the frequent word string are used as the position information related to the frequent word string.
  • the position coordinates of the frequent word string are, for example, the coordinates (the coordinates of each vertex of the circumscribed rectangle, etc.) indicating the position of the circumscribing rectangle of the frequent word string in the manuscript (learning image).
  • the row coordinates are the coordinates (coordinates of each vertex of the circumscribing rectangle, etc.) indicating the position of the circumscribing rectangle (the circumscribing rectangle surrounding all the characters included in the line) of the line containing the frequent word string.
  • the position information related to the frequent word string is not limited to the example described above, and any position information may be used as long as it can generate (calculate) a feature amount to be described later.
  • the position information is not limited to the position coordinates, and may be, for example, a combination of coordinates of one point of the enclosing rectangle and information indicating the size of the enclosing rectangle.
  • the position coordinates are not limited to the coordinates of each vertex of the circumscribing rectangle, and may be the coordinates of two vertices located on the diagonal line of the circumscribing rectangle.
  • the feature generation unit 56 generates a feature amount related to the document shown in each learning image.
  • the feature generation unit 56 uses the position information related to the frequent word string acquired by the detection unit 55 to generate a feature amount related to the document shown in the learning image. Then, the feature generation unit 56 generates a feature array in which the feature amounts related to the document shown in each learning image are aggregated in the form of an array. In the learning process to be described later, the feature amount (feature array) related to the document shown in each learning image is used as the feature amount (learned model input) for identifying the document type.
  • the feature generation unit 56 calculates feature amounts related to the manuscript shown in the learning image based on information regarding frequent word strings. That is, the feature amount related to the frequent word string is calculated as the feature amount related to the manuscript shown in the learning image. In this embodiment, four pieces of information (position of frequent word strings, distance between frequent word strings, size of frequent word strings, size of lines containing frequent word strings) are used as information on frequent word strings. Then, a feature amount relating to the document shown in the learning image is generated.
  • a feature quantity indicating the position of a frequent word string (hereinafter referred to as a “position feature quantity”), a feature quantity indicating the distance between frequent word strings (hereinafter referred to as a “distance feature quantity”), a frequent occurrence
  • a feature quantity including a feature quantity indicating the size of a word string (hereinafter referred to as "size feature quantity") and a feature quantity indicating the size of a row containing a frequent word string (hereinafter referred to as a "line feature quantity”) , the feature amount related to the document shown in the learning image is generated.
  • the position feature amount and the size feature amount are examples of feature amounts that indicate the attributes of the frequent word string (itself).
  • the distance feature amount and the line feature amount are respectively feature amounts (hereinafter referred to as "positional relationship feature amounts") relating to the positional relationship between the frequent word string and other word strings in the manuscript (learning image).
  • positional relationship feature amounts feature amounts relating to the positional relationship between the frequent word string and other word strings in the manuscript (learning image).
  • a feature quantity (row feature quantity) indicating the size of a line containing a string of frequent words (row feature quantity) is, in other words, a feature quantity indicating the possibility that another word string is included in the same row as the string of frequent words. It corresponds to a feature amount relating to the positional relationship between a string and other word strings.
  • the feature amount of the document is a feature amount including the above-described four feature amounts. or a combination of two or three feature quantities. The four pieces of information mentioned above will be described below.
  • FIG. 4 is a diagram showing an example of an INVOICE document according to this embodiment.
  • an INVOICE manuscript for example, "Invoice”, which indicates the type of manuscript, tends to be written in the upper part of the manuscript, and "Amount”, which indicates the amount of money, tends to be written in the right part of the manuscript.
  • each document type has a tendency in the position where the frequent word string of the document type is described. Therefore, in this embodiment, a feature amount (position feature amount) indicating the position of a frequently appearing word string is used as the feature amount for identifying the document type.
  • ⁇ Distance between frequent word strings The positions of word strings that appear frequently in manuscripts of the same manuscript type (frequently occurring word strings) may differ between manuscripts of the same manuscript type, but the distances between frequent word strings are generally the same between manuscripts. many.
  • the positions of "VAT.” representing taxes and “Total” representing the total amount may vary depending on the manuscript, but as shown in FIG.
  • a feature amount (distance feature amount) indicating the distance between frequent word strings is used as the feature amount for identifying the document type.
  • the distance feature amount As described above, even if the position of the frequently appearing word string differs depending on the document, or if the frequently appearing word string of a predetermined manuscript type is a word string that is also used in a manuscript of a manuscript type other than the predetermined manuscript type, By using the distance feature amount, it is possible to identify the document type. When the distance feature amount is used as the feature amount related to the manuscript shown in the learning image, a plurality of frequent word strings for a predetermined manuscript type are required.
  • the word strings written in each type of manuscript include word strings that tend to be written in large characters, such as titles, and word strings that tend to be written in small characters, such as annotations.
  • word strings that tend to be written in large characters, such as titles
  • word strings that tend to be written in small characters, such as annotations.
  • FIG. 4 the word “Invoice” representing the type of manuscript tends to be written in a large size
  • words such as "e-mail” and "Tel” tend to be written in a small size.
  • a feature amount (size feature amount) indicating the size of a frequently appearing word string is used as a feature amount for identifying the document type.
  • a feature quantity for identifying the document type a feature quantity indicating the size of a line containing a frequent word string, which is a feature quantity relating to the possibility that a frequent word string is included in a short sentence (long sentence), is used. (line feature quantity) is used.
  • the feature generation unit 56 generates the four feature amounts described above for each learning image, and generates a feature array by aggregating (storing) the four feature amounts for all the learning images.
  • a feature array is formed by consolidating four information arrays. Each information array and each feature amount stored in the feature array will be described below.
  • FIG. 5 is a diagram for explaining the position feature amount according to this embodiment.
  • FIG. 6 is a diagram showing an example of a coordinate information array according to this embodiment.
  • FIG. 6 illustrates an information array (coordinate information array) storing feature amounts (position feature amounts) indicating the positions of frequent word strings in the manuscript (learning image) shown in FIG.
  • the position feature amount is calculated (generated) using the position coordinates of the frequent word string acquired by the detection unit 55 (lower left coordinates of the frequent word string).
  • the coordinate information array stores position feature amounts for all frequent word strings ("invoice”, “total”, “amount”, “payment”, etc.).
  • the coordinates of the frequent word string normalized to a value between 0 and 1 obtained by dividing the coordinates (x-coordinate, y-coordinate) of the frequent word string on the document by the size of the document are used as the position It is calculated as a feature amount.
  • a normalized coordinate obtained by dividing the x-coordinate of the frequent word string by the length of the document in the x-axis direction is acquired as the position feature amount in the x-axis direction.
  • the lower left coordinates of the frequent word string (coordinates of the lower left vertex of the circumscribing rectangle of the frequent word string (dotted line rectangle in FIG. 5) (the coordinates of the circle in FIG. 5) ) is used, but it is not limited to this example, and any one of the top, bottom, left, and right coordinates of the frequent word string, the barycentric coordinates, and the like may be used.
  • the frequent word string "amount" in the coordinate information array in FIG. 6 is a word string that is not included in the INVOICE manuscript (learning image) shown in FIG. ) is determined as a frequent word string.
  • the position feature amount of the frequent word string not included in the target manuscript (learning image) is a value (for example, 0) set in advance as a value when the frequent word string does not exist in the manuscript. (see Figure 6).
  • the position feature amount is not limited to the normalized coordinates described above, and may be the coordinates of the frequent word string itself on the document.
  • the coordinates of the frequent word string are obtained with the upper left vertex of the document as the origin, but the present invention is not limited to this example, and any position such as the upper right vertex, lower right vertex, or lower left vertex of the document is obtained. can be taken as the origin.
  • FIG. 7 is a diagram for explaining the distance feature amount according to this embodiment.
  • FIG. 8 is a diagram showing an example of an inter-word string distance information array according to this embodiment.
  • FIG. 8 illustrates an information array (inter-word-string distance information array) storing feature amounts (distance feature amounts) indicating the distances between frequent word strings in the manuscript (learning image) shown in FIG. . Note that the distance feature amount is calculated (generated) using the position coordinates of the frequent word string acquired by the detection unit 55 (lower left coordinates of the frequent word string).
  • the inter-word string distance information array contains all combinations of frequent word strings (“invoice”, “total”, “amount”, “payment”, etc.) combination) is stored.
  • the distance (x-axis direction, y-axis direction) between frequent word strings on the document is divided by the size of the document.
  • the distance is calculated as a distance feature amount.
  • the x-axis component (distance) of the distance between frequent word strings is divided by the length of the document in the x-axis direction. is obtained as the distance between frequent word strings in the x-axis direction.
  • the INVOICE manuscript (learning image) shown in FIG. 7 does not include the frequent word string "amount".
  • the feature quantity (distance feature quantity) indicating the distance from the frequent word string not included in the manuscript (learning image) is a value preset as a value when the frequent word string does not exist in the manuscript. (For example, 1) (see FIG. 8).
  • the distance feature amount is not limited to the normalized distance described above, and may be the distance itself between the frequent word strings on the document.
  • FIG. 9 is a diagram for explaining the size feature amount according to this embodiment.
  • FIG. 10 is a diagram showing an example of a size information array according to this embodiment.
  • FIG. 10 illustrates an information array (size information array) storing feature amounts (size feature amounts) indicating the sizes of frequent word strings in the manuscript (learning image) shown in FIG. Note that the size feature amount is calculated (generated) using the position coordinates of the frequent word string acquired by the detection unit 55 (upper, lower, left, and right coordinates of the frequent word string).
  • the size information array (array C) stores size features for all frequent word strings (“invoice”, “total”, “amount”, “payment”, etc.). .
  • the area of the circumscribing rectangle of the frequent word string on the document (the area of the shaded portion in FIG. 9) is calculated as the size feature amount.
  • the area of the circumscribing rectangle is expressed in square millimeters, but the unit of the area of the circumscribing rectangle is not limited to this example.
  • the frequent word string "amount" in the size information array in FIG. 10 is a word string that is not included in the INVOICE manuscript (learning image) shown in FIG.
  • the size feature amount of a frequent word string that is not included in the manuscript (learning image) is set to a value (for example, 0) that is set in advance as a value when the frequent word string does not exist in the manuscript. (See FIG. 10).
  • the size feature value is not limited to the area of the circumscribing rectangle of the frequently appearing word string on the document as described above. It may be the size of the obtained frequent word string normalized to a value between 0 and 1, or the like.
  • FIG. 11 is a diagram for explaining line feature amounts according to the present embodiment.
  • FIG. 12 is a diagram showing an example of a row information array according to this embodiment.
  • FIG. 12 illustrates an information array (row information array) storing feature amounts (row feature amounts) indicating the sizes of lines containing frequent word strings in the manuscript (learning image) shown in FIG. .
  • the line feature amount is calculated (generated) using the positional coordinates (line coordinates) of the line containing the frequent word string acquired by the detection unit 55 .
  • the line information array (array D) stores line feature amounts for all frequent word strings ("invoice”, “total”, “amount”, “payment”, etc.).
  • the length of the line containing the frequent word string on the document (the length of the double-headed arrow in FIG. 11) is divided by the length of the document in the same direction as the length of the line.
  • a line length normalized to a value between 0 and 1 is calculated as a line feature amount.
  • the frequent word string "amount" in the row information array in FIG. 12 is a word string that is not included in the INVOICE manuscript (learning image) shown in FIG.
  • the row feature amount for the frequent word string not included in the manuscript (learning image) is set to a value (for example, 0) that is set in advance as a value when the frequent word string does not exist in the manuscript. (See FIG. 12).
  • the line feature amount is not limited to the above-mentioned normalized line length, but is the length of the line containing the frequent word string on the manuscript itself, or the length of the line containing the frequent word string on the manuscript.
  • the value obtained by dividing by the length of the frequent word string magnification of the length of the frequent word string
  • the area of the line containing the frequent word string on the manuscript the area of the circumscribing rectangle of the line
  • the line area of the manuscript A value obtained by dividing by the area (magnification with respect to the document size) or the like may be used.
  • FIG. 13 is a diagram showing an example of a feature array according to this embodiment.
  • the feature array is formed by consolidating the above information arrays (array A, array B, array C, and array D).
  • Each information array (array A, array B, array C, and array D) generated for each document (each learning image) is stored in the feature array.
  • any method may be used to determine which word string to use.
  • array A for example, among the plurality of identical word strings, either the word string with the largest y-coordinate or the word string with the smallest y-coordinate may be used, or both may be used. good too.
  • array B for example, a word string with the smallest distance between frequent word strings may be used.
  • array C for example, either one of the word string having the largest and smallest frequent word strings may be used, or both may be used.
  • array D for example, the word string used in array A may be used, or only one of the word string with the largest row size and the word string with the smallest row size may be used. .
  • the model generation unit 57 generates a learned model for identifying a predetermined document type by performing machine learning (learning with a teacher).
  • machine learning a feature amount (feature array) related to a document shown in a learning image and information indicating whether or not the document shown in the learning image is a predetermined document type (correct label ) is associated with each learning image (a data set (teaching data) of information on whether or not a feature amount and a predetermined document type) is used.
  • Information indicating whether or not the manuscript shown in the learning image is a manuscript of a predetermined manuscript type, which is the correct label is information based on the correct definition acquired by the correct definition acquisition unit 53 .
  • the target document can be specified. It is possible to generate a discriminator capable of determining whether or not the document is of the document type. More specifically, by inputting a feature amount related to a document, it is possible to generate a classifier (learned model) capable of outputting information indicating validity that the document is of a predetermined document type.
  • the information indicating the validity of the manuscript being a manuscript of a predetermined manuscript type includes information (such as a label) indicating whether or not the manuscript is a manuscript of a predetermined manuscript type and/or This is information (reliability, probability, etc.) indicating the likelihood that the document is the original.
  • the generated learned model is stored in the storage unit 58 .
  • Any machine learning method may be used, and any of decision trees, random forests, gradient boosting, linear regression, support vector machines (SVM), neural networks, etc. may be used.
  • SVM support vector machines
  • the storage unit 58 stores the frequent word string (high frequency word list) for the predetermined document type extracted by the frequent word acquisition unit 54 and the trained model for the predetermined document type generated by the model generation unit 57. memorize The storage unit 58 may store the high frequency word list (frequent word string) and the trained model in association with each other.
  • FIG. 14 is a diagram showing an outline of the functional configuration of the information processing device according to this embodiment.
  • a program recorded in the storage device 14 is read out to the RAM 13 and executed by the CPU 11 to control each hardware provided in the information processing apparatus 1, whereby the image acquisition unit 41 , a recognition result acquisition unit 42 , a frequent word storage unit 43 , a model storage unit 44 , a detection unit 45 , a feature generation unit 46 and an identification unit 47 .
  • each function of the information processing apparatus 1 is executed by the CPU 11, which is a general-purpose processor. It may be executed by a processor.
  • each functional unit provided in the information processing device 1 is not limited to being implemented in a device consisting of a single housing (one device), but is remotely and/or distributed (for example, on the cloud ) may be implemented.
  • the image acquisition unit 41 acquires a document image (image of an identification target document (hereinafter referred to as an "identification target image")) to be identified in the document type identification process.
  • a document image image of an identification target document (hereinafter referred to as an "identification target image")
  • the image acquisition unit 41 acquires a scanned image that is the reading result as an identification target image.
  • the recognition result acquisition unit 42 acquires the character recognition result (full-text OCR result) for the identification target image. Note that the processing performed by the recognition result acquisition unit 42 is substantially the same as the processing performed by the recognition result acquisition unit 52, and detailed description thereof will be omitted.
  • the frequently appearing word storage unit 43 stores a frequently appearing word list for identifying a predetermined document type generated by the learning device 2 .
  • the details of the high-frequency word list have been described in the explanation of the functional configuration (frequent word detection/extraction unit 54) of the learning device 2, so the explanation will be omitted.
  • the model storage unit 44 stores a learned model generated by the learning device 2 for identifying a predetermined document type. Note that the details of the trained model have been described in the description of the functional configuration (the model generation unit 57) of the learning device 2, so the description will be omitted.
  • the detection unit 45 performs detection processing of frequent word strings (frequent word strings stored in the high frequency word list stored by the frequent word storage unit 43) in the identification target image. In the detection process, the detection unit 45 acquires information (position information related to the frequent word string) on the position of the frequent word string in the document (the document to be identified) indicated in the identification target image. Note that the processing in the detection unit 45 is substantially the same as the description of the processing in the detection unit 55, so detailed description will be omitted.
  • the feature generation unit 46 generates a feature amount related to the document (document to be identified) indicated in the identification target image.
  • the feature generation unit 46 uses the position information related to the frequent word string acquired by the detection unit 45 to generate a feature amount related to the document to be identified. Then, the feature generation unit 46 generates a feature array in which the feature amounts related to the document to be identified are formed in the form of an array.
  • the feature amount (feature array) related to the document to be identified is used as the feature amount (learned model input) for identifying the document type. Similar to the feature amount related to the document shown in the learning image described above, the feature amount related to the document to be identified is generated as a feature amount including a position feature amount, a distance feature amount, a size feature amount, and a line feature amount. be done.
  • feature amount (feature array) related to the document to be identified and its generation method are substantially the same as the feature amount (feature array) related to the document shown in the learning image and its generation method described above. Detailed description is omitted.
  • the arrangement of feature amounts in the feature array related to the identification target image (the position of each feature amount in the array) is the same as the arrangement of the feature amounts in the feature array related to the learning image.
  • the identification unit 47 identifies whether or not the document to be identified is a document of a predetermined type by inputting the feature amount (feature array) related to the document to be identified into the learned model. Specifically, the identification unit 47 receives a learned model for identifying a predetermined document type stored in the model storage unit 44, and generates a model related to the identification target document generated by the feature generation unit 46. By inputting the feature amount (feature array) into the learned model, it is identified whether or not the document is a document of a predetermined document type. The identification unit 47 outputs the identification result.
  • the learned model outputs information (label and/or probability) indicating the validity that the manuscript is a manuscript of a predetermined manuscript type.
  • the identification unit 47 inputs the feature amount related to the document to be identified into the learned model, thereby providing information (label (For example, label "1" if it is a predetermined document type, label "0" otherwise)) and information indicating the likelihood that the document to be identified is a document of a predetermined document type (reliability, probability, etc.) ).
  • the identification unit 47 may acquire only the probability that the document is of the predetermined document type from the trained model, and determine whether or not the document is of the predetermined document type based on the acquired probability. good.
  • FIG. 15 is a flowchart showing an overview of the flow of learning processing according to this embodiment.
  • the processing shown in this flowchart is executed when the learning device 2 receives an instruction to scan a document or the like. Note that this flowchart may be executed when a user's instruction to acquire the document image stored in the storage device 24 is received. Note that this flowchart illustrates the processing when the document type to be identified (predetermined document type) is "INVOICE".
  • step S101 a plurality of document images (learning images) are acquired.
  • the image acquisition unit 51 acquires learning images (scanned images) including a plurality of predetermined document type images, which are images of documents of a predetermined document type (INVOICE) with different layouts. After that, the process proceeds to step S102.
  • step S102 a correct definition is acquired.
  • the correct definition acquisition unit 53 learns a learning image (learning image identification information) and information indicating whether or not the document shown in the learning image is a document of a predetermined document type (INVOICE). Acquire a correct definition associated with each image for use. After that, the process proceeds to step S103.
  • step S103 the character recognition result (full-text OCR result) is obtained.
  • the recognition result acquisition unit 52 acquires the character recognition result for each learning image by performing character recognition on each learning image acquired in step S101.
  • the order of steps S102 and S103 is random.
  • step S101 and step S102 are in random order. After that, the process proceeds to step S104.
  • step S104 a process of extracting frequent word strings is performed.
  • a frequent word string of a predetermined document type (INVOICE) is extracted using character recognition results of a plurality of learning images (predetermined document type images) that are images of a predetermined document type (INVOICE). Details of the frequent word string extraction process will be described later with reference to FIG. After that, the process proceeds to step S105.
  • step S105 a process of detecting frequently appearing word strings is performed.
  • the frequent word string extracted in step S104 is detected in the learning image acquired in step S101.
  • the position information related to the frequent word string (the position information of the frequent word string within the manuscript (learning image) and the position information of the line containing the frequent word string within the manuscript (learning image)). is obtained. Details of the frequent word string detection process will be described later with reference to FIG. After that, the process proceeds to step S106.
  • step S106 feature quantity generation processing is performed.
  • a feature amount (feature array) relating to the document shown in the learning image acquired in step S101 is generated based on the position information acquired in step S105. Details of the feature amount generation processing will be described later with reference to FIG. 18 . After that, the process proceeds to step S107.
  • step S107 it is determined whether or not feature quantities have been generated for all learning images (whether the processing of steps S105 and S106 has been executed).
  • the CPU 21 determines whether or not the feature amount related to the document shown in the learning image has been generated for each of all the learning images. If all the learning images have not been processed (NO in step S107), the process returns to step S105, and the learning images that have not been processed are processed. On the other hand, if all the learning images have been processed (YES in step S107), the process proceeds to step S108.
  • step S108 a trained model for identifying a predetermined document type is generated.
  • the model generation unit 57 generates a feature amount (feature array) related to the document shown in each learning image generated in step S107, and a document of a predetermined document type (INVOICE) shown in each learning image.
  • a predetermined document type (INVOICE) by performing machine learning using learning data associated with information indicating whether or not (information based on the correct answer definition acquired in step S102)
  • FIG. 16 is a flowchart showing an overview of the flow of frequent word string extraction processing according to this embodiment. The process shown in this flowchart is executed when the process of step S103 in FIG. 15 is completed. This flowchart also exemplifies the processing when the predetermined document type is "INVOICE".
  • step S104 frequency analysis of words (single words) in a plurality of predetermined document type images is performed.
  • the frequent word acquiring unit 54 uses the character recognition results of the plurality of prescribed document type images acquired in step S103 to calculate the number of occurrences of each word contained in each prescribed document type image in the plurality of prescribed document type images. to obtain (aggregate). After that, the process proceeds to step S1042.
  • step S1042 frequency analysis of word strings consisting of two consecutive words in a plurality of predetermined document type images is performed.
  • the frequent word acquiring unit 54 uses the character recognition results of the plurality of prescribed document type images acquired in step S103 to extract each word string (consecutive two words) included in each prescribed document type image in the plurality of prescribed document type images. Acquire (aggregate) the number of occurrences of a word string consisting of words). After that, the process proceeds to step S1043.
  • step S1043 a predetermined number (N) of word strings are extracted as frequent word strings in descending order of frequency (number of appearances). Based on the results of the frequency analysis in steps S1041 and S1042, the frequent word acquisition unit 54 acquires a predetermined number (N) of word strings (including words) included in each predetermined document type image in descending order of frequency of appearance. A word string is extracted as a frequent word string of a predetermined document type (INVOICE). After that, the process proceeds to step S1044.
  • step S1044 a high-frequency word list is generated.
  • the frequent word acquisition unit 54 generates a high frequency word list that stores the frequent word strings extracted in step S1043. Then, the storage unit 58 stores the generated high-frequency word list. After that, the processing shown in this flowchart ends.
  • FIG. 17 is a flowchart showing an overview of the flow of frequent word string detection processing according to this embodiment. The process shown in this flowchart is executed when the process of step S104 in FIG. 15 is completed.
  • step S1051 a high-frequency word list is obtained.
  • the detection unit 55 acquires the high-frequency word list stored in step S1044. After that, the process proceeds to step S1052.
  • step S1052 the position information of the frequently appearing word string is obtained.
  • the detection unit 55 detects frequent word strings included in the character recognition result of the learning image from among the frequent word strings stored in the high-frequency word list acquired in step S1051, and extracts each detected frequent word string. For a word string, information (coordinate information) on the position of the frequent word string within the document shown in the learning image is acquired. After that, the process proceeds to step S1053.
  • step S1053 the position information of the line containing the frequent word string is acquired.
  • the detection unit 55 detects frequent word strings included in the character recognition result of the learning image from among the frequent word strings stored in the high-frequency word list acquired in step S1051, and extracts each detected frequent word string. For a word string, information (coordinate information) of the position in the document shown in the learning image of the line containing the frequently occurring word string is acquired. After that, the processing shown in this flowchart ends.
  • the order of steps S1052 and S1053 is random.
  • FIG. 18 is a flowchart showing an overview of the flow of feature quantity generation processing according to this embodiment. The process shown in this flowchart is executed when the process of step S105 in FIG. 15 is completed.
  • step S1061 a feature amount indicating the position of the frequent word string is generated.
  • the feature generation unit 56 uses the position information acquired in step S1052 to generate a feature amount (feature amount stored in array A in FIG. 6) indicating the position of the frequent word string. After that, the process proceeds to step S1062.
  • step S1062 a feature quantity indicating the distance between frequent word strings is generated.
  • the feature generation unit 56 uses the position information acquired in step S1052 to generate feature amounts (feature amounts stored in array B in FIG. 8) indicating distances between frequent word strings. After that, the process proceeds to step S1063.
  • step S1063 a feature amount indicating the size of the frequent word string is generated.
  • the feature generation unit 56 uses the position information acquired in step S1052 to generate a feature amount (feature amount stored in array C in FIG. 10) indicating the size of the frequent word string. After that, the process proceeds to step S1064.
  • step S1064 a feature amount indicating the size of the line containing the frequent word string is generated.
  • the feature generation unit 56 uses the position information acquired in step S1053 to generate a feature amount (feature amount stored in array D in FIG. 12) indicating the size of the line containing the frequent word string.
  • the order of steps S1061 to S1064 is random. After that, the process proceeds to step S1065.
  • step S1065 the feature quantity is molded into an array.
  • the feature generation unit 56 generates a feature array (each row in FIG. 13) in which each feature amount generated in steps S1061 to S1064 is aggregated. After that, the processing shown in this flowchart ends. Note that, by executing the process of step S106 for each learning image, the feature amount related to each learning image (the feature amount of the document shown in the learning image) is stored in the feature array as shown in FIG.
  • a feature array such as
  • FIG. 19 is a flowchart showing an overview of the flow of identification processing according to this embodiment.
  • the processing shown in this flowchart is executed when the information processing apparatus 1 receives an instruction to scan a document or the like. Note that this flowchart may be triggered by receiving an instruction from the user to acquire the document image stored in the storage device 14 or the like. This flowchart also exemplifies processing when the document type to be identified is "INVOICE".
  • step S201 a document image (identification target image) is acquired.
  • the image acquisition unit 41 acquires a scanned image of a document to be identified. After that, the process proceeds to step S202.
  • step S202 the character recognition result (full-text OCR result) is acquired.
  • the recognition result acquisition unit 42 acquires the character recognition result for the identification target image by performing character recognition on the identification target image acquired in step S201. After that, the process proceeds to step S203.
  • step S203 a process of detecting frequently appearing word strings is performed.
  • the frequent word string stored in the frequent word storage unit 43 is detected in the classification target image acquired in step S201.
  • position information related to the frequent word string (information on the position of the frequent word string within the document to be identified and information on the position of the line containing the frequent word string within the document to be identified) is acquired. be done. Since the frequent word string detection process is roughly the same as the process shown in FIG. 17, detailed description is omitted. After that, the process proceeds to step S204.
  • step S204 feature quantity generation processing is performed.
  • a feature quantity (feature array) relating to the document (identification target document) shown in the identification target image acquired in step S201 is generated based on the position information acquired in step S203.
  • the details of the feature amount generation processing are substantially the same as the processing shown in FIG. 18, and thus the detailed description is omitted. After that, the process proceeds to step S205.
  • step S205 the document type of the document to be identified is identified.
  • the identification unit 47 receives a learned model for identifying a predetermined document type (INVOICE) stored in the model storage unit 44, and the identification unit 47 selects the identification target document generated in step S204. By inputting the feature quantity (feature array) into the received trained model, it is identified whether or not the document to be identified is of a predetermined document type (INVOICE). The identification unit 47 outputs the identification result. After that, the processing shown in this flowchart ends.
  • a learned model for identifying a predetermined document type IVOICE
  • the learning apparatus 2 uses the feature amount related to the document (the positional relationship feature regarding the positional relationship between the frequently appearing word string of a predetermined document type and other word strings in the document). Since it is possible to generate a trained model that can identify whether the manuscript is a manuscript of the predetermined manuscript type or not, it is possible to generate a document with an undefined layout (various layouts). It is possible to generate a model (identifier) that can appropriately identify the type of document even if the document is a standard form or the like.
  • the information processing apparatus 1 uses a learned model capable of identifying whether or not the document is a document of a predetermined document type based on the feature amount of the document, and identifies the document to be identified. Since it is possible to identify whether the document is a document of a predetermined document type, it is possible to appropriately identify the document type even if the document is a document with an undefined layout. In other words, it is possible to identify documents having different layouts as documents of the same document type.
  • the position of the frequent word string varies depending on the document.
  • the positional relationship feature quantity distance feature quantity and line feature quantity related to the positional relationship in the relevant document is used. becomes possible.
  • positional relationship feature amounts (distance feature amounts, line feature amounts, Quantity) makes it possible to identify an INVOICE document with an undefined layout.
  • the configuration of the system according to this embodiment is substantially the same as that described in the first embodiment with reference to FIG. 1, so the description will be omitted.
  • the functional configuration of the learning device according to this embodiment is substantially the same as that described in the first embodiment with reference to FIG. 2, so description thereof will be omitted.
  • the learning device 2 performs the above-described learning process (see FIG. 15) for each of a plurality of predetermined manuscript types, and generates a high-frequency word list for each of a plurality of predetermined manuscript types. and a trained model is generated.
  • the high-frequency word list may be generated for each document type, or may be a list in which frequently-occurring word strings for each document type are stored.
  • FIG. 20 is a diagram showing an example of a high-frequency word list according to this embodiment.
  • the high-frequency word list contains identification information of a predetermined document type, frequently occurring word strings of the predetermined document type (word string 1 to word string M (M frequent word strings)), Identification information (model name, etc.) of the learned model for identifying the predetermined document type is associated and stored.
  • the document type identification information may be any document type name (document type 1, document type 2, etc.), number, symbol, etc., as long as it is information indicating the type of document.
  • the high-frequency word list may be a list in which frequently-appearing word strings for each of a plurality of predetermined document types are stored. Note that the number of frequent word strings does not have to be common (same number) to all document types.
  • the functional configuration of the information processing apparatus according to the present embodiment is substantially the same as that described in the first embodiment with reference to FIG. 14, so description thereof will be omitted.
  • the information processing apparatus 1 identifies whether or not an identification target image is an image of a predetermined document type for each of a plurality of predetermined document types. . Therefore, each functional unit other than the image acquisition unit 41 processes each of a plurality of predetermined document types.
  • the identification unit 47 identifies the document type of the document to be identified based on the result of identifying whether or not the document to be identified (the document targeted by the identification target image) corresponds to each of a plurality of predetermined document types. identify. Specifically, by adopting one result from a plurality of identification results, the document type of the identification target document is identified.
  • the identification unit 47 identifies the document type. It identifies (determines) that it is the document type of the target document. On the other hand, if there are a plurality of document types determined to be applicable, the identification unit 47 selects one document type from the plurality of document types by the following method or the like, and identifies the selected document type as the document to be identified. is identified (determined) as the original type.
  • One document type may be selected based on the likelihood (probability, reliability, etc.) that the document to be identified is a document of a predetermined document type output by the learned model. For example, the document type with the highest probability is determined (estimated) as the document type of the document to be identified.
  • selection based on degree of discrimination in the past It may be selected based on the identification result (identification degree) of the past identification target image. For example, one document type may be selected based on the frequency (number of times) of past identification target documents being identified as corresponding to a predetermined document type. Specifically, the document type that has been identified (determined) the most times as the predetermined document type in the past identification target document is determined (estimated) as the document type of the identification target document.
  • the information processing apparatus 1 is provided with a history information storage unit (not shown) to store past identification results.
  • selection based on past identification time It may be selected based on the identification time (identified time) of the past identification target image. For example, one document type may be selected based on the time when the past identification target document was identified as a document of a predetermined document type. Specifically, the document type that was most recently identified (determined) as the predetermined document type in the past identification target document is determined (estimated) as the document type of the identification target document. be.
  • the information processing apparatus 1 is provided with a history information storage unit (not shown) to store past identification times.
  • a plurality of document types determined to be applicable may be displayed, and one document type may be selected by the user selecting one document type from the displayed plurality of document types.
  • the information processing apparatus 1 is provided with a display unit (not shown) to display the document type determined to be applicable, and the instruction receiving unit (not shown) is displayed. By providing it, a selection instruction from the user is accepted.
  • FIG. 21 is a flowchart showing an overview of the flow of identification processing according to this embodiment.
  • the processing shown in this flowchart is executed when the information processing apparatus 1 receives an instruction to scan an original (document) or the like. Note that this flowchart may be executed when a user's instruction to acquire a form image stored in the storage device 14 is received.
  • two document types (predetermined document types) to be identified (document type 1 and document type 2) are exemplified. By performing similar processing, it is possible to identify the document type.
  • step S301 a document image (identification target image) is acquired.
  • the image acquisition unit 41 acquires a scanned image of a document to be identified.
  • steps S302 and S306 Thereafter, the processing of steps S302 to S305 (identification processing of whether or not the document to be identified corresponds to document type 1) and the processing of steps S306 to S309 (whether or not the document to be identified corresponds to document type 2). identification processing of whether or not) is executed in parallel.
  • step S302 the character recognition result (full-text OCR result) is acquired. Since the process of step S302 is substantially the same as the process of step S202 in FIG. 19, detailed description thereof will be omitted. After that, the process proceeds to step S303.
  • step S303 detection processing of frequently appearing word strings is performed.
  • the detection unit 45 receives the high frequency word list for the document type 1 stored in the frequent word storage unit 43, and performs detection processing for the high frequency word string for the document type 1 stored in the high frequency word list. Note that the process of step S303 is substantially the same as the process of step S203 in FIG. 19, so detailed description thereof will be omitted. After that, the process proceeds to step S304.
  • step S304 feature quantity generation processing is performed.
  • the feature generation unit 46 generates a feature amount (feature array) related to the document shown in the identification target image acquired in step S301 based on the position information acquired in step S303. Since the process of step S304 is substantially the same as the process of step S204 in FIG. 19, detailed description thereof will be omitted. After that, the process proceeds to step S305.
  • step S305 it is identified whether the document to be identified is of a predetermined document type (document type 1).
  • the identification unit 47 receives the learned model for the document type 1 stored in the model storage unit 44, and inputs the feature amount generated in step S304 to the learned model, thereby identifying the document to be identified. Identify whether or not the document is of document type 1. Since the process of step S305 is substantially the same as the process of step S205 in FIG. 19, detailed description thereof will be omitted. After that, the process proceeds to step S310.
  • step S306 to S309 is substantially the same as the identification process for the document type 1 (steps S302 to S305) described above, except that the target document type is different. omitted.
  • step S310 the identification results are aggregated to identify the document type of the identification target document, and the identified result is output.
  • the identification unit 47 identifies a document to be identified based on the identification result as to whether or not the document to be identified corresponds to document type 1 and the identification result as to whether or not the document to be identified corresponds to document type 2. identify the type of manuscript. For example, if the identification result in step S305 is "applicable to document type 1" and the identification result in step S309 is "not applicable to document type 2", the document to be identified corresponds to document type 1.
  • the document is identified (determined) as (the document is of document type 1), and the result is output. After that, the processing shown in this flowchart ends.
  • the document type 1 and document type 2 identification processes are executed in parallel, but the present invention is not limited to this example. identification processing may be executed. Further, the character recognition result acquisition processing is not performed for each document type as in the example shown in FIG. It may be used for other manuscript types.
  • the configuration of the system according to this embodiment is substantially the same as that described in the first embodiment with reference to FIG. 1, so the description will be omitted. Also, since the functional configuration of the learning device according to this embodiment is substantially the same as that described in the first embodiment with reference to FIG. 2, detailed description thereof will be omitted. Also, since the flow of the learning process in this embodiment is substantially the same as that described in the first embodiment with reference to FIG. 15, the description will be omitted. However, unlike the first embodiment, in the learning device 2, one trained model capable of identifying a plurality of predetermined document types is generated by learning processing. Therefore, the correct definition acquired by the correct definition acquisition unit 53, the high-frequency word list generated by the frequent part acquisition unit 54, the feature amount (feature array) generated by the feature generation unit 56, etc. are the first embodiment. different from
  • the correct definition acquisition unit 53 determines which of a plurality of predetermined document types the document indicated by the learning image (identification information of the learning image) is.
  • a correct answer definition in which information (such as a label) indicating whether or not there is an image is associated with each learning image is acquired.
  • the document types (predetermined document types) to be identified are document type 1 (INVOICE) and document type 2 (invoice)
  • the correct definition if the document type is 1, the label "1" A label "2" is associated with each learning image when the document type is 2, and a label "0" when the document type does not correspond to either document type. It is optional whether or not to use an image of a document that does not correspond to any of the document types for the learning process.
  • the frequent word acquisition unit 54 acquires (extracts) frequent word strings for each of a plurality of prescribed manuscript types, and generates a high frequency word list storing the acquired frequent word strings for each of a plurality of prescribed manuscript types. Specifically, the frequent word acquiring unit 54 groups the learning images by document type (predetermined document type), and extracts a frequent word string for each group (document type). For example, by executing the processing shown in steps S1041 to S1044 for a plurality of learning images (INVOICE images) corresponding to manuscript type 1 (INVOICE), frequent word strings of manuscript type 1 are extracted. , a high-frequency word list is generated for document type 1 in which the frequently-appearing word string is stored.
  • Similar processing is performed for other manuscript types to extract frequently appearing word strings (high frequency word lists are generated) for each manuscript type.
  • the high-frequency word list may not be generated for each document type as described above, but may be a single list containing frequently-occurring word strings for each document type.
  • identification information (model name) of a trained model need not be stored like the high-frequency word list shown in FIG.
  • the detection unit 55 acquires position information related to frequent word strings for each of a plurality of predetermined document types for each learning image (document).
  • the detection unit 55 acquires the position in the document of each frequent word string stored in the high-frequency word list (all high-frequency word lists if the list is generated for each document type). That is, for each learning image (manuscript), each frequent word string of each manuscript type and each frequently-occurring word string of document type 2) is acquired.
  • the feature generation unit 56 generates a feature amount (feature array) related to the document shown in the learning image based on the position information acquired by the detection unit 55 .
  • the feature array includes feature amounts (position feature amount, distance feature amount, size feature amount, line feature amount) related to frequent word strings for each of a plurality of predetermined document types (all document types to be identified). ) is stored. For example, if document types (predetermined document types) to be identified are document type 1 and document type 2, the feature values relating to the frequent word strings of document type 1 and the frequent word strings of document type 2 are stored. However, the distance feature amount calculated only between frequent word strings of the same document type is stored.
  • the model generation unit 57 generates a feature amount (feature array) related to the document shown in the learning image generated by the feature generation unit 56, By performing machine learning using learning data in which information indicating which type of manuscript the manuscript is (information based on the correct answer definition) is associated with each learning image, a plurality of predetermined manuscript types can be determined. Generate a trained model for identification. In other words, by inputting the feature amount related to the document including the positional relationship feature amount relating to the positional relationship in the document between the frequently appearing word strings of each of a plurality of predetermined document types and other word strings, A discriminator (learned model) is generated that outputs information indicating the validity of the manuscript of each of a plurality of predetermined manuscript types.
  • feature amounts relating to frequent word strings for each of a plurality of prescribed manuscript types are generated (stored in one feature array). It is conceivable that the generated feature amount (feature amount stored in the feature array) will be enormous. Therefore, the following method can be used to reduce the feature amount (the feature amount stored in the feature array (the position feature amount, the distance feature amount, the size feature amount, and the line feature amount of each frequent word string)). It is possible.
  • the duplicate frequent word strings may be excluded from the frequent word strings used to generate feature amounts. good.
  • a combination that satisfies a predetermined condition is a combination in which a representative value (average value) of distances between frequent word strings in a plurality of learning images that are images of a predetermined document type (INVOICE) is equal to or less than a predetermined value.
  • frequent word strings are extracted from a plurality of training images (for example, 100 images) that are images of manuscript type 1 (INVOICE)
  • word strings between all combinations (pairs) of frequent word strings are A distance is calculated for each training image (in each of the 100 images). Then, only pairs of frequent word strings in which the average value of the distances between the frequent word strings in the 100 learning images is equal to or less than a predetermined threshold may be determined as word string pairs to be used for the distance feature amount.
  • the feature array may be changed so as to use only feature amounts that are frequently used in actual identification processing (highly used feature amounts).
  • PCA principal component analysis
  • the functional configuration of the information processing apparatus according to this embodiment is substantially the same as that described in the first embodiment with reference to FIG. 14, so description thereof will be omitted. Also, the flow of identification processing in this embodiment is substantially the same as that described in the first embodiment with reference to FIG. 19, so description thereof will be omitted.
  • the frequent word storage unit 43 stores the above-described frequent word strings for each of the plurality of predetermined document types (frequent word strings for each of the plurality of predetermined document types generated by the frequent word acquisition unit 54). stored high-frequency word list).
  • the model storage unit 44 also stores the learned models generated by the model generation unit 57 described above for identifying a plurality of predetermined document types.
  • the detection unit 45 acquires information about the positions of frequent word strings of each of a plurality of predetermined document types in the document to be identified.
  • the feature generation unit 46 uses the information acquired by the detection unit 45 to generate a feature amount related to the document to be identified (feature amount related to frequent word strings for each of a plurality of predetermined document types). The details of the feature amount related to the frequent word strings are the same as in the first embodiment.
  • the identification unit 47 inputs the feature amount related to the document to be identified to a trained model for identifying a plurality of predetermined document types, so that the identification target document is a document of each of the plurality of predetermined document types.
  • Information indicating validity for example, when document types (predetermined document types) to be identified are document type 1 and document type 2), information indicating validity of document type 1 and validity indicating document type 2 information).
  • the identification unit 47 identifies which type of document among a plurality of predetermined types of document the document to be identified belongs to. For example, it is possible to determine (identify) the document type with the highest probability as the document type of the document to be identified from the probabilities (reliability, etc.) of each document type output from the learned model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

情報処理システムに、識別対象画像の文字認識結果を取得する認識結果取得部と、所定の原稿種の頻出単語列を記憶する頻出語記憶部と、頻出単語列の識別対象原稿内での位置に関する情報を取得する検出部と、頻出単語列と他の単語列との識別対象原稿内での位置関係に関する特徴量を含む識別対象原稿に係る特徴量を、位置に関する情報を用いて生成する特徴生成部と、頻出単語列と他の単語列との原稿内での位置関係に関する特徴量を含む特徴量が入力されることで、当該原稿が所定の原稿種の原稿である妥当性を示す情報が出力されるよう生成された学習済みモデルを記憶するモデル記憶部と、識別対象原稿に係る特徴量を学習済みモデルに入力することで識別対象原稿が所定の原稿種の原稿か否かを識別する識別部とを備えた。

Description

情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
 本開示は、原稿の種類を識別するための技術に関する。
 従来、原稿画像を読み取るスキャナと、読み取った原稿のRGB信号などの色情報を、予め分割された色空間毎に分類して画像の特徴量を抽出し、抽出した特徴量と予め記憶されている特徴量とを比較することにより読み取った原稿の種類を判定する原稿種登録・原稿種判定回路とを備え、原稿種登録・原稿種判定回路の判定結果に基づいて画像処理内容を切り替える装置が提案されている(特許文献1を参照)。
 また、原稿に形成された画像の画像情報を取得し、画像の特徴量から分類を行うための第1の認識処理を実行し、画像の文字情報から分類を行うための第2の認識処理を実行し、何れか一方の認識処理の処理結果により、何れか一方の認識処理または両者の認識処理を用いて画像を分類する画像読取装置が提案されている(特許文献2を参照)。
 また、文書を分類するためのモデルであって、入力された文書に基づいて、分類の結果を識別する識別情報を出力する文書分類モデルを機械学習により生成する装置であって、文書と該文書に関連付けられた識別情報とを含む学習データを取得し、文書に含まれる単語と、単語を構成する文字のうちの一の文字または単語において連続する複数の文字からなる文字列であって、前記単語から1または複数抽出可能な情報である文字情報と、を特徴量として抽出し、文書から抽出された特徴量及び当該文書に関連付けられた識別情報に基づいて機械学習を行い、文書分類モデルを生成する文書分類装置が提案されている(特許文献3を参照)。
 更に、文書の画像を表す画像データを取得し、画像データで表される画像を解析することによって文書の各ページを構成する構成要素のレイアウトを表すレイアウト情報を取得し、ページ内で文章が空間的に連続している文章領域を抽出し、文章領域に含まれる文字列を認識し、認識された文字列から視覚的に強調された文字列を抽出し、抽出された文字列をキーワードとし、文章領域のレイアウト上の階層構造を表す構造データをページ毎に生成し、構造データとキーワードとを用いて、文書の論理構造を抽出し、抽出された論理構造を用いて文書を分類して記憶する文書分類装置が提案されている(特許文献4を参照)。
特開平11-146220号公報 特開2017-90974号公報 国際公開第2020/021845号 特開2005-122550号公報
 従来、原稿の種類を識別する技術として、罫線情報を使用する方法や、特定の原稿種にのみ記載される特定単語の有無とその位置によって特定の原稿種を識別する方法等、種々の技術が提案されている。
 しかし、準定型帳票等の、同一種の文書であっても様々なレイアウト(フォーマット)が存在する文書の場合、原稿によって、記載されている単語や、罫線や単語の位置等が異なる。そのため、上述した従来の方法では、このようなレイアウトが定まっていない文書の原稿について、原稿の種類を識別することが困難である。
 本開示は、上記した問題に鑑み、レイアウトが定まっていない文書の原稿であっても、原稿の種類を適切に識別することを課題とする。
 本開示の一例は、識別対象の原稿の画像である識別対象画像についての文字認識結果を取得する認識結果取得手段と、所定の原稿種の頻出単語列を記憶する頻出語記憶手段と、前記識別対象画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の前記識別対象の原稿内での位置に関する情報を取得する検出手段と、前記頻出単語列と他の単語列との前記識別対象の原稿内での位置関係に関する位置関係特徴量を含む該識別対象の原稿に係る特徴量を、前記位置に関する情報を用いて生成する特徴生成手段と、前記頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む該原稿に係る特徴量が入力されることで、該原稿が前記所定の原稿種の原稿である妥当性を示す情報が出力されるよう機械学習により生成された、該所定の原稿種を識別するための学習済みモデルを記憶するモデル記憶手段と、前記識別対象の原稿に係る特徴量を前記学習済みモデルに入力することで、該識別対象の原稿が前記所定の原稿種の原稿であるか否かを識別する識別手段を備える情報処理システムである。
 本開示は、情報処理装置、システム、コンピュータによって実行される方法またはコンピュータに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピュータその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的又は化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。
 本開示によれば、レイアウトが定まっていない文書の原稿であっても、原稿の種類を適切に識別することが可能となる。
実施形態に係る情報処理システムの構成を示す概略図である。 実施形態に係る学習装置の機能構成の概略を示す図である。 第一の実施形態に係る高頻度単語リストの一例を示す図である。 実施形態に係るINVOICE原稿の一例を示す図である。 実施形態に係る位置特徴量を説明するための図である。 実施形態に係る座標情報配列の一例を示す図である。 実施形態に係る距離特徴量を説明するための図である。 実施形態に係る単語列間距離情報配列の一例を示す図である。 実施形態に係る大きさ特徴量を説明するための図である。 実施形態に係る大きさ情報配列の一例を示す図である。 実施形態に係る行特徴量を説明するための図である。 実施形態に係る行情報配列の一例を示す図である。 実施形態に係る特徴配列の一例を示す図である。 実施形態に係る情報処理装置の機能構成の概略を示す図である。 実施形態に係る学習処理の流れの概要を示すフローチャートである。 実施形態に係る頻出単語列抽出処理の流れの概要を示すフローチャートである。 実施形態に係る頻出単語列検出処理の流れの概要を示すフローチャートである。 実施形態に係る特徴量生成処理の流れの概要を示すフローチャートである。 第一の実施形態に係る識別処理の流れの概要を示すフローチャートである。 第二の実施形態に係る高頻度単語リストの一例を示す図である。 第二の実施形態に係る識別処理の流れの概要を示すフローチャートである。
 以下、本開示に係る情報処理システム、方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る情報処理システム、方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。
 本実施形態では、本開示に係る情報処理システム、方法及びプログラムを、INVOICE(INVOICE原稿)を識別するシステムにおいて実施した場合の実施の形態について説明する。但し、本開示に係る情報処理システム、方法及びプログラムは、任意の原稿種類(原稿種)を識別するための技術について広く用いることが可能であり、本開示の適用対象は、実施形態において示した例に限定されない。
 [第一の実施形態]
 <システムの構成>
 図1は、本実施形態に係る情報処理システム9の構成を示す概略図である。本実施形態に係る情報処理システム9は、ネットワークに接続されることで互いに通信可能な、1又は複数の情報処理装置1、学習装置2及び文書読取装置3(3A、3B)を備える。学習装置2では、所定の原稿種類(以下、原稿種類を「原稿種」と称する)を識別するための学習処理が行われ、所定の原稿種を識別するための学習済みモデルが生成される。情報処理装置1では、学習装置2において生成された学習済みモデルを用いて、識別対象の原稿の原稿種(識別対象の原稿が所定の原稿種の原稿であるか否か)が識別される。
 本実施形態では、所定の原稿種として「INVOICE」を例示し、INVOICE(INVOICE原稿)を識別するための学習処理及び識別処理を例示する。但し、識別する原稿種(所定の原稿種)は、INVOICE以外の任意の原稿種であってよく、例えば、請求書や、非定型領収書、お知らせ、保証書等であってよい。また、本実施形態において、原稿とは、紙媒体の原稿のみならず、電子原稿(画像)をも含む。
 情報処理装置1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、EEPROM(Electrically Erasable and Programmable Read Only Memory)やHDD(Hard Disk Drive)等の記憶装置14、NIC(Network Interface Card)等の通信ユニット15、キーボードやタッチパネル等の入力デバイス16及びディスプレイ等の出力デバイス17、等を備えるコンピュータである。但し、情報処理装置1の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、情報処理装置1は、単一の筐体からなる装置に限定されない。情報処理装置1は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
 情報処理装置1は、学習装置2により生成された学習済みモデル及び高頻度単語リストを学習装置2から取得し、記憶する。また、情報処理装置1は、文書読み取り装置3Aから、識別対象の原稿の画像である文書画像(識別対象画像)を取得する。そして、情報処理装置1は、学習済みモデル及び高頻度単語リストを用いることで、識別対象の原稿(識別対象画像に示された原稿)の原稿種を識別する。
 なお、文書画像は、TIFF(Tagged Image File Format)、JPEG(Joint Photographic Experts Group)、PNG(Portable Network Graphics)等の電子データ(画像データ)に限らず、PDF(Portable Document Format)による電子データであってもよい。そのため、文書画像は、原稿をスキャンしてPDF化することにより得られる電子データ(PDFファイル)や、当初からPDFファイルとして作成された電子データ(電子原稿)であってもよい。
 なお、識別対象画像を取得する方法は、上述した例に限定されず、他の装置を介して取得する方法や、USB(Universal Serial Bus)メモリ、SDメモリーカード(Secure Digital memory card)及び光ディスク等の外部記録媒体や記憶装置14から読み出すことで取得する方法等、任意の方法が用いられてよい。なお、識別対象画像を文書読取装置3Aから取得しない場合は、情報処理システム9に文書読取装置3Aを備えなくてもよい。また、同様に、学習済みモデル及び高頻度単語リストを取得する方法は、上述した例に限定されず、任意の方法が用いられてよい。
 学習装置2は、CPU21、ROM22、RAM23、記憶装置24及び通信ユニット25等を備えるコンピュータである。但し、学習装置2の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、学習装置2は、単一の筐体からなる装置に限定されない。学習装置2は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
 学習装置2は、文書読み取り装置3Bから文書画像(学習用画像)を取得する。そして、学習装置2は、学習用画像を用いて学習処理を行うことにより、所定の原稿種(所定の原稿種の原稿)を識別するための学習済みモデル及び高頻度単語リストを生成する。
 なお、学習用画像を取得する方法は、上述した例に限定されず、他の装置を介して取得する方法や、外部記録媒体や記憶装置24から読み出すことで取得する方法等、任意の方法が用いられてよい。なお、学習用画像を、文書読取装置3Bから取得しない場合は、情報処理システム9に文書読取装置3Bを備えなくてもよい。また、本実施形態では、別装置(別筐体)である情報処理装置1と学習装置2を例示するが、この例に限定されず、情報処理装置9は、学習処理及び原稿種識別処理の両者を行う一の装置(筐体)を備えるようにしてよい。
 文書読取装置3(3A、3B)は、ユーザからのスキャン指示等を受け、紙媒体の文書(原稿)を光学的に読み取ることで、文書画像(原稿画像)を取得する装置であり、スキャナや複合機等に例示される。文書読取装置3Aは、ユーザが原稿種を識別したい原稿を読み取ることで、識別対象画像を取得する。文書読取装置3Bは、所定の原稿種(例えば、INVOICE)を含む複数の原稿種の原稿を読み取ることで、複数の学習用画像を取得する。なお、文書読取装置3Aと文書読取装置3Bは、同一の装置(筐体)であってもよい。また、文書読取装置3は、他の装置に画像を送信する機能を備えるものに限定されず、デジタルカメラやスマートフォン等の撮像装置であってもよい。また、文書読取装置3は、文字認識(OCR)機能を備えなくてもよい。
 <機能構成>
 図2は、本実施形態に係る学習装置の機能構成の概略を示す図である。学習装置2は、記憶装置24に記録されているプログラムが、RAM23に読み出され、CPU21によって実行されて、学習装置2に備えられた各ハードウェアが制御されることで、画像取得部51、認識結果取得部52、正解定義取得部53、頻出語取得部54、検出部55、特徴生成部56、モデル生成部57及び記憶部58を備える装置として機能する。なお、本実施形態及び後述する他の実施形態では、学習装置2の備える各機能は、汎用プロセッサであるCPU21によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。また、学習装置2が備える各機能部は、単一の筐体からなる装置(1の装置)に実装されるものに限定されず、遠隔に及び/又は分散して(例えば、クラウド上に)実装されてもよい。
 画像取得部51は、学習処理において使用される複数の文書画像(学習用画像)を取得する。本実施形態では、画像取得部51は、所定の原稿種(INVOICE)を含む複数の原稿種の原稿についてのスキャン画像を学習用画像として取得する。なお、画像取得部51は、所定の原稿種(INVOICE)の原稿の画像(以下、「所定原稿種画像」と称する)として、互いにレイアウトが異なる所定の原稿種の原稿(複数の原稿)の画像を取得する。画像取得部51は、例えば、ユーザのスキャン指示により所定の原稿種を含む複数の原稿種の原稿が文書読取装置3Bにおいて読み取られると、その読み取り結果であるスキャン画像を学習用画像として取得する。
 なお、原稿の画像には、原稿中の情報が画像として含まれている。また、学習用画像及び後述する識別対象画像は、対象の原稿(画像に示された原稿)に合致するように前処理(原稿の大きさに合わせるためのトリミング処理等)が行われた画像である。これより、原稿内での位置は、画像内での位置と等価なものとして扱うことが可能である。なお、本実施形態では、所定の原稿種以外の原稿種の原稿画像を、学習時の不正解学習データとして用いるが、所定の原稿種及びその他の原稿種夫々の学習用画像の枚数は任意である。
 認識結果取得部52は、各学習用画像についての文字認識結果(文字列データ)を取得する。認識結果取得部52は、学習用画像全体(全領域)を、OCRを用いて読み取ることにより、学習用画像についての文字認識結果(全文OCR結果)を取得する。なお、文字認識結果は、学習用画像内の各文字列(文字列画像)に対する文字認識結果を含むものあれば、データ構造は任意である。なお、文字認識結果を取得する方法は、上述した例に限定されず、OCR処理を行う文字認識装置等の他の装置を介して取得する方法や、外部記録媒体や記憶装置24から読み出すことで取得する方法等、任意の方法が用いられてよい。なお、本実施形態において、文字列とは、1以上の文字からなる列(文字の連なり)であり、文字には、平仮名、片仮名、漢字、アルファベット、数字、記号等を含む。
 正解定義取得部53は、学習用画像(学習用画像の識別情報)と、当該学習用画像に示された原稿が所定の原稿種の原稿であるか否かを示す情報とが学習用画像毎に対応付けられた正解定義(正解定義テーブル)を取得する。例えば、正解定義には、所定の原稿種(INVOICE)の画像である学習用画像については、所定の原稿種であることを示す情報として、原稿種名(INVOICE)やラベル「1」等が格納される。また不正解データとして用いられる学習用画像については、所定の原稿種でないことを示す情報として、その学習用画像の原稿種名やラベル「0」等が格納される。なお、学習用画像の識別情報は、ファイル名や番号、記号など、学習用画像を示す情報であれば任意である。本実施形態では、正解定義取得部53は、学習装置2に、ユーザにより生成(定義)された正解定義が入力されることで、正解定義を取得する。
 なお、所定の原稿種の原稿であるか否かを示す情報を格納するためのデータ構造はCSV(comma-separated values)形式等のテーブル形式に限定されず、任意の形式であってよい。また、正解定義の取得方法は、上述した例に限定されず、他の装置を介して取得する方法や、外部記録媒体や記憶装置24から読み出すことで取得する方法等、任意の方法が用いられてよい。
 頻出語取得部54は、所定の原稿種の原稿(画像)において頻出する単語列である頻出単語列(所定の原稿種の頻出単語列)を1以上取得(抽出)する。本実施形態では、所定の原稿種の画像である複数の学習用画像において、共通してより多く出現している単語列が頻出単語列として抽出される。これより、所定の原稿種の特徴となる単語列を入手することができる。なお、単語列は、1以上の単語からなる列(単語の並び)を意味し、複数単語からなる単語列と単語単体を含むものである。以下、所定の原稿種の原稿の画像(学習用画像)を、「所定原稿種画像」と称する。以下、より具体的な頻出単語列の抽出方法を説明する。
 頻出語取得部54は、複数の所定原稿種画像に対して頻度解析を行うことで、所定の原稿種の原稿(画像)において頻出する単語列(頻出単語列)を抽出する。本実施形態では、各所定原稿種画像の文字認識結果に含まれる、連続する2単語からなる単語列及び単語の夫々について頻度解析が行われ、頻度が高い順に所定数(N個(N≧1))の単語列が頻出単語列として抽出される。頻出語取得部54は、抽出した頻出単語列を格納した高頻度単語リストを生成する。
 図3は、本実施形態に係る高頻度単語リストの一例を示す図である。図3に示す通り、所定の原稿種についての高頻度単語リストには、所定の原稿種の頻出単語列(単語列1~単語列M(M個の頻出単語列))及び当該所定の原稿種を識別するための学習済みモデルの識別情報が格納される。学習済みモデルの識別情報は、学習済みモデルを示す情報であれば、モデル名(Mоdel1等)や、番号、記号等任意である。このように、高頻度単語リストに、識別対象原稿の頻出単語列と、対応する学習済みモデルの識別情報を格納することで、頻出単語列と学習済みモデルを対応付けるようにしてよい。なお、本実施形態では、所定の原稿種が一つの場合を例示するため、学習済みモデルの識別情報は格納されていなくてもよい。
 このようにして生成された高頻度単語リストは、記憶部58により記憶される。なお、頻度解析では、各所定原稿種画像に含まれる単語列夫々についての出現度合い(出現回数等)が取得されてもよいし、複数の所定原稿種画像において出現頻度の高い単語列が取得されてもよい。また、頻出単語列の抽出方法は、上述した例に限定されず、頻度(出現回数)に対する所定の閾値が設定され、頻度が閾値を超えた単語列が頻出単語列として抽出されてもよい。また、頻出単語列(高頻度単語リスト)を取得する方法は、上述した例以外に、他の装置を介して取得する方法や、外部記録媒体や記憶装置24から読み出すことで取得する方法等、任意の方法が用いられてよい。
 検出部55は、各学習用画像において、頻出語取得部54により抽出された頻出単語列(高頻度単語リストに格納されている頻出単語列)の検出処理を行う。検出処理において、検出部55は、頻出単語列の原稿(学習用画像)内での位置に関する情報(頻出単語列に係る位置情報)を、学習用画像毎に取得する。例えば、検出部55は、高頻度単語リストに格納された頻出単語列のうち、学習用画像の文字認識結果中に含まれている頻出単語列を検出する。そして、検出部55は、検出された頻出単語列の当該学習用画像(原稿)内での位置に関する情報(頻出単語列に係る位置情報)を、例えば、当該学習用画像の文字認識結果から取得する。検出部55は、これらの処理を学習用画像毎に実行することで、頻出単語列の各原稿(学習用画像)内での位置に関する情報を取得する。
 頻出単語列に係る位置情報は、頻出単語列の位置情報及び/又は頻出単語列を含む行の位置情報であり、本実施形態では、両者の位置情報を用いることとする。また、本実施形態では、位置情報として位置座標を用いる。よって、本実施形態では、頻出単語列に係る位置情報として、頻出単語列の位置座標及び頻出単語列を含む行の位置座標(行座標)を用いる。
 頻出単語列の位置座標は、例えば、原稿(学習用画像)中の頻出単語列の外接矩形の位置を示す座標(外接矩形の各頂点の座標等)である。また、例えば、行座標は、頻出単語列を含む行の外接矩形(行に含まれる全ての文字を囲む外接矩形)の位置を示す座標(外接矩形の各頂点の座標等)である。なお、頻出単語列に係る位置情報は、上述した例に限定されず、後述する特徴量を生成(算出)可能なものであれば、任意の位置情報であってよい。例えば、位置情報は、位置座標に限定されず、例えば、外接矩形の一点の座標と外接矩形の大きさを示す情報との組み合わせ等であってもよい。また、位置座標は、外接矩形の各頂点の座標に限定されず、外接矩形の対角線上に位置する2点の頂点の座標等であってもよい。
 特徴生成部56は、各学習用画像に示された原稿に係る特徴量を生成する。特徴生成部56は、検出部55により取得された、頻出単語列に係る位置情報を用いて、当該学習用画像に示された原稿に係る特徴量を生成する。そして、特徴生成部56は、各学習用画像に示された原稿に係る特徴量が配列の形で集約された特徴配列を生成する。後述する学習処理では、各学習用画像に示された原稿に係る特徴量(特徴配列)を、原稿種を識別するための特徴量(学習済みモデルの入力)とする。
 本実施形態では、特徴生成部56は、学習用画像に示された原稿に係る特徴量を、頻出単語列に関する情報に基づき算出する。つまり、学習用画像に示された原稿に係る特徴量として、頻出単語列に関する特徴量が算出される。本実施形態では、頻出単語列に関する情報として、4つの情報(頻出単語列の位置、頻出単語列間の距離、頻出単語列の大きさ、頻出単語列を含む行の大きさ)が用いられることで、学習用画像に示された原稿に係る特徴量が生成される。より具体的には、頻出単語列の位置を示す特徴量(以下、「位置特徴量」と称する)、頻出単語列間の距離を示す特徴量(以下、「距離特徴量」と称する)、頻出単語列の大きさを示す特徴量(以下、「大きさ特徴量」と称する)及び頻出単語列を含む行の大きさを示す特徴量(以下、「行特徴量」と称する)を含む特徴量として、学習用画像に示された原稿に係る特徴量が生成される。
 なお、位置特徴量及び大きさ特徴量は、夫々、頻出単語列(自体)の属性を示す特徴量の一例である。また、距離特徴量及び行特徴量は、夫々、原稿(学習用画像)内での頻出単語列と他の単語列との位置関係に関する特徴量(以下、「位置関係特徴量」と称する)の一例である。頻出単語列を含む行の大きさを示す特徴量(行特徴量)は、換言すると、頻出単語列と同一の行に他の単語列が含まれる可能性を示す特徴量であるため、頻出単語列と他の単語列との位置関係に関する特徴量に相当する。
 なお、本実施形態では、原稿の特徴量が、上述した四つの特徴量を含む特徴量である場合を例示するが、上述の例に限定されず、四つの特徴量のうち一つの特徴量のみを含むものであっても、二つ又は三つの特徴量の組み合わせを含むものであってもよい。以下、上述した四つの情報について説明する。
 <頻出単語列の位置>
 同一の原稿種の原稿において頻出する単語列(頻出単語列)は、当該原稿種の原稿間で厳密に同じ位置に記載されていなくとも、同様の位置に記載されていることが多い。
 図4は、本実施形態に係るINVOICE原稿の一例を示す図である。図4に示す通り、INVOICE原稿の場合、例えば、原稿種を表す「Invoice」は原稿上部に記載されやすく、金額を表す「Amount」は原稿右部に記載されやすいという傾向がある。つまり、原稿種は夫々、その原稿種の頻出単語列が記載される位置に傾向があるといえる。よって、本実施形態では、原稿種を識別するための特徴量として、頻出単語列の位置を示す特徴量(位置特徴量)を用いる。
 <頻出単語列間の距離>
 同一の原稿種の原稿において頻出する単語列(頻出単語列)の記載位置は、当該原稿種の原稿間で異なる場合があるが、頻出単語列同士の距離は原稿間で概ね同じであることが多い。例えば、INVOICE原稿の場合、税金を表す「VAT.」と合計金額を表す「Total」の夫々の記載位置は原稿によって異なる場合があるが、図4に示す通り、両者は上下に並べて記載されやすいという傾向がある。つまり、原稿種は夫々、その原稿種の頻出単語列同士の距離に傾向があるといえる。よって、本実施形態では、原稿種を識別するための特徴量として、頻出単語列間の距離を示す特徴量(距離特徴量)を用いる。このように、頻出単語列の記載位置が原稿によって異なる場合や、所定の原稿種の頻出単語列が所定の原稿種以外の原稿種の原稿にも用いられる単語列である場合であっても、距離特徴量を用いることで、原稿種を識別することが可能となる。なお、距離特徴量を学習用画像に示された原稿に係る特徴量として用いる場合、所定の原稿種の頻出単語列は複数必要である。
 <頻出単語列の大きさ>
 各原稿種の原稿に記載される単語列には、タイトル部分のように大きな文字で書かれやすい単語列と、注釈のように小さい文字で書かれやすい単語列がある。例えば、INVOICE原稿の場合は、図4に示す通り、原稿種を表す単語「Invoice」は大きく書かれやすく、「e-mail」や「Tel」等の単語は小さく書かれやすいという傾向がある。つまり、各原稿種において、その原稿種の頻出単語列の大きさに傾向があるといえる。よって、本実施形態では、原稿種を識別するための特徴量として、頻出単語列の大きさを示す特徴量(大きさ特徴量)を用いる。
 <頻出単語列を含む行の大きさ>
 各原稿種の原稿に記載される単語列には、短文中に存在しやすい単語列がある。例えば、INVOICE原稿の場合は、図4に示す通り、「Invoice」という単語は、「Invoice」や、「Invoice Date」、「Invoice NO」等の短文中に存在することが多い一方、長文中に存在することは少ないという傾向がある。その一方で、INVOICE以外の原稿種の原稿では、「Invoice」という単語が長文中に含まれることが少なからずある。このように、対象の原稿種とそれ以外の原稿種で、単語列の使用方法に違いがある。つまり、原稿種は夫々、その原稿種の頻出単語列が短文中に含まれるか否かに傾向があるといえる。よって、本実施形態では、原稿種を識別するための特徴量として、頻出単語列が短文(長文)に含まれる可能性に関する特徴量である、頻出単語列を含む行の大きさを示す特徴量(行特徴量)を用いる。
 特徴生成部56は、各学習用画像について上述した4つの特徴量を生成し、全ての学習用画像についての4つの特徴量を集約(格納)した特徴配列を生成する。なお、本実施形態では、位置特徴量、距離特徴量、大きさ特徴量及び行特徴量が夫々格納される配列を「情報配列」と称する。本実施形態では、4つの情報配列が集約された形で特徴配列が成型される。以下、特徴配列に格納される各情報配列及び各特徴量について説明する。
 <配列A:座標情報配列(位置特徴量)>
 図5は、本実施形態に係る位置特徴量を説明するための図である。図6は、本実施形態に係る座標情報配列の一例を示す図である。図6では、図5に示された原稿(学習用画像)内での頻出単語列の位置を示す特徴量(位置特徴量)を格納した情報配列(座標情報配列)について例示する。なお、位置特徴量は、検出部55により取得された頻出単語列の位置座標(頻出単語列の左下座標)を用いて算出(生成)される。
 図6に示す通り、座標情報配列(配列A)には、全ての頻出単語列(「invoice」、「total」、「amount」、「payment」等)についての位置特徴量が格納される。本実施形態では、原稿上の頻出単語列の座標(x座標、y座標)を原稿の大きさで割ることにより得られる、0から1の値に正規化された頻出単語列の座標を、位置特徴量として算出する。例えば、頻出単語列のx座標を原稿のx軸方向の長さで割ることにより得られる正規化された座標を、x軸方向の位置特徴量として取得する。なお、本実施形態では、頻出単語列の座標として、頻出単語列の左下座標(頻出単語列の外接矩形(図5中の点線矩形)の左下頂点の座標(図5中の丸印の座標))を使用するが、この例に限定されず、頻出単語列の上下左右の何れかの座標や重心座標等が使用されてよい。
 なお、図6の座標情報配列中の頻出単語列「amount」は、図5に示されたINVOICE原稿(学習用画像)に含まれない単語列であり、例えば、他のINVOICE原稿(学習用画像)で多く出現したことにより頻出単語列として決定された単語列である。このように、対象の原稿(学習用画像)に含まれていない頻出単語列の位置特徴量は、頻出単語列が原稿内に存在しない場合の値として予め設定された値(例えば、0)とする(図6参照)。
 なお、位置特徴量は、上述の正規化された座標に限定されず、原稿上の頻出単語列の座標自体であってもよい。また、図6の例では、頻出単語列の座標を、原稿の左上の頂点を原点として取得するが、この例に限定されず、原稿の右上頂点、右下頂点、左下頂点等の任意の位置を原点として取得してよい。
 <配列B:単語列間距離情報配列(距離特徴量)>
 図7は、本実施形態に係る距離特徴量を説明するための図である。図8は、本実施形態に係る単語列間距離情報配列の一例を示す図である。図8では、図7に示された原稿(学習用画像)内での頻出単語列間の距離を示す特徴量(距離特徴量)を格納した情報配列(単語列間距離情報配列)について例示する。なお、距離特徴量は、検出部55により取得された頻出単語列の位置座標(頻出単語列の左下座標)を用いて算出(生成)される。
 図8に示す通り、単語列間距離情報配列(配列B)には、頻出単語列(「invoice」、「total」、「amount」、「payment」等)の全ての組み合わせ(二つの単語列の組み合わせ)についての距離特徴量が格納される。本実施形態では、原稿上の頻出単語列間の距離(x軸方向、y軸方向)を原稿の大きさで割ることにより得られる、0から1の値に正規化された頻出単語列間の距離を、距離特徴量として算出する。例えば、頻出単語列間の距離(頻出単語列の座標間の距離(図7中の両矢印の長さ))のx軸方向の成分(距離)を原稿のx軸方向の長さで割ることにより得られる正規化された距離を、x軸方向の頻出単語列間距離として取得する。
 なお、図7に示されたINVOICE原稿(学習用画像)には頻出単語列「amount」が含まれていない。このように、原稿(学習用画像)に含まれていない頻出単語列との距離を示す特徴量(距離特徴量)は、頻出単語列が原稿内に存在しない場合の値として予め設定された値(例えば、1)とする(図8参照)。また、距離特徴量は、上述の正規化された距離に限定されず、原稿上の頻出単語列間の距離自体であってもよい。
 <配列C:大きさ情報配列(大きさ特徴量)>
 図9は、本実施形態に係る大きさ特徴量を説明するための図である。図10は、本実施形態に係る大きさ情報配列の一例を示す図である。図10では、図9に示された原稿(学習用画像)内での頻出単語列の大きさを示す特徴量(大きさ特徴量)を格納した情報配列(大きさ情報配列)について例示する。なお、大きさ特徴量は、検出部55により取得された頻出単語列の位置座標(頻出単語列の上下左右の座標等)を用いて算出(生成)される。
 図10に示す通り、大きさ情報配列(配列C)には、全ての頻出単語列(「invoice」、「total」、「amount」、「payment」等)についての大きさ特徴量が格納される。本実施形態では、原稿上の頻出単語列の外接矩形の面積(図9中の網掛け箇所の面積)を、大きさ特徴量として算出する。なお、本実施形態では、外接矩形の面積を平方ミリメートルで表すが、外接矩形の面積の単位はこの例に限定されない。
 また、図10の大きさ情報配列中の頻出単語列「amount」は、図9に示されたINVOICE原稿(学習用画像)に含まれない単語列である。このように、原稿(学習用画像)に含まれていない頻出単語列の大きさ特徴量は、頻出単語列が原稿内に存在しない場合の値として予め設定された値(例えば、0)とする(図10参照)。
 なお、大きさ特徴量は、上述の原稿上の頻出単語列の外接矩形の面積に限定されず、原稿上の頻出単語列の大きさ(外接矩形の面積)を原稿の大きさで割ることにより得られる、0から1の値に正規化された頻出単語列の大きさ等であってもよい。
 <配列D:行情報配列(行特徴量)>
 図11は、本実施形態に係る行特徴量を説明するための図である。図12は、本実施形態に係る行情報配列の一例を示す図である。図12では、図11に示された原稿(学習用画像)内での頻出単語列を含む行の大きさを示す特徴量(行特徴量)を格納した情報配列(行情報配列)について例示する。なお、行特徴量は、検出部55により取得された頻出単語列を含む行の位置座標(行座標)を用いて算出(生成)される。
 図12に示す通り、行情報配列(配列D)には、全ての頻出単語列(「invoice」、「total」、「amount」、「payment」等)についての行特徴量が格納される。本実施形態では、原稿上の頻出単語列を含む行の長さ(図11中の両矢印の長さ)を、行の長さ方向と同一方向の原稿の長さで割ることにより得られる、0から1の値に正規化された行の長さを、行特徴量として算出する。
 また、図12の行情報配列中の頻出単語列「amount」は、図11に示されたINVOICE原稿(学習用画像)に含まれない単語列である。このように、原稿(学習用画像)に含まれていない頻出単語列についての行特徴量は、頻出単語列が原稿内に存在しない場合の値として予め設定された値(例えば、0)とする(図12参照)。また、行特徴量は、上述の正規化された行の長さに限定されず、原稿上の頻出単語列を含む行の長さ自体や、原稿上の頻出単語列を含む行の長さを頻出単語列の長さで割ることにより得られる値(頻出単語列に対する長さの倍率)、原稿上の頻出単語列を含む行の面積(行の外接矩形の面積)、行の面積を原稿の面積で割った値(原稿の大きさに対する倍率)等であってもよい。
 <特徴配列>
 図13は、本実施形態に係る特徴配列の一例を示す図である。図13に示す通り、特徴配列は、上述した各情報配列(配列A、配列B、配列C、配列D)が集約された形で成型される。特徴配列には、各原稿(各学習用画像)について生成された各情報配列(配列A、配列B、配列C、配列D)が格納される。
 なお、一枚の原稿(画像)内に同一の単語列が複数個出現している場合には、複数個の同一単語列のうちどの単語列を特徴量に使用するか選択されるようにしてもよい。どの単語列を使用するかを決定する方法には任意の方法が用いられてよい。配列Aの場合は、例えば、複数個の同一単語列のうち、y座標が最大である単語列と最小である単語列のどちらか一方のみが使用されてもよいし、両者共が使用されてもよい。配列Bの場合は、例えば、頻出単語列間の距離が最も小さくなる単語列が使用されてよい。配列Cの場合、例えば、頻出単語列の大きさが最大である単語列と最小である単語列のどちらか一方のみが使用されてもよいし、両者共が使用されてもよい。配列Dの場合は、例えば、配列Aで使用される単語列を使用してもよし、行の大きさが最大となる単語列と最小となる単語列のどちらか一方のみが使用されてもよい。
 モデル生成部57は、機械学習(教師あり学習)を行うことで、所定の原稿種を識別するための学習済みモデルを生成する。機械学習には、学習用画像に示された原稿に係る特徴量(特徴配列)と、当該学習用画像に示された原稿が所定の原稿種の原稿であるか否かを示す情報(正解ラベル)とが、学習用画像毎に対応付けられた学習データ(特徴量と所定の原稿種か否かの情報のデータセット(教師データ))が用いられる。正解ラベルである、学習用画像に示された原稿が所定の原稿種の原稿であるか否かを示す情報は、正解定義取得部53により取得された正解定義に基づく情報である。この学習データを用いて機械学習を行うことにより、所定の原稿種の特徴量を学習することが可能となる。
 これより、対象となる原稿に係る特徴量(頻出単語列と他の単語列との原稿内での位置関係を示す位置関係特徴量を少なくとも含む)を入力することで、対象となる原稿が所定の原稿種の原稿であるか否かを判定可能な識別器を生成することが可能である。より具体的には、原稿に係る特徴量を入力することで、当該原稿が所定の原稿種の原稿である妥当性を示す情報を出力可能な識別器(学習済みモデル)を生成可能である。なお、原稿が所定の原稿種の原稿である妥当性を示す情報は、当該原稿が所定の原稿種の原稿であるか否かを示す情報(ラベル等)及び/又は当該原稿が所定の原稿種の原稿である確からしさを示す情報(信頼度や確率等)である。生成された学習済みモデルは、記憶部58により記憶される。
 なお、機械学習の方法は任意であり、決定木や、ランダムフォレスト、勾配ブースティング、線形回帰、サポートベクターマシン(Support Vector Machine、SVM)、ニューラルネットワーク等のうち任意の方法が用いられてよい。
 記憶部58は、頻出語取得部54により抽出された、所定の原稿種についての頻出単語列(高頻度単語リスト)と、モデル生成部57により生成された、所定の原稿種についての学習済みモデルを記憶する。記憶部58は、高頻度単語リスト(頻出単語列)と学習済みモデルを対応付けて記憶してよい。
 図14は、本実施形態に係る情報処理装置の機能構成の概略を示す図である。情報処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、画像取得部41、認識結果取得部42、頻出語記憶部43、モデル記憶部44、検出部45、特徴生成部46及び識別部47を備える装置として機能する。なお、本実施形態及び後述する他の実施形態では、情報処理装置1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。また、情報処理装置1が備える各機能部は、単一の筐体からなる装置(1の装置)に実装されるものに限定されず、遠隔に及び/又は分散して(例えば、クラウド上に)実装されてもよい。
 画像取得部41は、原稿種の識別処理において識別対象となる文書画像(識別対象原稿の画像(以下、「識別対象画像」と称する))を取得する。本実施形態では、画像取得部41は、例えば、ユーザのスキャン指示により識別対象の原稿(文書)が文書読取装置3Aにおいて読み取られると、その読み取り結果であるスキャン画像を識別対象画像として取得する。
 認識結果取得部42は、識別対象画像についての文字認識結果(全文OCR結果)を取得する。なお、認識結果取得部42における処理は、認識結果取得部52における処理の説明と概略同様であるため、詳細の説明を省略する。
 頻出語記憶部43は、学習装置2において生成された、所定の原稿種を識別するための高頻度単語リストを記憶する。なお、高頻度単語リストの詳細については、学習装置2の機能構成(頻出語検抽出部54)の説明において記述したため、説明を省略する。
 モデル記憶部44は、学習装置2において生成された、所定の原稿種を識別するための学習済みモデルを記憶する。なお、学習済みモデルの詳細については、学習装置2の機能構成(モデル生成部57)の説明において記述したため、説明を省略する。
 検出部45は、識別対象画像において、頻出単語列(頻出語記憶部43により記憶された高頻度単語リストに格納されている頻出単語列)の検出処理を行う。検出処理において、検出部45は、頻出単語列の識別対象画像に示された原稿(識別対象の原稿)内での位置に関する情報(頻出単語列に係る位置情報)を取得する。なお、検出部45における処理は、検出部55における処理の説明と概略同様であるため、詳細の説明を省略する。
 特徴生成部46は、識別対象画像に示された原稿(識別対象の原稿)に係る特徴量を生成する。特徴生成部46は、検出部45により取得された、頻出単語列に係る位置情報を用いて、識別対象の原稿に係る特徴量を生成する。そして、特徴生成部46は、識別対象の原稿に係る特徴量を配列の形に成型した特徴配列を生成する。後述する識別処理では、識別対象の原稿に係る特徴量(特徴配列)を、原稿種を識別するための特徴量(学習済みモデルの入力)とする。上述した学習用画像に示された原稿に係る特徴量と同様に、識別対象の原稿に係る特徴量は、位置特徴量、距離特徴量、大きさ特徴量及び行特徴量を含む特徴量として生成される。
 なお、識別対象の原稿に係る特徴量(特徴配列)及びその生成方法は、上述した、学習用画像に示された原稿に係る特徴量(特徴配列)及びその生成方法と概略同様であるため、詳細の説明を省略する。なお、識別対象画像に係る特徴配列における各特徴量の並び(配列内の各特徴量の位置)は、学習用画像に係る特徴配列における各特徴量の並びと同一の並びとする。
 識別部47は、識別対象の原稿に係る特徴量(特徴配列)を学習済みモデルに入力することで、当該識別対象の原稿が所定の原稿種の原稿であるか否かを識別する。具体的には、識別部47は、モデル記憶部44により記憶されている、所定の原稿種を識別するための学習済みモデルを受け取り、特徴生成部46により生成された、識別対象の原稿に係る特徴量(特徴配列)を学習済みモデルに入力することで、原稿が所定の原稿種の原稿であるか否かを識別する。識別部47は、識別した結果を出力する。
 上述の通り、原稿に係る特徴量が学習済みモデルに入力されると、当該原稿が所定の原稿種の原稿である妥当性を示す情報(ラベル及び/又は確率)が学習済みモデルから出力される。本実施形態では、識別部47は、識別対象の原稿に係る特徴量を学習済みモデルに入力することで、識別対象の原稿像が所定の原稿種の原稿であるか否かを示す情報(ラベル(例えば、所定の原稿種の場合はラベル「1」、そうでない場合はラベル「0」))及び識別対象の原稿が所定の原稿種の原稿である確からしさを示す情報(信頼度や確率等)を取得する。
 なお、例えば、所定の原稿種の原稿である確率が、所定の原稿種の原稿でない確率を上回る場合や所定の閾値を超える場合等に、所定の原稿種の原稿であると判定可能である。そのため、識別部47は、学習済みモデルから、所定の原稿種の原稿である確率のみを取得し、取得した確率に基づき、所定の原稿種の原稿であるか否かを判定するようにしてもよい。
 <処理の流れ>
 次に、本実施形態に係る学習装置2によって実行される学習処理の流れを説明する。なお、以下に説明する処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容及び処理順序は、本開示の実施の態様に応じて適宜選択されてよい。
 図15は、本実施形態に係る学習処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、学習装置2において、原稿のスキャン指示が受け付けられたこと等を契機として実行される。なお、本フローチャートは、ユーザによる、記憶装置24に記憶された原稿画像を取得する指示が受け付けられたこと等を契機として実行されてもよい。なお、本フローチャートでは、識別する原稿種(所定の原稿種)が「INVOICE」である場合の処理について例示する。
 ステップS101では、複数の文書画像(学習用画像)が取得される。画像取得部51は、互いにレイアウトが異なる所定の原稿種(INVOICE)の原稿の画像である複数の所定原稿種画像を含む学習用画像(スキャン画像)を取得する。その後、処理はステップS102へ進む。
 ステップS102では、正解定義が取得される。正解定義取得部53は、学習用画像(学習用画像の識別情報)と、当該学習用画像に示された原稿が所定の原稿種(INVOICE)の原稿であるか否かを示す情報とが学習用画像毎に対応付けられた正解定義を取得する。その後、処理はステップS103へ進む。
 ステップS103では、文字認識結果(全文OCR結果)が取得される。認識結果取得部52は、ステップS101で取得された各学習用画像に対して文字認識を行うことで、各学習用画像についての文字認識結果を取得する。なお、ステップS102とステップS103は順不同である。また、ステップS101とステップS102は順不同である。その後、処理はステップS104へ進む。
 ステップS104では、頻出単語列の抽出処理が行われる。頻出単語列抽出処理では、所定の原稿種(INVOICE)の画像である複数の学習用画像(所定原稿種画像)の文字認識結果を用いて、所定の原稿種の頻出単語列が抽出される。頻出単語列抽出処理の詳細については、図16を用いて後述する。その後、処理はステップS105へ進む。
 ステップS105では、頻出単語列の検出処理が行われる。頻出単語列検出処理では、ステップS101で取得された学習用画像において、ステップS104で抽出された頻出単語列の検出処理が行われる。頻出単語列検出処理では、頻出単語列に係る位置情報(頻出単語列の原稿(学習用画像)内での位置情報と頻出単語列を含む行の原稿(学習用画像)内での位置情報)が取得される。頻出単語列検出処理の詳細については、図17を用いて後述する。その後、処理はステップS106へ進む。
 ステップS106では、特徴量生成処理が行われる。特徴量生成処理では、ステップS105で取得された位置情報に基づき、ステップS101で取得された学習用画像に示された原稿に係る特徴量(特徴配列)が生成される。特徴量生成処理の詳細については、図18を用いて後述する。その後、処理はステップS107へ進む。
 ステップS107では、全ての学習用画像について特徴量が生成されたか否か(ステップS105及びステップS106の処理を実行済みか)が判定される。CPU21は、全ての学習用画像各々について、学習用画像に示された原稿に係る特徴量が生成されたか否かを判定する。全ての学習用画像について処理済みでない場合(ステップS107のNO)、処理はステップS105に戻り、処理済みでない学習用画像についての処理が実行される。一方、全ての学習用画像について処理済みである場合(ステップS107のYES)、処理はステップS108へ進む。
 ステップS108では、所定の原稿種を識別するための学習済みモデルが生成される。モデル生成部57は、ステップS107で生成された各学習用画像に示された原稿に係る特徴量(特徴配列)と、各学習用画像に示された原稿が所定の原稿種(INVOICE)の原稿であるか否かを示す情報(ステップS102で取得された正解定義に基づく情報)とが対応付けられた学習データを用いて機械学習を行うことで、所定の原稿種(INVOICE)を識別するための学習済みモデルを生成する。その後、本フローチャートに示された処理は終了する。
 図16は、本実施形態に係る頻出単語列抽出処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、図15においてステップS103の処理が終了したことを契機として実行される。なお、本フローチャートでも、所定の原稿種が「INVOICE」である場合の処理について例示する。
 ステップS1041では、複数の所定原稿種画像における単語(単体)の頻度解析が行われる。例えば、頻出語取得部54は、ステップS103で取得された複数の所定原稿種画像の文字認識結果を用いて、複数の所定原稿種画像における、各所定原稿種画像に含まれる各単語の出現回数を取得(集計)する。その後、処理はステップS1042へ進む。
 ステップS1042では、複数の所定原稿種画像における、連続する二単語からなる単語列の頻度解析が行われる。頻出語取得部54は、ステップS103で取得された複数の所定原稿種画像の文字認識結果を用いて、複数の所定原稿種画像における、各所定原稿種画像に含まれる各単語列(連続する二単語からなる単語列)の出現回数を取得(集計)する。その後、処理はステップS1043へ進む。
 ステップS1043では、頻度(出現回数)が高い順に所定の個数(N個)の単語列が頻出単語列として抽出される。頻出語取得部54は、ステップS1041及びステップS1042における頻度解析の結果に基づき、各所定原稿種画像に含まれる単語列(単語を含む)のうち、出現回数が高い順に所定数(N個)の単語列を、所定の原稿種(INVOICE)の頻出単語列として抽出する。その後、処理はステップS1044へ進む。
 ステップS1044では、高頻度単語リストが生成される。頻出語取得部54は、ステップS1043で抽出した頻出単語列を格納した高頻度単語リストを生成する。そして、記憶部58は、生成された高頻度単語リストを記憶する。その後、本フローチャートに示された処理は終了する。
 図17は、本実施形態に係る頻出単語列検出処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、図15においてステップS104の処理が終了したことを契機として実行される。
 ステップS1051では、高頻度単語リストが取得される。検出部55は、ステップS1044で記憶された高頻度単語リストを取得する。その後、処理はステップS1052へ進む。
 ステップS1052では、頻出単語列の位置情報が取得される。検出部55は、ステップS1051で取得された高頻度単語リストに格納された頻出単語列のうち、学習用画像の文字認識結果中に含まれている頻出単語列を検出し、検出された各頻出単語列について、頻出単語列の当該学習用画像に示された原稿内での位置の情報(座標情報)を取得する。その後、処理はステップS1053へ進む。
 ステップS1053では、頻出単語列を含む行の位置情報が取得される。検出部55は、ステップS1051で取得された高頻度単語リストに格納された頻出単語列のうち、学習用画像の文字認識結果中に含まれている頻出単語列を検出し、検出された各頻出単語列について、頻出単語列を含む行の当該学習用画像に示された原稿内での位置の情報(座標情報)を取得する。その後、本フローチャートに示された処理は終了する。なお、ステップS1052とステップS1053は順不同である。
 図18は、本実施形態に係る特徴量生成処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、図15においてステップS105の処理が終了したことを契機として実行される。
 ステップS1061では、頻出単語列の位置を示す特徴量が生成される。特徴生成部56は、ステップS1052で取得された位置情報を用いて、頻出単語列の位置を示す特徴量(図6の配列Aに格納された特徴量)を生成する。その後、処理はステップS1062へ進む。
 ステップS1062では、頻出単語列間の距離を示す特徴量が生成される。特徴生成部56は、ステップS1052で取得された位置情報を用いて、頻出単語列間の距離を示す特徴量(図8の配列Bに格納された特徴量)を生成する。その後、処理はステップS1063へ進む。
 ステップS1063では、頻出単語列の大きさを示す特徴量が生成される。特徴生成部56は、ステップS1052で取得された位置情報を用いて、頻出単語列の大きさを示す特徴量(図10の配列Cに格納された特徴量)を生成する。その後、処理はステップS1064へ進む。
 ステップS1064では、頻出単語列を含む行の大きさを示す特徴量が生成される。特徴生成部56は、ステップS1053で取得された位置情報を用いて、頻出単語列を含む行の大きさを示す特徴量(図12の配列Dに格納された特徴量)を生成する。なお、ステップS1061~ステップS1064は、順不同である。その後、処理はステップS1065へ進む。
 ステップS1065では、特徴量が配列に成型される。特徴生成部56は、ステップS1061~ステップS1064において生成された各特徴量を集約した特徴配列(図13の各行)を生成する。その後、本フローチャートに示された処理は終了する。なお、ステップS106の処理が各学習用画像について実行されることにより、各学習用画像に係る特徴量(学習用画像に示された原稿の特徴量)が特徴配列に格納され、図13に示すような特徴配列が生成される。
 図19は、本実施形態に係る識別処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、情報処理装置1において、原稿のスキャン指示が受け付けられたこと等を契機として実行される。なお、本フローチャートは、ユーザによる、記憶装置14に記憶された原稿画像を取得する指示が受け付けられたこと等を契機として実行されてもよい。なお、本フローチャートでも、識別する原稿種が「INVOICE」である場合の処理について例示する。
 ステップS201では、文書画像(識別対象画像)が取得される。画像取得部41は、識別対象の原稿についてのスキャン画像を取得する。その後、処理はステップS202へ進む。
 ステップS202では、文字認識結果(全文OCR結果)が取得される。認識結果取得部42は、ステップS201で取得された識別対象画像に対して文字認識を行うことで、識別対象画像についての文字認識結果を取得する。その後、処理はステップS203へ進む。
 ステップS203では、頻出単語列の検出処理が行われる。頻出単語列検出処理では、ステップS201で取得された識別対象画像において、頻出語記憶部43により記憶された頻出単語列の検出処理が行われる。頻出単語列検出処理では、頻出単語列に係る位置情報(頻出単語列の識別対象の原稿内での位置の情報と頻出単語列を含む行の識別対象の原稿内での位置の情報)が取得される。頻出単語列検出処理は、図17で示された処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップS204へ進む。
 ステップS204では、特徴量生成処理が行われる。特徴量生成処理では、ステップS203で取得された位置情報に基づき、ステップS201で取得された識別対象画像に示された原稿(識別対象の原稿)に係る特徴量(特徴配列)が生成される。特徴量生成処理の詳細については、図18で示された処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップS205へ進む。
 ステップS205では、識別対象の原稿の原稿種が識別される。識別部47は、モデル記憶部44により記憶されている所定の原稿種(INVOICE)を識別するための学習済みモデルを受け取る、そして、識別部47は、ステップS204で生成された識別対象の原稿に係る特徴量(特徴配列)を、受け取った学習済みモデルに入力することで、識別対象の原稿が所定の原稿種(INVOICE)の原稿であるか否かを識別する。識別部47は、識別した結果を出力する。その後、本フローチャートに示された処理は終了する。
 上記説明したように、本実施形態によれば、学習装置2は、原稿に係る特徴量(所定の原稿種の頻出単語列と他の単語列との当該原稿内での位置関係に関する位置関係特徴量を含む)から、当該原稿が当該所定の原稿種の原稿であるか否かを識別可能な学習済みモデルを生成することができるため、レイアウトが定まっていない(レイアウトが多様な)文書(準定型帳票等)の原稿であっても原稿の種類を適切に識別することが可能なモデル(識別器)を生成することが可能となる。また、本実施形態によれば、情報処理装置1は、原稿に係る特徴量から当該原稿が所定の原稿種の原稿であるか否かを識別可能な学習済みモデルを用いて、識別対象の原稿が所定の原稿種の原稿であるかを識別することが出来るため、レイアウトが定まっていない文書の原稿であっても原稿の種類を適切に識別することが可能となる。つまり、レイアウトが異なる原稿であっても、これらを同一の原稿種の原稿であると識別することが可能となる。
 また、レイアウトが定まっていない文書の場合、原稿によって頻出単語列の位置が異なるが、本実施形態によれば、原稿に係る特徴量として、所定の原稿種の頻出単語列と他の単語列との当該原稿内での位置関係に関する位置関係特徴量(距離特徴量や行特徴量)を用いるため、頻出単語列の位置を示す特徴量のみを用いる場合と比較し、識別精度の向上を図ることが可能となる。
 従来、INVOICE原稿を識別する要望があるものの、INVOICE原稿には様々なレイアウトが存在し、INVOICE原稿にのみ必ず記載される特定単語もなく、頻出となる単語の記載位置も定まっていない(原稿により異なる)ため、単純なルールではINVOICE原稿を識別することは困難であるという問題がある。従来、原稿のサイズによってレシートや名刺等の原稿種の識別が行われているが、INVOICE原稿に関しては基本的にA4サイズのものが多く、原稿サイズに特徴を持っていないため、この方法ではINVOICE原稿を識別することは困難である。
 また、従来、特定の原稿種にのみ記載される特定単語の有無とその位置によって特定の原稿種を識別する方法も存在する。しかし、INVOICE原稿にのみ必ず記載されている単語はなく、INVOICE原稿に頻出する単語は他の原稿種においても存在(出現)しており、同じ項目(情報)であっても異なる単語で記載される場合もあるため、特定単語の有無によりルール化するのは困難である。
 また、罫線情報を使用して帳票の識別を行う手法が存在するが、INVOICE原稿に関しては様々なレイアウトが存在しているため、罫線に関しても原稿によって異なるため、この手法を用いてINVOICE原稿を識別するのは困難である。
 しかし、本実施形態によれば、原稿に係る特徴量として、所定の原稿種の頻出単語列と他の単語列との当該原稿内での位置関係に関する位置関係特徴量(距離特徴量や行特徴量)を用いることで、レイアウトが定まっていないINVOICE原稿を識別することが可能となる。
 また、本実施形態によれば、学習装置2において、機械学習により学習が行われるため、自動で識別器(学習済みモデル)を生成することが可能となる。また、機械学習により学習が行われることで、より複雑で精度の高い識別が可能となる。
 [第二の実施形態]
 上記説明した第一の実施形態では、所定の原稿種(識別する原稿種)が一つの場合(一つの原稿種のみを識別する場合)の実施態様を説明したが、本実施形態では、所定の原稿種が複数ある場合(複数の原稿種を識別する場合)の実施態様について説明する。なお、本実施形態では、一つの原稿種のみを識別するための学習済みモデルを複数用いることで複数の原稿種を識別する実施態様を説明する。
 本実施形態に係るシステムの構成は、図1を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。また、本実施形態に係る学習装置の機能構成は、図2を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。但し、第一の実施形態と異なり、学習装置2では、複数の所定の原稿種夫々について、上述した学習処理(図15参照)が行われ、複数の所定の原稿種の夫々について高頻度単語リスト及び学習済みモデルが生成される。なお、高頻度単語リストは、原稿種毎に生成されてもよいし、各原稿種の頻出単語列が格納されたリストであってもよい。
 図20は、本実施形態に係る高頻度単語リストの一例を示す図である。図20に示す通り、高頻度単語リストには、所定の原稿種の識別情報と、当該所定の原稿種の頻出単語列(単語列1~単語列M(M個の頻出単語列))と、当該所定の原稿種を識別するための学習済みモデルの識別情報(モデル名等)が対応付けられて格納される。なお、原稿種の識別情報は、原稿種を示す情報であれば、原稿種名(原稿種1、原稿種2等)や、番号、記号等任意である。このように、高頻度単語リストは、複数の所定の原稿種夫々の頻出単語列が格納されたリストであってよい。なお、頻出単語列の数は、全ての原稿種に共通(同一数)でなくてよい。
 また、本実施形態に係る情報処理装置の機能構成は、図14を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。但し、本実施形態では、第一の実施形態と異なり、情報処理装置1では、複数の所定の原稿種夫々について、識別対象画像が、所定の原稿種の画像であるか否かが識別される。そのため、画像取得部41以外の各機能部は、複数の所定の原稿種の夫々に対して処理を行う。なお、識別部47は、識別対象の原稿(識別対象画像が対象とする原稿)が複数の所定の原稿種の各々に該当するか否かを識別した結果に基づき、識別対象の原稿の原稿種を識別する。具体的には、複数の識別結果から、一つの結果を採用することにより、識別対象の原稿の原稿種を識別する。
 識別対象の原稿が複数の所定の原稿種の各々に該当するか否かを判定した結果、該当すると判定された原稿種が一つのみである場合、識別部47は、その原稿種を、識別対象の原稿の原稿種であると識別(決定)する。一方、該当すると判定された原稿種が複数ある場合、識別部47は、下記の方法等により、これら複数の原稿種から一つの原稿種を選出し、選出された原稿種を、識別対象の原稿の原稿種であると識別(決定)する。
 (学習済みモデルの出力(確率等)による選出)
 学習済みモデルにより出力される、識別対象の原稿が所定の原稿種の原稿である確からしさ(確率や信頼度等)に基づき、一つの原稿種が選出されてよい。例えば、この確からしさが最も高い原稿種が、識別対象の原稿の原稿種として決定(推定)される。
 (過去の識別度合いによる選出)
 過去の識別対象画像についての識別結果(識別度合い)に基づき選出されてよい。例えば、過去の識別対象の原稿が、所定の原稿種の原稿に該当するとして識別された頻度(回数)に基づき、一つの原稿種が選出されてよい。具体的には、過去の識別対象の原稿において所定の原稿種に該当すると識別(判定)された回数が最も多い原稿種が、識別対象の原稿の原稿種と決定(推定)される。なお、この方法を用いて原稿種を決定する場合、情報処理装置1は、履歴情報記憶部(図示しない)を備えることで、過去の識別結果を記憶しておくこととする。
 (過去の識別時期による選出)
 過去の識別対象画像についての識別時期(識別された時期)に基づき選出されてよい。例えば、過去の識別対象の原稿が、所定の原稿種の原稿に該当するとして識別された時期に基づき、一つの原稿種が選出されてよい。具体的には、過去の識別対象の原稿において所定の原稿種に該当すると識別(判定)された時期が最も近い(直近の)原稿種が、識別対象の原稿の原稿種と決定(推定)される。なお、この方法を用いて原稿種を決定する場合、情報処理装置1は、履歴情報記憶部(図示しない)を備えることで、過去の識別時期を記憶しておくこととする。
 (ユーザの選択による選出)
 該当すると判定された複数の原稿種が表示され、表示された複数の原稿種の中から一つの原稿種がユーザにより選択されることで、一つの原稿種が選出されてよい。なお、この方法を用いて原稿種を決定する場合、情報処理装置1は、表示部(図示省略)を備えることで、該当すると判定された原稿種を表示させ、指示受付部(図示省略)を備えることで、ユーザからの選択指示を受け付けることとする。
 図21は、本実施形態に係る識別処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、情報処理装置1において、原稿(文書)のスキャン指示が受け付けられたこと等を契機として実行される。なお、本フローチャートは、ユーザによる、記憶装置14に記憶された帳票画像を取得する指示が受け付けられたこと等を契機として実行されてもよい。なお、本フローチャートでは、識別する原稿種(所定の原稿種)が二種類(原稿種1と原稿種2)の場合を例示するが、識別する原稿種が三種類以上の場合も、本フローチャートと同様の処理が行われることで、原稿種の識別が可能である。
 ステップS301では、文書画像(識別対象画像)が取得される。画像取得部41は、識別対象の原稿についてのスキャン画像を取得する。その後、処理はステップS302及びステップS306へ進む。以降、ステップS302~ステップS305の処理(識別対象の原稿が原稿種1に該当するか否かの識別処理)と、ステップS306~ステップS309の処理(識別対象の原稿が原稿種2に該当するか否かの識別処理)が並列に実行される。
 ステップS302では、文字認識結果(全文OCR結果)が取得される。ステップS302の処理は、図19のステップS202の処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップS303へ進む。
 ステップS303では、頻出単語列の検出処理が行われる。検出部45は、頻出語記憶部43に記憶されている原稿種1についての高頻度単語リストを受け取り、当該高頻度単語リストに格納された原稿種1の頻出単語列についての検出処理を行う。なお、ステップS303の処理は、図19のステップS203の処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップS304へ進む。
 ステップS304では、特徴量生成処理が行われる。特徴生成部46は、ステップS303で取得された位置情報に基づき、ステップS301で取得された識別対象画像に示された原稿に係る特徴量(特徴配列)を生成する。ステップS304の処理は、図19のステップS204の処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップS305へ進む。
 ステップS305では、識別対象の原稿が、所定の原稿種(原稿種1)の原稿であるかが識別される。識別部47は、モデル記憶部44に記憶されている原稿種1についての学習済みモデルを受け取り、当該学習済みモデルに、ステップS304で生成された特徴量を入力することで、識別対象の原稿が原稿種1の原稿であるか否かを識別する。ステップS305の処理は、図19のステップS205の処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップS310へ進む。
 なお、原稿種2についての識別処理(ステップS306~ステップS309)は、上述した原稿種1についての識別処理(ステップS302~ステップS305)と、対象原稿種が異なるのみで概略同様であるため、説明を省略する。
 ステップS310では、識別結果を集計することで、識別対象の原稿の原稿種を識別し、識別された結果が出力される。識別部47は、識別対象の原稿が原稿種1に該当するか否かの識別結果と、当該識別対象の原稿が原稿種2に該当するか否かの識別結果に基づき、当該識別対象の原稿の原稿種を識別する。例えば、ステップS305の識別結果が「原稿種1に該当する」であり、ステップS309の識別結果が「原稿種2に該当しない」であった場合、識別対象の原稿は、原稿種1に該当する(原稿種1の原稿である)と識別(判定)され、その結果が出力される。その後、本フローチャートに示された処理は終了する。
 なお、上述した例では、原稿種1と原稿種2の識別処理が並行して実行されることとしたが、この例に限定されず、原稿種1の識別処理が終了した後に、原稿種2の識別処理が実行されるようにしてもよい。また、文字認識結果を取得する処理は、図21に示した例のように原稿種毎に行うのではなく、識別対象画像について一回のみ文字認識結果が取得され、その取得された結果を全ての原稿種において使用するようにしてもよい。
 [第三の実施形態]
 上記説明した第二の実施形態では、一つの原稿種のみを識別するための学習済みモデルを複数用いることで複数の原稿種を識別する実施態様を説明したが、本実施形態では、複数の原稿種を識別可能な一つの学習済みモデルを用いることで複数の原稿種を識別する実施態様を説明する。
 本実施形態に係るシステムの構成は、図1を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。また、本実施形態に係る学習装置の機能構成は、図2を参照して第一の実施形態で説明したものと概略同様であるため、詳細の説明を省略する。また、本実施形態における学習処理の流れは、図15を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。但し、第一の実施形態と異なり、学習装置2では、複数の所定の原稿種を識別可能な一つの学習済みモデルが学習処理により生成される。そのため、正解定義取得部53により取得される正解定義や、頻出部取得部54により生成される高頻度単語リスト、特徴生成部56により生成される特徴量(特徴配列)等が第一の実施形態とは異なる。
 具体的には、正解定義取得部53は、学習用画像(学習用画像の識別情報)と、当該学習用画像に示された原稿が複数の所定の原稿種のうちのどの原稿種の原稿であるか否かを示す情報(ラベル等)とが学習用画像毎に対応付けられた正解定義を取得する。例えば、識別する原稿種(所定の原稿種)が原稿種1(INVOICE)と原稿種2(請求書)である場合、正解定義において、原稿種1である場合にラベル「1」が、原稿種2である場合にラベル「2」が、どちらの原稿種にも該当しない場合にラベル「0」が、各学習用画像に対して対応付けられる。なお、いずれの原稿種にも該当しない原稿の画像を学習処理に用いるか否かは任意である。
 頻出語取得部54は、複数の所定の原稿種夫々の頻出単語列を取得(抽出)し、取得された複数の所定の原稿種夫々の頻出単語列を格納した高頻度単語リストを生成する。具体的には、頻出語取得部54は、原稿種(所定の原稿種)毎に学習用画像をグルーピングし、グループ(原稿種)毎に頻出単語列を抽出する。例えば、原稿種1(INVOICE)に該当する複数の学習用画像(INVOICEの画像)において、ステップS1041~ステップS1044に示された処理が実行されることで、原稿種1の頻出単語列が抽出され、当該頻出単語列が格納された原稿種1についての高頻度単語リストが生成される。他の原稿種についても同様の処理が行われることで、各原稿種についての頻出単語列が抽出(高頻度単語リストが生成)される。なお、高頻度単語リストは、上述の通り、原稿種毎に生成されるのではなく、各原稿種の頻出単語列を含む一つのリストであってもよい。また、本実施形態では、原稿種毎に学習済みモデルが生成されないため、図20に示された高頻度単語リストのように、学習済みモデルの識別情報(モデル名)は格納されなくてよい。
 検出部55は、学習用画像(原稿)毎に、複数の所定の原稿種夫々の頻出単語列に係る位置情報を取得する。検出部55は、高頻度単語リスト(原稿種毎にリストが生成される場合は全ての高頻度単語リスト)に格納された各頻出単語列の原稿内での位置を取得する。つまり、学習用画像(原稿)毎に、各原稿種の各頻出単語列(識別する原稿種(所定の原稿種)が原稿種1と原稿種2である場合、原稿種1の各頻出単語列及び原稿種2の各頻出単語列)に係る位置情報が取得される。
 特徴生成部56は、検出部55により取得された位置情報に基づき、学習用画像に示された原稿に係る特徴量(特徴配列)を生成する。なお、本実施形態では、特徴配列に、複数の所定の原稿種(識別する全ての原稿種)夫々の頻出単語列に関する特徴量(位置特徴量、距離特徴量、大きさ特徴量、行特徴量)が格納される。例えば、識別する原稿種(所定の原稿種)が原稿種1と原稿種2である場合、原稿種1の各頻出単語列及び原稿種2の頻出単語列に関する特徴量が格納される。但し、距離特徴量については、同一の原稿種の頻出単語列間においてのみ算出されたものが格納される。
 モデル生成部57は、特徴生成部56により生成された学習用画像に示された原稿に係る特徴量(特徴配列)と、当該学習用画像に示された原稿が複数の所定の原稿種のうちどの原稿種の原稿であるか否かを示す情報(正解定義に基づく情報)とが学習用画像毎に対応付けられた学習データを用いて機械学習を行うことで、複数の所定の原稿種を識別するための学習済みモデルを生成する。つまり、複数の所定の原稿種夫々の頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む当該原稿に係る特徴量が入力されることで、当該原稿が当該複数の所定の原稿種の夫々の原稿である妥当性を示す情報が出力される識別器(学習済みモデル)が生成される。
 なお、本実施形態では、複数の所定の原稿種を識別可能とすべく、複数の所定の原稿種夫々の頻出単語列に関する特徴量が生成される(一つの特徴配列に格納される)ため、生成される特徴量(特徴配列に格納される特徴量)が膨大になると考えられる。そこで、特徴量(特徴配列に格納される特徴量(各頻出単語列の位置特徴量、距離特徴量、大きさ特徴量、行特徴量))を減らす工夫として、以下に示す方法を用いることが可能である。
 (原稿種間で重複する頻出単語列の除去)
 複数の(二以上の)原稿種で重複している頻出単語列がある場合、その重複している頻出単語列を、特徴量を生成する際に用いられる頻出単語列から除外するようにしてもよい。
 (単語列間の距離平均が閾値以下の頻出単語列ペアのみ使用)
 所定の原稿種(例えば、INVOICE)の2つの頻出単語列からなる組み合わせ(ペア)のうち、所定の条件を満たす組み合わせのみの頻出単語列間の距離が特徴量の算出に用いられるようにしてよい。所定の条件を満たす組み合わせとは、所定の原稿種(INVOICE)の画像である複数の学習用画像における頻出単語列間の距離の代表値(平均値)が所定の値以下である組み合わせである。例えば、原稿種1(INVOICE)の画像である複数の学習用画像(例えば、100枚の画像)において頻出単語列が抽出されると、全ての頻出単語列の組み合わせ(ペア)についての単語列間距離が、学習用画像毎に(100枚の画像の夫々において)算出される。そして、100枚の学習用画像における頻出単語列間の距離の平均値が所定の閾値以下となる頻出単語列のペアのみを、距離特徴量に用いられる単語列ペアとして決定してよい。
 (使用頻度の高い特徴量のみを使用)
 生成された学習済みモデルを用いて原稿種の識別処理が行われた結果、どの特徴量が識別に用いられた特徴量であるかを、学習済みモデルにより取得可能である。そのため、実際の識別処理に頻繁に用いられている特徴量(使用頻度の高い特徴量)のみを使用するよう、特徴配列を変更するようにしてもよい。
 (相関の高い特徴量の除去)
 特徴量間で相関の高い特徴量がある場合、その相関の高い特徴量のうち一の特徴量のみを学習用画像に示された原稿に係る特徴量として用い、他の特徴量は学習用画像に示された原稿に係る特徴量からは除外するようにしてもよい。
 (主成分分析による次元削減)
 主成分分析(principal component analysis、PCA)を用いることで、特徴量の次元を削減するようにしてよい。
 本実施形態に係る情報処理装置の機能構成は、図14を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。また、本実施形態における識別処理の流れは、図19を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。
 但し、本実施形態では、頻出語記憶部43は、上述した、複数の所定の原稿種夫々の頻出単語列(頻出語取得部54により生成された、複数の所定の原稿種夫々の頻出単語列を格納した高頻度単語リスト)を記憶する。また、モデル記憶部44は、上述した、モデル生成部57により生成された、複数の所定の原稿種を識別するための学習済みモデルを記憶する。また、検出部45は、複数の所定の原稿種夫々の頻出単語列の識別対象の原稿内での位置に関する情報を取得する。特徴生成部46は、検出部45により取得された情報を用いて、識別対象の原稿に係る特徴量(複数の所定の原稿種夫々の頻出単語列に関する特徴量)を生成する。なお、頻出単語列に関する特徴量の詳細は、第一の実施形態と同様である。
 識別部47は、識別対象の原稿に係る特徴量を複数の所定の原稿種を識別するための学習済みモデルに入力することで、識別対象の原稿が複数の所定の原稿種夫々の原稿である妥当性を示す情報(例えば、識別する原稿種(所定の原稿種)が原稿種1と原稿種2である場合、原稿種1である妥当性を示す情報と原稿種2である妥当性を示す情報)を取得する。これより、識別部47は、この取得した妥当性を示す情報に基づき、識別対象の原稿が、複数の所定の原稿種のうちどの原稿種の原稿であるか否かを識別する。例えば、学習済みモデルから出力された各原稿種の原稿である確率(信頼度等)から、最も確率の高い原稿種を、識別対象の原稿の原稿種として決定(識別)可能である。
   1 情報処理装置
   2 学習装置
   3 文書読取装置
   9 情報処理システム

Claims (22)

  1.  識別対象の原稿の画像である識別対象画像についての文字認識結果を取得する認識結果取得手段と、
     所定の原稿種の頻出単語列を記憶する頻出語記憶手段と、
     前記識別対象画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の前記識別対象の原稿内での位置に関する情報を取得する検出手段と、
     前記頻出単語列と他の単語列との前記識別対象の原稿内での位置関係に関する位置関係特徴量を含む該識別対象の原稿に係る特徴量を、前記位置に関する情報を用いて生成する特徴生成手段と、
     前記頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む該原稿に係る特徴量が入力されることで、該原稿が前記所定の原稿種の原稿である妥当性を示す情報が出力されるよう機械学習により生成された、該所定の原稿種を識別するための学習済みモデルを記憶するモデル記憶手段と、
     前記識別対象の原稿に係る特徴量を前記学習済みモデルに入力することで、該識別対象の原稿が前記所定の原稿種の原稿であるか否かを識別する識別手段と、
     を備える情報処理システム。
  2.  前記学習済みモデルは、互いにレイアウトが異なる前記所定の原稿種の原稿の画像である複数の所定原稿種画像を含む複数の学習用画像夫々について、前記頻出単語列と他の単語列との学習用画像に示された原稿内での位置関係に関する位置関係特徴量を含む該学習用画像に示された原稿に係る特徴量と、該学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが対応付けられた学習データを用いた機械学習により生成されたモデルである、
     請求項1に記載の情報処理システム。
  3.  前記頻出単語列は、複数の頻出単語列の一つであり、
     前記位置関係特徴量は、前記頻出単語列と他の頻出単語列との対象の原稿内での距離を示す特徴量を含む、
     請求項1又は2に記載の情報処理システム。
  4.  前記位置関係特徴量は、前記頻出単語列を含む行の大きさを示す特徴量を含む、
     請求項1~3の何れか一項に記載の情報処理システム。
  5.  前記識別対象の原稿に係る特徴量は、前記位置関係特徴量に加え、前記頻出単語列の属性を示す特徴量を含む、
     請求項1~4の何れか一項に記載の情報処理システム。
  6.  前記頻出単語列の属性を示す特徴量は、前記頻出単語列の位置を示す特徴量及び該頻出単語列の大きさを示す特徴量の少なくとも一方を含む、
     請求項5に記載の情報処理システム。
  7.  前記モデル記憶手段は、各学習用画像に示された原稿に係る前記特徴量が配列の形で集約された特徴配列と、各学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが対応付けられた学習データにより生成された前記学習済みモデルを記憶し、
     前記特徴生成手段は、前記識別対象の原稿に係る特徴量を、前記特徴配列と同一の並び順の配列に成型し、
     前記識別手段は、前記配列に成型された前記識別対象の原稿に係る特徴量を前記学習済みモデルに入力することで、前記識別対象の原稿が前記所定の原稿種の原稿であるか否かを識別する、
     請求項2に記載の情報処理システム。
  8.  前記所定の原稿種は、複数の所定の原稿種の一つであり、
     前記モデル記憶手段は、前記複数の所定の原稿種の夫々について、所定の原稿種を識別するための学習済みモデルを記憶し、
     前記識別手段は、前記複数の所定の原稿種の夫々について、所定の原稿種を識別するための学習済みモデルを用いて、前記識別対象画像が該所定の原稿種に該当するか否かを識別し、前記複数の所定の原稿種の夫々について識別した結果に基づき、前記識別対象の原稿が前記複数の所定の原稿種のうち何れの原稿種の原稿であるかを識別する、
     請求項1~7の何れか一項に記載の情報処理システム。
  9.  前記識別手段は、前記複数の所定の原稿種の夫々について識別した結果、二以上の所定の原稿種において、前記識別対象の原稿が所定の原稿種の原稿であると識別された場合、該二以上の所定の原稿種から一の原稿種を選出し、選出された該原稿種を、前記識別対象の原稿の原稿種として決定する、
     請求項8に記載の情報処理システム。
  10.  前記識別手段は、前記識別対象の原稿が前記所定の原稿種の原稿である確からしさに基づき、前記二以上の所定の原稿種から一の原稿種を選出する、
     請求項9に記載の情報処理システム。
  11.  前記識別手段は、前記二以上の所定の原稿種夫々が、過去に、前記学習済みモデルによって識別対象の原稿の原稿種であると識別された回数に基づき、前記二以上の所定の原稿種から一の原稿種を選出する、
     請求項9に記載の情報処理システム。
  12. 前記識別手段は、前記二以上の所定の原稿種夫々が、過去に、前記学習済みモデルによって識別対象の原稿の原稿種であると識別された時期に基づき、前記二以上の所定の原稿種から一の原稿種を選出する、
     請求項9に記載の情報処理システム。
  13.  前記所定の原稿種は、複数の所定の原稿種の一つであり、
     前記頻出語記憶手段は、前記複数の所定の原稿種夫々の頻出単語列を記憶し、
     前記検出手段は、前記複数の所定の原稿種夫々の頻出単語列の前記識別対象の原稿内での位置に関する情報を取得し、
     前記特徴生成手段は、前記複数の所定の原稿種夫々の頻出単語列と他の単語列との前記識別対象の原稿内での位置関係に関する位置関係特徴量を含む該識別対象の原稿に係る特徴量を、前記位置に関する情報を用いて生成し、
     前記モデル記憶手段は、前記複数の所定の原稿種夫々の頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む該原稿に係る特徴量が入力されることで、該原稿が前記複数の所定の原稿種の夫々の原稿である妥当性を示す情報が出力されるよう機械学習により生成された、該複数の所定の原稿種を識別するための学習済みモデルを記憶し、
     前記識別手段は、前記識別対象の原稿に係る特徴量を前記複数の所定の原稿種を識別するための前記学習済みモデルに入力することで、前記識別対象の原稿が前記複数の所定の原稿種のうち何れの原稿種の原稿であるか否かを識別する、
     請求項1~7の何れか一項に記載の情報処理システム。
  14.  前記複数の所定の原稿種間で重複する頻出単語列がある場合、前記位置関係特徴量は、重複した前記頻出単語列に該当しない前記複数の所定の原稿種夫々の頻出単語列と他の単語列との位置関係に関する位置関係特徴量である、
     請求項13に記載の情報処理システム。
  15.  前記位置関係特徴量は、前記所定の原稿種の二つの頻出単語列からなる組み合わせのうち、所定の条件を満たす組み合わせに係る頻出単語列間の距離を示す特徴量を含み、
     前記所定の条件を満たす組み合わせとは、前記所定の原稿種の画像である複数の学習用画像における前記頻出単語列間の距離の代表値が所定の値以下である組み合わせである、
     請求項13に記載の情報処理システム。
  16.  互いにレイアウトが異なる所定の原稿種の原稿の画像である複数の所定原稿種画像を含む複数の学習用画像の夫々についての文字認識結果を取得する認識結果取得手段と、
     前記所定の原稿種の頻出単語列を取得する頻出語取得手段と、
     各学習用画像について、学習用画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を取得する検出手段と、
     各学習用画像について、前記頻出単語列と他の単語列との前記学習用画像に示された原稿内での位置関係に関する位置関係特徴量を含む該学習用画像に示された原稿に係る特徴量を、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を用いて生成する特徴生成手段と、
     学習用画像に示された原稿に係る前記特徴量と、該学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが、学習用画像毎に対応付けられた学習データを用いて機械学習を行うことにより、前記所定の原稿種を識別するための学習済みモデルを生成するモデル生成手段と、
     を備える情報処理システム。
  17.  前記頻出語取得手段は、前記複数の所定原稿種画像の文字認識結果に基づき、該複数の所定原稿種画像に示された原稿において頻出する単語列を抽出し、抽出された該単語列を前記所定の原稿種の頻出単語列として取得する、
     請求項16に記載の情報処理システム。
  18.  前記学習用画像の識別情報と、該学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが、学習用画像毎に対応付けられた正解定義を取得する正解定義取得手段を更に備え、
     前記モデル生成手段は、前記正解定義に基づき、前記学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報を取得する、
     請求項16又は17に記載の情報処理システム。
  19.  コンピュータが、
     識別対象の原稿の画像である識別対象画像についての文字認識結果を取得する認識結果取得ステップと、
     所定の原稿種の頻出単語列を記憶する頻出語記憶ステップと、
     前記識別対象画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の前記識別対象の原稿内での位置に関する情報を取得する検出ステップと、
     前記頻出単語列と他の単語列との前記識別対象の原稿内での位置関係に関する位置関係特徴量を含む該識別対象の原稿に係る特徴量を、前記位置に関する情報を用いて生成する特徴生成ステップと、
     前記頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む該原稿に係る特徴量が入力されることで、該原稿が前記所定の原稿種の原稿である妥当性を示す情報が出力されるよう機械学習により生成された、該所定の原稿種を識別するための学習済みモデルを記憶するモデル記憶ステップと、
     前記識別対象の原稿に係る特徴量を前記学習済みモデルに入力することで、該識別対象の原稿が前記所定の原稿種の原稿であるか否かを識別する識別ステップと、
     を実行する、原稿種識別方法。
  20.  コンピュータを、
     識別対象の原稿の画像である識別対象画像についての文字認識結果を取得する認識結果取得手段と、
     所定の原稿種の頻出単語列を記憶する頻出語記憶手段と、
     前記識別対象画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の前記識別対象の原稿内での位置に関する情報を取得する検出手段と、
     前記頻出単語列と他の単語列との前記識別対象の原稿内での位置関係に関する位置関係特徴量を含む該識別対象の原稿に係る特徴量を、前記位置に関する情報を用いて生成する特徴生成手段と、
     前記頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む該原稿に係る特徴量が入力されることで、該原稿が前記所定の原稿種の原稿である妥当性を示す情報が出力されるよう機械学習により生成された、該所定の原稿種を識別するための学習済みモデルを記憶するモデル記憶手段と、
     前記識別対象の原稿に係る特徴量を前記学習済みモデルに入力することで、該識別対象の原稿が前記所定の原稿種の原稿であるか否かを識別する識別手段と、
     として機能させるためのプログラム。
  21.  コンピュータが、
     互いにレイアウトが異なる所定の原稿種の原稿の画像である複数の所定原稿種画像を含む複数の学習用画像の夫々についての文字認識結果を取得する認識結果取得ステップと、
     前記所定の原稿種の頻出単語列を取得する頻出語取得ステップと、
     各学習用画像について、学習用画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を取得する検出ステップと、
     各学習用画像について、前記頻出単語列と他の単語列との前記学習用画像に示された原稿内での位置関係に関する位置関係特徴量を含む該学習用画像に示された原稿に係る特徴量を、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を用いて生成する特徴生成ステップと、
     学習用画像に示された原稿に係る前記特徴量と、該学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが、学習用画像毎に対応付けられた学習データを用いて機械学習を行うことにより、前記所定の原稿種を識別するための学習済みモデルを生成するモデル生成ステップと、
     を実行する、モデル生成方法。
  22.  コンピュータを、
     互いにレイアウトが異なる所定の原稿種の原稿の画像である複数の所定原稿種画像を含む複数の学習用画像の夫々についての文字認識結果を取得する認識結果取得手段と、
     前記所定の原稿種の頻出単語列を取得する頻出語取得手段と、
     各学習用画像について、学習用画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を取得する検出手段と、
     各学習用画像について、前記頻出単語列と他の単語列との前記学習用画像に示された原稿内での位置関係に関する位置関係特徴量を含む該学習用画像に示された原稿に係る特徴量を、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を用いて生成する特徴生成手段と、
     学習用画像に示された原稿に係る前記特徴量と、該学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが、学習用画像毎に対応付けられた学習データを用いて機械学習を行うことにより、前記所定の原稿種を識別するための学習済みモデルを生成するモデル生成手段と、
     として機能させるためのプログラム。
PCT/JP2021/038148 2021-10-14 2021-10-14 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム WO2023062799A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/038148 WO2023062799A1 (ja) 2021-10-14 2021-10-14 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/038148 WO2023062799A1 (ja) 2021-10-14 2021-10-14 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2023062799A1 true WO2023062799A1 (ja) 2023-04-20

Family

ID=85988193

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/038148 WO2023062799A1 (ja) 2021-10-14 2021-10-14 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2023062799A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11146220A (ja) * 1997-11-10 1999-05-28 Ricoh Co Ltd 画像処理装置
JP2005122550A (ja) * 2003-10-17 2005-05-12 Fuji Xerox Co Ltd 文書分類装置、プログラムおよび文書分類方法
JP2017090974A (ja) * 2015-11-02 2017-05-25 富士ゼロックス株式会社 画像処理装置及びプログラム
WO2020021845A1 (ja) * 2018-07-24 2020-01-30 株式会社Nttドコモ 文書分類装置及び学習済みモデル

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11146220A (ja) * 1997-11-10 1999-05-28 Ricoh Co Ltd 画像処理装置
JP2005122550A (ja) * 2003-10-17 2005-05-12 Fuji Xerox Co Ltd 文書分類装置、プログラムおよび文書分類方法
JP2017090974A (ja) * 2015-11-02 2017-05-25 富士ゼロックス株式会社 画像処理装置及びプログラム
WO2020021845A1 (ja) * 2018-07-24 2020-01-30 株式会社Nttドコモ 文書分類装置及び学習済みモデル

Similar Documents

Publication Publication Date Title
US10943105B2 (en) Document field detection and parsing
JP5699623B2 (ja) 画像処理装置、画像処理システム、画像処理方法、および、プログラム
US8249343B2 (en) Representing documents with runlength histograms
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
US20060285748A1 (en) Document processing device
US20080115080A1 (en) Device, method, and computer program product for information retrieval
US20140064618A1 (en) Document information extraction using geometric models
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
US10503993B2 (en) Image processing apparatus
WO2007070010A1 (en) Improvements in electronic document analysis
CN112541498A (zh) 信息处理装置以及记录媒体
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
JP2008257543A (ja) 画像処理システム及びプログラム
US20150169973A1 (en) Incomplete patterns
JP7317612B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP4518212B2 (ja) 画像処理装置及びプログラム
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
Kumar et al. Line based robust script identification for indianlanguages
JP4517822B2 (ja) 画像処理装置及びプログラム
JP2011018311A (ja) 画像検索装置、画像検索プログラムおよび記録媒体
CN112101356A (zh) 一种图片中特定文本的定位方法、装置及存储介质
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21960656

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023553861

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE