WO2023032802A1 - アノテーション支援装置、アノテーション支援方法、アノテーション支援プログラム - Google Patents
アノテーション支援装置、アノテーション支援方法、アノテーション支援プログラム Download PDFInfo
- Publication number
- WO2023032802A1 WO2023032802A1 PCT/JP2022/032012 JP2022032012W WO2023032802A1 WO 2023032802 A1 WO2023032802 A1 WO 2023032802A1 JP 2022032012 W JP2022032012 W JP 2022032012W WO 2023032802 A1 WO2023032802 A1 WO 2023032802A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- annotation
- file
- model
- annotator
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 13
- 238000013075 data extraction Methods 0.000 claims abstract description 50
- 239000000284 extract Substances 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 17
- 238000012937 correction Methods 0.000 description 11
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000010365 information processing Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- SBYHFKPVCBCYGV-UHFFFAOYSA-N quinuclidine Chemical compound C1CC2CCN1CC2 SBYHFKPVCBCYGV-UHFFFAOYSA-N 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
Definitions
- the present invention relates to an annotation support device and the like.
- Patent Document 1 discloses a learning data creation support system.
- the process of creating learning data also referred to as training data or teacher data, is also referred to as annotation.
- annotation additional information such as tags and metadata is added to a target file by an annotator.
- a file with additional information is used as learning data for training a machine learning model realized by artificial intelligence or the like.
- annotation support device such as Patent Document 1 and various annotation tools currently available
- annotation is still an artificial work by an annotator as a human being.
- a human annotator encloses an arbitrary area in a file with a rectangular bounding box and inputs additional information such as text data for machine learning about the rectangular area.
- additional information such as text data for machine learning about the rectangular area.
- the present invention has been made in view of this situation, and aims to provide an annotation support device and the like that can reduce the work burden of an annotator.
- an annotation support device includes a layout determination unit that determines the layout of an annotation target file; A model selection unit that selects a designated model, and a file providing unit that provides an annotation target file to which information about data designation by the data designation model is added to an annotator who annotates the annotation target file.
- the annotator's work load can be reduced by providing an annotation target file to which information on data designation by the data designation model selected according to the layout is added.
- Another aspect of the present invention is an annotation support method.
- This method includes a layout determination step of determining the layout of an annotation target file, a model selection step of selecting a data specification model that specifies data in the annotation target file according to the determined layout, and a data specification model that specifies data in the annotation target file. and a file providing step of providing an annotation target file to which information about designation of is added to an annotator who annotates the annotation target file.
- the work load of the annotator can be reduced.
- FIG. 1 schematically shows an outline of an information processing system including an annotation support device; 3 is a functional block diagram of an annotation support device; FIG. An example of a PDF file input to the file input section is shown. An example of an annotation screen displayed or presented to the annotator by the file providing unit through the annotator terminal is shown. An example of an annotation screen displayed or presented to the annotator by the file providing unit through the annotator terminal is shown.
- FIG. 5 shows a modification of the annotation screen of FIG. 4.
- FIG. FIG. 7 shows a further variation of the annotation screens of FIGS. 4 and/or 6;
- FIG. FIG. 10 illustrates a variation of applying the present invention to highlighting data in legal documents; FIG.
- annotation support device The purpose of the annotation support device according to this embodiment is to reduce the work load of the annotator.
- the annotator is described as a human being, but the annotator may be an annotation device configured by artificial intelligence or the like.
- FIG. 1 schematically shows an overview of an information processing system including an annotation support device according to an embodiment of the present invention.
- the information processing system exemplified here is used when tax accountant corporations and accounting firms provide tax services and accounting services to their customers.
- S means step or process.
- tax processing and accounting such as bills, bank statements, property management (PM) reports, trust reports, bank passbooks, refund notices, interest income notices, foreign remittance notices, interest rate notices, receipts, etc.
- Vouchers or electronic documents to be processed are entered electronically at the customer portal.
- files input to the information processing system of FIG. 1 are roughly classified into spreadsheet files and other files.
- a spreadsheet file is a file in which data is entered in cells arranged in a matrix.
- Other files are any files in formats other than spreadsheet files, typically PDF files.
- PDF files are mainly described in this embodiment, the present invention can be applied to files of arbitrary formats such as word processing files, presentation files, image files, and text files. The present invention may be applied to these files as they are, or may be applied after converting these files into PDF files.
- the files input in S1 are classified into other files including spreadsheet files and PDF files.
- data necessary for tax processing and accounting processing are automatically extracted from each cell in the spreadsheet file classified in S2.
- data can be efficiently extracted from single cells and/or groups of cells within a rectangular range.
- character data in files other than the spreadsheet files classified in S2 are recognized by character recognition technology such as OCR, and data necessary for tax processing and accounting processing are automatically extracted from them.
- the present invention mainly relates to S4, which will be described later in detail.
- FIG. 2 is a functional block diagram of the annotation support device 10 according to the embodiment of the present invention regarding file annotation as a pre-stage of the data extraction process of S4 in FIG.
- the annotation support device 10 includes a file input unit 11, a character recognition unit 12, a layout determination unit 13, a model selection unit 14, an annotation support information addition unit 15, a file provision unit 16, and an annotator input reception unit 17.
- These functional blocks are realized through cooperation between hardware resources such as the computer's central processing unit, memory, input device, output device, and peripheral devices connected to the computer, and software executed using these hardware resources. good too. Regardless of the type of computer or installation location, each of the above functional blocks may be implemented using the hardware resources of a single computer, or may be implemented by combining hardware resources distributed among multiple computers. .
- the file input unit 11 receives an annotation target file other than the spreadsheet file that is the target of annotation support by the annotation support device 10 .
- an example in which a PDF file is input to the file input unit 11 will be described below.
- FIG. 3 shows an example of a PDF file input to the file input section 11. As shown in FIG. This is a PDF file obtained by reading a paper "statement of delivery and invoice" issued by "Nihoheto Co., Ltd.” to "Iroha Co., Ltd.” with a scanner or the like.
- the character recognition unit 12 recognizes characters in the PDF file input to the file input unit 11.
- PDF files are often generated in a machine-readable manner, that is, characters can be read by a computer or the like. In such cases, the character recognition unit 12 directly reads characters from the PDF file and Recognize the position in the PDF file of each character. If the PDF file input to the file input unit 11 is not machine-readable, the character recognition unit 12 uses a character recognition technology such as OCR (Optical Character Recognition) to recognize images representing characters in the PDF file. Convert the data to character data and recognize the location of each character data in the PDF file.
- OCR Optical Character Recognition
- the character recognition unit 12 can recognize or extract all characters and their respective positions in the PDF file, only three characters C1 to C3 are illustrated in FIG.
- the first character C1 of "iroha” is extracted by the character recognition unit 12 together with the coordinates of the upper left corner P11 and the coordinates of the lower right corner P12 indicating its position. Assuming that the coordinates of the upper left corner P11 in the two-dimensional coordinate system in the PDF file are (x1, y1) and the coordinates of the lower right corner P12 are (x2, y2), the first character C1 "Iroha” is expressed as (x1 , y1) and (x2, y2).
- the position of a character such as "Japanese alphabet", which is data to be extracted by the annotation support apparatus 10, is represented by rectangular area information (x1, y1, x2, y2) determined by a set of coordinates of the upper left corner and the lower right corner.
- rectangular area information x1, y1, x2, y2
- x1, y1, x2, y2 rectangular area information
- One coordinate of the starting position (typically the leftmost position) of (x1, (y1 + y2) / 2) using the above expression may representatively represent the position of the character
- the position of a character may be represented by rectangular area information defined by a set of coordinates of the center of the character, width W (x2-x1), and height H (y2-y1), or a set of coordinates of the center of the character and radius r.
- the position of the character may be represented by the circular area information defined by .
- the second character C2 of "KK” is extracted by the character recognition unit 12 along with the coordinates of the upper left corner P21 and the coordinates of the lower right corner P22 indicating its position.
- the first character C1 "Iroha” and the second character C2 "Corporation” are determined by layout determination processing based on a layout determination model by the layout determination unit 13 (to be described later) and/or by the annotation support information adding unit 15 (to be described later).
- the annotation support information addition process based on the data extraction model by , it may be recognized as a series of characters or words representing the corporate name "Iroha Co., Ltd.”.
- the third character C3 of "Claim number: A1234-901" is extracted by the character recognition unit 12 together with the upper left corner P31 coordinates and the lower right corner P32 coordinates that indicate its position.
- the third character C3 contains multiple different pieces of information, "Claim number” and "A1234-901", but due to their proximity to each other, common PDF file generation tools and OCR tools can It is often recognized as one character.
- the tax treatment and accounting treatment in Figure 1 requires only the specific invoice number "A1234-901".
- the layout determination unit 13 determines the layout of the PDF file (annotation target file) input to the file input unit 11 based on the content and/or arrangement of characters recognized by the character recognition unit 12 .
- a layout represents the basic attributes of a file, and can also be called use, type, style, form, appearance, style, template, format, framework, type, arrangement, arrangement, and the like.
- the layout is determined or specified by minimal information such as company" or "Nihoheto Co., Ltd.”), number of pages, language, machine readability, and so on.
- the layout determination unit 13 may determine the layout of the annotation target file input to the file input unit 11 based on the layout determination model 21 stored in the model storage unit 20 . Specifically, the layout determination unit 13 selects from among a plurality of layouts (for example, layouts A to C corresponding to data extraction models 22A to 22C described later) that can be taken by the annotation target file input to the file input unit 11. , selects one layout determined based on the layout determination model 21 .
- the layout discrimination model 21 is a machine learning model exhaustively trained using various annotated files to which correct layout information is added as training data.
- the model selection unit 14 selects a data designation model that designates data in the annotation target file input to the file input unit 11 according to the layout determined by the layout determination unit 13 .
- the data specification model in this embodiment is a data extraction model for extracting data in the annotation target file input to the file input unit 11 .
- the data extraction model is exhaustively trained using files with various layouts to which information such as the content of the data to be extracted (typically characters), positions (typically regions), and attributes are added as training data. machine learning model.
- a plurality of different data extraction models 22A, 22B, and 22C are stored in the model storage unit 20 corresponding to the layout of the annotation target file determined by the layout determination unit 13.
- the data extraction model 22A corresponds to "layout A”
- the data extraction model 22B corresponds to "layout B”
- the data extraction model 22C corresponds to "layout C”.
- a plurality of different data extraction models may be provided for the same layout (for example, layout A).
- the relationship between the layout of the annotation target file determined by the layout determination unit 13 and the data extraction model (data designation model) stored in the model storage unit 20 is "one to one" or "one to N" ( However, N is a natural number of 2 or more.
- each of the multiple data extraction models is mapped to one of the multiple layouts.
- the total number of data extraction models is greater than or equal to the total number of layouts.
- the model selection unit 14 selects the data extraction model 22A corresponding to the "layout A".
- This data extraction model 22A is, for example, character data of "Iroha Co., Ltd.”, which is obtained by integrating the first character C1 of "Iroha” and the second character C2 of "Co., Ltd.” in FIG. (Data representing a rectangular area having the upper left corner P11 of the first character C1 as the upper left corner and the lower right corner P22 of the second character C2 as the lower right corner) is extracted.
- the data extraction model 22A may add attribute data (metadata or annotation support information to be described later) of "opponent” to which the extracted “Iroha Co., Ltd.” corresponds.
- attribute data metal or annotation support information to be described later
- the data extraction model 22A for example, in FIG. (data representing the small rectangular area on the right side that includes "A1234-901") is extracted.
- the data extraction model 22A may add attribute data (metadata or annotation support information described later) of "invoice number" to which the extracted "A1234-901" corresponds.
- the annotation support information addition unit 15 applies the data extraction model 22A (data designation model) selected by the model selection unit 14 to the annotation target file input to the file input unit 11, and extracts extracted data (designated data). Adds itself or annotation support information about it to the annotation target file.
- the annotation support information addition unit 15 generates character data (data to be extracted) "Iroha Co., Ltd.” derived from the first character C1 and the second character C2, its rectangular area data and attribute data. (other party) is added to the annotation target file as metadata or annotation support information.
- the annotation support information addition unit 15 adds the character data (extracted data) "A1234-901" derived from the third character C3, its rectangular area data and attribute data (invoice number) to the annotation target file. , as metadata or annotation support information. Part or all of the annotation support information such as the extracted data (designated data), position data (area data), and attribute data may be saved as individual files associated with the annotation target file.
- the file providing unit 16 supplies the annotation target file to which the data extracted by the data extraction model 22A by the annotation support information addition unit 15 (information about data designation by the data designation model) is added to the annotation target file by the person who annotates the annotation target file. Or provide it to an annotator as artificial intelligence.
- the file providing unit 16 provides the annotation target file to which the annotation support information is added to the annotator terminal 30 such as a computer used by the annotator.
- FIG. 4 shows an example of an annotation screen that the file providing unit 16 displays or presents to the annotator through the annotator terminal 30.
- the annotation screen includes a file display area 31 , a layout display area 32 , an extracted data display area 33 and other input areas 34 .
- the file display area 31 displays at least part of the annotation target file input to the file input unit 11 .
- a part of the invoice issued by "ABCD Tax Corporation" different from the example of FIG. 3 is displayed in the file display area 31.
- the layout display area 32 , the extracted data display area 33 , and the other input area 34 constitute input areas for receiving input from the annotator regarding the annotation target file displayed in the file display area 31 .
- the file providing unit 16 provides the annotation target file to which the information on the specification (extraction) of the data by the data specification model (data extraction model 22A) is added, and the information on the layout determined by the layout determination unit 13 as an annotator.
- the layout determination unit 13 determines the layout of the annotation target file, the layout name "0010 - Invoice_ABCD_1p_EN_after2010", the document type “Invoice”, the other party "3- ABCD Tax Corporation”, the start page “1 , end page “1”, language “English”, and machine readability “Readable” are displayed in the layout display area 32 .
- the file name "200121_Invoice_#010000.pdf" of the file to be annotated is displayed.
- the annotator does not have to enter anything regarding the layout of the annotated file.
- the annotator can correct it through an input device such as a keyboard or mouse on the annotator terminal 30 . Correction input information by such an annotator is received by the annotator input receiving unit 17 of the annotation support device 10 .
- the sample stored by the sample storage unit is also The annotator may teach the annotation support apparatus 10 the correct layout while referring to it.
- the annotator teaches the annotation support device 10 the correct "layout B" instead of the "layout A" that the layout determination unit 13 has erroneously determined.
- the model selection unit 14, the annotation support information addition unit 15, and the file provision unit 16 perform the above-described processing again based on "layout B" newly taught by the annotator.
- the model selection unit 14 reselects the data extraction model 22B corresponding to "layout B".
- the correct layout teaching content by the annotator received by the annotator input receiving unit 17 is fed back to the model storage unit 20 as training data or learning data for retraining or additional training of the layout discrimination model 21 .
- various character data in the annotation target file extracted by the annotation support information addition unit 15 based on the data extraction model 22A are input in advance together with respective attribute data without being input by the annotator. It is
- character data "ABCD Tax Corporation” extracted for the attribute "Invoice sender” (invoice issuer)
- character data extracted for the attribute "Invoice issue date” (invoice issue date) 'December 25, 2019' character data extracted for attribute 'Invoice description' 'The followings is a statement of our charges...', extracted for attribute 'Total invoice amount' Character data "1,100,000”, character data " ⁇ " extracted for the attribute "Currency” (currency), character data "100,000” extracted for the attribute "Consumption tax” (consumption tax), attribute "Invoice number” number) is displayed in the extracted data display area 33.
- the notation of each character data displayed in the extraction data display area 33 may be converted into another notation with the same meaning. For example, instead of “December 25, 2019” it might be displayed as “December 25, 2019”, instead of “1,100,000” it could be displayed as “one million”, It may be displayed as "JPY” instead.
- the data extraction model 22A extracts a plurality of candidates such as character data (for example, "ABCD Tax Corporation” and "ABCO Tax Corporation") for a certain attribute (for example, "Invoice sender")
- these multiple candidate data may be displayed in parallel or selectively in the extracted data display area 33 .
- the annotator can select the optimum candidate data from among the plurality of candidate data presented in the extracted data display area 33 by arbitrary selection means on the screen such as a pull-down list or a drop-down list.
- the reliability described later in FIGS. 6 and 7 is extremely high (for example, over 80%) for any of a plurality of candidate data, there is a high possibility that the candidate data is correct data, and it is selected by the annotator.
- candidate data with lower reliability may be displayed in the extracted data display area 33, and other candidate data (with lower reliability) may not be displayed. In this case, annotator selection work is unnecessary for candidate data with a high reliability exceeding a high reliability threshold (for example, 80%).
- a high reliability threshold for example, 80%
- candidate data with extremely low confidence for example, candidate data below a low confidence threshold such as 30%
- candidate data below a low confidence threshold such as 30%
- the annotator does not have to enter anything about the extracted data of the annotated file (also indicated as "Standard Items” in Fig. 4). You may be asked to check the check box provided at the beginning of each item). On the other hand, if at least part of the data to be extracted is incorrect, the annotator can correct it through an input device such as a keyboard or mouse on the annotator terminal 30 . Correction input information by such an annotator is received by the annotator input receiving unit 17 of the annotation support device 10 .
- annotation support information is added to the input area.
- the area (position) in the file display area 31 on which the character data "ABCD Tax Corporation” input in advance by the unit 15 is based is displayed. Further, as schematically shown in FIG. 5, the corresponding areas of the file display area 31 and the extracted data display area 33 relating to the attribute "Invoice sender" to be corrected are connected with each other by lines to clarify the correspondence between the two. be. While viewing this correspondence, the annotator can efficiently input corrections.
- the annotator can directly enter the correct character data "ABCD Tax Corporation” in the extracted data display area 33.
- the annotator directly displays the bounding box in the file display area 31. can be adjusted accordingly.
- the annotator can perform the annotation work efficiently.
- the information that associates the file display area 31 and the extracted data display area 33 is not limited to lines. You can add it to the area.
- the information that associates the file display area 31 and the extracted data display area 33 is always displayed on the annotation screen regardless of the annotator's selection for correction input or confirmation input (check input in the check box). good too.
- the correspondence between the file display area 31 and the extracted data display area 33 for items (Standard Items) not selected by the annotator is displayed on the annotation screen by dotted lines.
- an annotation completion input part as a check box for inputting completion of confirmation or correction of annotation contents by the annotator, and an annotated file as a sample or A sample store is provided as a checkbox to save as a reference.
- the input information of the annotator in the other input area 34 is also received by the annotator input receiving unit 17 of the annotation support device 10 .
- the annotator input reception unit 17 receives various inputs from the annotator through the annotator terminal 30 regarding the annotation of the annotation target file input to the file input unit 11 .
- Files for which annotation has been completed that is, in the examples of FIGS.
- An annotation target file (annotated file) with a check input is stored in the training data storage unit 40 as training data used for training a machine learning model realized by artificial intelligence or the like.
- a training data storage unit 40 stores a large number of training data (annotated files 41 to 44).
- the annotator corrects at least part of the information in the layout display area 32 regarding the layout of the file to be annotated, which the layout judging unit 13 has judged based on the layout judging model 21, the corrected input information is reproduced from the layout judging model 21. It is fed back to the model store 20 as training data or learning data for training or additional training. In this way, since the layout discrimination model 21 is improved based on the correction work by the annotator, it is possible to reduce the frequency of future correction work by the annotator.
- the correction input information is fed back to the model store 20 as training or learning data for retraining or additional training of the data extraction model 22A.
- each data extraction model 22A to 22C corresponding to each layout is improved based on the correction work by the annotator, so that the frequency of future correction work by the annotator can be reduced.
- the annotation target file to which the annotation support information is added by the annotation support information addition unit 15 is provided to the annotator. Increased.
- FIG. 6 shows a modification of the annotation screen in FIG.
- the layout display area 32 displays the reliability of the layout of the annotation target file determined by the layout determination unit 13 based on the layout determination model 21 .
- the reliability of each data extracted (designated) by the annotation support information addition unit 15 based on the data extraction model 22A (data designation model) is displayed.
- the file providing unit 16 provides the annotator with the annotation target file added with the reliability by the layout discrimination model 21 and/or the data extraction model 22A.
- the annotator can efficiently confirm and/or correct each annotation item while viewing these confidence values.
- the file providing unit 16 may highlight annotation items with low reliability values ("50%" or less in the illustrated example) with a bold frame or the like to call attention of the annotator.
- a plurality of candidate data (eg, "ABCD Tax Corporation” and “ABCO Tax Corporation") extracted by the data extraction model 22A for a certain attribute (eg, "Invoice sender") are displayed in the extracted data display area 33. If so, it is preferable to also display the reliability of each candidate data (for example, "ABCD Tax Corporation 80%” and “ABCO Tax Corporation 35%”). The annotator can efficiently select one optimal candidate data while referring to these reliabilities written together.
- FIG. 7 shows a further modified example of the annotation screen of FIG. 4 and/or FIG.
- the file display area 31 is omitted.
- the model selection unit 14 selects a plurality of data designation models according to the layout of the annotation target file determined by the layout determination unit 13 .
- the model selection unit 14 selects two "data extraction model A1" and “data extraction model A2" corresponding to the "layout A” determined by the layout determination unit 13.
- the file providing unit 16 provides the annotator with an annotation target file to which information on data extraction (designation) by the two "data extraction models A1" and “data extraction models A2" is added.
- the first The data extraction result and the second data extraction result based on the "data extraction model A2" are displayed side by side.
- the annotator compares these multiple data extraction results on the annotation screen and selects the data specification model (data extraction model) to be adopted while referring to the aforementioned reliability of each annotation item.
- the annotator input reception unit 17 in this case functions as a selection reception unit that receives selection by the annotator of one data designation model from among a plurality of data designation models.
- FIG. 8 shows a modification in which the present invention is applied to highlight data in legal documents such as contracts.
- FIG. 8A shows an example of a legal document as an annotation target file
- FIG. 8B shows an example of the legal document (training data) after completion of annotation.
- the main items in the legal document (contract name, contract date, contract parties (lender and borrower), contract target (property name), location (property location), etc.) are the item names (attribute data ) are highlighted in bold.
- the data designation model stored in the model storage unit 20 and selected by the model selection unit 14 in this modified example is a data enhancement model that emphasizes the main data in the annotation target file.
- the file providing unit 16 provides the annotator with the annotation target file and/or the annotation screen as shown in FIG. 8B to which information on data emphasis by the data emphasis model is added.
- the annotator checks the attribute (item name) and area (position) of the highlighted item, corrects any errors, and performs the annotation work.
- a data extraction model for extracting the data in the annotation target file is applied to the legal document as shown in FIG. good.
- a data extraction model applied to a contract as an annotated file may extract textual data relating to the principal rights and obligations of each contracting party from the contract.
- each device and each method described in the embodiments can be realized by hardware resources or software resources, or by cooperation of hardware resources and software resources.
- hardware resources for example, processors, ROMs, RAMs, and various integrated circuits can be used.
- software resources for example, programs such as operating systems and applications can be used.
- the present invention relates to an annotation support device and the like.
- 10 annotation support device 11 file input unit, 12 character recognition unit, 13 layout determination unit, 14 model selection unit, 15 annotation support information addition unit, 16 file provision unit, 17 annotator input reception unit, 20 model storage unit, 30 annotator Terminal, 31 file display area, 32 layout display area, 33 extracted data display area, 40 training data storage unit.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
Abstract
アノテーション支援装置10は、ファイル入力部11に入力されたアノテーション対象ファイルのレイアウトを判別するレイアウト判別部13と、判別されたレイアウトに応じて、アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択部14と、データ指定モデルによるデータの指定に関する情報が追加されたアノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供部16と、を備える。データ指定モデルは、アノテーション対象ファイル中のデータを抽出するデータ抽出モデル22A~22Cであり、ファイル提供部16は、データ抽出モデル22A~22Cによって抽出されたデータが追加されたアノテーション対象ファイルをアノテータに提供する。
Description
本発明は、アノテーション支援装置等に関する。
特許文献1には、学習データ作成支援システムが開示されている。訓練データまたは教師データとも表される学習データを作成するプロセスは、アノテーション(annotation)とも表される。アノテーションでは、アノテータによって対象ファイルにタグやメタデータ等の付加情報が付加される。付加情報が付加されたファイルは学習データとして、人工知能等によって実現される機械学習モデル等の訓練に利用される。
特許文献1のような学習データ作成支援システム(アノテーション支援装置)や、現在利用可能な各種のアノテーションツールを利用したとしても、アノテーションは依然として人間としてのアノテータによる人為的な作業である。あるアノテーションツールでは、人間としてのアノテータが、ファイル中の任意の領域を矩形のバウンディングボックス(Bounding Box)で囲み、当該矩形領域に関する機械学習のためのテキストデータ等の付加情報を入力する。一見すると単純な作業であるが、アノテーション対象ファイルの数や、各アノテーション対象ファイルにおいて囲むべき領域や入力すべき付加情報が増えると、アノテータの作業負担が増えて人為的なエラーやミスが引き起こされる恐れがある。
本発明はこうした状況に鑑みてなされたものであり、アノテータの作業負担を軽減できるアノテーション支援装置等を提供することを目的とする。
上記課題を解決するために、本発明のある態様のアノテーション支援装置は、アノテーション対象ファイルのレイアウトを判別するレイアウト判別部と、判別されたレイアウトに応じて、アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択部と、データ指定モデルによるデータの指定に関する情報が追加されたアノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供部と、を備える。
この態様によれば、レイアウトに応じて選択されたデータ指定モデルによるデータの指定に関する情報が追加されたアノテーション対象ファイルを提供することで、アノテータの作業負担を軽減できる。
本発明の別の態様は、アノテーション支援方法である。この方法は、アノテーション対象ファイルのレイアウトを判別するレイアウト判別ステップと、判別されたレイアウトに応じて、アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択ステップと、データ指定モデルによるデータの指定に関する情報が追加されたアノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供ステップと、を備える。
なお、以上の構成要素の任意の組合せや、これらの表現を方法、装置、システム、記録媒体、コンピュータプログラム等に変換したものも、本発明に包含される。
本発明によれば、アノテータの作業負担を軽減できる。
以下では、図面を参照しながら、本発明を実施するための形態(以下では実施形態とも表す)について詳細に説明する。説明および/または図面においては、同一または同等の構成要素、部材、処理等に同一の符号を付して重複する説明を省略する。図示される各部の縮尺や形状は、説明の簡易化のために便宜的に設定されており、特に言及がない限り限定的に解釈されるものではない。実施形態は例示であり、本発明の範囲を何ら限定するものではない。実施形態に記載される全ての特徴やそれらの組合せは、必ずしも本発明の本質的なものであるとは限らない。
本実施形態に係るアノテーション支援装置は、アノテータの作業負担を軽減することを目的とする。本実施形態ではアノテータを人間として説明するが、アノテータは人工知能等によって構成されるアノテーション装置でもよい。
図1は、本発明の実施形態に係るアノテーション支援装置を含む情報処理システムの概要を模式的に示す。ここで例示される情報処理システムは、税理士法人や会計事務所が顧客に対して税務サービスや会計サービスを提供する際に利用される。本図やフローチャート等の他の図において「S」はステップまたは処理を意味する。S1では、請求書、銀行取引明細書、不動産管理(PM: Property Management)レポート、信託レポート、銀行通帳、還付通知、受取利息通知、外国送金通知、利率通知、領収書等の、税務処理や会計処理の対象となる証憑または電子文書が顧客ポータルにおいて電子的に入力される。
このように情報処理システムまたはアノテーション支援装置に電子的に入力された電子文書を本明細書ではファイルと総称する(特に、アノテーション支援装置に入力された電子文書をアノテーション対象ファイルと表すこともある)。図1の情報処理システムに入力されるファイルは、表計算ファイルとそれ以外のファイルに大別される。表計算ファイルは、行列状に配置されたセルにデータが記入されたファイルである。それ以外のファイルは、表計算ファイル以外のフォーマットの任意のファイルであり、典型的にはPDFファイルである。本実施形態ではPDFファイルを中心に説明するが、本発明はワープロファイル、プレゼンテーションファイル、画像ファイル、テキストファイル等の任意のフォーマットのファイルに適用できる。また、本発明はこれらのファイルにそのまま適用してもよいが、これらのファイルをPDFファイルに変換した上で適用してもよい。
S2では、S1で入力されたファイルが、表計算ファイルとPDFファイルを含むそれ以外のファイルに分類される。S3では、S2で分類された表計算ファイル中の各セルから、税務処理や会計処理に必要なデータが自動的に抽出される。本明細書では詳細に説明しないが、表計算ファイル中の一および/または複数のセル番号を指定することで、単一セルおよび/または矩形範囲内のセル群からデータを効率的に抽出できる。S4では、OCR等の文字認識技術によってS2で分類された表計算ファイル以外のファイル中の文字データが認識され、その中から税務処理や会計処理に必要なデータが自動的に抽出される。本発明は主にS4に関し、詳細については後述する。
S5では、S3およびS4で自動的に抽出された税務処理や会計処理に必要なデータが、S1で入力されたファイルと併せてリポジトリに格納および保持される。S6およびS7では、S5で保持されたデータおよび/またはファイルに基づいて、各取引の自動仕訳処理が実行される。S8では、S5で保持されたデータおよび/またはファイルに基づいて、各取引における金銭的支出が資本的支出(CAPEX: Capital Expenditure)と運営費(OPEX: Operating Expense)に自動的に分類される。S9では、S7による自動仕訳結果およびS8によるCAPEX/OPEX自動分類結果を、総勘定元帳や固定資産台帳等の会計帳簿に記録する。
図2は、図1におけるS4のデータ抽出処理の前段階としてのファイルのアノテーションに関する本発明の実施形態に係るアノテーション支援装置10の機能ブロック図である。アノテーション支援装置10は、ファイル入力部11と、文字認識部12と、レイアウト判別部13と、モデル選択部14と、アノテーション支援情報付加部15と、ファイル提供部16と、アノテータ入力受付部17を備える。これらの機能ブロックは、コンピュータの中央演算処理装置、メモリ、入力装置、出力装置、コンピュータに接続される周辺機器等のハードウェア資源と、それらを用いて実行されるソフトウェアの協働により実現されてもよい。コンピュータの種類や設置場所は問わず、上記の各機能ブロックは、単一のコンピュータのハードウェア資源で実現してもよいし、複数のコンピュータに分散したハードウェア資源を組み合わせて実現してもよい。
ファイル入力部11には、アノテーション支援装置10によるアノテーション支援の対象である表計算ファイル以外のアノテーション対象ファイルが入力される。前述のように以下では、ファイル入力部11にPDFファイルが入力される例を説明する。図3は、ファイル入力部11に入力されるPDFファイルの例を示す。これは「株式会社にほへと」が「いろは株式会社」に宛てて発行した紙の「納品書兼請求書」を、スキャナ等で読み取ってPDFファイル化したものである。「2020年5月1日」付けで「株式会社にほへと」が「いろは株式会社」に納品した品番「123-4567」の製品について、税込で「3,300」円の代金を「いろは株式会社」に請求するものである。
文字認識部12は、ファイル入力部11に入力されたPDFファイル中の文字を認識する。PDFファイルは機械可読(machine-readable)すなわちコンピュータ等が文字を読み取り可能な態様で生成されることも多く、そのような場合には文字認識部12がPDFファイルから直接的に文字を読み取ると共に、それぞれの文字のPDFファイル中の位置を認識する。ファイル入力部11に入力されたPDFファイルが機械可読ではない場合等には、文字認識部12がOCR(Optical Character Recognition:光学文字認識)等の文字認識技術によって、PDFファイル中で文字を表す画像データを文字データに変換し、それぞれの文字データのPDFファイル中の位置を認識する。
文字認識部12はPDFファイル中の全ての文字とそれぞれの位置を認識または抽出できるが、図3では三つの文字C1~C3のみを例示する。「いろは」という第1の文字C1は、その位置を示す左上角P11の座標および右下角P12の座標と共に文字認識部12によって抽出される。PDFファイル中の二次元座標系における左上角P11の座標を(x1,y1)とし、右下角P12の座標を(x2,y2)とすれば、「いろは」という第1の文字C1は、(x1,y1)および(x2,y2)によって画定される矩形領域内に記入されている。
このように、アノテーション支援装置10による抽出対象データである「いろは」等の文字の位置は、左上角と右下角の座標の組が定める矩形領域情報(x1,y1,x2,y2)によって表される。本実施形態では、このような矩形領域による文字位置の表現方法を主に用いるが、文字が記入される位置の表現方法はこれに限られない。例えば、文字の中心または重心の一つの座標、具体的には上記の表現を用いて((x1+x2)/2,(y1+y2)/2)によって文字の位置を代表的に表してもよいし、文字の開始位置(典型的には左端の位置)の一つの座標、具体的には上記の表現を用いて(x1,(y1+y2)/2)によって文字の位置を代表的に表してもよいし、文字の中心の座標、幅W(x2-x1)、高さH(y2-y1)の組が定める矩形領域情報によって文字の位置を表してもよいし、文字の中心の座標および半径rの組が定める円形領域情報によって文字の位置を表してもよい。
「株式会社」という第2の文字C2は、その位置を示す左上角P21の座標および右下角P22の座標と共に文字認識部12によって抽出される。「いろは」という第1の文字C1と「株式会社」という第2の文字C2は、後述するレイアウト判別部13によるレイアウト判別モデルに基づくレイアウト判別処理、および/または、後述するアノテーション支援情報付加部15によるデータ抽出モデルに基づくアノテーション支援情報付加処理において、「いろは株式会社」という法人名を表す一連の文字または文言として認識されてもよい。
「請求番号:A1234-901」という第3の文字C3は、その位置を示す左上角P31の座標および右下角P32の座標と共に文字認識部12によって抽出される。第3の文字C3には「請求番号」および「A1234-901」という複数の異なる情報が含まれているが、位置が互いに近接しているために一般的なPDFファイル生成ツールやOCRツールでは一つの文字として認識されてしまうことも多い。一方で、図1の税務処理や会計処理では「A1234-901」という請求書の具体的な番号のみが必要になる。そこで、後述するレイアウト判別部13によるレイアウト判別モデルに基づくレイアウト判別処理、および/または、後述するアノテーション支援情報付加部15によるデータ抽出モデルに基づくアノテーション支援情報付加処理において、このような複数の情報を含む文字が個々のデータに分離されてもよい。
レイアウト判別部13は、文字認識部12によって認識された文字の内容および/または配置に基づいて、ファイル入力部11に入力されたPDFファイル(アノテーション対象ファイル)のレイアウトを判別する。レイアウトはファイルの基本的な属性を表し、用途、種別、様式、書式、体裁、スタイル、テンプレート、フォーマット、フレームワーク、型、配置、配列等とも言い換えられる。図1の税務処理や会計処理に用いられる図3のPDFファイルの例では、文書種別(「納品書」および/または「請求書」)、相手方(税務や会計サービスの利用者である「いろは株式会社」または「株式会社にほへと」)、ページ数、言語、機械可読性(machine readability)等の最小限の情報によってレイアウトが判別または特定される。
レイアウト判別部13は、モデル格納部20に格納されているレイアウト判別モデル21に基づいて、ファイル入力部11に入力されたアノテーション対象ファイルのレイアウトを判別してもよい。具体的には、レイアウト判別部13は、ファイル入力部11に入力されたアノテーション対象ファイルが取りうる複数のレイアウト(例えば、後述するデータ抽出モデル22A~22Cに対応するレイアウトA~C)の中から、レイアウト判別モデル21に基づいて判別される一のレイアウトを選択する。レイアウト判別モデル21は、正しいレイアウトの情報が付加された各種のアノテーション済ファイルを訓練データとして、網羅的に訓練された機械学習モデルである。
モデル選択部14は、レイアウト判別部13によって判別されたレイアウトに応じて、ファイル入力部11に入力されたアノテーション対象ファイル中のデータを指定するデータ指定モデルを選択する。本実施形態におけるデータ指定モデルは、ファイル入力部11に入力されたアノテーション対象ファイル中のデータを抽出するデータ抽出モデルである。データ抽出モデルは、抽出すべきデータの内容(典型的には文字)、位置(典型的には領域)、属性等の情報が付加された各種のレイアウトのファイルを訓練データとして、網羅的に訓練された機械学習モデルである。
本実施形態の例では、レイアウト判別部13によって判別されるアノテーション対象ファイルのレイアウトに対応して、異なる複数のデータ抽出モデル22A、22B、22Cがモデル格納部20に格納されている。例えば、データ抽出モデル22Aは「レイアウトA」に対応し、データ抽出モデル22Bは「レイアウトB」に対応し、データ抽出モデル22Cは「レイアウトC」に対応する。なお、後述するように、同じレイアウト(例えば、レイアウトA)に対して、異なる複数のデータ抽出モデルが設けられてもよい。つまり、レイアウト判別部13によって判別されるアノテーション対象ファイルのレイアウトと、モデル格納部20に格納されているデータ抽出モデル(データ指定モデル)の関係は、「1対1」または「1対N」(但し、Nは2以上の自然数)である。換言すれば、複数のデータ抽出モデルのそれぞれは、複数のレイアウトのいずれか一つにマッピングされる。また、データ抽出モデルの総数は、レイアウトの総数以上である。
図3の例におけるアノテーション対象ファイルのレイアウトが「レイアウトA」であるとレイアウト判別部13によって判別された場合、モデル選択部14は当該「レイアウトA」に対応するデータ抽出モデル22Aを選択する。このデータ抽出モデル22Aは、例えば、図3において「いろは」という第1の文字C1と「株式会社」という第2の文字C2が統合された「いろは株式会社」という文字データと、その矩形領域データ(第1の文字C1の左上角P11を左上角とし、第2の文字C2の右下角P22を右下角とする矩形領域を表すデータ)を抽出する。データ抽出モデル22Aは、抽出した「いろは株式会社」が該当する「相手方」という属性データ(メタデータまたは後述するアノテーション支援情報)を付加してもよい。また、データ抽出モデル22Aは、例えば、図3において「請求番号:A1234-901」という第3の文字C3から分離した「A1234-901」という文字データと、その矩形領域データ(第3の文字C3の矩形領域を左右に分割したもののうち「A1234-901」を包含する右側の小矩形領域を表すデータ)を抽出する。データ抽出モデル22Aは、抽出した「A1234-901」が該当する「請求書番号」という属性データ(メタデータまたは後述するアノテーション支援情報)を付加してもよい。
アノテーション支援情報付加部15は、モデル選択部14によって選択されたデータ抽出モデル22A(データ指定モデル)を、ファイル入力部11に入力されたアノテーション対象ファイルに適用し、被抽出データ(被指定データ)自体またはそれに関するアノテーション支援情報を当該アノテーション対象ファイルに付加する。図3の例では、アノテーション支援情報付加部15が、第1の文字C1および第2の文字C2に由来する「いろは株式会社」という文字データ(被抽出データ)と、その矩形領域データおよび属性データ(相手方)を、アノテーション対象ファイルにメタデータまたはアノテーション支援情報として追加する。また、アノテーション支援情報付加部15は、第3の文字C3に由来する「A1234-901」という文字データ(被抽出データ)と、その矩形領域データおよび属性データ(請求書番号)を、アノテーション対象ファイルにメタデータまたはアノテーション支援情報として追加する。なお、これらの被抽出データ(被指定データ)、位置データ(領域データ)、属性データ等のアノテーション支援情報の一部または全部を、アノテーション対象ファイルと関連付けられた個別ファイルとして保存してもよい。
ファイル提供部16は、アノテーション支援情報付加部15がデータ抽出モデル22Aによって抽出したデータ(データ指定モデルによるデータの指定に関する情報)が追加されたアノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行う人間または人工知能としてのアノテータに提供する。アノテータが人間の場合のファイル提供部16は、アノテータが使用するコンピュータ等のアノテータ端末30に対して、アノテーション支援情報が付加されたアノテーション対象ファイルを提供する。
図4は、ファイル提供部16がアノテータ端末30を通じてアノテータに対して表示または提示させるアノテーション画面の例を示す。アノテーション画面は、ファイル表示領域31と、レイアウト表示領域32と、抽出データ表示領域33と、その他入力領域34を備える。ファイル表示領域31は、ファイル入力部11に入力されたアノテーション対象ファイルの少なくとも一部を表示する。図4の例では、図3の例と異なる「ABCD Tax Corporation」が発行した請求書の一部がファイル表示領域31に表示されている。レイアウト表示領域32、抽出データ表示領域33、その他入力領域34は、ファイル表示領域31に表示されているアノテーション対象ファイルに関して、アノテータによる入力を受け付ける入力領域を構成する。
レイアウト表示領域32には、レイアウト判別部13がレイアウト判別モデル21に基づいて判別したアノテーション対象ファイルのレイアウトに関する情報の少なくとも一部が、アノテータの入力によらずに予め入力されている。このように、ファイル提供部16は、データ指定モデル(データ抽出モデル22A)によるデータの指定(抽出)に関する情報が追加されたアノテーション対象ファイルと共に、レイアウト判別部13によって判別されたレイアウトに関する情報をアノテータに提供する。
具体的に図4の例では、レイアウト判別部13がアノテーション対象ファイルのレイアウトについて判別した、レイアウト名「0010 - Invoice_ABCD_1p_EN_after2010」、文書種別「Invoice」、相手方「3- ABCD Tax Corporation」、開始ページ「1」、終了ページ「1」、言語「English」、機械可読性「Readable」が、レイアウト表示領域32に表示されている。なお、レイアウト表示領域32の上方には、アノテーション対象ファイルのファイル名「200121_Invoice_#010000.pdf」が表示されている。
これらのレイアウト関連情報が全て正しければ、アノテータはアノテーション対象ファイルのレイアウトに関して何も入力しなくてよい。一方、これらのレイアウト関連情報の少なくとも一部が誤っている場合、アノテータはアノテータ端末30におけるキーボードやマウス等の入力デバイスを通じて訂正できる。このようなアノテータによる訂正入力情報は、アノテーション支援装置10のアノテータ入力受付部17によって受け付けられる。
なお、レイアウト判別部13が判別したレイアウトが根本的に誤っている場合(例えば、レイアウト名、文書種別、相手方等の基本情報が正しくない場合)、後述するサンプル保存部によって保存されたサンプル等も参照しながら、アノテータが正しいレイアウトをアノテーション支援装置10に教示してもよい。例えば、レイアウト判別部13が誤って判別した「レイアウトA」の代わりに、アノテータは正しい「レイアウトB」をアノテーション支援装置10に教示する。この場合、モデル選択部14、アノテーション支援情報付加部15、ファイル提供部16は、アノテータによって新たに教示された「レイアウトB」に基づいて前述の処理を再び実行する。例えば、モデル選択部14は「レイアウトB」に対応するデータ抽出モデル22Bを選択し直す。また、アノテータ入力受付部17によって受け付けられたアノテータによる正しいレイアウトの教示内容は、レイアウト判別モデル21の再訓練または追加的訓練のための訓練データまたは学習データとしてモデル格納部20にフィードバックされる。
抽出データ表示領域33には、アノテーション支援情報付加部15がデータ抽出モデル22Aに基づいて抽出したアノテーション対象ファイル中の各種の文字データが、それぞれの属性データと共に、アノテータの入力によらずに予め入力されている。
具体的に図4の例では、属性「Invoice sender」(請求書発行元)について抽出された文字データ「ABCD Tax Corporation」、属性「Invoice issue date」(請求書発行日)について抽出された文字データ「December 25, 2019」、属性「Invoice description」(請求書概要)について抽出された文字データ「The followings is a statement of our charges…」、属性「Total invoice amount」(合計請求金額)について抽出された文字データ「1,100,000」、属性「Currency」(通貨)について抽出された文字データ「\」、属性「Consumption tax」(消費税)について抽出された文字データ「100,000」、属性「Invoice number」(請求書番号)について抽出された文字データ「4825110606」が、抽出データ表示領域33に表示されている。なお、異なるアノテーション対象ファイルにおける文字データの表記を統一するために、抽出データ表示領域33に表示される各文字データの表記は同様の意味の別表記に変換されてもよい。例えば、「December 25, 2019」の代わりに「2019年12月25日」と表示されてもよいし、「1,100,000」の代わりに「百十万」と表示されてもよいし、「\」の代わりに「JPY」と表示されてもよい。
なお、ある属性(例えば「Invoice sender」)について、データ抽出モデル22Aが文字データ等の複数の候補(例えば「ABCD Tax Corporation」と「ABCO Tax Corporation」)を抽出した場合、これらの複数の候補データが抽出データ表示領域33に並列的または選択的に表示されてもよい。アノテータは、抽出データ表示領域33で提示された複数の候補データのうち最適な一の候補データを、プルダウンやドロップダウンリスト等の画面上の任意の選択手段によって選択できる。但し、複数の候補データのいずれかについて、図6や図7において後述する信頼度が極めて高い(例えば、80%超)場合、当該候補データが正しいデータである可能性が高く、アノテータによって選択される可能性が高いため、抽出データ表示領域33には当該データのみを表示し、他の(より信頼度が低い)候補データは表示しなくてもよい。この場合、高信頼度閾値(例えば、80%)を超える高信頼度の候補データについては、アノテータの選択作業が不要になる。一方、複数の候補データのうち信頼度が最も高いものでも高信頼度閾値以下の場合は、前述のように複数の候補データが抽出データ表示領域33でアノテータに対して提示される。但し、信頼度が極めて低い候補データ(例えば、30%等の低信頼度閾値以下の候補データ)は誤ったデータである可能性が高く、アノテータによって選択される可能性が低いため、当該候補データは抽出データ表示領域33における提示対象から除外されるのが好ましい。
これらの抽出された文字データが全て正しければ、アノテータはアノテーション対象ファイルの被抽出データ(図4では「Standard Items」とも表されている)に関して何も入力しなくてよい(但し、確認のために各項目の冒頭に設けられるチェックボックスへのチェック入力が求められてもよい)。一方、これらの被抽出データの少なくとも一部が誤っている場合、アノテータはアノテータ端末30におけるキーボードやマウス等の入力デバイスを通じて訂正できる。このようなアノテータによる訂正入力情報は、アノテーション支援装置10のアノテータ入力受付部17によって受け付けられる。
図5に示されるように、アノテータが訂正入力のために「Invoice sender」または「ABCD Tax Corporation」の入力領域を選択すると(模式的に白黒反転されている)、当該入力領域にアノテーション支援情報付加部15によって予め入力されていた文字データ「ABCD Tax Corporation」の基となったファイル表示領域31中の領域(位置)が表示される。更に、図5において模式的に示されるように、訂正入力対象の属性「Invoice sender」に関するファイル表示領域31および抽出データ表示領域33の該当領域が互いに線で結ばれて両者の対応関係が明示される。この対応関係を視認しながら、アノテータは効率的に訂正入力を行える。例えば、抽出データ表示領域33の文字データが「AAAA Tax Corporation」のように誤っていた場合、アノテータは当該抽出データ表示領域33に「ABCD Tax Corporation」という正しい文字データを直接的に入力できる。また、ファイル表示領域31において「ABCD Tax Corporation」の文字を囲んでいるべき矩形領域(バウンディングボックス)の位置、大きさ、形状等が正しくない場合、アノテータはファイル表示領域31において当該バウンディングボックスを直接的に調整できる。
このように、データ抽出モデル22A(データ指定モデル)によるデータの抽出(指定)に基づいて、ファイル表示領域31内の特定の情報と、当該情報に対応する抽出データ表示領域33(入力領域)内の特定の情報を互いに関連付ける情報(図5の例では両者を結ぶ線)が追加されたアノテーション画面を参照することで、アノテータは効率的にアノテーション作業を行える。なお、ファイル表示領域31および抽出データ表示領域33を関連付ける情報は線に限らず、例えば、対応する色、フォント、模様等の共通または類似の強調情報(強調表示)または注釈等を関連する二つの領域に付加してもよい。また、このようなファイル表示領域31および抽出データ表示領域33を関連付ける情報は、アノテータの訂正入力や確認入力(チェックボックスへのチェック入力)のための選択によらずにアノテーション画面に常に表示されてもよい。図5の例では、アノテータによって選択されていない項目(Standard Items)に関するファイル表示領域31および抽出データ表示領域33の対応関係が、点線によってアノテーション画面上に表示されている。
その他入力領域34には、アノテータによるアノテーション内容の確認または訂正が完了したことを入力可能なチェックボックスとしてのアノテーション完了入力部と、アノテーション済の当該ファイルを他のアノテーション対象ファイルのアノテーション時のサンプルまたはリファレンスとして保存するためのチェックボックスとしてのサンプル保存部が設けられる。その他入力領域34におけるアノテータの入力情報も、アノテーション支援装置10のアノテータ入力受付部17によって受け付けられる。
アノテータ入力受付部17は、ファイル入力部11に入力されたアノテーション対象ファイルのアノテーションに関する、アノテータ端末30を通じたアノテータによる各種の入力を受け付ける。アノテーションが完了したファイル、すなわち、図4および図5の例では、抽出データ表示領域33において文字データが入力されている全ての項目のチェックボックスおよびその他入力領域34におけるアノテーション完了入力部のチェックボックスにチェックが入力されたアノテーション対象ファイル(アノテーション済ファイル)は、人工知能等によって実現される機械学習モデル等の訓練に利用される訓練データとして訓練データ格納部40に格納される。訓練データ格納部40には多数の訓練データ(アノテーション済ファイル41~44)が格納されている。
また、レイアウト判別部13がレイアウト判別モデル21に基づいて判別したアノテーション対象ファイルのレイアウトに関するレイアウト表示領域32の情報の少なくとも一部をアノテータが訂正した場合、その訂正入力情報はレイアウト判別モデル21の再訓練または追加的訓練のための訓練データまたは学習データとしてモデル格納部20にフィードバックされる。このように、アノテータによる訂正作業に基づいてレイアウト判別モデル21が改善されるため、将来のアノテータによる訂正作業の発生頻度を低減できる。
同様に、アノテーション支援情報付加部15がデータ抽出モデル22Aによるデータの抽出に関して付加した、抽出データ表示領域33および/またはファイル表示領域31の情報(文字データ、領域データ、属性データ等)の少なくとも一部をアノテータが訂正した場合、その訂正入力情報はデータ抽出モデル22Aの再訓練または追加的訓練のための訓練データまたは学習データとしてモデル格納部20にフィードバックされる。このように、アノテータによる訂正作業に基づいて各レイアウトに対応する各データ抽出モデル22A~22Cが改善されるため、将来のアノテータによる訂正作業の発生頻度を低減できる。
以上のような実施形態によれば、アノテーション支援情報付加部15によってアノテーション支援情報が付加されたアノテーション対象ファイルがアノテータに提供されるため、アノテータの作業負担を軽減できるだけでなく、アノテーションの正確性も高められる。
また、アノテーション対象ファイル中で抽出すべき項目は、データ抽出モデル22A~22Cにおいて実質的に漏れなく設定されているため、アノテータによる人為的な抽出漏れを効果的に防止できる。また、データ抽出モデル22A~22Cにおいて設定されていない不要な項目が無駄にアノテーションされることもなくなる。
以上、本発明を実施形態に基づいて説明した。例示としての実施形態における各構成要素や各処理の組合せには様々な変形例が可能であり、そのような変形例が本発明の範囲に含まれることは当業者にとって自明である。
図6は、図4のアノテーション画面の変形例を示す。レイアウト表示領域32には、レイアウト判別部13がレイアウト判別モデル21に基づいて判別したアノテーション対象ファイルのレイアウトについての信頼度が表示される。同様に、抽出データ表示領域33には、アノテーション支援情報付加部15がデータ抽出モデル22A(データ指定モデル)に基づいて抽出(指定)した各データについての信頼度が表示される。このように、ファイル提供部16は、レイアウト判別モデル21および/またはデータ抽出モデル22Aによる信頼度が追加されたアノテーション対象ファイルをアノテータに提供する。アノテータは、これらの信頼度の数値を視認しながら、効率的に各アノテーション項目の確認および/または訂正を行える。ファイル提供部16は、信頼度の数値が低い(図示の例では「50%」以下の)アノテーション項目を太枠等で強調表示して、アノテータの注意を促してもよい。
なお、前述のように、ある属性(例えば「Invoice sender」)についてデータ抽出モデル22Aが抽出した複数の候補データ(例えば「ABCD Tax Corporation」と「ABCO Tax Corporation」)が抽出データ表示領域33に表示される場合、当該各候補データの信頼度が併せて表示されることが好ましい(例えば「ABCD Tax Corporation 80%」と「ABCO Tax Corporation 35%」)。アノテータは、これらの併記された信頼度を参照しながら、効率的に最適な一の候補データを選択できる。
図7は、図4および/または図6のアノテーション画面の更なる変形例を示す。本図ではファイル表示領域31が省略されている。本変形例では、モデル選択部14が、レイアウト判別部13によって判別されたアノテーション対象ファイルのレイアウトに応じて、複数のデータ指定モデルを選択する。例えば、モデル選択部14は、レイアウト判別部13によって判別された「レイアウトA」に対応する二つの「データ抽出モデルA1」および「データ抽出モデルA2」を選択する。ファイル提供部16は、二つの「データ抽出モデルA1」および「データ抽出モデルA2」によるデータの抽出(指定)に関する情報が追加されたアノテーション対象ファイルをアノテータに提供する。具体的には図7に示されるように、ファイル提供部16がアノテータに提示するアノテーション画面の抽出データ表示領域33において、「データ抽出モデルA1」(第1のデータ指定モデル)に基づく第1のデータ抽出結果と、「データ抽出モデルA2」(第2のデータ指定モデル)に基づく第2のデータ抽出結果が並べて表示される。
アノテータは、これらの複数のデータ抽出結果をアノテーション画面上で比較し、各アノテーション項目の前述の信頼度等も参照しながら、採用すべきデータ指定モデル(データ抽出モデル)を選択する。この場合のアノテータ入力受付部17は、複数のデータ指定モデルのうち一のデータ指定モデルのアノテータによる選択を受け付ける選択受付部として機能する。
図8は、契約書等の法律文書中のデータの強調(ハイライト)に本発明を適用した変形例を示す。図8Aは、アノテーション対象ファイルとしての法律文書の例を示し、図8Bは、アノテーション完了後の当該法律文書(訓練データ)の例を示す。図8Bのアノテーション例では、法律文書中の主要項目(契約名、契約日、契約当事者(貸主および借主)、契約対象(物件名)、所在(物件所在)等)が、その項目名(属性データ)と共に太枠で強調表示されている。
このように、本変形例においてモデル格納部20に格納されてモデル選択部14によって選択されるデータ指定モデルは、アノテーション対象ファイル中の主要データを強調するデータ強調モデルである。そして、ファイル提供部16は、データ強調モデルによるデータの強調に関する情報が追加された図8Bのようなアノテーション対象ファイルおよび/またはアノテーション画面をアノテータに提供する。アノテータは、強調された項目の属性(項目名)や領域(位置)を確認し、誤りがある場合は訂正してアノテーション作業を行う。
なお、図8のような法律文書に対しても、図1~図7のような税務、会計、金融に関する文書と同様に、アノテーション対象ファイル中のデータを抽出するデータ抽出モデルが適用されてもよい。例えば、アノテーション対象ファイルとしての契約書に適用されたデータ抽出モデルは、各契約当事者の主要な権利や義務に関する文字データを当該契約書から抽出してもよい。
なお、実施形態で説明した各装置や各方法の構成、作用、機能は、ハードウェア資源またはソフトウェア資源によって、あるいは、ハードウェア資源とソフトウェア資源の協働によって実現できる。ハードウェア資源としては、例えば、プロセッサ、ROM、RAM、各種の集積回路を利用できる。ソフトウェア資源としては、例えば、オペレーティングシステム、アプリケーション等のプログラムを利用できる。
本発明は、アノテーション支援装置等に関する。
10 アノテーション支援装置、11 ファイル入力部、12 文字認識部、13 レイアウト判別部、14 モデル選択部、15 アノテーション支援情報付加部、16 ファイル提供部、17 アノテータ入力受付部、20 モデル格納部、30 アノテータ端末、31 ファイル表示領域、32 レイアウト表示領域、33 抽出データ表示領域、40 訓練データ格納部。
Claims (10)
- アノテーション対象ファイルのレイアウトを判別するレイアウト判別部と、
判別されたレイアウトに応じて、前記アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択部と、
前記データ指定モデルによるデータの指定に関する情報が追加された前記アノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供部と、
を備えるアノテーション支援装置。 - 前記データ指定モデルは、前記アノテーション対象ファイル中のデータを抽出するデータ抽出モデルであり、
前記ファイル提供部は、前記データ抽出モデルによって抽出されたデータが追加された前記アノテーション対象ファイルを前記アノテータに提供する、
請求項1に記載のアノテーション支援装置。 - 前記データ指定モデルは、前記アノテーション対象ファイル中のデータを強調するデータ強調モデルであり、
前記ファイル提供部は、前記データ強調モデルによるデータの強調に関する情報が追加された前記アノテーション対象ファイルを前記アノテータに提供する、
請求項1または2に記載のアノテーション支援装置。 - 前記モデル選択部は、複数の前記データ指定モデルのうち、判別されたレイアウトに応じた一のデータ指定モデルを選択する、請求項1または2に記載のアノテーション支援装置。
- 前記ファイル提供部は、前記アノテーション対象ファイルの少なくとも一部を表示するファイル表示領域と、当該少なくとも一部に関する前記アノテータによる入力を受け付ける入力領域を含むアノテーション画面であって、前記データ指定モデルによるデータの指定に基づいて当該ファイル表示領域および当該入力領域を関連付ける情報が追加されたアノテーション画面を前記アノテータに提示する、請求項1または2に記載のアノテーション支援装置。
- 前記ファイル提供部は、前記データ指定モデルによるデータの指定に関する情報が追加された前記アノテーション対象ファイルと共に、判別されたレイアウトに関する情報を前記アノテータに提供する、請求項1または2に記載のアノテーション支援装置。
- 前記データ指定モデルは、指定したデータについての信頼度を出力し、
前記ファイル提供部は、前記データ指定モデルによるデータの指定に関する情報および前記信頼度が追加された前記アノテーション対象ファイルを前記アノテータに提供する、
請求項1または2に記載のアノテーション支援装置。 - 前記モデル選択部は、判別されたレイアウトに応じて、複数の前記データ指定モデルを選択し、
前記ファイル提供部は、複数の前記データ指定モデルによるデータの指定に関する情報が追加された前記アノテーション対象ファイルを前記アノテータに提供し、
複数の前記データ指定モデルのうち一のデータ指定モデルの前記アノテータによる選択を受け付ける選択受付部を更に備える、
請求項1または2に記載のアノテーション支援装置。 - アノテーション対象ファイルのレイアウトを判別するレイアウト判別ステップと、
判別されたレイアウトに応じて、前記アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択ステップと、
前記データ指定モデルによるデータの指定に関する情報が追加された前記アノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供ステップと、
を備えるアノテーション支援方法。 - アノテーション対象ファイルのレイアウトを判別するレイアウト判別ステップと、
判別されたレイアウトに応じて、前記アノテーション対象ファイル中のデータを指定するデータ指定モデルを選択するモデル選択ステップと、
前記データ指定モデルによるデータの指定に関する情報が追加された前記アノテーション対象ファイルを、当該アノテーション対象ファイルのアノテーションを行うアノテータに提供するファイル提供ステップと、
をコンピュータに実行させるアノテーション支援プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021-142117 | 2021-09-01 | ||
JP2021142117 | 2021-09-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023032802A1 true WO2023032802A1 (ja) | 2023-03-09 |
Family
ID=85412646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/032012 WO2023032802A1 (ja) | 2021-09-01 | 2022-08-25 | アノテーション支援装置、アノテーション支援方法、アノテーション支援プログラム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023032802A1 (ja) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008186451A (ja) * | 2007-01-29 | 2008-08-14 | Toshiba Corp | 文書データ管理装置 |
JP2009230498A (ja) * | 2008-03-24 | 2009-10-08 | Oki Electric Ind Co Ltd | 帳票処理方法、帳票処理プログラム、帳票処理装置、および、帳票処理システム |
JP2010287079A (ja) * | 2009-06-12 | 2010-12-24 | Toshiba Corp | データエントリシステムおよびデータエントリ方法 |
JP2019169025A (ja) * | 2018-03-26 | 2019-10-03 | 株式会社Pfu | 情報処理装置、文字認識エンジン選択方法及びプログラム |
WO2020012539A1 (ja) * | 2018-07-09 | 2020-01-16 | ファーストアカウンティング株式会社 | 仕訳要素解析装置、会計処理システム、仕訳要素解析方法、仕訳要素解析プログラム |
JP2020021469A (ja) * | 2018-07-20 | 2020-02-06 | 株式会社リコー | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2020181369A (ja) * | 2019-04-25 | 2020-11-05 | 株式会社東芝 | 書類読取システム |
JP6810303B1 (ja) * | 2020-08-04 | 2021-01-06 | ファーストアカウンティング株式会社 | データ処理装置、データ処理方法及びデータ処理プログラム |
JP2021114237A (ja) * | 2020-01-21 | 2021-08-05 | キヤノン株式会社 | 文書を電子化する画像処理システム、その制御方法及びプログラム |
-
2022
- 2022-08-25 WO PCT/JP2022/032012 patent/WO2023032802A1/ja active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008186451A (ja) * | 2007-01-29 | 2008-08-14 | Toshiba Corp | 文書データ管理装置 |
JP2009230498A (ja) * | 2008-03-24 | 2009-10-08 | Oki Electric Ind Co Ltd | 帳票処理方法、帳票処理プログラム、帳票処理装置、および、帳票処理システム |
JP2010287079A (ja) * | 2009-06-12 | 2010-12-24 | Toshiba Corp | データエントリシステムおよびデータエントリ方法 |
JP2019169025A (ja) * | 2018-03-26 | 2019-10-03 | 株式会社Pfu | 情報処理装置、文字認識エンジン選択方法及びプログラム |
WO2020012539A1 (ja) * | 2018-07-09 | 2020-01-16 | ファーストアカウンティング株式会社 | 仕訳要素解析装置、会計処理システム、仕訳要素解析方法、仕訳要素解析プログラム |
JP2020021469A (ja) * | 2018-07-20 | 2020-02-06 | 株式会社リコー | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2020181369A (ja) * | 2019-04-25 | 2020-11-05 | 株式会社東芝 | 書類読取システム |
JP2021114237A (ja) * | 2020-01-21 | 2021-08-05 | キヤノン株式会社 | 文書を電子化する画像処理システム、その制御方法及びプログラム |
JP6810303B1 (ja) * | 2020-08-04 | 2021-01-06 | ファーストアカウンティング株式会社 | データ処理装置、データ処理方法及びデータ処理プログラム |
Non-Patent Citations (1)
Title |
---|
"Reduce costs by paperless activity in response to the electronic books preservation act. Improve business efficiency!", HITACHI SOCIAL INNOVATION FORUM 2016, HITACHI SOLUTIONS, JP, 27 October 2016 (2016-10-27), JP, pages 1 - 2, XP009544123 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10366123B1 (en) | Template-free extraction of data from documents | |
CN100507839C (zh) | 用于在起始模板和目标模板之间映射内容的方法和系统 | |
US8965799B2 (en) | Reading, organizing and manipulating accounting data | |
JPH06501584A (ja) | 情報処理装置 | |
US20030004836A1 (en) | Defining form formats with layout items that present data of business application | |
US20140348396A1 (en) | Extracting data from semi-structured electronic documents | |
US20050289182A1 (en) | Document management system with enhanced intelligent document recognition capabilities | |
US20060288268A1 (en) | Method for extracting, interpreting and standardizing tabular data from unstructured documents | |
US20060156216A1 (en) | Web page rendering based on object matching | |
Taylor et al. | Interactive financial reporting: an introduction to eXtensible business reporting language (XBRL) | |
US20090049375A1 (en) | Selective processing of information from a digital copy of a document for data entry | |
KR20080020991A (ko) | 전자 명함을 수신 주소에 보내는 방법 및 이를 기록한컴퓨터 판독가능 매체 | |
CN101689179A (zh) | 任务专用电子表格工作表 | |
US20240296691A1 (en) | Image reading systems, methods and storage medium for performing geometric extraction | |
US9767103B2 (en) | Method and system for formatting data from one software application source into a format compatible for importing into another software application | |
CN118194842A (zh) | 文档智能识别方法、装置、电子设备及存储介质 | |
US20190163684A1 (en) | Method and system for converting data into a software application compatible format | |
CN117541180A (zh) | 一种发票处理方法、装置及介质 | |
WO2023032802A1 (ja) | アノテーション支援装置、アノテーション支援方法、アノテーション支援プログラム | |
Amujala et al. | Digitization and data frames for card index records | |
US20100023517A1 (en) | Method and system for extracting data-points from a data file | |
JP2019135669A (ja) | 仕訳要素解析装置、会計処理装置、仕訳要素解析方法、仕訳要素解析プログラム | |
US20210240973A1 (en) | Extracting data from tables detected in electronic documents | |
JP2008033887A (ja) | 文書データ処理装置 | |
Steenhuis et al. | Weaving Pathways for Justice with GPT: LLM-driven automated drafting of interactive legal applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22864386 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 22864386 Country of ref document: EP Kind code of ref document: A1 |