WO2018016552A1 - 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム - Google Patents

帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム Download PDF

Info

Publication number
WO2018016552A1
WO2018016552A1 PCT/JP2017/026182 JP2017026182W WO2018016552A1 WO 2018016552 A1 WO2018016552 A1 WO 2018016552A1 JP 2017026182 W JP2017026182 W JP 2017026182W WO 2018016552 A1 WO2018016552 A1 WO 2018016552A1
Authority
WO
WIPO (PCT)
Prior art keywords
input
item
unit
field
input form
Prior art date
Application number
PCT/JP2017/026182
Other languages
English (en)
French (fr)
Inventor
一也 谷川
鈴木 健太
Original Assignee
株式会社ミラボ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ミラボ filed Critical 株式会社ミラボ
Priority to JP2018528849A priority Critical patent/JP6896292B2/ja
Publication of WO2018016552A1 publication Critical patent/WO2018016552A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition

Definitions

  • the present invention relates to a form input form generation device, a form input form generation method, and a program.
  • the form is generally a paper medium
  • Patent Document 1 discloses a system that discriminates the type of a form and performs a form acceptance process using an input form corresponding to the form type.
  • the present invention has been made in view of the above-described problems, and an object of the present invention is to provide a form input form generation apparatus, a form input form generation method, and a program capable of reducing labor for generating a corresponding input form from a paper medium form. It is to provide.
  • the above-described problem is an acquisition unit that acquires a scan image obtained by scanning a form, and an extraction unit that extracts a rectangular region surrounded by ruled lines included in the scan image.
  • a character string recognition unit for recognizing a character string included in the rectangular region, and an item field including only the items for each rectangular region extracted by the extraction unit based on a recognition result by the character string recognition unit , Based on the classification and positional relationship of each of the rectangular area arranged in a predetermined direction, a classification unit that classifies either the filling field including both the item and the input area, or the input field including only the input area
  • a generating unit that generates an input form for at least one item included in the form is solved by providing a.
  • the above problem is surrounded by an acquisition step in which the form input form generation apparatus acquires a scan image obtained by scanning the form, and a ruled line included in the scan image.
  • Each of the rectangles extracted by the extraction step based on a recognition result obtained by the extraction step of extracting the rectangular region, a character string recognition step of recognizing a character string included in the rectangular region, and the character string recognition step
  • Based on the classification and positional relationship analyze the hierarchical relationship between the item fields, the hierarchical relationship between the item fields and the fill-in input field, and the correspondence between the item field and the input field.
  • that analysis step based on an analysis result by the analysis step, a generation step of generating an input form for at least one item included in the form,
  • the above problem is an acquisition step of acquiring a scan image obtained by scanning a form, an extraction step of extracting a rectangular region surrounded by ruled lines included in the scan image, A character string recognition process for recognizing a character string included in the rectangular area, and an item column including only the items, each rectangular area extracted by the extraction process based on a recognition result by the character string recognition process.
  • the input field including both the input area and the input field including only the input area, and the item field based on the classification and positional relationship of each of the rectangular areas arranged in a predetermined direction
  • An analysis process for analyzing a hierarchical relationship between each other, a hierarchical relationship between the item field and the fill-in input field, and a correspondence relationship between the item field and the input field, and an analysis result by the analysis process Based on a generation step of generating an input form for at least one item included in the form, it is solved by causing a computer to execute the.
  • the form input form generation apparatus, form input form generation method, and program according to the present invention can generate an input form reflecting the form structure from a scanned image obtained by scanning the form. Accordingly, it is possible to reduce labor for generating a form input form from a paper medium form.
  • the analysis unit sets the second item field when the second item field is adjacent to the first item field in the predetermined direction. It is good also as setting to the low order of the 1st said item column. By doing so, it is possible to specify a hierarchical relationship between a plurality of item fields of the form. Thereby, the relationship between the item fields of the form can be correctly reflected in the input form.
  • the analysis unit when the third item column is arranged with one or more rectangular regions in the predetermined direction with respect to the second item column, The third item column may be set at a lower level than the first item column. By doing so, it is possible to specify a hierarchical relationship between a plurality of item fields of the form. Thereby, the relationship between the item fields of the form can be correctly reflected in the input form.
  • the analysis unit includes the one or more first item filling fields when the one or more first filling input fields are adjacent to the first item field in the predetermined direction.
  • the first filling-in field may be set at a lower level than the first item field.
  • the analysis unit may include the one or more input fields when the one or more input fields are adjacent to the first item field. It may be associated with one item column. By doing so, it is possible to specify the correspondence between the item field of the form and the input field. As a result, the relationship between the item field of the form and the input field can be correctly reflected in the input form.
  • an evaluation value storage unit that stores an evaluation value for each of a plurality of items in association with a form name
  • a specifying unit that specifies a form name shown in the scan image
  • the form For each item, based on the evaluation value stored in the evaluation value storage unit in association with the form name specified by the specifying unit, an item selection unit that selects at least one item from the items, and the generation The unit may generate an input form for the item selected by the item selection unit. By doing so, it is possible to generate an input form for an item selected from items included in the form. Thereby, for example, it is possible to generate an input form in which important items are extracted from the items included in the form.
  • the items selected by the item selection unit may be arranged in descending order of evaluation values in the input form. By doing so, it is possible to generate an input form in which items extracted from the form are arranged in an important order.
  • the form input form generation device may further include a presentation unit that presents the input form generated by the generation unit to a user. In this way, the contents of the input form generated by the user from the scanned image of the form can be confirmed.
  • the selection receiving unit that receives a selection of an item to be added / deleted from the presented input form, and updates the presented input form based on the item received by the selection receiving unit And an updating unit that performs the processing.
  • the input form can be updated according to the user's selection.
  • an input form can be edited to a user's intended content. That is, according to the form input form generation device according to the present configuration, it is possible to reduce the labor required for generating the input form, compared to the case where the user generates the input form from scratch.
  • the classification unit classifies the rectangular area as the item column when the arrangement of the character strings recognized from the rectangular area is line symmetric in the rectangular area. As good as By doing so, it is possible to improve the accuracy of classifying rectangular areas into item fields.
  • the classification unit includes a size of a front blank area that is a blank in front of the character string recognized from the rectangular area and a rear blank area that is a blank behind the character string. If the difference is equal to or larger than a predetermined size, the rectangular area may be classified as the filling-in field. By doing so, it is possible to improve the accuracy of classifying the rectangular area into the fill-in input field.
  • the classification unit includes a blank space of a predetermined size or more in the character string recognized from the rectangular area, and the character string is included in the predetermined dictionary information. If not, the rectangular area may be classified as the filling-in field. By doing so, it is possible to improve the accuracy of classifying the rectangular area into the fill-in input field.
  • a form input form generation apparatus 10 according to an embodiment of the present invention (hereinafter, this embodiment) and a form input form generation system 1 including the form input form generation apparatus 10 will be described with reference to FIGS. explain.
  • the embodiment described below is merely an example for facilitating the understanding of the present invention, and does not limit the present invention. That is, the system configuration, data, processing, and the like described below can be changed and improved without departing from the spirit of the present invention, and the present invention includes equivalents thereof.
  • FIG. 1 shows a system configuration of the form input form generation system 1.
  • the form input form generation system 1 includes a form input form generation apparatus 10 and a client apparatus 20.
  • the form input form generation device 10 and the client device 20 are connected to be communicable with each other via a network N such as the Internet.
  • the form input form generation apparatus 10 is a computer including a control unit 11, a storage unit 12, and a communication unit 13 as hardware.
  • the control unit 11 includes, for example, a central processing unit (Central Processing Unit).
  • the control unit 11 executes various arithmetic processes based on programs and data stored in the storage unit 12 and controls each unit of the form input form generation device 10. Control.
  • the storage unit 12 includes a memory and a magnetic disk device, for example, and stores various programs and data, and also functions as a work memory for the control unit 11.
  • the communication unit 13 has a communication interface such as a network interface card (NIC), and is connected to the network N via the communication interface.
  • the communication unit 13 communicates with a device such as the client device 20 via the network N.
  • NIC network interface card
  • the client device 20 is a computer including a control unit 21, a storage unit 22, a communication unit 23, an input unit 24, a display unit 25, and an input / output unit 26.
  • the client device 20 is described as including the input unit 24 and the display unit 25.
  • the input unit 24 and the display unit 25 may be provided as external devices of the client device 20.
  • the control unit 21 includes a central processing unit (Central Processing Unit), for example, and executes various arithmetic processes based on programs and data stored in the storage unit 22 and controls each unit of the client device 20.
  • Central Processing Unit Central Processing Unit
  • the storage unit 22 includes, for example, a memory and a magnetic disk device, and stores various programs and data, and also functions as a work memory for the control unit 21.
  • the communication unit 23 has a communication interface such as a network interface card (NIC) and connects to the network N via the communication interface.
  • the communication unit 23 communicates with a device such as the form input form generation apparatus 10 via the network N.
  • NIC network interface card
  • the input unit 24 includes input devices such as a touch panel, a keyboard, and a mouse, for example, and receives input of user operation information.
  • the display unit 25 includes a display device such as a liquid crystal display device, and displays a screen based on graphic data generated by the control unit 21.
  • the input / output unit 26 is connected to an external device such as the scanner 30 and communicates data with the external device.
  • the client device 20 communicates with the scanner 30 via the input / output unit 26 to control the scanner 30 and acquire a scanned image of the form S from the scanner 30.
  • the scanner 30 is a device that captures image information by optically scanning a paper medium.
  • the scanner 30 outputs a scan image (image information) obtained by scanning the form S to the client device 20.
  • the form 30 is scanned by the scanner 30, and the scanned image of the form S is acquired.
  • FIG. 2 shows an example of the form S.
  • the form S is “birth notification”
  • the type of the form S is not limited to this.
  • the form S scanned by the scanner 30 is not filled in.
  • the client device 20 transmits a scan image of the form S to the form input form generation device 10 and requests generation of an input form based on the scan image of the form S.
  • the form input form generation apparatus 10 detects a ruled line L (vertical and horizontal line images constituting the table) from the scanned image of the form S received from the client apparatus 20, and also detects a rectangular region R surrounded by the detected ruled line L. Extract. At this time, the form input form generation device 10 obtains information on the coordinate position and size (vertical and horizontal lengths) of each rectangular region R.
  • a ruled line L vertical and horizontal line images constituting the table
  • the form input form generation apparatus 10 assigns an identification number to each rectangular region R extracted from the scan image of the form S.
  • the form input form generation device 10 assigns an identification number to each rectangular area R in order from the rectangular area R located on the upper side. It should be noted that identification numbers are assigned in order from left to right for the rectangular regions R existing at the same position in the vertical direction. In the present embodiment, as the position of the rectangular region R, the coordinates of the upper left vertex are used.
  • the form input form generation device 10 executes a character recognition process for each rectangular area R extracted from the scanned image of the form S, and acquires a character string included in each rectangular area R.
  • the form input form generation device 10 Based on the recognition result of the character string for each rectangular area R, the form input form generation device 10 divides each rectangular area R into an item field that includes only items, a blanking input field that includes both items and input areas, It is classified into one of the input fields including only the input area. For example, if the character string is not recognized from the rectangular area R, the form input form generating apparatus 10 classifies the rectangular area R into an input field. Further, for example, the form input form generation device 10 performs the following processing when a character string is recognized from the rectangular area R and the empty space (area without the character string) or the ratio of the empty space is equal to or greater than a threshold value. Execute. In other words, the form input form generation device 10 classifies the rectangular area R into the fill-in input field, and otherwise classifies the rectangular area R into the item field.
  • the rectangular area R surrounded by the identification number “()” indicates that it is an item field
  • the rectangular area R surrounded by the identification number “[]” indicates that it is a fill-in field.
  • the rectangular area R surrounded by the identification number “ ⁇ >” is an input field.
  • the form input form generation device 10 classifies each rectangular area R extracted from the scanned image of the form S (item field, fill-in input field, input field) and the positional relationship between the rectangular areas R arranged in the horizontal direction. Based on the above, the hierarchical structure (tree structure) of the rectangular region R is analyzed. Details of the analysis process of the hierarchical structure will be described later.
  • FIG. 4 shows the hierarchical structure of the rectangular area R analyzed for the form S. As shown in FIG. 4, based on each rectangular area R extracted from the form S, the parent-child relationship between the item fields (higher-lower relationship), the parent-child relationship between the item field and the filling-in input field, the item field, Correspondence with the input field is determined.
  • the form input form generation device 10 generates an input form that enables input of items included in the form S and data set in the items based on the analysis result of the form S.
  • the input form is data that is described in HTML and can be displayed by a web browser.
  • the form input form generation device 10 specifies the form name (or form type) of the form S based on the character string recognition result from the predetermined area of the form S or the information received together with the scanned image of the form S. . Then, the form input form generation device 10 is an item to be entered in the input form based on the priority order of items predetermined for the form name among the items shown in the item field analyzed for the form S or the filling-in entry field. May be selected. For example, the form input form generation device 10 may select an item having a priority higher than a predetermined order as an item to be described in the input form.
  • the form input form generation device 10 determines the selected items and the data format to be set for these items based on the analysis result of the form structure of the form S, and associates the items with the input areas. Generate the input form to be displayed.
  • the form input form generation device 10 may arrange items and their input areas from the top in descending order of priority.
  • the form input form generation device 10 transmits the generated input form to the client device 20.
  • the client device 20 causes the display unit 25 to display an input form presentation screen W1 for presenting the input form received from the form input form generation device 10 to the user.
  • FIG. 5 shows an example of the input form presentation screen W1 displayed on the display unit 25 of the client device 20.
  • the input form presentation screen W1 includes display areas A1 to A6, an item selection button P1, and a confirmation button P2.
  • the display areas A1 to A6 items selected by the form input form generation device 10 and their input areas are displayed.
  • the items displayed in the display areas A1 to A6 may be arranged in descending order of priority.
  • the item selection button P1 is an operation unit for adding and deleting items displayed on the input form presentation screen W1.
  • the confirmation button P2 is an operation unit for confirming the contents of the input form displayed on the input form presentation screen W1.
  • the item selection button P1 is pressed on the input form presentation screen W1 shown in FIG. 5, the item selection screen W2 shown in FIG. 6 is displayed on the display unit 25 of the client device 20.
  • the item selection screen W2 displays a plurality of items related to the form S and a check box CB in which selection and non-selection of each item can be input.
  • the items displayed on the item selection screen W2 may include items stored in the form input form generation device 10 in association with the form name of the form S in addition to the items extracted from the form S.
  • the return button P3 is an operation unit for returning to the previous screen of the item selection screen W2.
  • the determination button P4 is an operation unit for determining the content input on the item selection screen W2 as an item selection.
  • the client device 20 transmits the item selection result on the item selection screen W2 to the form input form generation device 10.
  • the item “others” is newly selected.
  • the form input form generation device 10 updates the input form based on the item selection result received from the client device 20. Then, the form input form generation device 10 transmits the updated input form to the client device 20.
  • the client device 20 causes the display unit 25 to display an input form presentation screen W3 for presenting the updated input form received from the form input form generation device 10 to the user.
  • FIG. 7 shows an example of the input form presentation screen W3 displayed on the display unit 25 of the client device 20.
  • a display area A7 for displaying the item “others” newly selected via the item selection screen W2 is newly added to the display areas A1 to A6. Is done.
  • the client device 20 transmits the data of the confirmed input form to the form input form generation device 10.
  • the form input form generation device 10 registers the confirmed input form data in the storage unit 12 or another server so that the confirmed input form can be used.
  • FIG. 8 shows a functional block diagram of the form input form generation device 10.
  • the form input form generation device 10 functions as an evaluation value storage unit 100, a dictionary information storage unit 102, an acquisition unit 104, an extraction unit 106, a character string recognition unit 108, a classification unit 110, and an analysis.
  • the functions of the above-described units included in the form input form generation device 10 are executed by the control unit 11 operating each unit of the form input form generation device 10 according to a program stored in the storage unit 12.
  • the above-described program may be acquired by the form input form generation apparatus 10 through the communication unit 13 via a communication network such as the network N.
  • the above program may be stored in a computer-readable information storage medium.
  • the form input form generation device 10 as a computer may read and acquire the program stored in the information storage medium.
  • a method executed by the form input form generation device 10 based on the above program is a form input form generation method. The details of the functions of the above-described units will be described below.
  • the evaluation value storage unit 100 is realized mainly by the storage unit 12 of the form input form generation device 10.
  • the evaluation value storage unit 100 stores an evaluation value for each of a plurality of items in association with the form name.
  • the item associated with the form name may be added based on the character string recognized from the item field of the scanned image of the form S and the fill-in input field in addition to the information registered in advance.
  • the evaluation value of each item may be set based on the appearance frequency (appearance ratio) of items related to the form having the same form name, the cumulative number of appearances, and the like.
  • the form name may be information for identifying the type of form, and does not necessarily match the name described on the form.
  • FIG. 9 shows an evaluation value storage table T1 as an example of data stored in the evaluation value storage unit 100.
  • the evaluation value storage table T1 in the evaluation value storage table T1, a form name, an item ID that uniquely identifies an item, a standard item name that is a standard name of the item, and an evaluation value are stored in association with each other.
  • the priority of items in the form identified by the form name is used as the evaluation value. That is, the smaller the value stored in the evaluation value, the higher the priority.
  • the evaluation value is not limited to the priority order, and when the appearance ratio, the cumulative number of appearances, and the like are adopted as the evaluation value, the higher the evaluation value, the higher the priority order.
  • the dictionary information storage unit 102 is realized mainly by the storage unit 12 of the form input form generation device 10.
  • the dictionary information storage unit 102 stores dictionary information in which a standard expression and a synonymous expression are associated with each other for each of a plurality of items included in a form identified by a form name.
  • an item represented by a standard expression is referred to as a standard item name.
  • said synonymous expression is another expression which shows the same meaning as a standard expression about one item.
  • the dictionary information stored in the dictionary information storage unit 102 may be added based on the character string recognized from the item field and the fill-in input field of the scanned image of the form S in addition to the information registered in advance.
  • FIG. 10 shows a dictionary information storage table T2 as an example of data stored in the dictionary information storage unit 102.
  • a form name, an item ID that uniquely identifies an item, a standard item name that is a standard name of the item, and a synonymous expression of the item are stored in association with each other.
  • the dictionary information storage unit 102 may store dictionary information in which words, collocations, phrases, and the like are collected in addition to the dictionary information storage table T2.
  • the acquisition unit 104 is mainly realized by the control unit 11, the storage unit 12, and the communication unit 13 of the form input form generation device 10.
  • the process executed by the acquisition unit 104 is an acquisition process.
  • the acquisition unit 104 acquires a scanned image obtained by scanning the form S.
  • the acquisition unit 104 may receive and acquire the scan image of the form S transmitted from the client device 20 via the communication unit 13.
  • the acquisition method of the scanned image of the form S by the acquisition unit 104 is not limited to acquisition from the client device 20.
  • a scan image of the form S is stored in a storage medium, it may be acquired from the storage medium.
  • the form input form generation apparatus 10 is connected to the scanner 30, the scanned image of the form S scanned by the scanner 30 may be directly acquired.
  • the extraction unit 106 is mainly realized by the control unit 11 and the storage unit 12 of the form input form generation device 10.
  • the process executed by the extraction unit 106 is an extraction process.
  • the extraction unit 106 extracts a rectangular area surrounded by ruled lines included in the scanned image of the form S acquired by the acquisition unit 104.
  • the extraction unit 106 binarizes the scan image of the form S, and detects connected pixels of black pixels connected in the vertical direction or the horizontal direction as ruled lines. Then, the extraction unit 106 extracts a rectangular area surrounded by ruled lines from the scanned image.
  • a predetermined range may be set in advance for the size of the region to be extracted as the rectangular region, and the rectangular region outside the predetermined range may not be extracted. Further, for the rectangular area to be extracted, the extraction unit 106 uses, for example, information on the area size represented by the position coordinates of the upper left vertex, the length in the horizontal direction and the vertical direction (number of pixels) as information on the rectangular area. Good to get.
  • the character string recognition unit 108 is realized mainly by the control unit 11 and the storage unit 12 of the form input form generation device 10.
  • the process executed by the character string recognition unit 108 is a character string recognition process.
  • the character string recognition unit 108 recognizes a character string included in each rectangular area extracted by the extraction unit 106.
  • the character string recognizing unit 108 obtains a code (character string data) of a character string included in the rectangular region by a known OCR (optical character recognition) process for each rectangular region extracted by the extracting unit 106. That's good.
  • the character string recognition unit 108 may also acquire information on the space.
  • the classification unit 110 is mainly realized by the control unit 11 and the storage unit 12 of the form input form generation device 10.
  • the process executed by the classification unit 110 is a classification process. Based on the recognition result by the character string recognition unit 108, the classification unit 110 sets each rectangular area extracted by the extraction unit 106 as an item field including only items, a filling input field including both items and input areas, and an input. It is classified into one of the input fields including only the area.
  • the rectangular area 40A includes a character 41A, a character 41B, and a character 41C, and areas including these characters are a character area 42A, a character area 42B, and a character area 42C.
  • the classification unit 110 determines a reference size of characters from the character region 42A, the character region 42B, and the character region 42C.
  • the reference size of characters may be an average value of character regions included in the rectangular region 40A.
  • the classification unit 110 sets a character area 43A in which characters are arranged and a blank area 43B in which no characters are arranged with respect to the rectangular area 40A with the reference size of characters included in the rectangular area 40A as a unit area. To do.
  • the character area 43A and the blank area 43B are set before and after the area where the character is arranged.
  • the classification unit 110 determines whether or not the arrangement of the character area 43A is line symmetric in the rectangular area 40A. Specifically, the classification unit 110 sets a center line 44 based on the character arrangement direction (for example, the left-right direction) for the rectangular area 40A, and the character area 43A is line-symmetric (for example, left-right) by the set center line 44. It is determined whether or not they are arranged symmetrically.
  • the center line 44 is a line orthogonal to the character arrangement direction among lines that equally divide the rectangular region 40A. If the arrangement direction of the character strings is the vertical direction in the rectangular area, it is determined whether or not the character strings are arranged vertically symmetrically.
  • the classification unit 110 classifies the rectangular area 40A into the item column when the arrangement of the character area 43A is axisymmetric in the rectangular area 40A by the above determination.
  • the rectangular area 40B includes a character 41D, a character 41E, and a character 41F, and areas including these characters are a character area 42D, a character area 42E, and a character area 42F.
  • the classification unit 110 sets a front blank area 45A that is a blank area ahead of the first character 41D among the characters 41D, 41E, and 41F in the rectangular area 40B. Further, the classification unit 110 sets a rear blank area 45B, which is a blank area behind the last character 41F among the characters 41D, 41E, and 41F in the rectangular area 40B.
  • the classification unit 110 obtains a difference area 45C that is a difference between the front blank area 45A and the rear blank area 45B, and classifies the rectangular area 40B as a fill-in input field when the difference area 45C is larger than a predetermined size.
  • the predetermined size may be, for example, N (N is an integer) times a reference size (for example, an average value) of characters determined from the character region 42D, the character region 42E, and the character region 42F.
  • the second determination criterion is to determine a type-filled input field in which an input area is provided before and after a character.
  • the third determination criterion is to determine a blanking input field in which an input area is provided between characters.
  • the rectangular area 40C includes a character 41G, a character 41H, and a character 41I.
  • the areas including these characters are a character area 42G, a character area 42H, and a character area 42I.
  • the classification unit 110 sets an intermediate blank area 46 that is a blank between the character 41D, the character 41E, and the character 41F for the rectangular area 40C. Then, the classification unit 110 has a rectangular shape when the intermediate blank area 46 is larger than the predetermined size and the character string connecting the characters 41D, 41E, and 41F does not exist in the predetermined dictionary information.
  • the area 40C is classified into the filling-in field.
  • the predetermined size may be, for example, N (N is an integer) times a reference size (for example, an average value) of characters determined from the character region 42D, the character region 42E, and the character region 42F.
  • the predetermined dictionary information is, for example, information obtained by collecting words, collocations, phrases, and the like, and may be stored in the dictionary information storage unit 102.
  • the classification unit 110 classifies the rectangular region in which the character string is not recognized by the character string recognition unit 108 among the rectangular regions extracted by the extraction unit 106 into the input field.
  • the classification unit 110 is a rectangular region in which the character string is recognized by the character string recognition unit 108 among the rectangular regions extracted by the extraction unit 106, and a ratio (size ratio) of spaces other than the character string in the rectangular region.
  • the rectangular area that satisfies the condition that is less than the predetermined threshold is classified in the item column.
  • category part 110 is good also as classify
  • the classification unit 110 may classify rectangular areas that are not classified into the item fields according to the first determination criteria into rectangular filling fields, among the rectangular areas that are not classified into the input fields. In addition, the classification unit 110 may classify rectangular areas that are not classified into the filling field according to the second determination criterion or the third determination criterion among the rectangular areas that are not classified into the input field into the item field. .
  • the classification unit 110 may determine the classification after trimming the rectangular area as follows. First, the classification unit 110 trims blanks before and after the rectangular area by the same size. For example, in the example of FIG. 14, the blanks before and after the rectangular area 40B are trimmed by the smaller size of the front blank area 45A and the rear blank area 45B. Here, the size of the rear blank area 45B is trimmed from before and after the rectangular area 40B.
  • the classification unit 110 trims the blanks at the top and bottom of the rectangular area in the same manner.
  • the vertical trimming amount is the shorter of the distance from the upper end of the rectangular area to the circumscribed rectangle of the character area and the distance from the lower end of the rectangular area to the circumscribed rectangle of the character area.
  • the classification unit 110 may perform the above classification process on the trimmed rectangular area.
  • the analysis unit 112 is mainly realized by the control unit 11 and the storage unit 12 of the form input form generation device 10.
  • the process executed by the analysis unit 112 is an analysis process.
  • the analysis unit 112 based on the classification and positional relationship of the rectangular areas arranged in a predetermined direction analyzed for the form S, the hierarchical relationship between the item fields in the form S, the hierarchical relationship between the item field and the filling input field, Analyze the correspondence between the item field and the input field.
  • the predetermined direction may be the horizontal direction / vertical direction, and in the present embodiment, the right direction in the horizontal direction (referred to as the right direction) will be described as an example.
  • the analysis unit 112 analyzes the hierarchical relationship between the item fields as follows. For example, when the second item column is adjacent to the first item column (arbitrary item column) included in the form S in a predetermined direction (for example, the right direction), the analysis unit 112 The item field is set below the first item field. To explain with a specific example, the analysis unit 112 relates the form S shown in FIG. 3 to the item column (3) because the item column (3) is adjacent to the right of the item column (2). Set in the lower part of the item column (2). In this example, the item column (2) and the item column (3) correspond to the first item column and the second item column, respectively.
  • the analysis unit 112 has a third item with one or more rectangular areas (other than the item field) sandwiched in a predetermined direction (for example, right direction) with respect to the second item field included in the form S.
  • the third item column is set at a lower level than the first item column.
  • the analysis unit 112 relates to the form S shown in FIG. 3 with the entry fields [5] and [8] sandwiched between the entry fields [7] and [8] to the right of the item field (3).
  • the item field (5) is set at the lower level of the item field (2).
  • the item field (2), the item field (3), and the item field (5) correspond to the first item field, the second item field, and the third item field, respectively.
  • the analysis unit 112 analyzes the hierarchical relationship between the item field and the fill-in input field as follows. For example, when the analysis unit 112 is adjacent to a first item field (arbitrary item field) included in the form S in a predetermined direction (for example, rightward), one or more first filling input fields are adjacent. The one or more first fill-in fields are set below the first item field. To explain with a specific example, the analysis unit 112 fills in the fill-in fields [7] and [8] in the right direction of the item column (3) with respect to the form S shown in FIG. Input fields [7] and [8] are set below the item field (3). In this example, the item field (3) corresponds to the first item field, and the filling field [7] and [8] correspond to the first filling field.
  • the analysis unit 112 analyzes the correspondence between the item field and the input field as follows. When one or more input fields are adjacent to the first item field (arbitrary item field) included in the form S, the analysis unit 112 sets the one or more input fields as the first item. Correspond to the column. Explaining with a specific example, the analysis unit 112 relates the form S shown in FIG. 3 to the input field ⁇ 17> because the input field ⁇ 17> is adjacent to the item field (16) in the right direction. Correspond to the item column (16). In this example, the item field (16) corresponds to the first item field, and the input field ⁇ 17> corresponds to the first input field. Further, the correspondence between the item field and the input field in the form tree structure may be expressed by setting the input field below the item field.
  • the analysis unit 112 determines the tree structure (see FIG. 4) indicating the relationship among the item field, the fill-in input field, and the input field of the form S through the above analysis process.
  • the specifying unit 114 is mainly realized by the control unit 11 and the storage unit 12 of the form input form generation device 10.
  • the specifying unit 114 specifies the form name shown in the scanned image of the form S acquired by the acquiring unit 104.
  • the specifying unit 114 may specify the form name based on the character recognition result in a predetermined area in the scanned image of the form S, or based on the character string having the maximum character size recognized from the scanned image.
  • a name may be specified.
  • the specifying unit 114 may specify the form name by acquiring the form name from the client device 20 together with the scan image of the form S by the acquiring unit 104.
  • the item selection unit 116 is mainly realized by the control unit 11 and the storage unit 12 of the form input form generation device 10.
  • the item selection unit 116 selects at least one item from among the items included in the form S based on the evaluation value stored in the evaluation value storage unit 100 in association with the form name specified by the specifying unit 114. Select.
  • the item selection unit 116 acquires the items indicated by the item column and the fill-in input column included in the form S based on the analysis result by the analysis unit 112. Note that the items indicated by the item field and the fill-in input field are based on at least some character strings recognized from the respective rectangular areas.
  • the item selection unit 116 converts the acquired item into a standard expression based on the dictionary information storage table T2 stored in the dictionary information storage unit 102.
  • the item selection unit 116 acquires the evaluation value of each item based on the evaluation value storage table T1 stored in the evaluation value storage unit 100 for the item name (standard item name) converted into the standard expression. And the item selection part 116 shall select the item from a high rank to a predetermined order
  • the item selection unit 116 selects a part of the items included in the form S has been described, all items included in the form S may be selected.
  • the generation unit 118 is mainly realized by the control unit 11 and the storage unit 12 of the form input form generation apparatus 10.
  • a process executed by the generation unit 118 is a generation process.
  • the generation unit 118 generates an input form related to at least one item included in the form S based on the analysis result by the analysis unit 112. For example, the generation unit 118 may generate an input form for the item selected by the item selection unit 116. At this time, the generation unit 118 may generate the input form so that the items selected by the item selection unit 116 are arranged in descending order of evaluation value.
  • the generation unit 118 may convert the character string into a corresponding standard expression.
  • the generation unit 118 converts the item name of the item selected by the item selection unit 116 into a standard item name based on the dictionary information storage table T2. Next, the generation unit 118 determines the arrangement positions of the items in the descending order of priority for the items selected by the item selection unit 116 (in this case, the priority numbers are in ascending order). Then, the generation unit 118 determines an item input format based on the analysis result of the analysis unit 112. For example, if the item is recognized from the item field and there is a corresponding input field, the free entry format is used. On the other hand, if the item is recognized from the fill-in input field, the refill input format recognized for the fill-in input field is used.
  • the generation unit 118 may reflect the hierarchical relationship between items regarding the arrangement position of the items. That is, the arrangement position of the items may be determined in a manner in which the hierarchical relationship of the items can be recognized.
  • the generation unit 118 may describe the input form in the HTML format. Thereby, the generated input form can be displayed and input by the web browser.
  • the presentation unit 120 is mainly realized by the control unit 11, the storage unit 12, and the communication unit 13 of the form input form generation device 10.
  • the presentation unit 120 presents the input form generated by the generation unit 118 to the user.
  • the presentation unit 120 may transmit data of a screen (for example, the input form presentation screen W1 illustrated in FIG. 5) including the input form generated by the generation unit 118 to the client device 20.
  • the client device 20 displays the input form on the display unit 25 based on the data on the screen received from the form input form generation device 10.
  • the presentation unit 120 presents the input form generated by the generation unit 118 to the user.
  • the selection receiving unit 122 is mainly realized by the control unit 11, the storage unit 12, and the communication unit 13 of the form input form generation device 10.
  • the selection receiving unit 122 receives a selection of an item to be added / deleted from the input form presented by the presentation unit 120 from the client device 20 (user). For example, when the selection reception unit 122 receives a selection request for an addition / deletion item for the input form via the communication unit 13, the selection reception unit 122 displays display data of an item selection screen (for example, the item selection screen W2 illustrated in FIG. 6) as a client. Transmit to device 20.
  • the item selection screen may include items stored in association with the form name (for example, items not included in the form S).
  • the selection reception part 122 receives the selection result of the item selected via the item selection screen W2, for example from the client apparatus 20.
  • the update unit 124 is realized mainly by the control unit 11 and the storage unit 12 of the form input form generation device 10.
  • the updating unit 124 updates the input form based on the item received by the selection receiving unit 122. Specifically, the update unit 124 causes the generation unit 118 to generate an input form including the items received by the selection reception unit 122 again. Then, the updating unit 124 causes the presentation unit 120 to present the updated input form again.
  • the input form presentation screen W3 shown in FIG. 7 corresponds to a screen for presenting the updated input form again.
  • the form input form generation device 10 accepts a confirmation operation for the presented input form (for example, an operation for selecting the confirmation button P2 on the input form presentation screen W1 or the input form presentation screen W3) from the client device 20.
  • a confirmation operation for the presented input form for example, an operation for selecting the confirmation button P2 on the input form presentation screen W1 or the input form presentation screen W3
  • generation apparatus 10 is good also as registering the received input form so that disclosure is possible in predetermined URL.
  • FIG. 11 is a sequence diagram showing an overall flow of processing in the form input form generation system 1.
  • FIG. 12 is a flowchart of a process for generating an input form executed in the form input form generation apparatus 10.
  • control unit 21 of the client device 20 scans the form S with the scanner 30 connected via the input / output unit 26 (S201), and acquires a scan image of the form S.
  • control part 21 of the client apparatus 20 transmits the scan image of the form S to the form input form generation apparatus 10 via the communication part 23 (S202).
  • the control unit 11 of the form input form generation device 10 receives the scan image of the form S transmitted from the client device 20 via the communication unit 13 (S101).
  • generation apparatus 10 performs the production
  • the control unit 11 of the form input form generation device 10 specifies the form name of the form S (S1).
  • the process of S1 is a process executed by the specifying unit 114 of the form input form generation device 10. For example, if the control unit 11 of the form input form generation apparatus 10 acquires the form name of the form S together with the scanned image of the form S, the control unit 11 sets the acquired form name as the form name of the form S. Further, for example, the control unit 11 of the form input form generation apparatus 10 obtains a character recognition result of a predetermined area from the scan image of the form S when the form S of the form S is not acquired together with the scan image of the form S. Based on this, the form name of the form S is specified.
  • control unit 11 of the form input form generation apparatus 10 detects a ruled line from the scanned image of the form S (S2). For example, the control unit 11 of the form input form generation apparatus 10 binarizes the scan image of the form S, and detects connected pixels of black pixels connected in the vertical direction or the horizontal direction as ruled lines.
  • control unit 11 of the form input form generation device 10 extracts a rectangular area surrounded by the detected ruled line (S3). Note that the processes of S2 and S3 are processes executed by the extraction unit 106 of the form input form generation device 10.
  • control unit 11 of the form input form generation device 10 recognizes the character string included in each rectangular area extracted in S3 (S4).
  • the process of S4 is a process executed by the character string recognition unit 108 of the form input form generation device 10.
  • control unit 11 of the form input form generation apparatus 10 classifies each rectangular area into one of an item field, a fill-in input field, and an input field based on the result of the character string recognition processing of the rectangular area (S5). ).
  • FIG. 16 shows a process for determining the classification of one rectangular area.
  • the process described below is executed for each rectangular area.
  • the control unit 11 of the form input form generating apparatus 10 classifies the rectangular area into the input field (S51). .
  • the control unit 11 of the form input form generation device 10 specifies the size and arrangement of each character (S51). Then, in the rectangular area, the control unit 11 of the form input form generation device 10 displays a front blank area that is a blank area on the front side of the character string, a rear blank area that is a blank area on the rear side of the character string, and the character string. An intermediate blank area which is a blank area between the constituent characters is specified (S53).
  • control unit 11 of the form input form generation device 10 determines whether or not the size of the difference area, which is the difference between the front blank area and the rear blank area specified for the rectangular area, is equal to or larger than the threshold (A). (S56).
  • control unit 11 of the form input form generation device 10 classifies the rectangular area into a fill-in input field (S57).
  • control unit 11 of the form input form generation device 10 determines whether or not the size of the intermediate blank area specified for the rectangular area is equal to or larger than the threshold (A) (S58).
  • the size of the intermediate blank area is equal to or larger than the threshold value (A) (S58: Yes), and the character string detected from the rectangular area (characters connected without being separated by the intermediate blank area) is not in the dictionary. In this case (S59: No), the control unit 11 classifies the rectangular area into the filling-in field (S57).
  • the size of the intermediate blank area is equal to or larger than the threshold (A) (S58: Yes), and the character string (characters concatenated without being separated by the intermediate blank area) detected from the rectangular area is displayed. If it is in the dictionary (S59: Yes), the control unit 11 classifies the rectangular area into the item column (S60). In S58, when the size of the intermediate blank area is less than the threshold (A) (S58: No), the control unit 11 classifies the rectangular area into the item column (S60).
  • the control unit 11 of the form input form generation apparatus 10 classifies the rectangular area into any one of the input field, the item field, and the fill-in input field by the above process, and then ends the rectangular area classification process.
  • the arrangement of characters in the rectangular area is not line symmetric in S54 (S54: No)
  • the processes in S56 to S59 are omitted, and the rectangular area is classified into the fill-in input field. May be.
  • control unit 11 of the form input form generation apparatus 10 analyzes the form structure based on the classification of each rectangular area and the positional relationship in the horizontal direction (or / and vertical direction) of the rectangular area (S6). .
  • the process of S6 is a process executed by the analysis unit 112 of the form input form generation apparatus 10.
  • control unit 11 of the form input form generation device 10 converts the item field included in the form S and the item indicated by the fill-in input field into standard item names (S7).
  • the conversion process to the standard item name is performed with reference to the stored contents of the dictionary information storage table T2.
  • control unit 11 of the form input form generation device 10 selects at least a part of items from the item fields included in the form S and the items indicated by the fill-in input field (S8).
  • the process of S8 is a process executed by the item selection unit 116 of the form input form generation device 10.
  • control unit 11 of the form input form generation device 10 generates an input form based on the analysis result of S6 for the item selected in S8 (S9).
  • the process of S9 is a process executed by the generation unit 118 of the form input form generation apparatus 10.
  • control unit 11 of the form input form generation device 10 transmits the data of the input form generated in S102 to the client device 20 via the communication unit 13 (S103).
  • the control unit 21 of the client device 20 receives the input form data transmitted from the form input form generation device 10 via the communication unit 23 (S203). Then, the control unit 21 of the client device 20 displays the input form on the display unit 25 based on the received input form data (S204).
  • the input form presentation screen W1 corresponds to an example of a screen displayed on the display unit 25 in S204.
  • the user operation accepted via the input form presentation screen W ⁇ b> 1 displayed on the display unit 25 is “item selection” (that is, the item selection button P ⁇ b> 1 is pressed).
  • item selection that is, the item selection button P ⁇ b> 1 is pressed.
  • control unit 21 of the client device 20 requests an item selection screen from the form input form generation device 10 via the communication unit 23 (S206).
  • the control unit 11 of the form input form generation device 10 Upon receiving a request for an item selection screen from the client device 20 via the communication unit 13 (S104), the control unit 11 of the form input form generation device 10 generates data for the item selection screen and stores the data for the item selection screen. The data is transmitted to the client device 20 (S105).
  • the item selection screen is not limited to items included in the form S, and may include arbitrary items stored in association with the form name of the form S.
  • the control unit 21 of the client device 20 receives the item selection screen data transmitted from the form input form generation device 10 via the communication unit 23 and displays the item selection screen on the display unit 25 based on the received data.
  • the item selection screen W2 corresponds to an example of a screen displayed on the display unit 25 in S207.
  • control unit 21 of the client device 20 transmits the item selection result received via the item selection screen W2 to the form input form generation device 10 via the communication unit 23 (S208).
  • the control unit 11 of the form input form generation device 10 updates the input form based on the received item selection result (S106). S107).
  • the process of S107 is a process executed by the update unit 124 of the form input form generation device 10.
  • control unit 11 of the form input form generation apparatus 10 After completing the process of S107, the control unit 11 of the form input form generation apparatus 10 returns to S103, and transmits the updated input form to the client apparatus 20.
  • control unit 21 of the client device 20 requests the form input form generation device 10 to confirm the input form via the communication unit 23 (S209).
  • the control unit 11 of the form input form generation device 10 When receiving the input form confirmation request from the client device 20 via the communication unit 13 (S108), the control unit 11 of the form input form generation device 10 registers the input form related to the confirmation request (S109). For example, the control unit 11 of the form input form generation device 10 may register the input form related to the confirmation request so as to be disclosed at a predetermined URL.
  • the above is an example of processing executed in the form input form generation system 1.
  • an input form reflecting the structure of the form S can be generated from the scanned image obtained by scanning the form S. Accordingly, it is possible to reduce labor for generating a form input form (electronic data) from a paper medium form.
  • the form input form generation device 10 it is possible to specify a hierarchical relationship between a plurality of item fields of the form S. Thereby, the relationship between the item fields of the form S can be correctly reflected in the input form.
  • the form input form generation device 10 it is possible to specify the hierarchical relationship between the item field of the form S and the fill-in input field. As a result, the relationship between the item field of the form S and the filling-in field can be correctly reflected in the input form.
  • the correspondence between the item field of the form S and the input field can be specified. Thereby, the relationship between the item field of the form S and the input field can be correctly reflected in the input form.
  • an input form for an item selected from items included in the form S can be generated. Thereby, for example, it is possible to generate an input form in which important items are extracted from items included in the form S.
  • the form input form generation device 10 it is possible to generate an input form in which items extracted from the form S are arranged in an important order.
  • the user can check the contents of the input form generated from the scanned image of the form S.
  • the input form can be updated according to the user's selection.
  • an input form can be edited to a user's intended content. By doing so, it is possible to reduce the labor required to generate the input form compared to the case where the user generates the input form from scratch.
  • the input form generation device 10 even when the item name described in the form S is not a standard name, the input form can be generated using the standard name.
  • the form input form generation device 10 may convert the input form after registration into a predetermined output format in response to a request from the client device 20 and provide it to the client device 20.
  • the form input form generation system 1 is a client-server type system, but may be a stand-alone type system.
  • the client device 20 may have the function of the form input form generation device 10.
  • the client device 20 obtains the scan image of the form S, but the client device 20 may obtain the image data of the form S by a camera. Even in this case, the form input form generation system 1 can perform the same processing.

Abstract

紙媒体の帳票から対応する入力フォームを生成する労力を低減する。 帳票入力フォーム生成装置10は、帳票のスキャン画像を取得する取得部104と、スキャン画像に含まれる罫線により囲まれた矩形領域を抽出する抽出部106と、矩形領域に含まれる文字列を認識する文字列認識部108と、文字列認識部108による認識結果に基づいて、抽出部106により抽出された各々の矩形領域を、項目のみを含む項目欄、項目と入力領域の両方を含む穴埋め入力欄、入力領域のみを含む入力欄のいずれかに分類する分類部110と、所定の方向に並ぶ矩形領域の各々の分類及び位置関係に基づいて、項目欄同士の階層関係、項目欄と穴埋め入力欄の階層関係、及び項目欄と入力欄との対応関係を解析する解析部112と、解析部112による解析結果に基づいて、帳票に含まれる少なくとも1つの項目に関する入力フォームを生成する生成部118と、を備える。

Description

帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム
 本発明は、帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラムに関する。
 役所や企業等では多数の帳票が利用されている。帳票は紙媒体であることが一般的ではあるが、紙媒体の帳票を電子化した入力フォームを用いることで帳票の管理コストを低減することが望まれている。
 例えば、下記の特許文献1においては、帳票の種類を判別し、帳票の種類に応じた入力フォームを利用して帳票の受付処理をするシステムについて開示されている。
特開2004-126910号公報
 しかしながら、従来では、帳票の種類に応じた入力フォームの生成は、紙媒体の帳票に記載されている項目欄や入力欄の構造を人が判断しながら行う必要があった。そのため、紙媒体の帳票から対応する入力フォームを生成する労力が極めて大きいという課題があった。
 本発明は、上記の課題に鑑みてなされたものであり、その目的は、紙媒体の帳票から対応する入力フォームを生成する労力を低減できる帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラムを提供することにある。
 上記の課題は、本発明に係る帳票入力フォーム生成装置によれば、帳票をスキャンしたスキャン画像を取得する取得部と、前記スキャン画像に含まれる罫線により囲まれた矩形領域を抽出する抽出部と、前記矩形領域に含まれる文字列を認識する文字列認識部と、前記文字列認識部による認識結果に基づいて、前記抽出部により抽出された各々の前記矩形領域を、項目のみを含む項目欄、項目と入力領域の両方を含む穴埋め入力欄、入力領域のみを含む入力欄のいずれかに分類する分類部と、所定の方向に並ぶ前記矩形領域の各々の分類及び位置関係に基づいて、前記項目欄同士の階層関係、前記項目欄と前記穴埋め入力欄の階層関係、及び前記項目欄と前記入力欄との対応関係を解析する解析部と、前記解析部による解析結果に基づいて、前記帳票に含まれる少なくとも1つの項目に関する入力フォームを生成する生成部と、を備えることにより解決される。
 また、上記の課題は、本発明に係る帳票入力フォーム生成方法によれば、帳票入力フォーム生成装置が、帳票をスキャンしたスキャン画像を取得する取得工程と、前記スキャン画像に含まれる罫線により囲まれた矩形領域を抽出する抽出工程と、前記矩形領域に含まれる文字列を認識する文字列認識工程と、前記文字列認識工程による認識結果に基づいて、前記抽出工程により抽出されたそれぞれの前記矩形領域を、項目のみを含む項目欄、項目と入力領域の両方を含む穴埋め入力欄、入力領域のみを含む入力欄のいずれかに分類する分類工程と、所定の方向に並ぶ前記矩形領域の各々の分類と位置関係に基づいて、前記項目欄同士の階層関係、前記項目欄と前記穴埋め入力欄の階層関係、及び前記項目欄と前記入力欄との対応関係を解析する解析工程と、前記解析工程による解析結果に基づいて、前記帳票に含まれる少なくとも1つの項目に関する入力フォームを生成する生成工程と、を実行することにより解決される。
 また、上記の課題は、本発明に係るプログラムによれば、帳票をスキャンしたスキャン画像を取得する取得工程と、前記スキャン画像に含まれる罫線により囲まれた矩形領域を抽出する抽出工程と、前記矩形領域に含まれる文字列を認識する文字列認識工程と、前記文字列認識工程による認識結果に基づいて、前記抽出工程により抽出されたそれぞれの前記矩形領域を、項目のみを含む項目欄、項目と入力領域の両方を含む穴埋め入力欄、入力領域のみを含む入力欄のいずれかに分類する分類工程と、所定の方向に並ぶ前記矩形領域の各々の分類と位置関係に基づいて、前記項目欄同士の階層関係、前記項目欄と前記穴埋め入力欄の階層関係、及び前記項目欄と前記入力欄との対応関係を解析する解析工程と、前記解析工程による解析結果に基づいて、前記帳票に含まれる少なくとも1つの項目に関する入力フォームを生成する生成工程と、をコンピュータに実行させることにより解決される。
 本発明に係る帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラムによれば、帳票をスキャンしたスキャン画像から帳票の構造を反映した入力フォームを生成することができる。これにより、紙媒体の帳票から、帳票の入力フォームを生成する労力を低減することができる。
 上記の帳票入力フォーム生成装置において、前記解析部は、第1の前記項目欄に対して、前記所定の方向に第2の前記項目欄が隣接する場合に、前記第2の前記項目欄を前記第1の前記項目欄の下位に設定することとしてよい。
 こうすることで、帳票の複数の項目欄間の階層関係を特定することができる。これにより、入力フォームにおいて帳票の項目欄間の関係を正しく反映できる。
 上記の帳票入力フォーム生成装置において、前記解析部は、前記第2の前記項目欄に対して、前記所定の方向に1以上の前記矩形領域を挟んで第3の前記項目欄が並ぶ場合に、前記第3の前記項目欄を前記第1の前記項目欄の下位に設定することとしてよい。
 こうすることで、帳票の複数の項目欄間の階層関係を特定することができる。これにより、入力フォームにおいて帳票の項目欄間の関係を正しく反映できる。
 上記の帳票入力フォーム生成装置において、前記解析部は、前記第1の前記項目欄に対して、前記所定の方向に1以上の第1の前記穴埋め入力欄が隣接する場合に、当該1以上の前記第1の前記穴埋め入力欄を前記第1の前記項目欄の下位に設定することとしてよい。
 こうすることで、帳票の項目欄と穴埋め入力欄間の階層関係を特定することができる。これにより、入力フォームにおいて帳票の項目欄と穴埋め入力欄との関係を正しく反映できる。
 上記の帳票入力フォーム生成装置において、前記解析部は、前記第1の前記項目欄に対して、1以上の前記入力欄が連続して隣接する場合に、当該1以上の前記入力欄を前記第1の前記項目欄に対応付けることとしてよい。
 こうすることで、帳票の項目欄と入力欄の対応関係を特定することができる。これにより、入力フォームにおいて帳票の項目欄と入力欄の関係を正しく反映できる。
 上記の帳票入力フォーム生成装置において、帳票名に関連付けて複数の項目ごとの評価値を記憶する評価値記憶部と、前記スキャン画像に示される帳票名を特定する特定部と、前記帳票に含まれる各項目について、前記特定部により特定した帳票名に関連付けて前記評価値記憶部に記憶される評価値に基づいて、前記各項目の中から少なくとも1つの項目を選択する項目選択部と、前記生成部は、前記項目選択部により選択された項目についての入力フォームを生成することとしてよい。
 こうすることで、帳票に含まれる項目のうちから選択した項目についての入力フォームを生成できる。これにより、例えば帳票に含まれる項目のうち重要な項目を抜き出した入力フォームの生成が可能となる。
 上記の帳票入力フォーム生成装置において、前記入力フォームでは、前記項目選択部により選択された項目が、評価値の高い順に並べられることとしてよい。
 こうすることで、帳票から抜き出した項目を重要な順に並べた入力フォームを生成できる。
 上記の帳票入力フォーム生成装置において、前記生成部により生成された前記入力フォームをユーザに提示する提示部を更に備えることとしてよい。
 こうすることで、ユーザが帳票のスキャン画像から生成した入力フォームの内容を確認できる。
 上記の帳票入力フォーム生成装置において、前記提示した前記入力フォームに対し追加/削除する項目の選択を受け付ける選択受付部と、前記選択受付部により受け付けた項目に基づいて前記提示した前記入力フォームを更新する更新部と、を更に備えることとしてよい。
 こうすることで、入力フォームをユーザの選択に応じて更新することができる。これにより、入力フォームをユーザの所期の内容に編集することができる。すなわち、本構成に係る帳票入力フォーム生成装置によれば、ユーザが一から入力フォームを生成する場合に比べて、入力フォームの生成に要する労力を低減できる。
 上記の帳票入力フォーム生成装置において、前記分類部は、前記矩形領域から認識された前記文字列の配置が、前記矩形領域において線対称である場合に、前記矩形領域を前記項目欄と分類することとしてよい。
 こうすることで、矩形領域を項目欄に分類する精度を向上できる。
 上記の帳票入力フォーム生成装置において、前記分類部は、前記矩形領域から認識された前記文字列の前方の空白である前方空白領域と、前記文字列の後方の空白である後方空白領域の大きさの差分が、所定のサイズ以上である場合に、前記矩形領域を前記穴埋め入力欄と分類することとしてよい。
 こうすることで、矩形領域を穴埋め入力欄に分類する精度を向上できる。
 上記の帳票入力フォーム生成装置において、前記分類部は、前記矩形領域から認識された前記文字列の中に所定のサイズ以上の空白が存在し、且つ、前記文字列が所定の辞書情報に含まれない場合に、前記矩形領域を前記穴埋め入力欄と分類することとしてよい。
 こうすることで、矩形領域を穴埋め入力欄に分類する精度を向上できる。
 本発明によれば、紙媒体の帳票から対応する入力フォームを生成する労力を低減できる。
帳票入力フォーム生成システムの全体構成を説明する図である。 帳票の一例を示す図である。 帳票から抽出される矩形領域とその分類例を示す図である。 帳票の矩形領域の階層構造を示す図である。 入力フォーム提示画面の一例を示す図である。 項目選択画面の一例を示す図である。 更新された入力フォーム提示画面の一例を示す図である。 帳票入力フォーム生成装置の機能ブロック図である。 評価値記憶テーブルの一例を示す図である。 辞書情報記憶テーブルの一例を示す図である。 帳票入力フォーム生成システムで実行される全体処理を説明するシーケンス図である。 帳票入力フォーム生成装置で実行される入力フォームの生成処理を説明するフロー図である。 矩形領域の分類を説明する図である。 矩形領域の分類を説明する図である。 矩形領域の分類を説明する図である。 矩形領域の分類処理のフロー図である。
 以下、図1乃至図12を参照しながら、本発明の実施の形態(以下、本実施形態)に係る帳票入力フォーム生成装置10、及び帳票入力フォーム生成装置10を含む帳票入力フォーム生成システム1について説明する。
 なお、以下に説明する実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。すなわち、以下に説明するシステムの構成、データ、処理等については、本発明の趣旨を逸脱することなく、変更、改良され得るとともに、本発明にはその等価物が含まれる。
[1.帳票入力フォーム生成システム1の全体構成]
 図1には、帳票入力フォーム生成システム1のシステム構成を示した。図1に示されるように、帳票入力フォーム生成システム1は、帳票入力フォーム生成装置10及びクライアント装置20を備える。帳票入力フォーム生成装置10とクライアント装置20とは例えばインターネット等のネットワークNを介して相互に通信可能に接続される。
 図1に示されるように、帳票入力フォーム生成装置10は、ハードウェアとして制御部11、記憶部12及び通信部13を備えるコンピュータである。
 制御部11は、例えば中央処理装置(Central Processing Unit)を含み構成され、記憶部12に記憶されるプログラムやデータに基づいて各種の演算処理を実行するとともに、帳票入力フォーム生成装置10の各部を制御する。
 記憶部12は、例えばメモリ、磁気ディスク装置を含み構成され、各種のプログラムやデータを記憶するほか、制御部11のワークメモリとしても機能する。
 通信部13は、ネットワークインターフェースカード(NIC)等の通信インターフェースを有し、通信インターフェースを介してネットワークNに接続する。そして、通信部13は、ネットワークNを介してクライアント装置20等のデバイスと通信する。
 次に、クライアント装置20のハードウェア構成について説明する。図1に示されるように、クライアント装置20は、制御部21、記憶部22、通信部23、入力部24、表示部25、及び入出力部26を備えるコンピュータである。
 なお、本実施形態では、クライアント装置20が入力部24及び表示部25を備えることとして説明するが、入力部24及び表示部25はクライアント装置20の外部装置として設けられてもよい。
 制御部21は、例えば中央処理装置(Central Processing Unit)を含み構成され、記憶部22に記憶されるプログラムやデータに基づいて各種の演算処理を実行するとともに、クライアント装置20の各部を制御する。
 記憶部22は、例えばメモリ、磁気ディスク装置を含み構成され、各種のプログラムやデータを記憶するほか、制御部21のワークメモリとしても機能する。
 通信部23は、ネットワークインターフェースカード(NIC)等の通信インターフェースを有し、通信インターフェースを介してネットワークNに接続する。そして、通信部23は、ネットワークNを介して帳票入力フォーム生成装置10等のデバイスと通信する。
 入力部24は、例えばタッチパネル、キーボード、マウス等の入力デバイスを含み構成され、ユーザの操作情報の入力を受け付ける。
 表示部25は、例えば液晶ディスプレイ装置等の表示デバイスを含み構成され、制御部21により生成されるグラフィックデータに基づく画面を表示させる。
 入出力部26は、スキャナ30等の外部装置と接続し、外部装置との間でデータを通信する。例えば、クライアント装置20は、入出力部26を介してスキャナ30と通信し、スキャナ30を制御するとともに、スキャナ30から帳票Sのスキャン画像を取得する。
 スキャナ30は、紙媒体を光学走査することにより画像情報を取り込む装置である。本実施形態では、スキャナ30は、帳票Sをスキャンしたスキャン画像(画像情報)を、クライアント装置20に出力する。
[2.帳票入力フォーム生成システム1において実行される処理の概要]
 次に、図2乃至図7を参照しながら、帳票入力フォーム生成システム1において実行される処理の概要について説明する。
 まず、クライアント装置20では、スキャナ30により帳票Sのスキャンを実行し、帳票Sのスキャン画像を取得する。
 図2には、帳票Sの一例を示した。本実施形態では、帳票Sが、「出生届」である例について説明するが、帳票Sの種類はこれに限られるものではない。また、スキャナ30によりスキャンされる帳票Sには未記入のものを用いることとする。
 次に、クライアント装置20は、帳票Sのスキャン画像を帳票入力フォーム生成装置10に送信し、帳票Sのスキャン画像に基づく入力フォームの生成を要求する。
 帳票入力フォーム生成装置10は、クライアント装置20から受信した帳票Sのスキャン画像から罫線L(表を構成する縦及び横の線画像)を検出するとともに、検出した罫線Lにより囲まれる矩形領域Rを抽出する。この際、帳票入力フォーム生成装置10は、各々の矩形領域Rの座標位置、及びサイズ(縦及び横の長さ)の情報を得る。
 ここで、図3に示されるように、帳票入力フォーム生成装置10は、帳票Sのスキャン画像から抽出された各々の矩形領域Rについて識別番号を付与する。例えば、帳票入力フォーム生成装置10は、各々の矩形領域Rについて、上側に位置する矩形領域Rから順に識別番号を付与する。なお、上下で同じ位置に存在する矩形領域Rについては左から右の順に識別番号を付与することとする。また、本実施形態では、矩形領域Rの位置としては、左上の頂点の座標を用いることとする。
 次に、帳票入力フォーム生成装置10は、帳票Sのスキャン画像から抽出した矩形領域Rの各々について文字認識処理を実行し、各々の矩形領域Rに含まれる文字列を取得する。
 帳票入力フォーム生成装置10は、各々の矩形領域Rについての文字列の認識結果に基づいて、各々の矩形領域Rを、項目のみを含む項目欄、項目と入力領域の両方を含む穴埋め入力欄、入力領域のみを含む入力欄のいずれかに分類する。
 例えば、帳票入力フォーム生成装置10は、矩形領域Rから文字列が認識されなかった場合にはその矩形領域Rを入力欄に分類する。
 また例えば、帳票入力フォーム生成装置10は、矩形領域Rから文字列が認識された場合であって、空きスペース(文字列のない領域)又は空きスペースの占める割合が閾値以上であるときには以下の処理を実行する。すなわち、帳票入力フォーム生成装置10は、上記の矩形領域Rを穴埋め入力欄に分類し、それ以外の場合には上記の矩形領域Rを項目欄に分類する。
 図3においては、識別番号が“()”で囲まれた矩形領域Rは項目欄であることを示し、識別番号が“[]”で囲まれた矩形領域Rは穴埋め入力欄であることを示し、識別番号が“<>”で囲まれた矩形領域Rは入力欄であることを示す。
 次に、帳票入力フォーム生成装置10は、帳票Sのスキャン画像から抽出された各々の矩形領域Rの分類(項目欄、穴埋め入力欄、入力欄)と、横方向に並ぶ矩形領域Rの位置関係とに基づいて、矩形領域Rの階層構造(ツリー構造)を解析する。なお、階層構造の解析処理の詳細については後述する。
 図4には、帳票Sについて解析された矩形領域Rの階層構造を示した。図4に示されるように、帳票Sから抽出された各々の矩形領域Rに基づいて、項目欄同士の親子関係(上位下位の関係)、項目欄と穴埋め入力欄との親子関係、項目欄と入力欄との対応関係が決定される。
 次に、帳票入力フォーム生成装置10は、帳票Sについての解析結果に基づいて、帳票Sに含まれる項目とその項目に設定するデータとを入力可能とした入力フォームを生成する。例えば、入力フォームは、HTMLにより記述され、ウェブブラウザにより表示可能なデータである。
 また、帳票入力フォーム生成装置10は、帳票Sの所定領域からの文字列認識結果、又は、帳票Sのスキャン画像とともに受信した情報に基づいて、帳票Sの帳票名(又は帳票種類)を特定する。そして、帳票入力フォーム生成装置10は、帳票Sについて解析した項目欄、又は穴埋め入力欄に示される項目のうち、帳票名について予め定められた項目の優先順位に基づいて、入力フォームに記載する項目を選択することとしてよい。例えば、帳票入力フォーム生成装置10は、優先順位が所定の順位以上の項目を入力フォームに記載する項目として選択することとしてよい。
 そして、帳票入力フォーム生成装置10は、上記選択した項目と、それらの項目に設定するデータ形式とを、帳票Sの帳票構造の解析結果に基づいて決定し、項目と入力領域とを対応付けて表示する入力フォームを生成する。ここで、帳票入力フォーム生成装置10は、優先順位の高い順に項目とその入力領域とを上から並べることとしてよい。
 帳票入力フォーム生成装置10は、上記生成した入力フォームをクライアント装置20に送信する。
 ここでクライアント装置20は、帳票入力フォーム生成装置10から受信した入力フォームをユーザに提示する入力フォーム提示画面W1を表示部25に表示させる。
 図5には、クライアント装置20の表示部25に表示される入力フォーム提示画面W1の一例を示した。図5に示されるように、入力フォーム提示画面W1には、表示領域A1~A6、項目選択ボタンP1及び確定ボタンP2が含まれる。
 表示領域A1~A6には、それぞれ帳票入力フォーム生成装置10により選択された項目とその入力領域とが表示される。ここで、上述したように、表示領域A1~A6に表示される項目は、優先順位の高い順に並べられていることとしてよい。
 また、項目選択ボタンP1は、入力フォーム提示画面W1に表示される項目の追加、削除をするための操作部である。
 そして、確定ボタンP2は、入力フォーム提示画面W1に表示される入力フォームの内容を確定するための操作部である。
 例えば、図5に示される入力フォーム提示画面W1において、項目選択ボタンP1が押下されると、クライアント装置20の表示部25には、図6に示される項目選択画面W2が表示される。
 図6に示されるように、項目選択画面W2には、帳票Sに関する複数の項目と、それぞれの項目の選択と非選択を入力可能なチェックボックスCBが表示される。なお、項目選択画面W2に表示される項目は、帳票Sから抽出された項目に加えて、帳票Sの帳票名に関連づけて帳票入力フォーム生成装置10に記憶される項目を含めてもよい。
 なお、戻るボタンP3は、項目選択画面W2の前の画面に戻るための操作部である。
 また、決定ボタンP4は、項目選択画面W2に入力された内容を項目の選択として決定するための操作部である。
 項目選択画面W2において項目の選択入力が行われた後に、決定ボタンP4が押下されると、クライアント装置20は、項目選択画面W2における項目の選択結果を帳票入力フォーム生成装置10に送信する。
 なお、図6に示す例では、「その他」の項目が新たに選択されたこととする。
 帳票入力フォーム生成装置10は、クライアント装置20から受信した項目の選択結果に基づいて、入力フォームを更新する。そして、帳票入力フォーム生成装置10は、更新した入力フォームをクライアント装置20に送信する。
 クライアント装置20は、帳票入力フォーム生成装置10から受信した更新後の入力フォームをユーザに提示する入力フォーム提示画面W3を表示部25に表示させる。
 図7には、クライアント装置20の表示部25に表示される入力フォーム提示画面W3の一例を示した。図7に示されるように、入力フォーム提示画面W3には、表示領域A1~A6に、項目選択画面W2を介して新たに選択された「その他」の項目を表示する表示領域A7が新たに追加される。
 そして、入力フォーム提示画面W3における確定ボタンP2が押下されると、クライアント装置20は、確定された入力フォームのデータを帳票入力フォーム生成装置10に送信する。
 帳票入力フォーム生成装置10は、確定された入力フォームのデータを記憶部12又は、他のサーバに登録し、確定された入力フォームを利用可能な状態とする。
[3.帳票入力フォーム生成装置10に備えられる機能]
 以下においては、以上説明した処理を実現するために帳票入力フォーム生成装置10に備えられる機能について説明する。
 図8には、帳票入力フォーム生成装置10の機能ブロック図を示した。図8に示されるように、帳票入力フォーム生成装置10は、機能として、評価値記憶部100、辞書情報記憶部102、取得部104、抽出部106、文字列認識部108、分類部110、解析部112、特定部114、項目選択部116、生成部118、提示部120、選択受付部122、及び更新部124を備える。
 帳票入力フォーム生成装置10に備えられる上記の各部の機能は、記憶部12に記憶されるプログラムに従って制御部11が帳票入力フォーム生成装置10の各部を動作させることにより実行される。なお、上記のプログラムは、通信部13によりネットワークN等の通信網を介して帳票入力フォーム生成装置10が取得してもよい。
 また、上記のプログラムは、コンピュータ読取り可能な情報記憶媒体に記憶されることとしてもよい。この場合、コンピュータとしての帳票入力フォーム生成装置10が上記の情報記憶媒体に記憶されたプログラムを読み込んで取得することとしてもよい。
 また、上記のプログラムに基づいて、帳票入力フォーム生成装置10が実行する方法が、帳票入力フォーム生成方法となる。
 以下、上記の各部の機能の詳細について説明する。
[3.1.評価値記憶部100]
 評価値記憶部100は、主に帳票入力フォーム生成装置10の記憶部12により実現される。
 評価値記憶部100は、帳票名に関連付けて複数の項目ごとの評価値を記憶する。ここで、帳票名に関連付けられる項目は、予め登録された情報に加えて、帳票Sのスキャン画像の項目欄、穴埋め入力欄から認識された文字列に基づいて追加してもよい。この際、各項目の評価値は、同一の帳票名の帳票に関する項目の出現頻度(出現割合)、出現累積数等に基づいて設定することとしてよい。
 なお、上記の帳票名とは、帳票の種類を識別する情報としてよく、必ずしも帳票に記載の名称と一致しなくともよい。
 ここで図9には、評価値記憶部100に記憶されるデータの一例として評価値記憶テーブルT1を示した。
 図9に示されるように、評価値記憶テーブルT1では、帳票名、項目を一意に識別する項目ID、項目の標準的名称である標準項目名、評価値が関連付けて記憶される。本実施形態では、評価値には、帳票名により識別される帳票における項目の優先順位を用いている。すなわち、評価値に格納される値が小さい程、優先順位が高いことを示している。
 もちろん、評価値は優先順位に限られるものではなく、評価値に出現割合、出現累積数等を採用した場合には、評価値が大きい程、優先順位が高いことを示すこととなる。
[3.2.辞書情報記憶部102]
 辞書情報記憶部102は、主に帳票入力フォーム生成装置10の記憶部12により実現される。
 辞書情報記憶部102は、帳票名により識別される帳票に含まれる複数の項目ごとに、標準表現と同義表現とを対応付けた辞書情報を記憶する。ここで、項目を標準表現で表記したものを標準項目名と称する。また、上記の同義表現とは、一の項目について標準表現と同じ意味を示す別の表現である。
 辞書情報記憶部102に記憶される辞書情報は、予め登録された情報に加えて、帳票Sのスキャン画像の項目欄、穴埋め入力欄から認識された文字列に基づいて追加してもよい。
 ここで図10には、辞書情報記憶部102に記憶されるデータの一例として辞書情報記憶テーブルT2を示した。
 図10に示されるように、辞書情報記憶テーブルT2では、帳票名、項目を一意に識別する項目ID、項目の標準的名称である標準項目名、項目の同義表現が関連付けて記憶される。
 また、辞書情報記憶部102には、辞書情報記憶テーブルT2以外にも、単語、連語、句等を集めた辞書情報を記憶することとしてよい。
[3.3.取得部104]
 取得部104は、主に帳票入力フォーム生成装置10の制御部11、記憶部12及び通信部13により実現される。なお、取得部104により実行される処理が取得工程である。
 取得部104は、帳票Sをスキャンしたスキャン画像を取得する。例えば、取得部104は、クライアント装置20から送信された帳票Sのスキャン画像を、通信部13を介して受信して取得することとしてよい。
 もちろん、取得部104による帳票Sのスキャン画像の取得方法はクライアント装置20からの取得に限られるものではない。例えば、帳票Sのスキャン画像が記憶媒体に記憶されている場合には、当該記憶媒体から取得してもよい。また例えば、帳票入力フォーム生成装置10がスキャナ30と接続されている場合には、スキャナ30がスキャンした帳票Sのスキャン画像を直接取得してもよい。
[3.4.抽出部106]
 抽出部106は、主に帳票入力フォーム生成装置10の制御部11及び記憶部12により実現される。なお、抽出部106により実行される処理が抽出工程である。
 抽出部106は、取得部104により取得した帳票Sのスキャン画像に含まれる罫線により囲まれた矩形領域を抽出する。例えば、抽出部106は、帳票Sのスキャン画像を二値化し、縦方向又は横方向に連結する黒画素の連結画素を罫線として検出する。そして、抽出部106は、スキャン画像の中から罫線により囲まれる矩形領域を抽出する。
 ここで、矩形領域として抽出する領域のサイズに予め所定の範囲を設定し、所定の範囲外にある矩形領域については抽出しないようにしてもよい。
 また、抽出部106は、上記抽出する矩形領域については、例えば左上の頂点の位置座標、横方向及び縦方向の長さ(画素数)により表される領域サイズの情報をそれぞれ矩形領域の情報として得ることとしてよい。
[3.5.文字列認識部108]
 文字列認識部108は、主に帳票入力フォーム生成装置10の制御部11及び記憶部12により実現される。なお、文字列認識部108により実行される処理が文字列認識工程である。
 文字列認識部108は、抽出部106により抽出した各々の矩形領域に含まれる文字列を認識する。例えば、文字列認識部108は、抽出部106により抽出した各々の矩形領域について、公知のOCR(光学文字認識)処理により、矩形領域内に含まれる文字列のコード(文字列データ)を取得することとしてよい。
 ここで、文字列認識部108は、矩形領域内に含まれる文字の間にスペースがある場合には、当該スペースの情報も取得することとしてよい。
[3.6.分類部110]
 分類部110は、主に帳票入力フォーム生成装置10の制御部11及び記憶部12により実現される。なお、分類部110により実行される処理が分類工程である。
 分類部110は、文字列認識部108による認識結果に基づいて、抽出部106により抽出された各々の矩形領域を、項目のみを含む項目欄、項目と入力領域の両方を含む穴埋め入力欄、入力領域のみを含む入力欄のいずれかに分類する。
 以下、図13乃至図15を参照しながら、分類部110による矩形領域を項目欄、穴埋め入力欄、入力欄のいずれかに分類する処理の例について詳細に説明する。
 まず、図13に基づいて、矩形領域を項目欄に分類する際に用いる判定基準(第1判定基準)について説明する。
 図13に示されるように、矩形領域40Aには、文字41A、文字41B、文字41Cが含まれており、それぞれの文字を包含する領域を文字領域42A、文字領域42B、文字領域42Cとする。
 そして、分類部110は、文字領域42A、文字領域42B、文字領域42Cから文字の基準サイズを決定する。例えば、文字の基準サイズは、矩形領域40Aに含まれる文字領域の平均値としてよい。
 ここで、分類部110は、矩形領域40Aに含まれる文字の基準サイズを単位領域として、矩形領域40Aに対し、文字が配置される文字領域43Aと、文字が配置されていない空白領域43Bを設定する。
 なお、図13に示す例では、文字が配置される領域の前後について、文字領域43Aと空白領域43Bを設定している。
 そして、分類部110は、矩形領域40Aにおいて、文字領域43Aの配置が線対称であるか否かを判定する。具体的には、分類部110は、矩形領域40Aに対し、文字の配列方向(例えば左右方向)に基づいて中心線44を設定し、設定した中心線44により文字領域43Aが線対称(例えば左右対称)に配置されているか否かを判定する。なお、中心線44は、矩形領域40Aを均等分割する線のうち、文字の配列方向と直交する線である。
 なお、矩形領域において文字列の配列方向が上下方向である場合には、文字列が上下対称に配置されているか否かを判定することとする。
 分類部110は、上記の判定により矩形領域40Aにおいて文字領域43Aの配置が線対称である場合には、矩形領域40Aを項目欄に分類する。
 次に、図14に基づいて、矩形領域を穴埋め入力欄に分類する際に用いる判定基準(第2判定基準)について説明する。
 図14に示されるように、矩形領域40Bには、文字41D、文字41E、文字41Fが含まれており、それぞれの文字を包含する領域を文字領域42D、文字領域42E、文字領域42Fとする。
 そして、分類部110は、矩形領域40Bに対し、文字41D、文字41E、文字41Fのうち先頭にある文字41Dよりも前方の空白領域である前方空白領域45Aを設定する。
 また、分類部110は、矩形領域40Bに対し、文字41D、文字41E、文字41Fのうち最後尾にある文字41Fよりも後方の空白領域である後方空白領域45Bを設定する。
 そして、分類部110は、前方空白領域45Aと後方空白領域45Bとの差分である差分領域45Cを求め、差分領域45Cが所定サイズよりも大きい場合に、矩形領域40Bを穴埋め入力欄に分類する。なお、上記の所定サイズは、例えば、文字領域42D、文字領域42E、文字領域42Fから決定される文字の基準サイズ(例えば平均値)のN(Nは整数)倍としてよい。
 なお、上記の第2判定基準は、文字の前後に入力領域が設けられるタイプの穴埋め入力欄を判定するものである。
 次に、図15に基づいて、矩形領域を穴埋め入力欄に分類する際に用いる他の判定基準(第3判定基準)について説明する。なお、第3判定基準は、文字の間に入力領域が設けられる穴埋め入力欄を判定するものである。
 図15に示されるように、矩形領域40Cには、文字41G、文字41H、文字41Iが含まれており、それぞれの文字を包含する領域を文字領域42G、文字領域42H、文字領域42Iとする。
 分類部110は、矩形領域40Cに対し、文字41D、文字41E、文字41Fの間の空白である中間空白領域46を設定する。
 そして、分類部110は、中間空白領域46が所定サイズよりも大きい場合であって、文字41D、文字41E、文字41Fを繋げた文字列が所定の辞書情報に存在しないものである場合に、矩形領域40Cを穴埋め入力欄に分類する。
 なお、上記の所定サイズは、例えば、文字領域42D、文字領域42E、文字領域42Fから決定される文字の基準サイズ(例えば平均値)のN(Nは整数)倍としてよい。
 また、上記の所定の辞書情報は、例えば、単語、連語、句等を集めた情報であって、辞書情報記憶部102に記憶されることとしてよい。
 また、分類部110は、抽出部106により抽出した矩形領域のうち、文字列認識部108により文字列が認識されなかった矩形領域については入力欄に分類する。
 また、分類部110は、抽出部106により抽出した矩形領域のうち、文字列認識部108により文字列が認識された矩形領域であって、矩形領域における文字列以外のスペースの割合(サイズ比)が所定の閾値未満である条件を満たす矩形領域については項目欄に分類する。そして、分類部110は、上記条件を満たさない矩形領域については穴埋め入力欄に分類することとしてもよい。
 また、分類部110は、入力欄に分類されなかった矩形領域のうち、第1判定基準により項目欄に分類されなかった矩形領域を穴埋め入力欄に分類することとしてもよい。
 また、分類部110は、入力欄に分類されなかった矩形領域のうち、第2判定基準、又は第3判定基準により穴埋め入力欄に分類されなかった矩形領域を項目欄に分類することとしてもよい。
 なお、分類部110は、矩形領域に対し、以下のようにトリミングしてから分類を判定するようにしてよい。
 まず、分類部110は、矩形領域に対し、前後の空白を同じサイズだけトリミングする。例えば、図14の例であれば、前方空白領域45Aと後方空白領域45Bのうち小さい方のサイズの分だけ矩形領域40Bの前後の空白をトリミングする。ここでは、矩形領域40Bの前後から後方空白領域45Bのサイズをそれぞれトリミングする。
 また、分類部110は、矩形領域の上下の空白も同様にトリミングする。例えば、上下方向のトリミング量は、矩形領域の上端から文字領域の外接矩形までの距離と、矩形領域の下端から文字領域の外接矩形までの距離のうち短い方とする。
 そして、分類部110は、上記トリミング後の矩形領域に対して、上記の分類処理を行うこととしてよい。
[3.7.解析部112]
 解析部112は、主に帳票入力フォーム生成装置10の制御部11及び記憶部12により実現される。なお、解析部112により実行される処理が解析工程である。
 解析部112は、帳票Sについて解析された所定の方向に並ぶ矩形領域の各々の分類及び位置関係に基づいて、帳票Sにおける項目欄同士の階層関係、項目欄と穴埋め入力欄の階層関係、及び項目欄と入力欄との対応関係を解析する。なお、上記の所定方向とは、横方向/縦方向としてよく、本実施形態では、特に横方向の右向き(右方向と称する)を例として説明する。
 解析部112は、項目欄同士の階層関係については、以下のように解析する。
 例えば、解析部112は、帳票Sに含まれる第1の項目欄(任意の項目欄)に対して、所定の方向(例えば右方向)に第2の項目欄が隣接する場合に、第2の項目欄を第1の項目欄の下位に設定する。
 具体的な例を挙げて説明すると、解析部112は、図3に示す帳票Sに関し、項目欄(2)の右方向に項目欄(3)が隣接しているため、項目欄(3)を項目欄(2)の下位に設定する。なお、この例では、項目欄(2)、項目欄(3)がそれぞれ第1の項目欄、第2の項目欄に相当する。
 また例えば、解析部112は、帳票Sに含まれる上記の第2の項目欄に対して、所定の方向(例えば右方向)に1以上の矩形領域(項目欄以外)を挟んで第3の項目欄が並ぶ場合に、第3の項目欄を上記の第1の項目欄の下位に設定する。
 具体的な例を挙げて説明すると、解析部112は、図3に示す帳票Sに関し、項目欄(3)の右方向に穴埋め入力欄[7],[8]を挟んで、項目欄(5)が並んでいるため、項目欄(5)を項目欄(2)の下位に設定する。なお、この例では、項目欄(2)、項目欄(3)、項目欄(5)がそれぞれ第1の項目欄、第2の項目欄、第3の項目欄に相当する。
 解析部112は、項目欄と穴埋め入力欄の階層関係については、以下のように解析する。
 例えば、解析部112は、帳票Sに含まれる第1の項目欄(任意の項目欄)に対して、所定の方向(例えば右方向)に1以上の第1の穴埋め入力欄が隣接する場合に、当該1以上の第1の穴埋め入力欄を第1の項目欄の下位に設定する。
 具体的な例を挙げて説明すると、解析部112は、図3に示す帳票Sに関し、項目欄(3)の右方向に穴埋め入力欄[7],[8]が隣接しているため、穴埋め入力欄[7],[8]を項目欄(3)の下位に設定する。なお、この例では、項目欄(3)が第1の項目欄、穴埋め入力欄[7],[8]が第1の穴埋め入力欄にそれぞれ相当する。
 解析部112は、項目欄と入力欄の対応関係については、以下のように解析する。
 解析部112は、帳票Sに含まれる第1の項目欄(任意の項目欄)に対して、1以上の入力欄が連続して隣接する場合に、当該1以上の入力欄を第1の項目欄に対応付ける。
 具体的な例を挙げて説明すると、解析部112は、図3に示す帳票Sに関し、項目欄(16)の右方向に入力欄<17>が隣接しているため、入力欄<17>を項目欄(16)に対応付ける。なお、この例では、項目欄(16)が第1の項目欄に、入力欄<17>が第1の入力欄にそれぞれ相当する。また、帳票のツリー構造における項目欄と入力欄の対応関係は、項目欄の下位に入力欄を設定することにより表すこととしてよい。
 解析部112は、上記の解析処理により、帳票Sの項目欄、穴埋め入力欄、入力欄の関係を示すツリー構造(図4参照)を決定する。
[3.8.特定部114]
 特定部114は、主に帳票入力フォーム生成装置10の制御部11及び記憶部12により実現される。
 特定部114は、取得部104により取得した帳票Sのスキャン画像に示される帳票名を特定する。
 例えば、特定部114は、帳票Sのスキャン画像において所定の領域の文字認識結果に基づいて帳票名を特定してもよいし、スキャン画像から認識された最大の文字サイズの文字列に基づいて帳票名を特定してもよい。また、特定部114は、取得部104により帳票Sのスキャン画像とともに帳票名をクライアント装置20から取得することで、帳票名を特定してもよい。
[3.9.項目選択部116]
 項目選択部116は、主に帳票入力フォーム生成装置10の制御部11及び記憶部12により実現される。
 項目選択部116は、帳票Sに含まれる各項目について、特定部114により特定した帳票名に関連付けて評価値記憶部100に記憶される評価値に基づいて、各項目の中から少なくとも1つの項目を選択する。
 例えば、項目選択部116は、解析部112による解析結果に基づいて、帳票Sに含まれる項目欄と穴埋め入力欄とによりそれぞれ示される項目を取得する。なお、項目欄と穴埋め入力欄により示される項目とは、それぞれの矩形領域から認識された少なくとも一部の文字列に基づくものである。
 項目選択部116は、上記取得した項目を、辞書情報記憶部102に記憶される辞書情報記憶テーブルT2に基づいて標準表現に変換する。
 次に、項目選択部116は、標準表現に変換した項目名(標準項目名)につき、評価値記憶部100に記憶される評価値記憶テーブルT1に基づいて、各項目の評価値を取得する。そして、項目選択部116は、上記取得した各項目の評価値のうち例えば上位から所定の順位までの項目を選択することとする。
 また、項目選択部116は、帳票Sに含まれる項目のうち一部を選択する例について説明したが、帳票Sに含まれる全ての項目を選択することとしても構わない。
[3.10.生成部118]
 生成部118は、主に帳票入力フォーム生成装置10の制御部11及び記憶部12により実現される。なお、生成部118により実行される処理が生成工程である。
 生成部118は、解析部112による解析結果に基づいて、帳票Sに含まれる少なくとも1つの項目に関する入力フォームを生成する。
 例えば、生成部118は、項目選択部116により選択された項目についての入力フォームを生成することとしてよい。
 このとき、生成部118は、項目選択部116により選択された項目が、評価値の高い順に並べるように入力フォームを生成してもよい。
 また、生成部118は、抽出部106により抽出された矩形領域から認識された文字列が項目の同義表現である場合に、当該文字列を対応する標準表現に変換するようにしてもよい。
 具体的には、生成部118は、項目選択部116により選択された項目の項目名を、辞書情報記憶テーブルT2に基づいて、標準項目名に変換する。
 次に、生成部118は、項目選択部116により選択された項目について優先順位が高い順(ここでは優先順位の番号が若い順)に、項目の配置位置を決定する。
 そして、生成部118は、項目の入力形式を、解析部112による解析結果に基づいて決定する。
 例えば、項目が項目欄から認識されたものであり、且つ対応する入力欄がある場合には、自由入力形式とする。一方で、項目が穴埋め入力欄から認識されたものである場合には、穴埋め入力欄について認識された穴埋め入力形式とする。
 また、生成部118は、上記の項目の配置位置に関し、項目間の階層関係を反映させてもよい。すなわち、項目の階層関係が認識可能な態様で項目の配置位置を決定してもよい。
 なお、生成部118は、入力フォームを、HTML形式により記述することとしてよい。これにより、生成された入力フォームは、ウェブブラウザにより表示、且つ入力可能となる。
[3.11.提示部120]
 提示部120は、主に帳票入力フォーム生成装置10の制御部11、記憶部12及び通信部13により実現される。
 提示部120は、生成部118により生成された入力フォームをユーザに提示する。
 例えば、提示部120は、生成部118により生成された入力フォームを含む画面(例えば図5に示す入力フォーム提示画面W1)のデータを、クライアント装置20に送信することとしてよい。
 そして、クライアント装置20は、帳票入力フォーム生成装置10から受信した上記の画面のデータに基づいて、入力フォームを表示部25に表示させることとする。これにより、提示部120は、生成部118により生成された入力フォームをユーザに提示する。
[3.12.選択受付部122]
 選択受付部122は、主に帳票入力フォーム生成装置10の制御部11、記憶部12及び通信部13により実現される。
 選択受付部122は、提示部120により提示した入力フォームに対し追加/削除する項目の選択をクライアント装置20(ユーザ)から受け付ける。
 例えば、選択受付部122は、入力フォームに対する追加/削除の項目の選択要求を、通信部13を介して受信すると、項目の選択画面(例えば図6に示す項目選択画面W2)の表示データをクライアント装置20に送信する。
 ここで、項目の選択画面には、帳票Sに含まれる項目以外にも、帳票名に関連付けて記憶される項目(例えば帳票Sに含まれない項目)を含めてもよい。
 そして、選択受付部122は、例えば項目選択画面W2を介して選択された項目の選択結果を、クライアント装置20から受信する。
[3.13.更新部124]
 更新部124は、主に帳票入力フォーム生成装置10の制御部11及び記憶部12により実現される。
 更新部124は、選択受付部122により受け付けた項目に基づいて入力フォームを更新する。
 具体的には、更新部124は、選択受付部122により受け付けた項目を含む入力フォームを、生成部118により再度生成させる。そして、更新部124は、更新後の入力フォームを提示部120により再度提示させる。ここで、例えば、図7に示す入力フォーム提示画面W3が、更新後の入力フォームを再度提示する画面に相当する。
 また例えば、帳票入力フォーム生成装置10は、クライアント装置20から、提示した入力フォームの確定操作(例えば入力フォーム提示画面W1や入力フォーム提示画面W3における確定ボタンP2の選択操作)を受け付ける。そして、帳票入力フォーム生成装置10は、受け付けた入力フォームを所定のURLにおいて公開可能に登録することとしてよい。
[4.帳票入力フォーム生成システム1において実行される処理の一例]
 次に、図11及び図12を参照しながら、帳票入力フォーム生成システム1において実行される処理の流れについて具体的に説明する。
 ここで、図11は、帳票入力フォーム生成システム1における処理の全体的な流れを示すシーケンス図である。図12は、帳票入力フォーム生成装置10において実行される入力フォームを生成する処理のフロー図である。
 図11に示されるように、クライアント装置20の制御部21は、入出力部26を介して接続されたスキャナ30により帳票Sをスキャンさせ(S201)、帳票Sのスキャン画像を取得する。
 そして、クライアント装置20の制御部21は、帳票Sのスキャン画像を、通信部23を介して帳票入力フォーム生成装置10に送信する(S202)。
 帳票入力フォーム生成装置10の制御部11は、クライアント装置20から送信された帳票Sのスキャン画像を、通信部13を介して受信する(S101)。
 そして、帳票入力フォーム生成装置10の制御部11は、受信した帳票Sのスキャン画像に基づいて、帳票Sの入力フォームの生成処理を実行する(S102)。ここで、入力フォームの生成処理の詳細については、図12のフロー図に基づいて説明する。
 図12に示されるように、まず、帳票入力フォーム生成装置10の制御部11は、帳票Sの帳票名を特定する(S1)。なお、S1の処理は帳票入力フォーム生成装置10の特定部114により実行される処理である。
 例えば、帳票入力フォーム生成装置10の制御部11は、帳票Sのスキャン画像とともに、帳票Sの帳票名を取得している場合には、当該取得した帳票名を帳票Sの帳票名とする。
 また例えば、帳票入力フォーム生成装置10の制御部11は、帳票Sのスキャン画像とともに、帳票Sの帳票名を取得していない場合には、帳票Sのスキャン画像からの所定領域の文字認識結果に基づいて、帳票Sの帳票名を特定する。
 次に、帳票入力フォーム生成装置10の制御部11は、帳票Sのスキャン画像から罫線を検出する(S2)。例えば、帳票入力フォーム生成装置10の制御部11は、帳票Sのスキャン画像を二値化して、縦方向又は横方向に連結する黒画素の連結画素を罫線として検出する。
 次に、帳票入力フォーム生成装置10の制御部11は、検出した罫線により囲まれる矩形領域を抽出する(S3)。なお、S2及びS3の処理は、帳票入力フォーム生成装置10の抽出部106により実行される処理である。
 次に、帳票入力フォーム生成装置10の制御部11は、S3で抽出した各々の矩形領域に含まれる文字列を認識する(S4)。なお、S4の処理は、帳票入力フォーム生成装置10の文字列認識部108により実行される処理である。
 次に、帳票入力フォーム生成装置10の制御部11は、矩形領域の文字列認識処理の結果に基づいて、各々の矩形領域を項目欄、穴埋め入力欄、入力欄のいずれかに分類する(S5)。
 ここで、S5の処理の詳細について、図16に示すフロー図を参照しながら説明する。なお、図16に示すフローは、1つの矩形領域の分類を決定する処理を示したものであり、複数の矩形領域がある場合には、それぞれの矩形領域について以下に説明する処理を実行することとする。
 図16に示されるように、帳票入力フォーム生成装置10の制御部11は、矩形領域から文字列が検出されなかった場合には(S50:No)、矩形領域を入力欄に分類する(S51)。
 また、帳票入力フォーム生成装置10の制御部11は、矩形領域から文字列が検出された場合には(S50:Yes)、各文字のサイズ、配置を特定する(S51)。
 そして、帳票入力フォーム生成装置10の制御部11は、矩形領域において、文字列の前方側の空白領域である前方空白領域、文字列の後方側の空白領域である後方空白領域、及び文字列を構成する文字の間の空白領域である中間空白領域を特定する(S53)。
 ここで、帳票入力フォーム生成装置10の制御部11は、矩形領域における文字の配置が線対称である場合には(S54:Yes)、矩形領域を項目欄に分類する(S55)。
 一方で、帳票入力フォーム生成装置10の制御部11は、矩形領域における文字の配置が線対称でない場合には(S54:No)、S56に進む。
 S56において、帳票入力フォーム生成装置10の制御部11は、矩形領域について特定した前方空白領域と後方空白領域との差である差分領域のサイズが閾値(A)以上であるか否かを判定する(S56)。
 S56において、差分領域のサイズが閾値(A)以上である場合には(S56:Yes)、帳票入力フォーム生成装置10の制御部11は、矩形領域を穴埋め入力欄に分類する(S57)。
 また、S56において、差分領域のサイズが閾値(A)未満である場合には(S56:No)、帳票入力フォーム生成装置10の制御部11は、S58に進む。
 S58において、帳票入力フォーム生成装置10の制御部11は、矩形領域について特定した中間空白領域のサイズが閾値(A)以上であるか否かを判定する(S58)。
 S58において、中間空白領域のサイズが閾値(A)以上である場合であって(S58:Yes)、矩形領域から検出された文字列(中間空白領域で区切らずに連結した文字)が辞書にない場合には(S59:No)、制御部11は、矩形領域を穴埋め入力欄に分類する(S57)。
 一方で、S58において、中間空白領域のサイズが閾値(A)以上である場合であって(S58:Yes)、矩形領域から検出された文字列(中間空白領域で区切らずに連結した文字)が辞書にある場合には(S59:Yes)、制御部11は、矩形領域を項目欄に分類する(S60)。
 また、S58において、中間空白領域のサイズが閾値(A)未満である場合には(S58:No)、制御部11は、矩形領域を項目欄に分類する(S60)。
 帳票入力フォーム生成装置10の制御部11は、以上の処理により矩形領域を入力欄、項目欄、穴埋め入力欄のいずれかに分類した後に、矩形領域の分類処理を終える。
 なお、図16に示すフローにおいて、S54で矩形領域における文字の配置が線対称でない場合には(S54:No)、S56~S59の処理は省略し、矩形領域を穴埋め入力欄に分類するようにしてもよい。
 ここで、再び図12のフロー図に戻り説明を続ける。
 次に、帳票入力フォーム生成装置10の制御部11は、各々の矩形領域の分類と、矩形領域の横方向(又は/及び縦方向)の位置関係に基づいて、帳票構造を解析する(S6)。なお、S6の処理は、帳票入力フォーム生成装置10の解析部112により実行される処理である。
 次に、帳票入力フォーム生成装置10の制御部11は、帳票Sに含まれる項目欄、及び穴埋め入力欄により示される項目を、標準項目名に変換する(S7)。なお、標準項目名への変換処理は、辞書情報記憶テーブルT2の記憶内容を参照して行われる。
 次に、帳票入力フォーム生成装置10の制御部11は、帳票Sに含まれる項目欄、及び穴埋め入力欄により示される項目の中から、少なくとも一部の項目を選択する(S8)。なお、S8の処理は、帳票入力フォーム生成装置10の項目選択部116により実行される処理である。
 次に、帳票入力フォーム生成装置10の制御部11は、S8で選択された項目についてS6の解析結果に基づく入力フォームを生成する(S9)。なお、S9の処理は、帳票入力フォーム生成装置10の生成部118により実行される処理である。
 帳票入力フォーム生成装置10の制御部11は、S9の処理を終えると、S103に進む。ここで再び図11のシーケンス図に戻り説明を続ける。
 図11に示されるように、帳票入力フォーム生成装置10の制御部11は、S102で生成した入力フォームのデータを、通信部13を介してクライアント装置20に送信する(S103)。
 クライアント装置20の制御部21は、帳票入力フォーム生成装置10から送信された入力フォームのデータを、通信部23を介して受信する(S203)。
 そして、クライアント装置20の制御部21は、受信した入力フォームのデータに基づいて入力フォームを表示部25に表示させる(S204)。例えば、入力フォーム提示画面W1が、S204で表示部25に表示される画面の一例に相当する。
 次に、クライアント装置20の制御部21は、表示部25に表示された入力フォーム提示画面W1を介して受け付けられたユーザの操作が「項目選択」(すなわち、項目選択ボタンP1の押下)である場合には(S205:項目選択)、S206に進む。
 S206では、クライアント装置20の制御部21は、通信部23を介して帳票入力フォーム生成装置10に対して項目選択画面を要求する(S206)。
 帳票入力フォーム生成装置10の制御部11は、通信部13を介して、クライアント装置20から項目選択画面の要求を受け付けると(S104)、項目選択画面のデータを生成し、項目選択画面のデータをクライアント装置20に送信する(S105)。
 なお、項目選択画面には、帳票Sに含まれる項目に限らず、帳票Sの帳票名に関連付けて記憶される任意の項目を含めることとしてもよい。
 クライアント装置20の制御部21は、通信部23を介して、帳票入力フォーム生成装置10から送信された項目選択画面のデータを受信し、受信したデータに基づいて項目選択画面を表示部25に表示する(S207)。例えば、項目選択画面W2がS207で表示部25に表示される画面の一例に相当する。
 次に、クライアント装置20の制御部21は、項目選択画面W2を介して受け付けた項目の選択結果を、通信部23を介して帳票入力フォーム生成装置10に送信する(S208)。
 帳票入力フォーム生成装置10の制御部11は、通信部13を介して、クライアント装置20から項目の選択結果を受信すると(S106)、受信した項目の選択結果に基づいて、入力フォームを更新する(S107)。なお、S107の処理は、帳票入力フォーム生成装置10の更新部124により実行される処理である。
 帳票入力フォーム生成装置10の制御部11は、S107の処理を終えると、S103に戻り、更新した入力フォームをクライアント装置20に対して送信する。
 また、S205において、表示部25に表示された入力フォーム提示画面W1を介して受け付けられたユーザの操作が「確定」(すなわち、確定ボタンP2の押下)である場合には(S205:確定)、S209に進む。
 S209では、クライアント装置20の制御部21は、通信部23を介して、入力フォームの確定を帳票入力フォーム生成装置10に対して要求する(S209)。
 帳票入力フォーム生成装置10の制御部11は、通信部13を介して、クライアント装置20から入力フォームの確定要求を受け付けると(S108)、確定要求に係る入力フォームを登録する(S109)。例えば、帳票入力フォーム生成装置10の制御部11は、確定要求に係る入力フォームを所定のURLにおいて公開可能に登録することとしてよい。
 以上が帳票入力フォーム生成システム1において実行される処理の一例である。
 以上説明した帳票入力フォーム生成装置10によれば、帳票Sをスキャンしたスキャン画像から帳票Sの構造を反映した入力フォームを生成することができる。これにより、紙媒体の帳票から、帳票の入力フォーム(電子データ)を生成する労力を低減することができる。
 また、帳票入力フォーム生成装置10によれば、帳票Sの複数の項目欄間の階層関係を特定することができる。これにより、入力フォームにおいて帳票Sの項目欄間の関係を正しく反映できる。
 また、帳票入力フォーム生成装置10によれば、帳票Sの項目欄と穴埋め入力欄間の階層関係を特定することができる。これにより、入力フォームにおいて帳票Sの項目欄と穴埋め入力欄との関係を正しく反映できる。
 また、帳票入力フォーム生成装置10によれば、帳票Sの項目欄と入力欄の対応関係を特定することができる。これにより、入力フォームにおいて帳票Sの項目欄と入力欄の関係を正しく反映できる。
 また、帳票入力フォーム生成装置10によれば、帳票Sに含まれる項目のうちから選択した項目についての入力フォームを生成できる。これにより、例えば帳票Sに含まれる項目のうち重要な項目を抜き出した入力フォームの生成が可能となる。
 また、帳票入力フォーム生成装置10によれば、帳票Sから抜き出した項目を重要な順に並べた入力フォームを生成できる。
 また、帳票入力フォーム生成装置10によれば、ユーザは帳票Sのスキャン画像から生成した入力フォームの内容を確認することができる。
 また、帳票入力フォーム生成装置10によれば、入力フォームをユーザの選択に応じて更新することができる。これにより、入力フォームをユーザの所期の内容に編集することができる。こうすることで、ユーザが一から入力フォームを生成する場合に比べて、入力フォームの生成に要する労力を低減できる。
 また、帳票入力フォーム生成装置10によれば、帳票Sに記載の項目名が標準的な名称でない場合にも、標準的な名称を用いて入力フォームを生成することができる。
[5.その他の実施形態]
 本発明は上記の実施形態に限定されるものではない。例えば、帳票入力フォーム生成装置10は、登録後の入力フォームをクライアント装置20からの要求に応じて所定の出力形式に変換してクライアント装置20に提供してもよい。
 帳票入力フォーム生成システム1は、クライアント・サーバー型のシステムとしたが、スタンドアロン型のシステムとしてもよい。この場合には、クライアント装置20が帳票入力フォーム生成装置10の機能を有することとしてよい。
 また、本実施形態では、クライアント装置20は帳票Sのスキャン画像を得ることとしたが、クライアント装置20はカメラにより帳票Sの画像データを得ることとしてもよい。この場合においても帳票入力フォーム生成システム1においては同様の処理が可能である。
 1 帳票入力フォーム生成システム
  10 帳票入力フォーム生成装置
  11 制御部
  12 記憶部
  13 通信部
 20 クライアント装置
  21 制御部
  22 記憶部
  23 通信部
  24 入力部
  25 表示部
  26 入出力部
 30 スキャナ
 40A 矩形領域
 40B 矩形領域
 40C 矩形領域
 41A 文字
 41B 文字
 41C 文字
 41D 文字
 41E 文字
 41F 文字
 41G 文字
 41H 文字
 41I 文字
 42A 文字領域
 42B 文字領域
 42C 文字領域
 42D 文字領域
 42E 文字領域
 42F 文字領域
 42G 文字領域
 42H 文字領域
 42I 文字領域
 43A 文字領域
 43B 空白領域
 44 中心線
 45A 前方空白領域
 45B 後方空白領域
 45C 差分領域
 46 中間空白領域
 100 評価値記憶部
 102 辞書情報記憶部
 104 取得部
 106 抽出部
 108 文字列認識部
 110 分類部
 112 解析部
 114 特定部
 116 項目選択部
 118 生成部
 120 提示部
 122 選択受付部
 124 更新部
 N ネットワーク
 S 帳票
 L 罫線
 R 矩形領域
 T1 評価値記憶テーブル
 T2 辞書情報記憶テーブル
 W1 入力フォーム提示画面
 W3 入力フォーム提示画面
  A1 表示領域
  A2 表示領域
  A3 表示領域
  A4 表示領域
  A5 表示領域
  A6 表示領域
  A7 表示領域
  P1 項目選択ボタン
  P2 確定ボタン
 W2 項目選択画面
  CB チェックボックス
  P3 戻るボタン
  P4 決定ボタン

Claims (14)

  1.  帳票をスキャンしたスキャン画像を取得する取得部と、
     前記スキャン画像に含まれる罫線により囲まれた矩形領域を抽出する抽出部と、
     前記矩形領域に含まれる文字列を認識する文字列認識部と、
     前記文字列認識部による認識結果に基づいて、前記抽出部により抽出された各々の前記矩形領域を、項目のみを含む項目欄、項目と入力領域の両方を含む穴埋め入力欄、入力領域のみを含む入力欄のいずれかに分類する分類部と、
     所定の方向に並ぶ前記矩形領域の各々の分類及び位置関係に基づいて、前記項目欄同士の階層関係、前記項目欄と前記穴埋め入力欄の階層関係、及び前記項目欄と前記入力欄との対応関係を解析する解析部と、
     前記解析部による解析結果に基づいて、前記帳票に含まれる少なくとも1つの項目に関する入力フォームを生成する生成部と、
     を備えることを特徴とする帳票入力フォーム生成装置。
  2.  前記解析部は、第1の前記項目欄に対して、前記所定の方向に第2の前記項目欄が隣接する場合に、前記第2の前記項目欄を前記第1の前記項目欄の下位に設定することを特徴とする請求項1に記載の帳票入力フォーム生成装置。
  3.  前記解析部は、前記第2の前記項目欄に対して、前記所定の方向に1以上の前記矩形領域を挟んで第3の前記項目欄が並ぶ場合に、前記第3の前記項目欄を前記第1の前記項目欄の下位に設定することを特徴とする請求項2に記載の帳票入力フォーム生成装置。
  4.  前記解析部は、前記第1の前記項目欄に対して、前記所定の方向に1以上の第1の前記穴埋め入力欄が隣接する場合に、当該1以上の前記第1の前記穴埋め入力欄を前記第1の前記項目欄の下位に設定することを特徴とする請求項2又は3に記載の帳票入力フォーム生成装置。
  5.  前記解析部は、前記第1の前記項目欄に対して、1以上の前記入力欄が連続して隣接する場合に、当該1以上の前記入力欄を前記第1の前記項目欄に対応付けることを特徴とする請求項2乃至4のいずれかに記載の帳票入力フォーム生成装置。
  6.  帳票名に関連付けて複数の項目ごとの評価値を記憶する評価値記憶部と、
     前記スキャン画像に示される帳票名を特定する特定部と、
     前記帳票に含まれる各項目について、前記特定部により特定した帳票名に関連付けて前記評価値記憶部に記憶される評価値に基づいて、前記各項目の中から少なくとも1つの項目を選択する項目選択部と、
     前記生成部は、前記項目選択部により選択された項目についての入力フォームを生成することを特徴とする請求項1乃至5のいずれかに記載の帳票入力フォーム生成装置。
  7.  前記入力フォームでは、前記項目選択部により選択された項目が、評価値の高い順に並べられることを特徴とする請求項6に記載の帳票入力フォーム生成装置。
  8.  前記生成部により生成された前記入力フォームをユーザに提示する提示部を更に備えることを特徴とする請求項1乃至7のいずれかに記載の帳票入力フォーム生成装置。
  9.  前記提示した前記入力フォームに対し追加/削除する項目の選択を受け付ける選択受付部と、
     前記選択受付部により受け付けた項目に基づいて前記提示した前記入力フォームを更新する更新部と、を更に備えることを特徴とする請求項8に記載の帳票入力フォーム生成装置。
  10.  前記分類部は、前記矩形領域から認識された前記文字列の配置が、前記矩形領域において線対称である場合に、前記矩形領域を前記項目欄と分類する
     ことを特徴とする請求項1乃至9のいずれかに記載の帳票入力フォーム生成装置。
  11.  前記分類部は、前記矩形領域から認識された前記文字列の前方の空白である前方空白領域と、前記文字列の後方の空白である後方空白領域の大きさの差分が、所定のサイズ以上である場合に、前記矩形領域を前記穴埋め入力欄と分類する
     ことを特徴とする請求項1乃至10のいずれかに記載の帳票入力フォーム生成装置。
  12.  前記分類部は、前記矩形領域から認識された前記文字列の中に所定のサイズ以上の空白が存在し、且つ、前記文字列が所定の辞書情報に含まれない場合に、前記矩形領域を前記穴埋め入力欄と分類する
     ことを特徴とする請求項1乃至11のいずれかに記載の帳票入力フォーム生成装置。
  13.  帳票入力フォーム生成装置が、
     帳票をスキャンしたスキャン画像を取得する取得工程と、
     前記スキャン画像に含まれる罫線により囲まれた矩形領域を抽出する抽出工程と、
     前記矩形領域に含まれる文字列を認識する文字列認識工程と、
     前記文字列認識工程による認識結果に基づいて、前記抽出工程により抽出されたそれぞれの前記矩形領域を、項目のみを含む項目欄、項目と入力領域の両方を含む穴埋め入力欄、入力領域のみを含む入力欄のいずれかに分類する分類工程と、
     所定の方向に並ぶ前記矩形領域の各々の分類と位置関係に基づいて、前記項目欄同士の階層関係、前記項目欄と前記穴埋め入力欄の階層関係、及び前記項目欄と前記入力欄との対応関係を解析する解析工程と、
     前記解析工程による解析結果に基づいて、前記帳票に含まれる少なくとも1つの項目に関する入力フォームを生成する生成工程と、
     を実行することを特徴とする帳票入力フォーム生成方法。
  14.  帳票をスキャンしたスキャン画像を取得する取得工程と、
     前記スキャン画像に含まれる罫線により囲まれた矩形領域を抽出する抽出工程と、
     前記矩形領域に含まれる文字列を認識する文字列認識工程と、
     前記文字列認識工程による認識結果に基づいて、前記抽出工程により抽出されたそれぞれの前記矩形領域を、項目のみを含む項目欄、項目と入力領域の両方を含む穴埋め入力欄、入力領域のみを含む入力欄のいずれかに分類する分類工程と、
     所定の方向に並ぶ前記矩形領域の各々の分類と位置関係に基づいて、前記項目欄同士の階層関係、前記項目欄と前記穴埋め入力欄の階層関係、及び前記項目欄と前記入力欄との対応関係を解析する解析工程と、
     前記解析工程による解析結果に基づいて、前記帳票に含まれる少なくとも1つの項目に関する入力フォームを生成する生成工程と、
     をコンピュータに実行させるためのプログラム。
PCT/JP2017/026182 2016-07-21 2017-07-20 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム WO2018016552A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018528849A JP6896292B2 (ja) 2016-07-21 2017-07-20 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-143615 2016-07-21
JP2016143615 2016-07-21

Publications (1)

Publication Number Publication Date
WO2018016552A1 true WO2018016552A1 (ja) 2018-01-25

Family

ID=60992597

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/026182 WO2018016552A1 (ja) 2016-07-21 2017-07-20 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム

Country Status (2)

Country Link
JP (3) JP6896292B2 (ja)
WO (1) WO2018016552A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019245016A1 (ja) * 2018-06-22 2019-12-26 株式会社ミラボ 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム
JP2020004373A (ja) * 2018-06-22 2020-01-09 株式会社ミラボ 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム
JP2020009222A (ja) * 2018-07-10 2020-01-16 株式会社ミトリ ワークフローシステム及びそのプログラム
JP2020149691A (ja) * 2019-03-15 2020-09-17 株式会社リコー コンテンツ解析エンジンによるCloud EMR通信のためのアプローチ
JP2020184234A (ja) * 2019-05-08 2020-11-12 株式会社ミラボ 窓口業務管理装置、窓口業務管理方法及び窓口業務管理プログラム
JP7365835B2 (ja) 2019-09-30 2023-10-20 Toppanエッジ株式会社 構造認識システム、構造認識装置、構造認識方法、及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7358838B2 (ja) 2019-08-21 2023-10-11 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
KR102575085B1 (ko) * 2021-11-19 2023-09-06 조남제 문서 분석 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011531A (ja) * 1996-06-21 1998-01-16 Mitsubishi Electric Corp 帳票読取装置
JPH1063744A (ja) * 1996-07-18 1998-03-06 Internatl Business Mach Corp <Ibm> 文書のレイアウト解析方法及びシステム
JP2000339406A (ja) * 1999-05-28 2000-12-08 Fujitsu Ltd 帳票認識方法
JP2002007953A (ja) * 2000-06-22 2002-01-11 Hitachi Ltd 電子帳票処理装置
JP2016115088A (ja) * 2014-12-12 2016-06-23 株式会社エヌ・ティ・ティ・データ 帳票定義装置、帳票定義方法、及び帳票定義プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003187177A (ja) * 2001-12-21 2003-07-04 Oki Electric Ind Co Ltd 帳票入力装置及び帳票入力方法
JP2008083988A (ja) * 2006-09-27 2008-04-10 Casio Comput Co Ltd 入力フォーム作成装置及びプログラム
JP2012190434A (ja) * 2011-02-24 2012-10-04 Ricoh Co Ltd 帳票定義装置、帳票定義方法、プログラム及び記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011531A (ja) * 1996-06-21 1998-01-16 Mitsubishi Electric Corp 帳票読取装置
JPH1063744A (ja) * 1996-07-18 1998-03-06 Internatl Business Mach Corp <Ibm> 文書のレイアウト解析方法及びシステム
JP2000339406A (ja) * 1999-05-28 2000-12-08 Fujitsu Ltd 帳票認識方法
JP2002007953A (ja) * 2000-06-22 2002-01-11 Hitachi Ltd 電子帳票処理装置
JP2016115088A (ja) * 2014-12-12 2016-06-23 株式会社エヌ・ティ・ティ・データ 帳票定義装置、帳票定義方法、及び帳票定義プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIN LUO: "Automatic Acquisition of Layout Knowledge for the Structure Recognition of Table-Form Documents", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J76-D-II, no. 3, 25 March 1993 (1993-03-25), pages 534 - 546 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019245016A1 (ja) * 2018-06-22 2019-12-26 株式会社ミラボ 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム
JP2020004373A (ja) * 2018-06-22 2020-01-09 株式会社ミラボ 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム
JP7041963B2 (ja) 2018-06-22 2022-03-25 株式会社ミラボ 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム
JP2020009222A (ja) * 2018-07-10 2020-01-16 株式会社ミトリ ワークフローシステム及びそのプログラム
JP2020149691A (ja) * 2019-03-15 2020-09-17 株式会社リコー コンテンツ解析エンジンによるCloud EMR通信のためのアプローチ
JP2020184234A (ja) * 2019-05-08 2020-11-12 株式会社ミラボ 窓口業務管理装置、窓口業務管理方法及び窓口業務管理プログラム
JP7365835B2 (ja) 2019-09-30 2023-10-20 Toppanエッジ株式会社 構造認識システム、構造認識装置、構造認識方法、及びプログラム

Also Published As

Publication number Publication date
JP6961280B2 (ja) 2021-11-05
JPWO2018016552A1 (ja) 2019-05-16
JP2022003579A (ja) 2022-01-11
JP2021152924A (ja) 2021-09-30
JP7072304B2 (ja) 2022-05-20
JP6896292B2 (ja) 2021-06-30

Similar Documents

Publication Publication Date Title
JP6961280B2 (ja) 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム
US20190220508A1 (en) Interactively predicting fields in a form
US8411960B2 (en) Image processing for generating electronic document data in which an object can be searched from an input image
EP0539106B1 (en) Electronic information delivery system
US7844896B2 (en) Layout-rule generation system, layout system, layout-rule generation program, layout program, storage medium, method of generating layout rule, and method of layout
JP5851607B2 (ja) 漢字構成方法および装置、文字構成方法および装置、ならびにフォントライブラリ構築方法
EP2624203B1 (en) Image providing device, image processing method, image processing program, and recording medium
US20040255245A1 (en) Template production system, layout system, template production program, layout program, layout template data structure, template production method, and layout method
JP5676942B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US8965125B2 (en) Image processing device, method and storage medium for storing and displaying an electronic document
EP1698988A1 (en) Image processing apparatus and its method
US20090019010A1 (en) Document Search Device, Imaging Forming Apparatus, and Document Search System
EP2610812A1 (en) Image providing device, image processing method, image processing program, and recording medium
CN106373447A (zh) 一种智能阅卷系统及方法
EA000271B1 (ru) Способ и устройство для обработки таблицы
JP2021043650A (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
US20130156316A1 (en) Image providing device, image processing method, image processing program, and recording medium
CN111860450A (zh) 票证识别装置以及票证信息管理系统
JP6462930B1 (ja) 文字認識装置、方法およびプログラム
WO2011039820A1 (ja) 情報処理装置および情報処理方法
CN111241955B (zh) 一种票据信息提取方法及系统
CN110390323B (zh) 信息处理装置以及计算机可读介质
JP7301671B2 (ja) 画像処理装置、情報処理方法及びプログラム
CN106547891A (zh) 针对掌上显示设备的图片化文本信息的快速可视化方法
KR20220014015A (ko) 상품 텍스트 정보 분석 및 매칭 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17831068

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018528849

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17831068

Country of ref document: EP

Kind code of ref document: A1