WO2012073376A1 - 電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents

電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2012073376A1
WO2012073376A1 PCT/JP2010/071671 JP2010071671W WO2012073376A1 WO 2012073376 A1 WO2012073376 A1 WO 2012073376A1 JP 2010071671 W JP2010071671 W JP 2010071671W WO 2012073376 A1 WO2012073376 A1 WO 2012073376A1
Authority
WO
WIPO (PCT)
Prior art keywords
character string
electronic document
attribute
view
information
Prior art date
Application number
PCT/JP2010/071671
Other languages
English (en)
French (fr)
Inventor
景厚 文
昌洋 津村
小川 祐一
Original Assignee
株式会社 日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 日立製作所 filed Critical 株式会社 日立製作所
Priority to PCT/JP2010/071671 priority Critical patent/WO2012073376A1/ja
Publication of WO2012073376A1 publication Critical patent/WO2012073376A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Definitions

  • the present invention relates to an electronic document processing apparatus, an electronic document processing method, and a computer-readable recording medium.
  • This electronic document is an electronic file created in accordance with a prescribed format such as an XML (eXtensible Markup Language) format.
  • XML eXtensible Markup Language
  • the term “document” is used as a term meaning such an electronic document.
  • View attributes include settings such as the font type, size, color, style used for the characters that make up the displayed text, and the character spacing and line spacing of the text that makes up the text. It is not limited.
  • a good looking view is often obtained when the view attribute settings are aligned for a certain display area of the text displayed on the screen. However, if it is determined that the appropriate attribute setting has not been made due to a careless mistake in such a view where the attribute setting must be prepared, it is difficult to find the mistake visually on the display screen. It was difficult.
  • each character string object (text to be set in a document) is displayed on a preview screen provided by a word creation tool or a web creation software or other document creation tool.
  • a document creation tool such as a word processor
  • Patent Document 1 discloses a formatted document input by the input device 101 for the purpose of detecting a word whose numerical notation is not unified in the same document and issuing a warning.
  • the layout analysis unit 102 performs layout analysis to cut out text data for each region, identifies the type of the region, and divides the text data obtained for each region into the most natural word string in the morpheme analysis unit 104.
  • the number extraction unit 108 discriminates the notation type of the number extracted from the word string by the number extraction unit 108, and the number notation type of the determined number for each area type is used as the number evaluation unit.
  • 107 compares the numbers in all the areas of the corresponding area type to detect numbers that are not unified, and specially indicates the error in the number. It discloses a structure for displaying output to the output device 113 in the display form.
  • Patent Document 1 is only for the purpose of unifying the numerical notation in the document, and the concept of the view of the document is not disclosed or suggested at all. For this reason, we have proposed a configuration for unifying the numerical notation of the entire document or unifying the numerical notation for each fixed area type such as title, body, and figure number, but it is more flexible in the document. It is not possible to provide a configuration for simply checking the view of each character string object on the screen.
  • An object of the present invention is to provide an electronic document processing apparatus, an electronic document processing method, and a computer-readable recording medium.
  • One aspect of the present invention for solving the above and other problems is a visual appearance of an electronic document including a plurality of character string objects that are objects including character strings.
  • An electronic document processing apparatus for inspecting a view which captures the electronic document and determines the view of the electronic document set in each of the character string objects included in the electronic document
  • a document information acquisition unit that acquires a view attribute that is an attribute for performing and a character string object arrangement information that is information relating to an arrangement of each of the character string objects in the electronic document, and the acquired character string object arrangement information
  • a plurality of character string objects that are determined to be similar to each other by comparing the character string object arrangement information are compared with one group.
  • the grouping processing unit to be registered as a group and the view attributes set for the character string objects belonging to each group are compared with each other, and the character string in which the view attribute that is relatively unique is set It is determined whether there is an object, and if it is determined that there is the character string object in which the unique view attribute is set, information indicating that the view attribute set in the character string object is incorrect is output.
  • An electronic document processing apparatus including an error detection unit.
  • an electronic document processing apparatus an electronic document processing method, and an electronic document processing method that can check view attribute settings while freely supporting the format of a document on a screen to form a unified view of an electronic document, and A computer-readable recording medium can be provided.
  • FIG. 1 is a configuration diagram of an electronic document processing apparatus 100 according to a first embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a data processing procedure according to the first embodiment.
  • FIG. 3 is a flowchart showing the processing procedure of the error detection unit 113 in the data processing procedure of the first embodiment shown in FIG.
  • FIG. 4 is a diagram illustrating an example of a format of a form that is an electronic document stored in the auxiliary storage device 160 in the first embodiment.
  • FIG. 5A is a diagram showing the source data of the form 400 of FIG. 4 in the XML format.
  • FIG. 5B is a diagram showing the source data of the form 400 of FIG. 4 in the XML format.
  • FIG. 5A is a diagram showing the source data of the form 400 of FIG. 4 in the XML format.
  • FIG. 5B is a diagram showing the source data of the form 400 of FIG. 4 in the XML format.
  • FIG. 6 is a diagram showing an example of a view attribute information table 600 that is a result of acquiring view attribute settings and meta information from the electronic document constituting the form 400 of FIG. 4 by the character information acquisition unit 111.
  • FIG. 7 is a diagram illustrating an example of a group table 700 that is a result of grouping the forms 400 of FIG. 4 by the grouping processing unit 112 according to the first embodiment.
  • FIG. 8 is a diagram showing an example of an attribute value frequency table 800 indicating the application frequency of view attributes in each group.
  • FIG. 9A is a diagram illustrating an example of a message display screen output by the message notification unit 114 according to the first embodiment.
  • FIG. 9B is a diagram showing a screen output by superimposing a part corresponding to the message on the message display screen.
  • FIG. 9A is a diagram illustrating an example of a message display screen output by the message notification unit 114 according to the first embodiment.
  • FIG. 9B is a diagram showing a screen output by superimposing a part
  • FIG. 10 is a configuration diagram of the electronic document processing apparatus 100 according to the second embodiment of the present invention.
  • FIG. 11 is a flowchart illustrating a data processing procedure according to the second embodiment.
  • FIG. 12 is a flowchart showing the processing procedure of the grouping processing unit 112 in the data processing procedure of the second embodiment shown in FIG.
  • FIG. 13 is a diagram illustrating the results acquired by the document information acquisition unit 111 and the character string analysis unit 116 according to the second embodiment.
  • FIG. 14 is a diagram illustrating an example of a group table 700 that is a result of grouping by the grouping processing unit 103 according to the second embodiment.
  • FIG. 1 shows a configuration example of an electronic document processing apparatus 100 according to the present embodiment.
  • the electronic document processing apparatus 100 has, for example, a general computer configuration.
  • the main storage device 110 memory
  • the central processing unit 120 processor
  • the display device 130 the keyboard 140
  • the mouse 150 are included.
  • An auxiliary storage device 160 and a communication interface (hereinafter “communication I / F”) 170.
  • the main storage device 110 is, for example, a RAM (Random Access Memory) or a ROM (Read Only Memory), and stores various computer programs (hereinafter referred to as “programs”) executed by the central processing unit 120 and documents to be processed.
  • programs A temporary storage area for the area (work area W) is provided.
  • the central processing unit 120 includes, for example, a CPU (Central Processing Unit), an MPU (Micro-Processing Unit), etc. (hereinafter “CPU”).
  • the display device 130 is an output device of an appropriate format such as a liquid crystal display for displaying a document.
  • the display device 130 also outputs a message display screen of this embodiment which will be described later. Note that other types of output devices such as a printer and an audio output device may be provided.
  • the keyboard 140 and the mouse 150 are input devices used when a user using the electronic document processing apparatus 100 performs text input or executes data input / output operations according to functions provided by a program described later.
  • other types of devices such as a touch panel, a pen tablet, and a voice input device may be provided as the input device.
  • the auxiliary storage device 160 is a storage device such as a hard disk drive (Hard Disk Drive, HDD), a semiconductor storage drive (Solid State Drive, SSD), etc., and the document D and CPU 120 to be processed by the electronic document processing apparatus 100 of this embodiment.
  • the document information acquisition unit 111, the grouping processing unit 112, the error detection unit 113, the message notification unit 114, and the document correction processing unit 115, which are programs read out and executed by the main storage device 110, are stored.
  • the auxiliary storage device 160 can also store a document creation tool such as a word processor and other application programs.
  • the document D may be any type of document such as an electronic form or an electronic poster, or may be any type of file such as a word processor file or a Web file. Any document that has a set can be included.
  • the communication I / F 170 is an interface circuit used when the electronic document processing apparatus 100 is connected to a communication network (not shown), and includes, for example, a NIC (Network Interface Card).
  • the main storage device 110, the central processing unit 120, the display device 130, the keyboard 140, the mouse 150, the auxiliary storage device 160, and the communication I / F 170 are communicably connected by an internal bus 180 adopting an appropriate communication standard. ing.
  • FIG. 1 shows a state in which these programs, the document information acquisition unit 111, the grouping processing unit 112, the error detection unit 113, the message notification unit 114, and the document correction processing unit 115 are read into the main storage device 110.
  • These programs run on a well-known operating system (OS) (not shown), and data input / output processing between the programs or devices such as the display device 130, the keyboard 140, and the auxiliary storage device 160 is also described above. It is executed by a well-known function of the OS.
  • OS operating system
  • the document information acquisition unit 111 performs processing for acquiring view attribute information, which is attribute information related to a view set in the document D, from the document D to be processed.
  • the grouping processing unit 112 performs processing for grouping a plurality of character string objects arranged in the document D according to a certain rule. Specific rules for grouping will be described later with respect to the corresponding data processing procedure.
  • the error detection unit 113 examines the view attributes set in the character string objects included in the same group, and performs a process of extracting a part that is considered to have an incorrect view attribute setting.
  • the message notification unit 114 generates information about a view attribute error and a part where the error has occurred as a message screen, and performs processing to output the information to an output device such as the display device 130.
  • the document correction processing unit 115 corrects the error. I do. Details of the error correction processing will be described later with respect to the corresponding data processing procedure.
  • the work area W is a working storage area for reading the data of the document D when the electronic document processing apparatus 100 processes the document D, and the storage area corresponding to the storage capacity necessary for the processing is appropriately set. It should be ensured.
  • tables 600, 700, and 800 used for data processing of the electronic document processing apparatus 100 described later are stored.
  • the configuration in which the electronic document processing apparatus 100 alone can execute all the format inspection functions of the present embodiment is illustrated.
  • the document information acquisition unit 111, the grouping processing unit 112, the error detection unit, and the like. 113, the message notification unit 114, and the document correction processing unit 115 may be operated on the server computer so that the functions on the server computer can be used from a client device that is communicably connected to the server computer. Good.
  • FIG. 2 shows an example of a data processing procedure in the electronic document processing apparatus 100 of the present embodiment.
  • the document D to be processed by the electronic document processing apparatus 100 is created in the work area W by a document creation tool installed in the electronic document processing apparatus 100, for example, and stored in the auxiliary storage device 160 in advance.
  • the document D created by another computer may be taken in the auxiliary storage device 160 in advance through the communication I / F 170 or the like.
  • the CPU 120 reads the document D stored in the auxiliary storage device 160 into the work area W (S201).
  • the document information acquisition unit 111 extracts a character string object included in the document D, acquires meta information and view attribute setting information given to each character string object, and views attribute information described later
  • the table 600 is held in the work area W (S202).
  • “Meta information” character string object arrangement information, arrangement hierarchy information in this embodiment is information set for text included in the character string object with respect to a format for determining the view of the character string object.
  • tag data corresponds to an XML format document.
  • meta information is hierarchically assigned to the document D, it is stored in a path format such as “/ node1 / node2 / node3”.
  • the grouping processing unit 112 based on the meta information of the character string object acquired in S202, has a set of two or more character string objects whose meta information paths match completely, or 2 having the same parent node.
  • a set of two or more character string objects is held as one group in the work area W as a group table 700 described later (S203).
  • the grouping processing unit 112 executes a grouping process for automatically grouping the character string objects included in the document D according to the above rules.
  • the user directly classifies the character string objects according to the arbitrary rules, and the classification is performed.
  • a set of character string objects may be a group.
  • the error detection unit 113 has unique attribute information compared to other character string objects in the view attributes set in the character string objects included in the same group for all groups generated in S203. Is searched for, and the search result is held in the work area W (S204). Next, the error detection unit 113 determines whether there is a character string object in which unique attribute information is set based on the search result (S205). When it is determined that the corresponding character string object does not exist, the error detection unit 113 ends the processing as it is (S205, No). The process executed in S204 will be described in detail later.
  • the error detection unit 113 transmits information to that effect to the message notification unit 114, and the message notification unit 114 that has received the information notifies that fact.
  • a message screen including the message is generated and displayed on the display device 130 as a warning message, for example, to notify the user (S206).
  • the current set value detected by the error detection unit 113 is originally appropriate. It is also possible to notify a setting value considered to be.
  • the message notification unit 114 presents to the user a selection interface for automatically correcting a portion that is considered to be an error in setting the view attribute, and determines whether the user has instructed the correction execution. (S207). When it is determined that the user has instructed correction (S207, Yes), the document correction processing unit 115 corrects the setting value of the corresponding view attribute information (S208). If it is determined that there is no correction instruction from the user (S207, No), the document correction processing unit 115 ends the process without performing the correction process. In the present embodiment, the configuration is such that the user can select whether or not correction is necessary. However, when the error detection unit 113 detects an error, the system may immediately perform correction.
  • FIG. 3 shows a processing procedure performed by the error detection unit 113 executed in S204.
  • the error detection unit 113 repeats the processing of S302 to S305 described later for all the groups generated by the processing of S203 of FIG. 2 (S301 to S307). Further, the error detection unit 113 repeats the processing of S303 to S305 for all view attributes set in the character string object belonging to each group (S302 to S306).
  • the error detection unit 113 counts the attribute value frequency, which is an index indicating the number of set attribute values of the set view attributes, for each character string object in each group, and corresponds to each attribute value. Then, the set object ID is held in the work area W (S303).
  • the error detection unit 113 determines that the attribute value frequency of the attribute of the view counted in S303 has an attribute value with a setting ratio of ⁇ % or more and less than 100% with respect to the entire character string object included in the group. It is determined whether or not it exists (S304).
  • FIG. 4 shows an example of an electronic form 400 that is a processing target of the electronic document processing apparatus 100 of the present embodiment.
  • the electronic form 400 is created by the electronic document processing apparatus 100 or another computer and stored in the auxiliary storage device 160.
  • the electronic form 400 includes a form number 401 that is a unique identification code of the form, a document name 402 that indicates that the document type is a form, a company name 403 that indicates the company name of the issue destination, and a zip code 404 that indicates the postal code of the issue destination address.
  • the type of the document D to be processed by the electronic document processing apparatus 100, the content of the text described in the document D, and the arrangement are not limited by the present embodiment.
  • FIG. 5A and 5B show the form 400 illustrated in FIG. 4 in internal data formats 500 and 501.
  • FIG. In the present embodiment, it is assumed that the form 400 is described in the XML format.
  • FIG. 5B the description of the internal data format of the part corresponding to the item numbers 3 and 4 in the table set of FIG. 4 is omitted to avoid complexity.
  • FIG. 6 shows an example of the view attribute information table 600 generated and held in the work area W in this embodiment.
  • the view attribute information table 600 records, for each character string object included in the document D, attributes associated with the view set for each character string object in association with each other.
  • the view attribute information table 600 includes an object ID (object ID) 601, a font (font) 602, a font size (font-size) 603, a style (style) 604, a character alignment (align) 605, And each item of the path (path) 606 is recorded.
  • the object ID 601 is an identification code assigned to all the character string objects included in the document D (in this case, the form 400) so as to be mutually identifiable. In the example of FIG. Has been granted.
  • the object ID 601 corresponds to the identification code of the character string object used in FIG.
  • a font 602 and a font size 603 indicate the font type and font size set for the character font used in each character string object.
  • a style 604 indicates a character style (for example, a modification effect such as underline, bold, italic, or shaded) set for a character included in each character string object.
  • the character alignment 605 indicates the type of character alignment (left alignment, right alignment, center alignment, both end alignment, etc.) set for each character string object.
  • the path 606 represents the meta information assigned to each character string object. Since the meta information is given hierarchically in the example of FIG. 6, the path 606 is held in a path format.
  • the view attribute information table 600 in FIG. 6 is obtained as a result of the processing executed by the document information acquisition unit 111 in S202 in FIG. From the view attribute information and the meta information acquired from the form 400 in FIG. 4, in FIG. 6, for example, the character string object identified by the object ID 601 of “403” is a font 602, a font size 603, which are view attributes, “XX Mincho”, “12 (pt)”, “normal”, and “left” are set in the attribute values of the style 604 and the alignment 605, respectively, and “/ root” is included in the path 606 that is meta information. / coustomerinfo / name / ”. The symbol “pt” means a point used to indicate the size of a character.
  • the group table 700 is generated and held by the grouping processing unit 112 in the process in S203 of FIG.
  • FIG. 7 shows a set of two or more objects whose meta information paths are completely matched by the grouping processing unit 112 for the meta information 606 of each character string object held in the path format in FIG.
  • a result of grouping a set of two or more objects having the same parent node as one group is shown.
  • a group ID 701 that is an identification code assigned to each generated group and an object ID 702 of a character string object classified into each group are recorded in association with each other. .
  • the error detection unit 113 executes the error detection process shown in FIG. 3 for all the groups shown in FIG.
  • a specific example in the case where the error detection unit 113 executes error detection processing for the group specified by the group ID “3” in FIG. 7 is shown.
  • FIG. 8 shows an example of the attribute value frequency table 800 in this embodiment.
  • the attribute value frequency table 800 based on the grouping result of the character string objects recorded in the group table 700 shown in FIG. 7, what attribute values are set for each view attribute for the character string objects belonging to each group. Or the frequency of appearance of the attribute value is recorded.
  • the attribute value frequency table 800 when one view attribute (for example, font size 603) is focused on a plurality of character string objects belonging to one group, what attribute value is associated with the view attribute. The result of analyzing what ratio is set is recorded.
  • each character string object (object ID 702 specified by 409, 410, 411, 412, 413, 414, or 415) recorded in the group table 700 of FIG. )), A view attribute 801 (font type 602 and font size 603 in FIG. 8), an attribute value frequency 802 related to the view attribute 801, and an object ID 803 corresponding to the setting of each attribute value.
  • FIG. 8 shows character string object information corresponding to the attribute value frequency related to the view attribute “font” and character string object information corresponding to the attribute value frequency related to the view attribute “font size”.
  • the error detection unit 113 has a view with an attribute value that is set with a setting ratio in the group 3 of ⁇ % or more and less than 100% for each view attribute. Determine whether there is an attribute.
  • the font type since the attribute value “XX Mincho” is set for all the character string objects (the setting ratio is 100%), the font type does not satisfy the determination condition. This means that since the fonts of all the character string objects in group 3 are unified in XX Mincho, it is determined that the setting is not incorrect.
  • the error detection unit 113 detects that there is a character string object in which the font size setting is erroneous for the character string objects included in the group 3, and the setting ratio is 60. Attribute value “10pt” that is greater than or equal to 100% and less than 100% is set to work area W as a setting that seems to be correct, and attribute value “9pt” that has an attribute value frequency of 1 or more and the setting ratio is less than 60% Hold the result.
  • setting errors of the font and font size are detected as view attributes.
  • error detection processing may be executed for all set view attributes, or some view attributes may be executed. It is also possible to only detect errors for.
  • FIG. 9A shows an example of a warning message screen 900 that is generated by the message notification unit 114 and notified to the user based on the detection result of the error detection unit 113 held in the work area W.
  • a warning message display unit 901 error detection result display units 902 and 903 for displaying error content information, a correction button 904, and an ignore button 905 are set on the warning message screen 900.
  • the warning message display unit 901 displays a message indicating a character string object corresponding to a view attribute that may be set incorrectly.
  • the attribute of the view that may be set incorrectly is “font size”
  • the character string object that may be set incorrectly is set to the font size 9pt from FIG. Since the object ID is 414 (unit price), the warning message display unit 901 displays “the font size setting of the character string object (unit price) may be incorrect”.
  • the error detection result display unit 902 displays the current setting value of the character string object that may have a wrong view attribute setting.
  • the attribute value that is considered to be incorrect is “9pt”
  • a message “current set value: 9pt” is displayed in the error detection result display section 902.
  • the error detection result display unit 903 displays the setting value of the character string object determined to have the correct view attribute setting.
  • the attribute value determined to be correct is “10 pt”
  • the error detection result display unit 903 displays a message “setting value that seems to be correct: 10 pt”.
  • the correction button 904 is used when the user determines to correct the current setting value to the setting value of the view attribute determined to be correct on the system side in response to the message displayed on the error detection result display units 902 and 903. This button is operated to give correction permission information to the electronic document processing apparatus 100.
  • the document correction processing unit 115 erroneously records the object ID 803 (character string object specifying information) of the character string object determined to be a setting error recorded in the attribute value frequency table 800. Based on the setting contents (setting error information) of the attribute value 801 determined to be, the setting value determined to be incorrect for the target character string object of the document D is corrected to the setting value determined to be correct.
  • the ignore button 905 the warning message screen 900 is closed without correcting and the process is terminated.
  • the warning message screen 900 is output to the display device 130 or the like for the result detected by the error detection unit 113.
  • a user change is input to the error detection result.
  • a selection operation interface that prevents the warning message screen 900 from being output thereafter may be arranged on the warning message screen 900 unless otherwise specified.
  • the result detected by the error detection unit 113 is configured to be notified to the user on the message screen 900.
  • the part corresponding to the error detection result message is shown on the form 400. May be.
  • FIG. 9B shows a screen configuration example showing the corresponding part on the form 400 corresponding to the message screen 900 of FIG. 9A.
  • the setting error detection target range (object IDs 409 to 415) is set for the group 3 detected by the error detection unit 113 that there is a character string object whose view attribute setting is incorrect.
  • a character string object 414 (unit price) detected to be incorrect is displayed with a thick frame. It should be noted that the character string object 414 (unit price) that has been detected as being set incorrectly can be displayed in another highlighted format, such as by highlighting.
  • the user can easily check whether the character string object included in the document D has an error in view attribute setting, and the detected error is automatically detected. Can be corrected.
  • FIG. 10 shows a configuration example of the electronic document processing apparatus 100 according to the second embodiment.
  • the configuration of the second embodiment is almost the same as the configuration of the first embodiment, but differs in that a character string analysis unit 116 is added to the configuration of the first embodiment.
  • a character string analysis unit 116 is added to the configuration of the first embodiment.
  • the character string analysis unit 116 replaces the meta information of the first embodiment with a character included in the document D to provide a reference that can be used when the grouping processing unit 112 groups character string objects. It has a function of analyzing a character string of a column object.
  • FIG. 11 shows an example of a data processing procedure executed by the electronic document processing apparatus 100 according to the second embodiment.
  • the data processing procedure example shown in FIG. 11 is the same as the data processing flow executed by the electronic document processing apparatus 100 of the first embodiment shown in FIG.
  • the processing contents of S1101, S1102, and S1103, which are data processing steps executed by the column analysis unit 116 and the grouping processing unit 112, are different from those in the first embodiment shown in FIG.
  • data processing contents in steps S1101, S1102, and S1103 different from the first embodiment will be described.
  • step S1101 the document information acquisition unit 111 extracts a character string object included in the document D to be processed, and sets character string and view attribute information set in the character string object included in the document D. And position information is acquired (S1101).
  • position information character string object arrangement information
  • Y vertical position
  • Y the vertical position
  • X horizontal position
  • step S1101 the document information acquisition unit 111 acquires this position information and holds it in the work area W.
  • the coordinate axis for example, millimeters, pixels, etc. are adopted, but not limited thereto.
  • the reference position for each character string object may be determined as appropriate.
  • the character string analysis unit 116 analyzes the type of characters (hereinafter referred to as “character type”) constituting the character string for the character string included in each character string object acquired in S1101. The result is held in the work area W.
  • the “character type” indicates the type of character into which character strings such as full-width Japanese, half-width Japanese, numbers, English, and symbols are classified. Further, it may be obtained by analyzing not only the character type but also the format of the character string such as a telephone number format, a postal code format, and a date.
  • step S1103 the grouping processing unit 112 performs grouping on the character string objects extracted in step S1101 using the position information of each character string object acquired in step S1101 and the character type of each character string object analyzed in step S1102. And the result is held in the work area W.
  • FIG. 12 shows in detail an example of the data processing flow of the grouping processing unit 112 executed in S1103 of the present embodiment.
  • the grouping processing unit 112 repeatedly executes the data processing step of S1202 shown in FIG. 12 for all the character types acquired in S1201 (S1201 to S1203).
  • step S1202 the grouping processing unit 112 relates to the character string object acquired in step S1101 of FIG. 11, and the character string object having the same vertical position (Y) for the set of character string objects configured with the same character type. Is a group. Similarly, a set of character string objects having the same horizontal position (X) is set as one group (S1202). Such position information is used as an index for the grouping process of character string objects.
  • the character string objects arranged in the vertical direction or the horizontal direction on the document D displayed on the screen are set in the view setting. This is based on the assumption that there are many cases that are arranged.
  • a set of character string objects having the same vertical position (Y) or horizontal position (X) in the position information of the character string object is defined as one group.
  • “Y) or horizontal position (X) matches” means that the vertical position (Y) or horizontal position (X) of the character string object group grouped at the same vertical position (Y) or horizontal position (X).
  • the reference may include a distance within the threshold ⁇ .
  • the distance between adjacent character string objects in the horizontal position (X) or the vertical position (Y) is more than a threshold value ⁇ . If the character string objects are adjacent to each other, the group may be divided with the adjacent character string objects as a boundary.
  • character string objects included in the document D are grouped using the character type and position information (vertical position (Y) or horizontal position (X)).
  • a set of character string objects having the same vertical position (Y) or horizontal position (X) may be used as one group by using only (vertical position (Y) and horizontal position (X)).
  • FIG. 13 shows an example of the view attribute information table 600 generated and held in the work area W by the document information acquisition unit 111.
  • the configuration of the view attribute information table 600 according to the second embodiment is basically the same as the configuration of the table 600 according to the first embodiment illustrated in FIG. 6, except that an object ID (objectID) 601 that is an identification code of each character string object.
  • objectID object ID
  • each item of a character string 1301, a character type 1302, a horizontal position 1303, and a vertical position 1304 is provided.
  • the character string 1301 extracts and records the character string (text) from each character string object included in the document D.
  • the character type 1302 is an item for recording the result of analyzing the character type constituting the character string of the character string extracted from the character string object.
  • the analysis of the character string can be executed, for example, by comparing characters constituting each character string with a character code table (such as an ASCII code table).
  • a character code table such as an ASCII code table.
  • FIG. 13 for the character string “XX company” identified by the object ID 601 of “403”, “full-width Japanese” as the character type 1302, “30 (mm)” as the horizontal position 1303, This indicates that “50 (mm)” is obtained as the position 1304.
  • the font 602, font-size 603, style 604, and alignment 605, which are the view attribute values in FIG. 13, have the same attributes as shown in FIG. The description is omitted because the value is set.
  • “1111-1111” is recorded as the character string 1301 for the character string object identified by the object ID 601 “419”, and this character string 1302 includes this character string 1302. Is composed of a number “1111” and a symbol “ ⁇ (hyphen)”, so that “number + symbol” is recorded.
  • the character type 1302 of the character string object may be further divided and recorded. For example, the character type 1302 of the character string object whose object ID 601 is “419” may be recorded as “number + hyphen”.
  • symbols such as “ ⁇ ” and “.” May be recorded as character types such as “mail” and “period”, respectively.
  • FIG. 14 shows an example of the group table 700 in the second embodiment.
  • the group table 700 in FIG. 14 records the result of grouping by the grouping processing unit 112 for each character string object acquired as the view attribute information table 600 in FIG.
  • the configuration of the group table 700 of FIG. 14 is the same as the configuration of the group table 700 of the first embodiment shown in FIG. 7 except that the group table 700 is created by the grouping process illustrated in FIG.
  • the group ID 701 in FIG. 14 is specified by “15”
  • the character strings included in the character string objects constituting the group are configured with the same character type “double-byte Japanese” and are vertically positioned.
  • the electronic document processing apparatus 100 of the second embodiment regarding the document D including the character string object for which the meta information is not set, the user has no error in setting the view attribute in the character string object. Can be easily checked, and detected errors can be automatically corrected.
  • an electronic document processing apparatus an electronic document processing apparatus, and an electronic document processing apparatus that can check view attribute settings while freely supporting the format of a document on a screen to form a unified view of an electronic document.
  • a document processing method and a computer-readable recording medium can be provided.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

 電子文書処理装置は、電子文書を取り込み、当該電子文書に含まれている文字列オブジェクトのそれぞれに設定されている、当該電子文書の前記ビューを決定するための属性であるビュー属性と、各前記文字列オブジェクトの前記電子文書内における配置に関する情報である文字列オブジェクト配置情報とを取得する文書情報取得部と、取得した前記文字列オブジェクト配置情報を比較して前記文字列オブジェクト配置情報が相互に類似していると判定された複数の前記文字列オブジェクトを1のグループとして登録するグルーピング処理部と、各前記グループに属する前記文字列オブジェクトについて設定されている前記ビュー属性を相互に比較して、相対的に特異である前記ビュー属性が設定されている前記文字列オブジェクトがあるか判定し、特異な前記ビュー属性が設定されている前記文字列オブジェクトがあると判定した場合、当該文字列オブジェクトに設定されている前記ビュー属性が誤りである旨の情報を出力する誤り検知部とを備えている。

Description

電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体
 本発明は、電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体に関する。
 官公庁、民間企業等での各種電子手続、街中でのデジタルサイネージの普及等に伴って、ディスプレイ装置に表示させて使用する電子ポスター、電子帳票等の電子文書が広く利用されるようになってきている。この電子文書は、例えばXML(eXtensible Mark-up Language)形式等の規定のフォーマットに従って作成されている電子ファイルである。以下本明細書中では、「文書(document)」の用語をこのような電子文書を意味する用語として使用する。文書を作成するときには、その文書を液晶ディスプレイ装置等に表示させたときに、表示された文書中のテキストが視覚的に統一感をもって整然と配置され、ユーザーに対して見栄えのする画面となるように画面構成が設計される。このようなテキストの配列を含む画面の見た目を、本明細書中では「ビュー(view)」と呼ぶこととし、あるビューを規定するテキストの構成に関するあらゆる属性を「ビューの属性」と呼ぶこととする。ビューの属性には、表示されるテキストを構成する文字に使用されるフォントの種類、サイズ、カラー、スタイル、テキストを構成する文字列の文字間隔、及び行間隔といった設定が含まれるが、これらに限定されるものではない。
 見栄えのするビューは、画面上に表示されるテキストについて、あるまとまった表示領域毎にビューの属性設定が揃えられている場合に得られることが多い。しかし、このようなビューの属性設定が揃っていないといけない箇所について、ケアレスミスによって適正な属性設定がなされていないこととなっていた場合、そのミスをディスプレイ画面上で目視によって発見することはなかなか困難であった。
 従来、ビューの属性設定上のケアレスミスを発見する方法として、該当文書を作成したワードプロセッサ、Webページ作成ソフトウェア等の文書作成ツールが提供するプレビュー画面上で各文字列オブジェクト(文書中に設定するテキストボックス等の文字列を含むオブジェクトの他、ワードプロセッサ等の文書作成ツールにより文書に入力されたすべての文字列を含む)に関するプロパティを開いて設定情報を確認する方法がある。しかし、文書に含まれる文字列オブジェクト数が多いと、それらのプロパティを1つ1つ開いて確認するのに非常に手間がかかる。そのため、1つ1つ文字列オブジェクトの設定を確認する事なく、ユーザーがケアレスミスを容易に発見して対応することを可能とする手法が必要とされた。
 この点、例えば特許文献1には、同一文書中で数字の表記が統一されていない単語を検出し警告を発することができるようにすることを目的として、入力装置101により入力された書式付き文書をレイアウト解析部102でレイアウト解析して、領域別にテキストデータを切り出すと共に、その領域の種別を識別し、その領域別に得られたテキストデータを形態素解析部104にて最も自然な単語の列に切り分け、その単語の列から数字抽出部108により抽出される数字の表記種別を数字抽出部108にて判別しておき、各領域種別を単位に、この判別された各数字の表記種別を数字評価部107が比較することで、当該領域種別の全ての領域中の全ての数字のうちで表記が統一されていない数字を検出し、その数字の表記誤りを特別な表示形態で出力装置113に表示出力する構成が記載されている。
特開平10-187719号公報
 しかし、特許文献1はあくまでも文書中の数字表記の統一を目的としており、文書のビューの概念は全く開示も示唆もしていない。そのため、文書全体の数字表記を統一させる、あるいは題目、本文、図番といった固定的に規定される領域種別毎の数字表記を統一させるための構成は提案しているが、文書中のよりフレキシブルな文字列オブジェクト毎のビューを画面上で簡便にチェックする構成を提供することはできない。
 本発明は前記の及び他の課題に鑑みてなされたものであり、電子文書の統一感あるビューを構成すべく画面上の文書の書式に自在に対応しつつビューの属性設定を検査することができる電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体を提供することを目的としている。
 上記の及び他の課題を解決するための本発明の1つの態様は、文字列を含むオブジェクトである文字列オブジェクトを複数含んでいる電子文書を表示させたときの、当該電子文書の視覚的外観であるビューを検査するための電子文書処理装置であって、前記電子文書を取り込み、当該電子文書に含まれている前記文字列オブジェクトのそれぞれに設定されている、当該電子文書の前記ビューを決定するための属性であるビュー属性と、各前記文字列オブジェクトの前記電子文書内における配置に関する情報である文字列オブジェクト配置情報とを取得する文書情報取得部と、取得した前記文字列オブジェクト配置情報を比較して前記文字列オブジェクト配置情報が相互に類似していると判定された複数の前記文字列オブジェクトを1のグループとして登録するグルーピング処理部と、各前記グループに属する前記文字列オブジェクトについて設定されている前記ビュー属性を相互に比較して、相対的に特異である前記ビュー属性が設定されている前記文字列オブジェクトがあるか判定し、特異な前記ビュー属性が設定されている前記文字列オブジェクトがあると判定した場合、当該文字列オブジェクトに設定されている前記ビュー属性が誤りである旨の情報を出力する誤り検知部とを備えている電子文書処理装置である。
 本発明によれば、電子文書の統一感あるビューを構成すべく画面上の文書の書式に自在に対応しつつビューの属性設定を検査することができる電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体を提供することができる。
図1は本発明の実施例1による電子文書処理装置100の構成図である。 図2は実施例1のデータ処理手順を示したフローチャートである。 図3は図2に示した実施例1のデータ処理手順における誤り検知部113の処理手順を示したフローチャートである。 図4は実施例1において、補助記憶装置160に格納されている電子文書である帳票の書式の一例を示した図である。 図5Aは図4の帳票400のソースデータをXML形式で示した図である。 図5Bは図4の帳票400のソースデータをXML形式で示した図である。 図6は図4の帳票400を構成している電子文書から文字情報取得部111によってビューの属性設定、及びメタ情報が取得された結果であるビュー属性情報テーブル600の一例を示す図である。 図7は実施例1におけるグルーピング処理部112によって図4の帳票400をグルーピングした結果であるグループテーブル700の一例を示す図である。 図8は各グループにおけるビュー属性の出願頻度を示す属性値頻度テーブル800の一例を示す図である。 図9Aは実施例1のメッセージ通知部114によって出力されるメッセージ表示画面の一例を示す図である。 図9Bはメッセージ表示画面に、当該メッセージに対応する箇所を重畳させて出力した画面を示す図である。 図10は本発明の実施例2による電子文書処理装置100の構成図である。 図11は実施例2のデータ処理手順を示したフローチャートである。 図12は図11に示した実施例2のデータ処理手順におけるグルーピング処理部112の処理手順を示したフローチャートである。 図13は実施例2における文書情報取得部111、文字列解析部116によって取得された結果を示す図である。 図14は実施例2におけるグルーピング処理部103によってグルーピングされた結果であるグループテーブル700の一例を示す図である。
 以下、本発明を実施するための形態につき、添付図面を参照しながら実施例に即して説明する。
[実施例1]
 まず、本発明の一実施例について説明する。図1に本実施例にかかる電子文書処理装置100の構成例を示している。電子文書処理装置100は例えば一般的なコンピュータの構成を有しており、図1の例では、主記憶装置110(メモリ)、中央処理装置120(プロセッサ)、表示装置130、キーボード140、マウス150、補助記憶装置160、及び通信インタフェース(以下「通信I/F」)170を備えて構成されている。
 主記憶装置110は例えばRAM(Random Access Memory)あるいはROM(Read Only Memory)であり、後出の中央処理装置120が実行する各種コンピュータプログラム(以下「プログラム」)、及び処理対象である文書を格納する領域(ワークエリアW)に対する一時的な記憶領域を提供する。中央処理装置120は、例えばCPU(Central Processing Unit)、MPU(Micro-Processing Unit)等で構成される(以下「CPU」)。表示装置130は文書を表示するための、液晶ディスプレイ等の適宜の形式の出力装置である。表示装置130には、後出する本実施例のメッセージ表示画面も出力される。なお、プリンタ、音声出力装置等の他の形式の出力装置を設けてもよい。
 キーボード140、マウス150は、本電子文書処理装置100を利用するユーザーがテキスト入力を行い、あるいは後述するプログラムが提供する機能に従ってデータ入出力操作を実行する際に用いる入力装置である。これ以外に、入力装置としてタッチパネル、ペンタブレット、音声入力装置等の他の形式のデバイスを設けてもよい。
 補助記憶装置160はハードディスクドライブ(Hard Disk Drive、HDD)、半導体記憶ドライブ(Solid State Drive、SSD)等の記憶装置であり、本実施例の電子文書処理装置100の処理対象となる文書D、CPU120によって主記憶装置110に読み出されて実行されるプログラムである文書情報取得部111、グルーピング処理部112、誤り検知部113、メッセージ通知部114、及び文書修正処理部115を格納している。また、補助記憶装置160には、ワードプロセッサ等の文書作成ツール、及び他のアプリケーションプログラムも併せて格納することができる。なお、文書Dは、電子帳票、電子ポスター等のどのような種類の文書であってもよく、またワードプロセッサファイル、Webファイル等のどのような種類のファイルであってもよく、テキストに関してビューの属性が設定されているいかなる文書も含むことができる。
 通信I/F170は、電子文書処理装置100を図示しない通信ネットワークに接続する場合に使用するインタフェース回路であり、例えばNIC(Network Interface Card)等で構成される。主記憶装置110、中央処理装置120、表示装置130、キーボード140、マウス150、補助記憶装置160、及び通信I/F170の間は、適宜の通信規格を採用した内部バス180によって通信可能に接続されている。
 次に、電子文書処理装置100としての機能を提供する各プログラムについて説明する。図1では、これらのプログラム、文書情報取得部111、グルーピング処理部112、誤り検知部113、メッセージ通知部114、及び文書修正処理部115が主記憶装置110に読み込まれた状態を示している。これらのプログラムは、図示を省略する周知のオペレーティングシステム(OS)上で動作し、各プログラム間あるいは表示装置130、キーボード140、補助記憶装置160等のデバイスとの間でのデータ入出力処理も前記OSの周知の機能によって実行される。
 文書情報取得部111は、文書Dに設定されているビューに関する属性の情報であるビュー属性情報を処理対象の文書Dから取得する処理を行う。グルーピング処理部112は、文書Dに配置されている複数の文字列オブジェクトを一定の規則に従ってグループ分けする処理を行う。具体的にどのような規則に従ってグループ分けを行うかは、対応するデータ処理手順に関して後述する。
 誤り検知部113は、同一のグループに含まれる文字列オブジェクトに設定されているビュー属性を調べ、ビュー属性の設定が誤っていると考えられる部位を抽出する処理を行う。メッセージ通知部114は、誤り検知部113の処理結果に従って、ビュー属性の誤りとその誤りが発生している部位に関する情報をメッセージ画面として生成し、表示装置130等の出力装置に出力する処理を行う。文書修正処理部115は、ユーザーが、誤り検知部113が検知したビュー属性設定に関する誤りを本書式検知装置100が判定した内容に従って自動的に修正することを選択した場合に、当該誤りの修正処理を行う。具体的な誤り修正処理の内容については、対応するデータ処理手順に関して後述する。
 ワークエリアWは、前記のように、本電子文書処理装置100によって文書Dを処理する際に文書Dのデータを読み込む作業記憶領域であり、処理に必要な記憶容量に対応した記憶領域を適宜に確保するようにすればよい。また、ワークエリアWには、後述する電子文書処理装置100のデータ処理に使用するテーブル600、700、800が格納されている。
 なお、本実施例では、電子文書処理装置100単体で本実施例の書式検査機能をすべて実行することができる構成を例示しているが、文書情報取得部111、グルーピング処理部112、誤り検知部113、メッセージ通知部114、及び文書修正処理部115をサーバコンピュータ上で動作させるようにし、サーバコンピュータと通信可能に接続されたクライアント装置からサーバコンピュータ上の前記機能を利用できるように構成してもよい。
 次に、以上の構成を有する電子文書処理装置100によって実行されるデータ処理について説明する。図2に、本実施例の電子文書処理装置100におけるデータ処理手順の一例を示している。
 電子文書処理装置100の処理対象となる文書Dは、例えば本電子文書処理装置100に実装されている文書作成ツールによってワークエリアWで作成され、あらかじめ補助記憶装置160に格納される。あるいは、他のコンピュータで作成した文書Dを通信I/F170等を通じてあらかじめ補助記憶装置160に取り込んでおいてもよい。
 まず、CPU120は、補助記憶装置160に格納しておいた文書DをワークエリアWに読み込む(S201)。
 次に、文書情報取得部111が、文書Dに含まれている文字列オブジェクトを抽出し、各文字列オブジェクトに付与されたメタ情報とビューの属性設定情報とを取得し、後述するビュー属性情報テーブル600としてワークエリアWへ保持する(S202)。本実施例における「メタ情報」(文字列オブジェクト配置情報、配置階層情報)とは、文字列オブジェクトのビューを決定する書式について、文字列オブジェクトに含まれるテキストに対して設定される情報であり、例えばXML形式文書の場合にはタグデータが該当する。また、文書Dに対して、メタ情報が階層的に付与されている場合は、「/node1/node2/node3」のようにパス形式で保持される。
 次に、グルーピング処理部112は、S202で取得した文字列オブジェクトのメタ情報から、メタ情報のパスが完全に一致している2つ以上の文字列オブジェクトの集合、または同一の親ノードを持つ2つ以上の文字列オブジェクトの集合を1つのグループとして、後述のグループテーブル700としてワークエリアWへ保持する(S203)。なお、グルーピング処理部112は、上記の規則に従って文書Dに含まれる文字列オブジェクトを自動的にグルーピングするグルーピング処理を実行するが、ユーザーが直接文字列オブジェクトを任意の規則に従って分類し、分類された各文字列オブジェクトの集合を1つのグループとしてもよい。
 次に、誤り検知部113は、S203で生成された全てのグループについて、同一グループ内に含まれる文字列オブジェクトに設定されているビューの属性において、他の文字列オブジェクトに比べて特異な属性情報が設定されている文字列オブジェクトを検索し、その検索結果をワークエリアWに保持する(S204)。次いで、誤り検知部113は、前記検索結果に基づいて、特異な属性情報が設定されている文字列オブジェクトが存在するか否かを判定する(S205)。該当する文字列オブジェクトが存在しないと判定した場合、誤り検知部113はそのまま処理を終了する(S205、No)。なお、S204で実行される処理についてはより詳しく後述する。
 一方、該当する文字列オブジェクトが存在すると判定した場合(S205、Yes)、誤り検知部113はその旨の情報をメッセージ通知部114に送信し、当該情報を受けたメッセージ通知部114は、その旨のメッセージを含むメッセージ画面を生成し、警告メッセージとして例えば表示装置130に表示させることによりユーザーに通知する(S206)。なお、本ステップで生成されるメッセージ画面には、前記の特異な値を有する属性情報が設定されている旨のメッセージの他に、誤り検知部113が検出した現在の設定値、本来適正であると考えられる設定値等を通知してもよい。
 メッセージ通知部114は、S206の通知時に、ユーザーに対してビュー属性設定の誤りと考えられる個所を自動で修正するか否かの選択インタフェースを提示し、ユーザーから修正実行の指示があったかを判定する(S207)。ユーザーが修正指示をしたと判定した場合(S207、Yes)、文書修正処理部115は該当するビュー属性情報の設定値を修正する(S208)。ユーザーからの修正指示がないと判定した場合(S207、No)、文書修正処理部115は修正処理を行わずにそのまま処理を終了する。なお、本実施例では、ユーザーが修正の要否を選択することができるように構成したが、誤り検知部113が誤りを検知した場合には直ちにシステム側で修正を実行する構成としてもよい。
 次に、図2のS204で実行される誤り検知処理についてより詳細に説明する。図3は、S204で実行される誤り検知部113による処理手順を示している。誤り検知部113は、後述するS302~S305の処理を、図2のS203での処理によって生成された全てのグループについて繰り返す(S301~S307)。また、誤り検知部113は、S303~S305の処理を、各グループに属する文字列オブジェクトで設定されている全てのビューの属性について繰り返す(S302~S306)。
 まず、誤り検知部113は、各グループ内の各文字列オブジェクトについて、設定されているビューの属性の属性値毎の設定数を示す指標である属性値頻度をカウントし、各属性値に対応して設定されているオブジェクトIDをワークエリアWに保持する(S303)。
 次に、誤り検知部113は、S303でカウントされた該ビューの属性の属性値頻度について、該グループに含まれる文字列オブジェクト全体に対する設定の割合が、γ%以上100%未満である属性値が存在するか否かを判定する(S304)。
 誤り検知部113がS304に設定されている判定条件を満たす属性値があると判定した場合(S304、Yes)、該グループにおいて該ビューの属性の設定が誤っている文字列オブジェクトがあると判定して、該グループIDの該ビューの属性において、設定割合がγ%以上100%未満の属性値を正しいと思われる設定、属性値頻度が1以上かつ設定割合がγ%未満の属性値を誤っていると思われる設定としてワークエリア107へ保持する(S305)。
 以上説明した本実施例の電子文書処理装置100におけるデータ処理手順を、具体的な文書処理例に即してさらに説明する。ここでは、電子文書は電子帳票であるとする。図4に、本実施例の電子文書処理装置100の処理対象である電子帳票400の一例を示している。電子帳票400は、電子文書処理装置100または他のコンピュータ等によって作成され、補助記憶装置160に格納されている。電子帳票400は、帳票の固有識別符号である帳票番号401、書類種別が帳票であることを表す書類名402、発行先の会社名を表す社名403、発行先住所の郵便番号を表す郵便番号404、発行先住所を表す住所405、発行先の電話番号を表す電話番号406、発行先のファックス番号を表すファックス番号407、帳票発行の日付を表す発行日付408の各項目に対応する文字列オブジェクト、及び表組み中に配置される文字列オブジェクトである項番409、取引日410、商品名411、商品コード412、数量413、単価414、金額415の各項目を備えている。なお、電子文書処理装置100で処理する対象となる文書Dの種類、文書Dに記載されるテキストの内容、配置は本実施例により制約されるものではない。
 図5A、図5Bに、図4に例示した帳票400を内部データ形式500、501で示している。本実施例では、帳票400はXML形式で記述されているものとしている。なお、図5Bに示すように、煩雑さを避けるために、図4の表組みの項番3、4に対応する部分の内部データ形式の記載は省略している。図5Aを参照すると、例えば社名403の文字列オブジェクトについて、「<name objectId=”403” x=”40” y=”50” height=”xxx” width=”yyy” font="○○明朝" font-size="12" style="normal" align="left" >○○会社</name>」と定義されている。この定義から、社名403の文字列オブジェクトについては、メタ情報は「name」、ビューの属性の1つである「font」には属性値「○○明朝」が設定されていることがわかる。
 次に、ビュー属性情報テーブル600について説明する。図6に、本実施例でワークエリアWに生成され保持されているビュー属性情報テーブル600の一例を示している。ビュー属性情報テーブル600は、文書Dに含まれているすべての文字列オブジェクトについて、それぞれに設定されているビューに関する属性を対応付けて記録している。図6に示すように、ビュー属性情報テーブル600には、オブジェクトID(objectID)601、フォント(font)602、フォントサイズ(font-size)603、スタイル(style)604、字揃え(align)605、及びパス(path)606の各項目が記録されている。
 オブジェクトID601は、文書D(この場合は帳票400)に含まれているすべての文字列オブジェクトに対して相互に識別可能に付与された識別符号であり、図6の例では401からの連続番号が付与されている。オブジェクトID601は、図4で使用されている文字列オブジェクトの識別符号に対応する。フォント602、フォントサイズ603は、各文字列オブジェクトに使用されている文字フォントについて設定されているフォントの種類、フォントの大きさをそれぞれ示している。スタイル604は、各文字列オブジェクトに含まれる文字について設定されている文字スタイル(例えば下線、太字、斜字、網掛け等の修飾効果)を示している。字揃え605は、各文字列オブジェクトについて設定されている字揃え(左揃え、右揃え、中央揃え、両端揃え等)の種類を示している。パス606は、各文字列オブジェクトに付与されているメタ情報を表しており、図6の例ではメタ情報が階層的に付与されているため、パス形式で保持されている。
 図6のビュー属性情報テーブル600は、図2のS202で文書情報取得部111が実行した処理の結果として得られる。図4の帳票400から取得したビューの属性情報、及びメタ情報から、図6では、例えばオブジェクトID601が「403」で特定される文字列オブジェクトは、ビューの属性であるフォント602、フォントサイズ603、スタイル604、字揃え605の属性値にはそれぞれ「○○明朝」、「12(pt)」、「normal」、「left」が設定されており、メタ情報であるパス606には「/root/coustomerinfo/name/」と設定されている。なお、「pt」の記号は、文字の大きさを示すのに用いられるポイント(point)を意味している。
 次に、グループテーブル700について説明する。グループテーブル700は、図2のS203での処理で、グルーピング処理部112によって生成され保持される。図7は、図6においてパス形式で保持されている各文字列オブジェクトのメタ情報606に対し、グルーピング処理部112によって、メタ情報のパスが完全に一致している2つ以上のオブジェクトの集合、または同一の親ノードを持つ2つ以上のオブジェクトの集合を1つのグループとしてグルーピングした結果を示すものである。図7の例では、グループテーブル700には、生成されたグループ毎に付与される識別符号であるグループID701と、各グループに分類された文字列オブジェクトのオブジェクトID702とが対応付けて記録されている。
 図7のグループID701が「5」で特定されるグループの例では、オブジェクトID702が416、423、430、437、444で特定される文字列オブジェクトについて、図6のパス606に同一の値、「/root/products/product/item」が設定されているため、ビューの設定を揃えるべき箇所として1つのグループに分類されている。これは、同一のパス606を有する文字列オブジェクトであれば、それらは文書Dにおいて通常同一の項目を表示するものであり、従ってビューの設定も共通であると一般的に考えられるという知見に基づくグループ生成規則である。また、図7のグループID701が「3」で特定されるグループには、オブジェクトID702が「409」~「415」で特定される文字列オブジェクトが含まれている。これは、図6に示されているように、これらの文字列オブジェクトが「/root/table/table-column」という同一の親ノードを有するため、ビューの設定を揃えるべき箇所と考えられるためである。
 以下、誤り検知部113は図7に示す全てのグループに対して図3に示す誤り検知処理を実行する。ここでは、図7のグループID「3」で特定されるグループについて誤り検知部113が誤り検知処理を実行する場合の具体例を示す。
 図8に、本実施例における属性値頻度テーブル800の一例を示している。属性値頻度テーブル800は、図7に示すグループテーブル700に記録されている文字列オブジェクトのグルーピング結果に基づき、各グループに属する文字列オブジェクトについて、各ビュー属性に関しどのような属性値が設定されているか、その属性値の出現頻度を記録している。言い換えれば、属性値頻度テーブル800には、1つのグループに属している複数の文字列オブジェクトについて、1つのビュー属性(例えばフォントサイズ603)に注目したときに、そのビュー属性についてどのような属性値がどのような割合で設定されているかを解析した結果を記録している。
 図8の例では、図7のグループテーブル700にグループID「3」で記録されている各文字列オブジェクト(オブジェクトID702が409、410、411、412、413、414、または415で特定されている。)に対する、ビューの属性801(図8では、フォント種類602及びフォントサイズ603)、ビューの属性801に関する属性値頻度802及び各属性値の設定に対応するオブジェクトID803を示している。図8では、ビュー属性「フォント」に関する属性値頻度と対応する文字列オブジェクト情報、ビュー属性「フォントサイズ」に関する属性値頻度と対応する文字列オブジェクト情報をそれぞれ示している。
 図3のS304で実行される処理において、誤り検知部113は、各ビューの属性に対し、グループ3内での設定割合がγ%以上100%未満で設定されている属性値が存在するビューの属性があるか否かを判定する。図8の例では、γ=60として判定した結果、フォントサイズに関して、属性値「10(pt)」が約86%(=6/7)の設定割合であるため、フォントサイズは前記判定条件を満たす。これは、7つの文字列オブジェクト中で、6つの文字列オブジェクト(オブジェクトIDが409、410、411、412、413、415)のフォントサイズが「10pt」で設定されているのに対し、オブジェクトID414の文字列オブジェクトのみが「9pt」で設定されているため、設定が誤っているおそれがあると判断したことを意味している。
 一方、フォント種類に関しては、全文字列オブジェクトについて属性値「○○明朝」が設定されている(100%の設定割合である)ためフォント種類は前記判定条件を満たさない。これは、グループ3における全文字列オブジェクトのフォントが○○明朝で統一されているため、設定が誤っていないと判断されたことを意味している。
 以上のS304における処理の結果、誤り検知部113は、グループ3に含まれる文字列オブジェクトについては、フォントサイズの設定が誤っている文字列オブジェクトがあると考えられることを検出し、設定割合が60%以上100%未満の属性値「10pt」を正しいと思われる設定、属性値頻度が1以上かつ設定割合が60%未満の属性値「9pt」を誤っていると思われる設定としてワークエリアWにその結果を保持する。なお、本実施例では、ビューの属性としてフォントとフォントサイズの設定誤りを検出しているが、設定されているすべてのビュー属性について誤り検知処理を実行してもよいし、一部のビュー属性について誤り検知するのみとしてもよい。
 以上の構成により、多数の文字列オブジェクトが含まれている文書Dについて、ビュー属性の設定に誤りがないかどうか簡単にチェックすることができる。
 次に、本実施例で表示装置130等に出力されるメッセージ画面例について説明する。図9Aに、ワークエリアWに保持された上記誤り検知部113の検出結果を基に、メッセージ通知部114によって生成された、ユーザーに通知する警告メッセージ画面900の一例を示している。図9Aの例では、警告メッセージ画面900には、警告メッセージ表示部901、誤り内容情報を表示する誤り検知結果表示部902、903、修正ボタン904、及び無視ボタン905が設定されている。
 警告メッセージ表示部901は、設定が誤っているおそれがあるビューの属性と対応する文字列オブジェクトを示すメッセージを表示する。図9Aの例では、設定が誤っている可能性があるビューの属性は「フォントサイズ」であり、設定が誤っているおそれがある文字列オブジェクトは、図8よりフォントサイズ9ptが設定されているオブジェクトID414(単価)であるため、警告メッセージ表示部901には「文字列オブジェクト(単価)のフォントサイズ設定が間違っている可能性があります。」と表示されている。
 誤り検知結果表示部902は、ビュー属性の設定が誤っている可能性のある文字列オブジェクトの現在の設定値を表示する。図9Aの例では、誤っていると思われる属性値は、「9pt」であるため、誤り検知結果表示部902には「現在の設定値:9pt」のメッセージが表示されている。
 誤り検知結果表示部903は、ビュー属性の設定が正しいと判定された文字列オブジェクトの設定値を表示する。図9Aの例では、正しいと判定された属性値は「10pt」であるため、誤り検知結果表示部903には「正しいと思われる設定値:10pt」のメッセージが表示されている。
 修正ボタン904は、誤り検知結果表示部902、903に表示されたメッセージに対応して、ユーザーがシステム側で正しいと判定されたビュー属性の設定値に現在の設定値を修正すると判断した場合に操作して、電子文書処理装置100に修正許可情報を与えるためのボタンである。ユーザーが修正ボタン904を操作した場合、文書修正処理部115が、属性値頻度テーブル800に記録されている、設定誤りと判定された文字列オブジェクトのオブジェクトID803(文字列オブジェクト特定情報)及び誤っていると判定された属性値801の設定内容(設定誤り情報)に基づいて、文書Dの対象文字列オブジェクトについて前記誤っていると判定された設定値を正しいと判定された設定値に修正する。ユーザーが無視ボタン905を操作した場合は、修正を行わずに警告メッセージ画面900を閉じて処理を終了する。
 なお、本実施例では、誤り検知部113で検出された結果に対して、警告メッセージ画面900を表示装置130等に出力するようにしているが、前記誤り検知結果に対してユーザーの変更が入らない限り以後警告メッセージ画面900を出力しないようにする選択操作インタフェースを警告メッセージ画面900に配置してもよい。
 本実施例では、誤り検知部113によって検出された結果を、メッセージ画面900でユーザーに通知する構成としたが、メッセージ画面900に加え、誤り検知結果のメッセージに対応する箇所を帳票400上に示してもよい。図9Bに、図9Aのメッセージ画面900に対応する帳票400上の該当箇所を示した画面構成例を示している。図9Bの例では、誤り検知部113によってビュー属性の設定が誤っている文字列オブジェクトがあると検出されたグループ3に関し、設定誤り検知対象範囲(オブジェクトID409~415)、前記対象範囲において設定が誤っていると検出された文字列オブジェクト414(単価)を太枠で囲んで表示している。なお、設定が誤っていると検出された文字列オブジェクト414(単価)をハイライトで示す等の他の強調形式により表示することもできる。
 以上説明した実施例1の構成によれば、ユーザーは文書Dに含まれている文字列オブジェクトにビュー属性設定上の誤りがないかを簡単にチェックすることができ、検出された誤りを自動的に修正させることができる。
[実施例2]
 次に、本発明を実施するための形態としての第2実施例(以下「実施例2」)について説明する。実施例1では、電子文書処理装置100の処理対象となる文書Dにメタ情報が付与されている場合について説明した。しかし、実際には、メタ情報が付与されていない文書Dを対象として処理を実行する必要がある場合も多い。本実施例では、メタ情報が付与されていない文書Dを処理する場合の本発明の構成について説明する。図10に、実施例2における電子文書処理装置100の構成例を示している。実施例2の構成は実施例1の構成とほぼ同様であるが、実施例1の構成に文字列解析部116が追加されている点で異なる。以下、この構成上の差異点とそれに基づく作用効果の差異を中心に説明する。
 図10において文字列解析部116は、実施例1のメタ情報に代えてグルーピング処理部112が文字列オブジェクトをグルーピングする際に利用することができる基準を提供するために、文書Dに含まれる文字列オブジェクトの文字列を解析する機能を有する。
 図11に、実施例2による電子文書処理装置100が実行するデータ処理手順の一例を示している。図11に示しているデータ処理手順例は、図2に示した実施例1の電子文書処理装置100によって実行されるデータ処理フローと同様であるが、実施例2における文書情報取得部111、文字列解析部116、及びグルーピング処理部112によって実行されるデータ処理ステップであるS1101、S1102、S1103の処理内容が図2の実施例1の場合と異なる。ここでは、簡単のために、実施例1と異なるS1101、S1102、S1103でのデータ処理内容について説明する。
 まず、S1101では、文書情報取得部111は、処理対象である文書Dに含まれる文字列オブジェクトを抽出し、文書Dに含まれる文字列オブジェクトに設定されている文字列、ビューの属性情報の設定、及び位置情報を取得する(S1101)。ここで「位置情報」(文字列オブジェクト配置情報)とは、各文字列オブジェクトについて、文書Dの表示画面の左上隅を原点として、画面下方に向かう座標軸上での縦位置(Y)と、画面右方に向かう座標軸上の横位置(X)との組み合わせからなる座標上で、本実施例では各文字列オブジェクトが占める領域の左上頂点の位置を示すと規定している。文書情報取得部111は、この位置情報を取得してワークエリアWに保持する。座標軸の単位としては、例えばミリメートル、ピクセルなどが採用されるが、これらには限られない。また、各文字列オブジェクトについての基準位置も適宜に定めればよい。
 次に、S1102において、文字列解析部116は、S1101で取得した各文字列オブジェクトに含まれる文字列に対し、その文字列を構成している文字の種類(以下「文字種別」)を解析し、その結果をワークエリアWへ保持する。なお、ここでいう「文字種別」とは、全角日本語、半角日本語、数字、英語、記号などの文字列が分類される文字の種類を示す。また、文字種別だけではなく、電話番号形式、郵便番号形式、日付など文字列のフォーマットがどのような形式であるかを解析して取得してもよい。
 次に、グルーピング処理部112は、S1103において、S1101で取得した各文字列オブジェクトの位置情報と、S1102で解析した各文字列オブジェクトの文字種別とを用いてS1101で抽出した文字列オブジェクトについてのグルーピングを行い、その結果をワークエリアWへ保持する。
 次に、本実施例においてグルーピング処理部112がS1103で実行するグルーピング処理について説明する。図12に、本実施例のS1103で実行されるグルーピング処理部112のデータ処理フローの一例を詳細に示している。
 グルーピング処理部112は、図12に示すS1202のデータ処理ステップを、S1201で取得されたすべての文字種別について反復して実行する(S1201~S1203)。
 S1202において、グルーピング処理部112は、図11のS1101で取得した文字列オブジェクトに関し、同一の文字種別で構成されている文字列オブジェクトの集合について、縦位置(Y)が一致している文字列オブジェクトの集合を、1つのグループとする。また同様に、横位置(X)が一致している文字列オブジェクトの集合を1つのグループとする(S1202)。文字列オブジェクトのグルーピング処理にこのような位置情報を指標として用いるのは、画面表示された文書D上で、縦方向あるいは横方向に位置を揃えて配置されている文字列オブジェクトは、そのビュー設定においても揃えられていることが多いと推測されることに基づいている。
 なお、本ステップでのデータ処理において、文字列オブジェクトの位置情報における縦位置(Y)または横位置(X)が一致している文字列オブジェクトの集合を1つのグループとしているが、「縦位置(Y)または横位置(X)が一致する」ことには、同じ縦位置(Y)あるいは横位置(X)でグループ化された文字列オブジェクト集合の縦位置(Y)あるいは横位置(X)を基準に、閾値μ以内の距離にあることを含めてもよい。
 また、縦位置(Y)あるいは横位置(X)を基準にしてグルーピングされたグループに関して、隣接している文字列オブジェクト間の横位置(X)または縦位置(Y)の距離が閾値μ以上離れている場合、その隣接している文字列オブジェクト間を境界としてグループを分けてもよい。
 また、本ステップでのデータ処理においては、文字種別と位置情報(縦位置(Y)または横位置(X))とを用いて文書Dに含まれる文字列オブジェクトをグルーピングしているが、位置情報(縦位置(Y)、横位置(X))のみを用いて、縦位置(Y)または横位置(X)が一致する文字列オブジェクトの集合を1つのグループとしてもよい。
 次に、本実施例における文書情報取得処理(図11のS1101)で得られるビュー属性情報テーブル600について説明する。図13に、文書情報取得部111によってワークエリアWに生成され、保持されているビュー属性情報テーブル600の一例を示している。
 実施例2のビュー属性情報テーブル600の構成は基本的に図6に示した実施例1のテーブル600の構成と同様であるが、各文字列オブジェクトの識別符号であるオブジェクトID(objectID)601に対して、文字列1301、文字種別1302、横位置1303、縦位置1304の各項目が設けられている点が異なる。文字列1301は、文書Dに含まれる各文字列オブジェクトからその文字列(テキスト)を抽出して記録している。文字種別1302は、文字列オブジェクトから抽出した文字列についてその文字列を構成する文字種別を解析した結果を記録する項目である。文字列の解析は、例えば各文字列を構成する文字を文字コード表(ASCIIコード表等)と対照することにより実行することができる。図13の例では、オブジェクトID601が「403」で特定される文字列「○○会社」については、文字種別1302として「全角日本語」が、横位置1303として「30(mm)」が、縦位置1304として「50(mm)」が得られたことを示している。なお、図13のビューの属性値であるフォント(font)602、フォントサイズ(font-size)603、スタイル(style)604、字揃え(align)605には、図6で示したのと同じ属性値が設定されているものとして記載を省略している。
 また、図13の例で、オブジェクトID601が「419」で特定される文字列オブジェクトについては、文字列1301として「1111-1111」が記録されており、対応する文字種別1302には、この文字列が数字「1111」と記号「-(ハイフン)」から成り立っていることから「数字+記号」が記録されている。なお、文字列オブジェクトの文字種別1302はより細分化して記録するようにしてもよい。例えばオブジェクトID601が「419」である文字列オブジェクトの文字種別1302は、「数字+ハイフン」と記録するようにしてもよい。同様に、「〒」、「.」といった記号もそれぞれ例えば「郵便」、「ピリオド」といった文字種別として記録してもよい。
 図14に、実施例2におけるグループテーブル700の一例を示している。図14のグループテーブル700は、図13のビュー属性情報テーブル600として取得された各文字列オブジェクトに対し、グルーピング処理部112によってグルーピングされた結果を記録している。図14のグループテーブル700の構成は、図7に示した実施例1のグループテーブル700の構成と同一であるが、図12に例示したグルーピング処理によって作成されている点が異なる。例えば図14のグループID701が「15」で特定されるグループでは、このグループを構成している文字列オブジェクトに含まれる文字列が同じ文字種別「全角日本語」で構成されており、かつ縦位置(Y)1304が同じ「120(mm)」であるため、ビューの属性設定を揃えるべき箇所としてオブジェクトID601が「409~415」で特定される文字列オブジェクトが1つのグループに分類されている。図4に例示するように、これらの文字列オブジェクトは文書D中の表組みの項目名を構成しており、同一のビュー設定を備えるべきとの推測がよく当てはまっている。
 以上説明したように、実施例2の電子文書処理装置100によれば、メタ情報が設定されていない文字列オブジェクトからなる文書Dについて、ユーザーは文字列オブジェクトにビュー属性設定上の誤りがないかを簡単にチェックすることができ、検出された誤りを自動的に修正させることができる。
 以上のように、本発明によれば、電子文書の統一感あるビューを構成すべく画面上の文書の書式に自在に対応しつつビューの属性設定を検査することができる電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体を提供することができる。
 なお、以上説明した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良することができると共に、本発明にはその等価物も含まれる。

Claims (20)

  1.  文字列を含むオブジェクトである文字列オブジェクトを複数含んでいる電子文書を表示させたときの、当該電子文書の視覚的外観であるビューを検査するための電子文書処理装置であって、
     前記電子文書を取り込み、当該電子文書に含まれている前記文字列オブジェクトのそれぞれに設定されている、当該電子文書の前記ビューを決定するための属性であるビュー属性と、各前記文字列オブジェクトの前記電子文書内における配置に関する情報である文字列オブジェクト配置情報とを取得する文書情報取得部と、
     取得した前記文字列オブジェクト配置情報を比較して前記文字列オブジェクト配置情報が相互に類似していると判定された複数の前記文字列オブジェクトを1のグループとして登録するグルーピング処理部と、
     各前記グループに属する前記文字列オブジェクトについて設定されている前記ビュー属性を相互に比較して、相対的に特異である前記ビュー属性が設定されている前記文字列オブジェクトがあるか判定し、特異な前記ビュー属性が設定されている前記文字列オブジェクトがあると判定した場合、当該文字列オブジェクトに設定されている前記ビュー属性が誤りである旨の情報を出力する誤り検知部と、
    を備えている電子文書処理装置。
  2.  請求項1に記載の電子文書処理装置であって、前記文字列オブジェクト配置情報は各前記文字列オブジェクトについて前記電子文書内での配置階層を示す配置階層情報であり、前記グルーピング処理部により実行される処理は、各前記文字列オブジェクトについて設定されている前記階層配置情報を比較し、前記階層配置情報が一致するか類似していると判定した場合に当該階層配置情報が一致するか類似している複数の前記文字列オブジェクトを1つのグループに分類して登録する処理である、電子文書処理装置。
  3.  請求項1に記載の電子文書処理装置であって、前記文字列オブジェクト配置情報は各前記文字列オブジェクトに含まれる文字列を構成する文字の種別である文字種別と、各前記文字列オブジェクトが前記電子文書を表示させた画面上で配置される座標を示す位置情報とを含み、前記グルーピング処理部により実行される処理は、各前記文字列オブジェクトについて設定されている前記文字種別及び前記位置情報を比較し、前記文字種別が一致し、かつ前記位置情報が一致するか類似していると判定した場合に、当該位置情報が一致するか類似していると判定された複数の前記文字列オブジェクトを1つのグループに分類して登録する処理である、電子文書処理装置。
  4.  請求項1に記載の電子文書処理装置であって、前記誤り検知部により実行される処理は、各前記グループに属する前記文字列オブジェクトに設定されている前記ビュー属性の属性値を取得して前記属性値毎の設定個数を表す属性値頻度を算出し、前記グループに含まれる前記文字列オブジェクトの数に対する特定の前記属性値頻度の割合があらかじめ設定した規定値以上であるか判定し、前記属性値頻度が当該グループに属するすべての前記文字列オブジェクトについて設定されておらず、かつ前記規定値以上であると判定した場合、前記判定された前記文字列オブジェクト以外の前記文字列オブジェクトについて前記特定のビュー属性について設定誤りがあると判定する処理を含む、電子文書処理装置。
  5.  請求項1に記載の電子文書処理装置であって、前記誤り検知部が検知した前記文字列オブジェクトの前記ビュー設定における誤りの内容を含むメッセージ情報を生成して外部へ出力するメッセージ通知部を備えている、電子文書処理装置。
  6.  請求項1に記載の電子文書処理装置であって、前記ビューの属性設定が誤っていると判定された前記文字列オブジェクトを特定する文字列オブジェクト特定情報と当該誤りの内容を示す情報である設定誤り情報とに基づいて、当該文字列オブジェクトに関する前記ビュー属性の設定誤りを修正する文書修正処理部を備える、電子文書処理装置。
  7.  請求項5に記載の電子文書処理装置であって、前記メッセージ通知部は、前記特異な値が設定されていると判定された前記文字列オブジェクトについて、現在のビュー属性設定値、及び前記特異な値以外の属性が設定されている他の前記文字列オブジェクトにおけるビュー属性設定値を含む情報である誤り内容情報を生成して前記メッセージに含める、電子文書処理装置。
  8.  請求項6に記載の電子文書処理装置であって、前記ビュー属性の設定誤りに対する修正許可情報を受け取った場合に当該文字列オブジェクトのビュー属性設定誤りを修正する、電子文書処理装置。
  9.  文字列を含むオブジェクトである文字列オブジェクトを複数含んでいる電子文書を表示させたときの、当該電子文書の視覚的外観であるビューを検査するための電子文書処理方法であって、プロセッサ及びメモリを有するコンピュータに、
     前記電子文書を取り込み、当該電子文書に含まれている前記文字列オブジェクトのそれぞれに設定されている、当該電子文書の前記ビューを決定するための属性であるビュー属性と、各前記文字列オブジェクトの前記電子文書内における配置に関する情報である文字列オブジェクト配置情報とを取得するステップと、
     取得した前記文字列オブジェクト配置情報を比較して前記文字列オブジェクト配置情報が相互に類似していると判定された複数の前記文字列オブジェクトを1のグループとして登録するステップと、
     各前記グループに属する前記文字列オブジェクトについて設定されている前記ビュー属性を相互に比較して、相対的に特異である前記ビュー属性が設定されている前記文字列オブジェクトがあるか判定し、特異な前記ビュー属性が設定されている前記文字列オブジェクトがあると判定した場合、当該文字列オブジェクトに設定されている前記ビュー属性が誤りである旨の情報を出力するステップと、
    を実行させる電子文書処理方法。
  10.  請求項9に記載の電子文書処理方法であって、前記文字列オブジェクト配置情報は各前記文字列オブジェクトについて前記電子文書内での配置階層を示す配置階層情報であり、前記コンピュータに、前記グループを登録するステップとして、各前記文字列オブジェクトについて設定されている前記階層配置情報を比較し、前記階層配置情報が一致するか類似していると判定した場合に当該階層配置情報が一致するか類似している複数の前記文字列オブジェクトを1つのグループに分類して登録するステップを実行させる、電子文書処理方法。
  11.  請求項9に記載の電子文書処理方法であって、前記文字列オブジェクト配置情報は各前記文字列オブジェクトに含まれる文字列を構成する文字の種別である文字種別と、各前記文字列オブジェクトが前記電子文書を表示させた画面上で配置される座標を示す位置情報とを含み、前記コンピュータに、前記グループを登録するステップとして、各前記文字列オブジェクトについて設定されている前記文字種別及び前記位置情報を比較し、前記文字種別が一致し、かつ前記位置情報が一致するか類似していると判定した場合に、当該位置情報が一致するか類似していると判定された複数の前記文字列オブジェクトを1つのグループに分類して登録するステップを実行させる、電子文書処理方法。
  12.  請求項9に記載の電子文書処理方法であって、前記コンピュータに、各前記グループに属する前記文字列オブジェクトに設定されている前記ビュー属性の属性値を取得して前記属性値毎の設定個数を表す属性値頻度を算出し、前記グループに含まれる前記文字列オブジェクトの数に対する特定の前記属性値頻度の割合があらかじめ設定した規定値以上であるか判定し、前記属性値頻度が当該グループに属するすべての前記文字列オブジェクトについて設定されておらず、かつ前記規定値以上であると判定した場合、前記判定された前記文字列オブジェクト以外の前記文字列オブジェクトについて前記特定のビュー属性について設定誤りがあると判定するステップを実行させる、電子文書処理方法。
  13.  請求項9に記載の電子文書処理方法であって、前記コンピュータに、検知された前記文字列オブジェクトの前記ビュー設定における誤りの内容を含むメッセージ情報を生成して外部へ出力するステップを実行させる、電子文書処理方法。
  14.  請求項9に記載の電子文書処理方法であって、前記コンピュータに、前記ビューの属性設定が誤っていると判定された前記文字列オブジェクトを特定する文字列オブジェクト特定情報と当該誤りの内容を示す情報である設定誤り情報とに基づいて、当該文字列オブジェクトに関する前記ビュー属性の設定誤りを修正するステップを実行させる、電子文書処理方法。
  15.  請求項13に記載の電子文書処理方法であって、前記コンピュータに、前記特異な値が設定されていると判定された前記文字列オブジェクトについて、現在のビュー属性設定値、及び前記特異な値以外の属性が設定されている他の前記文字列オブジェクトにおけるビュー属性設定値を含む情報である誤り内容情報を生成して前記メッセージに含めるステップを実行させる、電子文書処理方法。
  16.  請求項14に記載の電子文書処理方法であって、前記コンピュータに、前記ビュー属性の設定誤りに対する修正許可情報を受け取った場合に当該文字列オブジェクトのビュー属性設定誤りを修正するステップを実行させる、電子文書処理方法。
  17.  文字列を含むオブジェクトである文字列オブジェクトを複数含んでいる電子文書を表示させたときの、当該電子文書の視覚的外観であるビューを検査するために、プロセッサ及びメモリを有するコンピュータに、
     前記電子文書を取り込み、当該電子文書に含まれている前記文字列オブジェクトのそれぞれに設定されている、当該電子文書の前記ビューを決定するための属性であるビュー属性と、各前記文字列オブジェクトの前記電子文書内における配置に関する情報である文字列オブジェクト配置情報とを取得するステップと、
     取得した前記文字列オブジェクト配置情報を比較して前記文字列オブジェクト配置情報が相互に類似していると判定された複数の前記文字列オブジェクトを1のグループとして登録するステップと、
     各前記グループに属する前記文字列オブジェクトについて設定されている前記ビュー属性を相互に比較して、相対的に特異である前記ビュー属性が設定されている前記文字列オブジェクトがあるか判定し、特異な前記ビュー属性が設定されている前記文字列オブジェクトがあると判定した場合、当該文字列オブジェクトに設定されている前記ビュー属性が誤りである旨の情報を出力するステップと、
    を実行させるコンピュータプログラムを格納するコンピュータ読み取り可能な記録媒体。
  18.  請求項17に記載のコンピュータ読み取り可能な記録媒体であって、前記文字列オブジェクト配置情報は各前記文字列オブジェクトについて前記電子文書内での配置階層を示す配置階層情報であり、前記コンピュータプログラムは、前記コンピュータに、前記グループを登録するステップとして、各前記文字列オブジェクトについて設定されている前記階層配置情報を比較し、前記階層配置情報が一致するか類似していると判定した場合に当該階層配置情報が一致するか類似している複数の前記文字列オブジェクトを1つのグループに分類して登録するステップを実行させる、コンピュータ読み取り可能な記録媒体。
  19.  請求項17に記載のコンピュータ読み取り可能な記録媒体であって、前記文字列オブジェクト配置情報は各前記文字列オブジェクトに含まれる文字列を構成する文字の種別である文字種別と、各前記文字列オブジェクトが前記電子文書を表示させた画面上で配置される座標を示す位置情報とを含み、前記コンピュータプログラムは、前記コンピュータに、前記グループを登録するステップとして、各前記文字列オブジェクトについて設定されている前記文字種別及び前記位置情報を比較し、前記文字種別が一致し、かつ前記位置情報が一致するか類似していると判定した場合に、当該位置情報が一致するか類似していると判定された複数の前記文字列オブジェクトを1つのグループに分類して登録するステップを実行させる、コンピュータ読み取り可能な記録媒体。
  20.  請求項17に記載のコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラムは、前記コンピュータに、検知された前記文字列オブジェクトの前記ビュー設定における誤りの内容を含むメッセージ情報を生成して外部へ出力するステップを実行させる、コンピュータ読み取り可能な記録媒体。
PCT/JP2010/071671 2010-12-03 2010-12-03 電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体 WO2012073376A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/071671 WO2012073376A1 (ja) 2010-12-03 2010-12-03 電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/071671 WO2012073376A1 (ja) 2010-12-03 2010-12-03 電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
WO2012073376A1 true WO2012073376A1 (ja) 2012-06-07

Family

ID=46171359

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/071671 WO2012073376A1 (ja) 2010-12-03 2010-12-03 電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
WO (1) WO2012073376A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807056A (zh) * 2021-09-23 2021-12-17 北京林业大学 一种文档名称序号纠错方法、装置和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0080788A1 (en) * 1981-11-30 1983-06-08 National Aeronautics And Space Administration Pulsed thyristor trigger control circuit
JPH09305603A (ja) * 1996-05-14 1997-11-28 Fuji Xerox Co Ltd 構造化文書処理装置、構造化文書処理方法、データベースシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0080788A1 (en) * 1981-11-30 1983-06-08 National Aeronautics And Space Administration Pulsed thyristor trigger control circuit
JPH09305603A (ja) * 1996-05-14 1997-11-28 Fuji Xerox Co Ltd 構造化文書処理装置、構造化文書処理方法、データベースシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Shoshiki no Futoitsu no Check ni Tsuite", 2 December 2010 (2010-12-02), Retrieved from the Internet <URL:URL:http://webcache.googleusercontent.com/search?hl=ja&lr=langja&oe=UTF-8&num=50&q=cache:diXxv6b06TQJ:http://office.microsoft.com/ja-jp/word-help/HP003084469.aspx+%E6%9B%B8%E5%BC%8F+%E7%B5%Bl%E4%B8%80%E3%80%80%E3%83%AF%E3%83%BC%E3%83%89&ct=clnk> [retrieved on 20101216] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807056A (zh) * 2021-09-23 2021-12-17 北京林业大学 一种文档名称序号纠错方法、装置和设备
CN113807056B (zh) * 2021-09-23 2023-11-14 北京林业大学 一种文档名称序号纠错方法、装置和设备

Similar Documents

Publication Publication Date Title
US9043698B2 (en) Method for users to create and edit web page layouts
JP2006268638A (ja) 文書差分検出装置
Yang et al. Don’t do that! hunting down visual design smells in complex uis against design guidelines
JP5911878B2 (ja) 双方向テキストチェッカー
US9811565B2 (en) Error identification, indexing and reporting construction documents
US10769360B1 (en) Apparatus and method for processing an electronic document to derive a first electronic document with electronic-sign items and a second electronic document with wet-sign items
US10261884B2 (en) Method for correcting violation of source code and computer readable recording medium having program performing the same
WO2020118485A1 (en) Method of Detecting User Interface Layout Issues for Web Applications
US10474887B2 (en) Identifying a layout error
Nurminen Algorithmic extraction of data in tables in PDF documents
US11568666B2 (en) Method and system for human-vision-like scans of unstructured text data to detect information-of-interest
JP5318742B2 (ja) 文字認識方法、文字認識装置および文字認識プログラム
JP5229102B2 (ja) 帳票検索装置、帳票検索プログラムおよび帳票検索方法
JP2009282969A (ja) 書籍掲載文書の電子的な編集・内容変更システム、書籍掲載文書の電子的な編集・内容変更プログラムおよび書籍作成システム
WO2012073376A1 (ja) 電子文書処理装置、電子文書処理方法、及びコンピュータ読み取り可能な記録媒体
JP2016057715A (ja) 図形式プログラム解析装置
WO2018211546A1 (ja) 画面試験装置および画面試験プログラム
CN114239505A (zh) word文档中隐藏字符清洗方法、装置和设备
US20210042555A1 (en) Information Processing Apparatus and Table Recognition Method
CN114220113A (zh) 一种论文质量检测方法、装置和设备
Heinzerling et al. Visual error analysis for entity linking
KR20100115048A (ko) 복사 문서 판별 시스템 및 그 방법
JP4835791B2 (ja) Gui評価システム、gui評価方法およびgui評価用プログラム
JP6677158B2 (ja) 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム
KR101409386B1 (ko) 웹 페이지 분석 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10860209

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10860209

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP