WO2007139039A1 - 情報分類装置、情報分類方法、及び情報分類プログラム - Google Patents

情報分類装置、情報分類方法、及び情報分類プログラム Download PDF

Info

Publication number
WO2007139039A1
WO2007139039A1 PCT/JP2007/060741 JP2007060741W WO2007139039A1 WO 2007139039 A1 WO2007139039 A1 WO 2007139039A1 JP 2007060741 W JP2007060741 W JP 2007060741W WO 2007139039 A1 WO2007139039 A1 WO 2007139039A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
classification
label
character
character string
Prior art date
Application number
PCT/JP2007/060741
Other languages
English (en)
French (fr)
Inventor
Itaru Hosomi
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2008517918A priority Critical patent/JP5126541B2/ja
Priority to EP07744175A priority patent/EP2028598A4/en
Priority to US12/302,483 priority patent/US9025890B2/en
Publication of WO2007139039A1 publication Critical patent/WO2007139039A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • the present invention relates to an information classification device, an information classification method, and an information classification program for estimating individual records from a keyword sequence that can potentially be in a tabular format.
  • the method for describing the table data that composes a document using a table format varies widely depending on the format of the document file and the way the table is structured.
  • Table data is described in a special table format called the Exce 1 Puck format.
  • HTML Hyper Text Markup Language
  • the table data is described using tags dedicated to HTML. The In this way, the table data in the document is described using the structure information dedicated to each file format, and the composition of the elements varies depending on the individual table data.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2000-103-045.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2000-103-045.
  • Patent Document 2 discloses a technique for identifying individual records and extracting elements of table data by giving a pattern of text data for identifying the beginning and end of the records constituting the table data in advance. It is disclosed.
  • the first problem is that it is generally not easy to prepare individual table structure analysis methods corresponding to various file formats because the detailed specifications of the file formats may not be disclosed. It is.
  • the second problem is that even if the file extension is the same, if the software used to create the document and the version of the file format itself differ, the structure description method such as table data may differ. In addition, it is necessary to deal with new file formats in the future.
  • the third problem is that the conventional method of detecting records using text data description patterns instead of file format is not dependent on the file format, but knows all the record description patterns in each table data beforehand. Because it is necessary to keep. This means that it is difficult to apply the conventional method to a document containing a wide variety of tabular data described by many people and systems.
  • An exemplary object of the present invention is to provide an information classification device for accurately estimating individual records constituting table data even when the file format of data and the identification pattern of records constituting table data are not known in advance. To provide a method and information classification program. Disclosure of the invention
  • an information classification device for analyzing the structure of data including character information.
  • This information classification device includes a character information extraction unit that extracts a predetermined character string from character information of data, and replaces each extracted character string with a label that represents character string classification, thereby converting the character string into a series of labels.
  • a labeling unit for converting to a column and a label appearance pattern estimation unit for estimating an appearance pattern of a label that repeatedly appears in the label sequence are provided.
  • an information classification system including the above information classification device, and at least one data storage unit connected to the information classification device via a communication network and storing data acquired through the communication network. it can.
  • the character information extraction unit in the information classification device extracts a predetermined character string from the character information of the data stored in the data storage unit.
  • the present invention also provides an information classification method for analyzing the structure of data including character information.
  • This information classification method converts a character string into a series of label strings by extracting a predetermined character string from character information of data and replacing each extracted character string with a label representing the classification of the character string. Estimate the appearance pattern of labels that appear repeatedly in the label sequence.
  • an information classification program for causing a computer to analyze the structure of data including character information.
  • This information classification program is based on character information extraction processing for extracting a predetermined character string from character information of data, and replacing each extracted character string with a label representing the character string classification.
  • a labeling process for converting a character string into a series of label strings and a label appearance pattern estimation process for estimating an appearance pattern of a label that repeatedly appears in the label string are executed.
  • the configuration of data including character information can be estimated based on the appearance pattern of the label.
  • the character information extraction unit that extracts a predetermined character string from the character information of the data, and by replacing each extracted character string with a label that represents the character string classification, It includes a labeling unit that converts a sequence into a series of label sequences, and a label appearance pattern estimation unit that estimates the appearance pattern of labels that repeatedly appear in the label sequence.
  • FIG. 1 is a block diagram showing a functional configuration of a table record estimation apparatus, which is a first exemplary embodiment of an information classification apparatus according to the present invention.
  • FIG. 2 is a block diagram showing the hardware configuration of the table record estimation apparatus shown in FIG.
  • FIG. 3 is a flowchart showing the operation of the table record estimation apparatus shown in FIG.
  • FIG. 4 is an explanatory diagram showing an example of table data included in the text data input in the first example of the table record estimation apparatus shown in FIG.
  • FIG. 5 is an explanatory diagram showing an example of a key word type label in the first example.
  • FIG. 6 is an explanatory diagram showing a series of flows for estimating a label column representing a record structure of table data from a label column replaced from a key column constituting table data in the first example.
  • Figure 7 is a diagram for explaining the output information of the final record estimation result in the first example. It is.
  • Fig. 8 shows a series of flows for estimating the label sequence representing the record configuration of the table data from the label sequence replaced from the key sequence constituting the table data in the second example of the table record estimation device shown in Fig. 1. It is explanatory drawing shown.
  • FIG. 9 is an explanatory diagram showing an example of table data included in the text data input in the third example of the table record estimation apparatus shown in FIG.
  • FIG. 10 is an explanatory diagram showing an example of the keyword type-specific labels in the third example.
  • FIG. 11 is an explanatory diagram showing an example of text data input in the second exemplary embodiment of the present invention.
  • FIG. 12 is a block diagram showing a configuration of an information angle analysis apparatus which is a second exemplary embodiment of the information classification apparatus according to the present invention.
  • FIG. 13 is an explanatory diagram showing an example of a keyword dictionary in the second exemplary embodiment.
  • FIG. 14 is an explanatory diagram showing an example of classification rules in the second exemplary embodiment.
  • FIG. 15 is an explanatory diagram illustrating an example of a keyword sequence extracted from text data input in the second exemplary embodiment.
  • FIG. 16 is an explanatory diagram showing a series of flows for estimating a label column representing the record structure of the table data from the label column replaced from the key column constituting the table data in the second exemplary embodiment.
  • FIG. 17 is an explanatory diagram showing an example of output data in the second exemplary embodiment.
  • FIG. 18 shows a third exemplary embodiment of the information classification device according to the present invention, and is a block diagram showing a configuration example when an information classification system is configured using the information classification device according to the present invention.
  • FIG. 19 is a flowchart showing another operation example of the table record estimation unit and the data classification unit in the second exemplary embodiment.
  • FIG. 20 is an explanatory diagram showing another example of the classification rule in the second exemplary embodiment.
  • FIG. 21 is an explanatory diagram showing an example of text data input in the second exemplary embodiment.
  • FIG. 22 is an explanatory diagram showing an example of the classification result according to the second exemplary embodiment. Description of exemplary embodiments
  • FIG. 1 is a block diagram showing a functional configuration of a table record estimation apparatus, which is a first exemplary embodiment of an information classification apparatus according to the present invention.
  • the table record estimation device 10 includes a table element sequence extraction unit (table element sequence extraction unit) 1, a table element labeling unit (table element labeling unit) 2, and a label appearance pattern estimation. Part (label appearance pattern estimation means) 3, classification rule storage part (classification rule storage means) 4, and division reference storage part (division reference storage means) 5.
  • the table element sequence extraction unit 1 has a function of inputting text and extracting text data, and a function of acquiring a series of key words as elements of a table (table data) from the extracted text data.
  • the data from which the text data is extracted by the table element sequence extraction unit 1 may include, for example, a tabular document, an execution program file, and the like, and the type of data is not particularly limited.
  • the table element string extraction unit 1 has a function of extracting an element set that can constitute a table (table data) from the text data by referring to the text data extracted from the input data.
  • the table element column extraction unit 1 extracts text data from data by removing display control information (eg tag information in HTML documents) such as layout information and S-line information of table data from the data.
  • display control information eg tag information in HTML documents
  • layout information e.g., layout information
  • S-line information e.g., S-line information of table data
  • the target data is not limited to document files created with a word processor or text editor, Executable program files that can contain internal data can also be targeted.
  • the table element sequence extraction unit 1 determines whether or not the extracted key words are key words constituting the same table data based on the division criterion stored in the division criterion storage unit 5.
  • the table element string extraction unit 1 executes the character information extraction process described above, and may be called character information extraction means! /.
  • the table element labeling unit 2 has a function of labeling each key word acquired by the table element sequence extracting unit 1 according to the type based on the correspondence information stored in the classification rule storage unit 4.
  • the table element labeling unit 2 replaces each element with a type-specific label based on the correspondence information stored in the classification rule storage unit 4 for one element set extracted from the text data. It has a function to convert a set into a series of label strings.
  • the table element labeling unit 2 executes the labeling process described above, and may be called a labeling means.
  • the label appearance pattern estimation unit 3 executes the label appearance pattern estimation process described above.
  • the label appearance pattern estimation unit 3 estimates the label permutation constituting one unit record from the label column assigned by type by the table element labeling unit 2, and It has a function to output the label permutation as the record estimation result.
  • the label appearance pattern estimation unit 3 detects a repeated pattern in which the same type of label appears from the obtained label sequence, and determines that the unit label sequence for one repeated pattern is a record representing one unit of information. It has the function to do.
  • the classification rule storage unit 4 has a function of storing correspondence information (classification rules) indicating correspondence relations between various types of keys and labels.
  • the classification rule storage unit 4 executes the above-described correspondence information storage process, and may be called correspondence information storage means.
  • the division criterion storage unit 5 has a function of storing a division criterion indicating a criterion as to whether or not the extracted keywords belong to the same table data.
  • FIG. 2 is a block diagram showing a hardware configuration of the table record estimation apparatus 10.
  • the table record estimation device 10 is similar to a general computer. It can be realized by the hardware configuration.
  • the table record estimation device 10 is a main memory such as a central processing unit (CPU) 11 and a random access memory (RAM), and is mainly used as a data work area or a temporary data save area.
  • the table record estimation apparatus 10 also includes output means (collectively referred to as a presentation unit 13) such as a liquid crystal display, a printer, and a speaker, and input means (collectively referred to as an input unit 14) such as a keyboard, a mouse, and a scanner.
  • output means collectively referred to as a presentation unit 13
  • input means such as a keyboard, a mouse, and a scanner.
  • the table record estimation device 10 is further connected to a peripheral device 15 for transmitting / receiving data, a hard disk composed of a nonvolatile memory such as a ROM (Read On 1 Memory), a magnetic disk, and a semiconductor memory.
  • a peripheral device 15 for transmitting / receiving data
  • a hard disk composed of a nonvolatile memory such as a ROM (Read On 1 Memory), a magnetic disk, and a semiconductor memory.
  • An auxiliary storage unit 16 that is a device and a system bus 17 that interconnects the above components are provided.
  • the table record estimation device 10 is equipped with circuit parts made up of hardware parts such as LS I (Large Scale Integration), which incorporates programs that realize the functions described above, including the operations described below.
  • LS I Large Scale Integration
  • programs that realize the functions described above including the operations described below.
  • the above functions can be realized in hardware, and the programs that provide the functions of the above components can be realized in software by executing them on the CPU 11 on the computer. Can do.
  • the CPU 1 1 loads the program stored in the auxiliary storage unit 16 to the main storage unit 12 and executes it, and controls the operation of the table record estimation device 10 to control each function described above in software. Realize.
  • the program may be stored in a portable storage medium that can be read out by the CPU 11.
  • the information analysis apparatus in the second exemplary embodiment and the third exemplary embodiment, which will be described later, also has a hardware configuration similar to that of the table record estimation apparatus 10 so that a predetermined function can be realized in hardware or It can be realized in software.
  • FIG. 3 is a flowchart for explaining the operation of the table record estimation apparatus 10.
  • the table record estimation device 10 estimates a table record according to the procedure shown in FIG. First, the table element column extraction unit 1 extracts text data from the input data (step S 1 0 1), and a series of keyword columns constituting one table data from the extracted text data is converted into a keyword set ( It is acquired as a substring set (step S 1 0 2).
  • a keyword string acquisition method in step S 1 0 2 for example, if a character string that matches a keyword included in a dictionary prepared in advance in the storage unit in the table element string extraction unit 1 is found in the text data, the character string There is a method of extracting text, or a method of performing morphological analysis of text data and extracting all proper nouns that can specify the type of character information such as name and place name.
  • phone numbers, email addresses, company names, school names, product names with specific formats, etc. can be extracted by extracting character strings that match certain patterns defined by regular expressions. There are ways to get it.
  • the separation of the keyword string in the range constituting one table data can be determined by, for example, the distance between adjacent keywords.
  • the maximum allowable distance (capacity) between keywords included in the same table data as the partitioning criterion is 100 bytes
  • the interval between one keyword extracted from text data and another keyword extracted next If the distance is less than 100 bytes in the data length, the table element sequence extractor 1 uses a key set (one partial character) in which the two keywords constitute the same table data based on the partitioning criteria. Column set).
  • the table element labeling unit 2 sorts the key word columns constituting one table data obtained in step S 1 0 2 by type based on the correspondence information stored in the classification rule storage unit 4. (Step S 1 0 3).
  • the table element labeling unit 2 In the classification rule storage unit 4, for example, if a label corresponding to the type of keyword is defined in advance so that the name of the keyword is A and the address is B, the table element labeling unit 2 will use Yamada and Suzuki. Will be replaced with the label A, and place names such as Kyoto and Nagoya will be replaced with the label B. When such a replacement process is applied to all keywords, a series of keyword strings become label strings in step S 1 0 3.
  • the table element labeling unit 2 combines adjacent labels into the same label if the adjacent labels are the same type in the label sequence obtained in step S103 (step S). 104) For example, the label sequence AABBBC is combined into the label sequence ABC.
  • step S103 when replacing each keyword with a label in step S103, if the label when a certain keyword is replaced is the same as the label after the replacement of the keyword immediately before that keyword, the corresponding keyword is replaced.
  • the table element label part 2 can process step S103 and step S104 simultaneously.
  • the label appearance pattern estimation unit 3 reads the label from the head of the label sequence (detects it). ) When a label of the same type as the already detected label is detected for the second time, a series of labels up to that point are stored as candidate records (step S105). For example, if there is a label string “ABCABDCA ' ⁇ ”, A, B, C are read from the beginning, and when A is detected again, the label string “ABC” up to that point is the first candidate. Record. After that, the label appearance pattern estimation unit 3 reads B again from A for the second time, and from here, reads it while comparing it with the candidate record “ABC” stored in step S105. For example, when a new label D is detected after AB, label D is also inserted after AB on the candidate record, and the new candidate record is stored as “ABDC” (step S 106).
  • the label appearance pattern estimation unit 3 detects C after D and further detects A for the third time, there is no difference from the new candidate record “A BDC” stored in step S 1 06. For this reason, the new candidate record “ABD C” is used as it is in the subsequent steps as described above.
  • the label appearance pattern estimation unit 3 similarly updates the scavenging record while sequentially comparing the latest candidate record and the label in the label sequence obtained in step S104. Read to the end of the obtained label column The latest candidate record obtained as a result of estimation is estimated (determined) as a label sequence representing the record structure of the table data (step S 1 0 7).
  • the table record estimation device 10 extracts text data from the input data, and extracts a series of key words from the extracted text data. In this case, it is not affected by various file formats, and it is not necessary to know all the description patterns of records in individual table data in advance. Then, a series of keywords extracted from data including a variety of table data described by many people and systems are replaced with labels associated with the key types. Next, based on the repeated pattern in which the same type of labels appear repeatedly for the label sequence generated by combining adjacent labels of the same type, the unit label sequence for one repeated pattern is stored as one unit of information. It is determined that the record represents.
  • a first example of the first exemplary embodiment will be described with reference to the drawings.
  • the present invention is applied to the first exemplary embodiment described above, and the first exemplary embodiment will be described using a more specific example.
  • the outline of the configuration and operation of the first example is the same as the outline of the configuration and operation of the first exemplary embodiment, and therefore, overlapping portions will be omitted as appropriate.
  • table data 4 01 as shown in FIG. 4 is described in a certain data.
  • the character strings that make up this table data 4 0 1 are extracted as text data, and keywords that match one of the types such as name and place name shown in Fig. 5 Is extracted from the text data (Fig. 3 steps S101 to S102).
  • the correspondence information 501 that indicates the correspondence between the various key words and labels shown in FIG. 5, for example, if it is a name, the label A is applied to the extracted key word column by the table element label part 2 described above. Replace with the label column (see step S103 in Fig. 3).
  • the table element column extraction unit 1 starts from the second row, with name (Taro Yamada), name (Hanako Yamada), place name (Tokyo), place name (Minato-ku), maine Keywords (taro @ s amp 1 e. C om) are extracted, and from the third line, name (Jiro Tanaka), place name (Osaka), place name (Osaka City), ⁇ name
  • FIG. 6 is an explanatory diagram showing a series of flows for estimating the label column representing the record structure of the table data from the label column replaced from the key column constituting the table data, corresponding to the flowchart shown in FIG. It is.
  • the keyword string (see step S102 in FIG. 3) extracted from the table data in FIG. 4 by the table element string extraction unit 1 is initialized by the table element labeling unit 2 based on the correspondence shown in FIG. It is replaced by the column (step S601) (see step S1 03 in Fig. 3).
  • the same type of labels are combined into one adjacent label (see step S104 in FIG. 3), and a label sequence ⁇ ABCABDCAD ⁇ is obtained (step S602).
  • step S105 When the label appearance pattern estimation unit 3 reads the label sequence ⁇ AB CAB D CAD ⁇ obtained in step S602 in order from the top as described in the first exemplary embodiment (FIG. 3).
  • Step S105 first candidate record “AB C ”is obtained (step S 6 0 3).
  • the second candidate record “ABDC” is obtained in the same manner as in the first exemplary embodiment (see step S 1 06 in FIG. 3) (step S 6 0 4).
  • step S 6 0 4 in FIG. 6 the first candidate record “ABC” corresponds to label D that is in the second candidate record “ABDC” but not in the first candidate record “ABC”.
  • An asterisk “*” indicating the NU LL value is placed at the position.
  • labels with an asterisk “*” are those that do not actually exist, but are missing elements for correspondence with the scavenging record.
  • the label appearance pattern estimation unit 3 since the label column in this example ends with D detected for the second time, the label appearance pattern estimation unit 3 also lacks the last label C of the latest candidate record “ABDC” from the third record. Therefore, it is represented by an asterisk “*” in FIG. 6 in accordance with the above-mentioned policy (step S 6 0 5).
  • the label appearance pattern estimation unit 3 sets the candidate record “A B D C” as the final record estimation result ⁇ step S 6 0 6 (see step S 1 0 7 in FIG. 3) ⁇ .
  • the record of the estimation result is divided into one or more records by the label appearance pattern estimation unit 3 without leaking any labels that are elements from the original label string.
  • FIG. 7 is a diagram for explaining the output information of the final record estimation result.
  • FIG. 6 is a diagram for explaining output information 7 0 1 in which “DC” is shown in association with a keyword type based on the correspondence information 5 0 1 shown in FIG. 5.
  • the record structure of tabular data can be estimated based on the output information 7 0 1.
  • the keyword string on the text data is replaced with the label string on a one-to-one basis based on the correspondence information indicating the correspondence relationship.
  • the record is estimated from only the one-dimensional label sequence. For this reason, it does not depend on the structure of the apparent table data, and each type of keyword may or may not appear in the keyword column. Even so, the record can be estimated.
  • the table data shown in Fig. 4 is a set of 2 rows with ⁇ name, consecutive name, address ⁇ on the first row and ⁇ phone number, email address ⁇ on the second row. Even if the record structure is the same, the label column obtained from it is the same as the label column obtained in step S 6 0 1 in Fig. 6. Therefore, even if the structure of the table data is different, the record estimation result is affected. There is an effect of not.
  • the second example is a modification of the first example, and the outline of the configuration and operation is the same as the outline of the configuration and operation of the first exemplary embodiment. The difference will be mainly described.
  • FIG. 8 shows a modification of FIG. 6, corresponding to the flowchart shown in FIG. 3, and inferring a label column representing the record structure of the table data from the label column replaced from the keyword column constituting the table data. It is explanatory drawing which showed a series of flows.
  • the keyword column extracted by the table element column extraction unit 1 is replaced with the initial label column by the table element label unit 2 based on the correspondence shown in FIG. 5 (step S 8 0 1).
  • the label sequence ⁇ ABCBDCBD ⁇ is obtained by combining the same type of labels with adjacent labels. (Step S802).
  • the label appearance pattern estimation unit 3 reads the label sequence ⁇ ABC BDCBD ⁇ obtained in step S 802 in order from the top in the same manner as in the first exemplary embodiment. In this case, when “A ⁇ B ⁇ C ⁇ B” is detected, the label “B” appears again after the label “C” without detecting the label “A”. This means that a label of the same type as the label already detected is detected a second time. In this case, the label appearance pattern estimation unit 3 stores a series of labels “ABC” up to that point as candidate records (see step S 105). That is, the label appearance pattern estimation unit 3 determines that “ABCB” belongs to different records for “ABC” and “B”, and estimates the first candidate record as “ABC” (step S 8 03).
  • the label appearance pattern estimation unit 3 sets the candidate record “ABDC” as the final record estimation result (steps S804 to S806).
  • the label used as a reference when reading the label column such as “A” at the head, is included in the label column. Even if it does not always appear in each record, the same effect as in the first embodiment can be achieved.
  • a third example of the first exemplary embodiment will be described with reference to the drawings.
  • the third example is a modification of the first example and the second example, and categorizes the structure of the input table data by a higher-order structure or a lower-order structure.
  • the outline of the configuration and the operation is the same as the outline of the configuration and the operation of the first exemplary embodiment, so that the third example is mainly different from the first and second examples.
  • Fig. 9 shows a modification of Fig. 4, and the table data 901 shown in Fig. 9 shows that "prefecture” and "city / town / village” are classified as “address” and a subordinate concept of “address”.
  • the “mail address” and “telephone number” are associated with the “contact”, which is a higher-level concept of “mail address” and “telephone number”.
  • Fig. 10 shows a variation of Fig. 5.
  • Corresponding information 1 0 0 1 shown in Fig. 10 includes "telephone number” (label D) and "mail address” (label C).
  • Label X indicating “Contact”, which is a higher-level concept of “telephone number” (label D) and “mail address” (label C). This means that “contact number” (label X) and “phone number” (label D) and “mail address” (label C) are classified as categories that indicate the subordinate concepts of “contact” (label X). It can be said that they are
  • the estimation result “ABDC” shown in step S 6 06 of FIG. 6 and step S 8 06 of FIG. 8 is shown in the tabular data 9 0 1 and FIG. 10 shown in FIG. Based on the correspondence information 1 0 0 1, “ABX” is the final record estimation result.
  • the composition of the input data can be estimated by any hierarchy.
  • the second exemplary embodiment estimates a record even from text data 1 1 0 1 consisting only of a list of natural language sentences and phrases as shown in FIG. it can. This is explained below. Note that, in the second exemplary embodiment, portions overlapping with the first exemplary embodiment and the first example will be omitted as appropriate. (Configuration of the second exemplary embodiment)
  • FIG. 12 is a block diagram showing a configuration of an information analysis apparatus which is a second exemplary embodiment of the information classification apparatus according to the present invention.
  • the information analysis device 20 has a table element string extraction unit (character information extraction means) 1 a having the same function as the table element string extraction unit 1 described in the first exemplary embodiment. And a table record estimation unit 23 composed of the table element labeling unit 2 and the label appearance pattern estimation unit 3 described in the first exemplary embodiment.
  • the information analysis device 20 also uses the classification rule stored in the classification rule storage unit (corresponding information storage means) 4a to obtain the column of the key type obtained from the record estimated by the table record estimation unit 23.
  • a data classification unit 24 having a function of collating and classifying the keyword sequence.
  • the information analysis apparatus 20 further includes a result display unit (result output means) 26 having a function of displaying a predetermined result indicated by the keyword column classified by the data classification unit 24, and a function of storing a classification rule.
  • a result display unit (result output means) 26 having a function of displaying a predetermined result indicated by the keyword column classified by the data classification unit 24, and a function of storing a classification rule.
  • the table element sequence extraction unit la refers to data such as documents stored in the data storage unit (data storage means) 25, and is a text data extraction unit (text data) having a function of extracting text data from the referenced data. Extraction means) 2 1 is included. Table element Column extractor 1 a also extracts a key word from the text data extracted by the text data extractor 2 1 based on the key information stored in the key dictionary 27 and generates a key string. A key word extraction unit (key word extraction means) 2 2 having the function of The table element sequence extraction unit 1 a further includes a data storage unit 25 having a function of storing data such as documents, and a key word dictionary 27 having a function of storing key word information in which keywords to be extracted are defined for each type. Is provided.
  • the keyword dictionary 27 may be referred to as extracted information storage means, and the keyword information may be referred to as extracted information.
  • the keyword dictionary 27 is realized, for example, with the configuration shown in FIG. That is, for each keyword type, if it is a full name, the last names such as “Ueda” and “Kato” and names such as “Taro” and “Hanako” (not shown) are listed in the keyword dictionary 27. Then, text strings corresponding to these keywords are extracted from the text data by the keyword extraction unit 22.
  • the classification rule storage unit 4 a has a configuration as shown in FIG. This is realized by storing the classification rule 1 4 0 1 having.
  • the classification rule “Contact information of the department” matches only the record whose keyword is “Product Development Department”.
  • Matches only when both the conditions “Affiliation! “ Product Development Department ”” indicating that the keyword is not “Product Development Department” are satisfied.
  • the information analysis device 20 Based on the classification rule 1 4 0 1 as shown in FIG. 14, the information analysis device 20 replaces the extracted keyword with a label, thereby extracting the extracted keyword as shown in FIG. 17 described later. It is possible to display the number of records with classification indicating the more detailed classification.
  • the information analysis device 20 refers to the data stored in the data storage unit 25 using the text data extraction unit 21 and extracts text data from each data.
  • the text data extraction unit 21 removes display control information such as layout information and S-line information of table data (for example, tag information in HTML documents) from the data.
  • display control information such as layout information and S-line information of table data (for example, tag information in HTML documents)
  • the target data is not limited to a document file created by a word processor or text editor, but can also be an executable program file that can contain text data.
  • the keyword extraction unit 2 2 uses a specific type of keyword defined in the keyword dictionary 2 7 from the text data extracted by the text data extraction unit 2 1.
  • the table record estimator 2 3 powers Labels and records are estimated for each keyboard according to the procedure described with reference to FIG. 3 in the first exemplary embodiment.
  • the data classifying unit 24 compares the key type column obtained from the record estimated by the table record estimating unit 23 with the classification rule of the classification rule storage unit 4a, and finds one that matches a predetermined combination.
  • the keyword string is classified by selecting it as relevant character information, and the result is displayed on the result display unit 26.
  • the data classification unit 24 performs the character information classification process described above, and may be referred to as character information classification means.
  • the definition of the label corresponding to the type of keyboard shown in FIG. 5 (corresponding information 5 0 indicating the correspondence)
  • keywords are extracted by the table element sequence extraction unit 1a based on 1)
  • a list of keywords 1 5 0 1 as shown in FIG. 15 is obtained.
  • the keywords extracted from the text data, the detection position of the keyword, and the distance between the keyword and the immediately preceding keyword are described in this order.
  • the keyword extraction position is indicated by the number of bytes from the beginning of the text data and the number of bytes at the end of the keyword.
  • one Japanese character is 2 bytes, and one alphanumeric character is 1 note.
  • the table element sequence extraction unit 1 a determines that all of the keywords related to “Mr. Takahashi” constitute the same table data from the keywords related to “San Yamada”.
  • step S 1 6 0 The result of replacing the extracted keyword string with the label string by the table element label part 2 in the table record estimation part 2 3 based on the correspondence information 5 0 1 shown in FIG. 5 is the result of step S 1 6 0 in FIG. As shown in 1. From here, the same continuous labels are grouped into one as in the previous example (step S 1 6 0 2), and the estimation of candidate records is started from the beginning of the label string (step S 1 6 0 3). Reach the end of the column (Step SI 604), the label sequence ⁇ AB D ⁇ is obtained as the final record estimation result (Step S 1605).
  • the label appearance pattern estimator 3 in the table record estimator 23 counts how many label strings for one estimated record are included in all the label strings as shown in step S1604. Can calculate how many records the table data has.
  • Classification result 1 701 as shown in 17 can be output.
  • the information analysis device 20 has a total of 6 items as shown in ab c. Doc shown in the second line of the classification result 1 701 in Fig. 17 It is possible to output a classification result indicating that the contact information of is detected.
  • a label E indicating the affiliation is defined as the keyword type-specific label of the correspondence information 501 shown in FIG.
  • a label string including a label indicating a affiliation in addition to a label indicating a name and a place name from text data input separately from the text data 1101 shown in FIG. 11 for example, “ If the “ABEC” is obtained, the information analysis device 20 uses the “contact information for each department” and “contact information for other departments” for each record as shown in the third and fourth lines of the classification result 1701 shown in Figure 17 ”, And“ Other contacts ”that do not include a label indicating affiliation can also be displayed.
  • “contact information of own department” and “contact information of other departments” are higher-level concepts of “contact information of own department” and “contact information of other departments”.
  • “Contact”, which is a classification of, may be associated. That is, for example, the label “Y” is associated with “Contact information of own department”, the label “ ⁇ ” is associated with “Contact information of other department”, and “Contact information of own department” (label ⁇ ) and “Contact information of other department” ( For label ⁇ ), label X indicating “contact”, which is a higher-level concept of “contact information of own department” (label ⁇ ) and “contact information of other departments” (label ⁇ ), may be associated. .
  • the keyword data shown in FIG. 11 and the keywords shown in FIG. List 1 5 0 1 shows the table data composed of the keyword related to Mr. Yamada to the keyword related to Mr. Nakagawa by the table element sequence extraction unit 1a, and the keyword related to Mr. Takai from the keyword related to Mr. Fujii. It is divided into table data.
  • FIG. 19 is a flowchart showing the operations of the table record estimation unit 23 3 and the data classification unit 24 in the second exemplary embodiment shown in FIG.
  • the text data is first extracted from the input data in the same manner as the operation of the table record estimation device 10 in the first exemplary embodiment shown in FIG. 1 and FIG. (Step S 1 0 1).
  • a series of key word columns constituting one table data is obtained from the extracted text data (Step 1 0 2).
  • the table element labeling unit 2 converts the key word sequence constituting one table data obtained in step S 1 0 2 into a label for each type based on the correspondence information stored in the classification rule storage unit 4a. (Step S 1 0 3).
  • step S 1 0 here, unlike the flowchart of FIG. 3, if there is a rule that is established with only one type of label by referring to the classification rule in the classification rule storage unit 4 a, that rule is included in that rule. A suitable label is detected from the label string, and the label is regarded as one of the classifications indicated by the rule (step S 1900 1).
  • the classification rule of the classification rule storage unit 4a is composed of classification rules 2 0 0 1 composed of three types of rule sets as shown in FIG.
  • Such “Other Contact” rule is defined as “Contact” is defined as the corresponding information 1 0 0 1 shown in Fig. 10.
  • the rule can be evaluated only with the corresponding label, and if any one of them is judged, it is determined as “Other contact”. However, if an e-mail address or phone number is also included in the judgment conditions of other classification rules, priority is given to classification rules that require more labels depending on the judgment conditions. Information corresponding to “Department contact” and “My department contact” can also be extracted appropriately.
  • step S 1 90 classification according to the rules is performed in step S 1 90 1.
  • step S 1 90 1 When the processing of step S 1 90 1 is completed, as in step S 1 0 4 of FIG. 3, the table element labeling unit 2 determines that if the adjacent labels in the label row are the same type of label, Combine them into one label (step S 1 90 2). Steps S 1 0 5, S 1 0 6 and S I 0 7 performed after step S 1 90 2 are the same as those described in the flowchart of FIG.
  • step S 1 0 7 If a series of record columns can be determined from the keyword columns that make up a table by the process up to step S 1 0 7, all label columns are assigned one or more partial labels corresponding to the determined individual records. Divide into columns (step S 1 9 0 3)
  • step S 1 90 3 the data classification unit 24 compares each divided partial label string with each rule of the classification rule storage unit 4a, and the most matched label is found.
  • the partial label strings are classified according to the associated rules (step S 1 90 4).
  • Corresponding information 1 0 0 1 shown in Fig. 10 and the classification rule 2 0 0 1 shown in Fig. 2 0 are used to change the text data 2 1 0 1 shown in Fig. 2 1 to step S 1 9 0 If classified according to the process up to 4, the table shown in Fig. 22 is obtained.
  • the affiliation is One name in the “Product Development Department” (Tanaka) and “Contact Department” that includes the phone number and email address of the contact, and the name belongs to the “Planning Department” instead of the “Product Development Department”.
  • the second exemplary embodiment it becomes possible to detect arbitrary information including a combination of a specific type of keyword together with the number of pieces of text data including a list of natural language sentences and phrases.
  • a combination of keywords of a specific type for example, a plurality of combinations in the same hierarchy such as “contact information of own department” and “contact information of other department” can be detected simultaneously.
  • "place name” is "Minato-ku, Tokyo” and "contact information” is
  • the table record estimation method and the information analysis apparatus using the table record estimation method according to the second exemplary embodiment are useful for asset management and information security management in an organization such as a company.
  • single or plural table data can be generated from the keyword list 1 5 0 1 created from the input text data 1 1 0 1.
  • a third exemplary embodiment of the present invention is described below.
  • the same parts as the first and second exemplary embodiments and the first example are described above. Will be omitted as appropriate.
  • FIG. 18 is a block diagram showing a third exemplary embodiment in which an information classification system is configured using the information classification apparatus according to the present invention.
  • an information classification device an information analysis device 1100 is provided, and a data storage device 300 is provided.
  • the information analysis device 1 0 0 includes a main memory 1 0 1, a CPU 1 0 2, a data storage device 1 0 3, a communication device 1 0 4, an input device 1 0 6, And an information analysis apparatus according to the second exemplary embodiment.
  • the information analysis device 1 0 0 is connected to a data storage device (data storage means) 3 0 0 via a communication network 2 0 0.
  • Data storage device data storage means
  • the data storage unit shown in FIG. 2 Realizes the same function as 5.
  • FIG. 18 only one data storage device 300 is shown, but the information analysis device 100 may be connected to two or more data storage devices 300. In other words, the data may be distributed and stored in two or more data storage devices. Furthermore, some or all of the data subject to information praying may be stored in the data storage device 10 3 of the information analysis device 100.
  • the data subject to information analysis is not necessarily limited to a file created by a word processor or text editor, but may be any file that can contain text data, such as an executable program file. Also good.
  • the data storage device 300 does not necessarily hold each data for a long period of time, and may be a device that functions as an e-mail transmission server, for example.
  • the data storage device 300 functions as a part of the email transmission server, other email data sent from one or more terminal devices (not shown) via the communication network 200 Whether or not a particular type of information is included in the e-mail data by the information analysis apparatus 100 according to the third exemplary embodiment before being sent to a terminal device or e-mail receiving server (not shown). May be confirmed.
  • the CPU 102 executes processing according to the program 105 stored in the main memory 101.
  • the program 105 is an information analysis program for executing the processing of the text data extraction unit 21, the keyword extraction unit 22, the table record estimation unit 23, the data classification unit 24, and the result display unit 26 shown in FIG. Therefore, the operations of these units are realized by the CPU 102.
  • the program 105 may be stored in a portable storage medium that can be read by the CPU 102.
  • the data storage device 103 stores at least the keyword dictionary 27 shown in FIG. 12, the correspondence information 501 of the classification rule storage unit 4a, and the division criteria. Further, as described above, data to be subjected to information analysis may be stored. In this case, the CPU 102 refers to the data stored in the data storage device 103.
  • the communication device 104 is an interface with the CPU 102 communication network 200.
  • the CPU 102 refers to the data stored in the data storage device 300.
  • the input device 106 is an information input device such as a keyboard or a mouse, for example, and instructs the CPU 102 to execute or stop the processing and display the processing result.
  • the CPU 102 causes the output device 107 to display and output the processing result. Further, when the information analysis apparatus 100 includes a printer (not shown), the CPU 102 may output the processing result to a print sheet by the printer.
  • the information analysis apparatus 100 may be replaced with the table record estimation apparatus 10 shown in FIGS. 1 and 2 to realize an information classification system.
  • the information analysis device 100 since the information analysis device 100 is connected to the data storage device 300 via the communication network 200, the information analysis device 100 does not need to have a data storage device. .
  • the information analysis device 100 can be connected to a plurality of data storage devices 300 via the communication network 200, availability and the like are improved against disasters and failures.
  • the information angle analysis device 1 0 0 includes a specific type of information in the e-mail data. It is possible to confirm whether or not predetermined information is included in the information transmitted or received via the network.
  • the present invention includes a set of keywords indicating personal information, financial information, etc. from a large number of files in various description formats stored in a web server, file server, terminal device, etc. in the organization. It can be applied to in-house information management systems that clarify the types and number of personal information and financial information contained in the files, and is effective in supporting information security audits and information asset management.
  • the present invention is also capable of accurately detecting an inventory document including equipment information by detecting data including a large number of keyword sets such as product name, date, price, and storage location. It can also be applied to a data search system based on the data content.
  • Embodiments of the information classification apparatus, information classification method, and information classification program according to the present invention are listed below.
  • the labeling unit in the information classification device of the present invention replaces two or more adjacent character strings of the same type with one label.
  • the information classification apparatus may further include a correspondence information storage unit that stores correspondence information that defines a correspondence relationship between the type of the extracted character string and a label that replaces the character string.
  • the Ravenorizing unit replaces the extracted character string with a label for each type based on the correspondence information.
  • the label appearance pattern estimation unit in the information classification device of the present invention sequentially estimates the appearance pattern while capturing the missing label between the preceding and following appearance patterns.
  • the character information extraction unit in the information classification device of the present invention includes an extraction information storage unit that stores extraction information for extracting a character string from the character information of the data. Based on the extraction information, the character information extraction unit stores the character information from the character information of the data. Extract columns.
  • the information classification apparatus according to the present invention may further include a division criterion storage unit for storing a predetermined division criterion.
  • the character information extraction unit divides the set of character strings extracted based on the extraction information into a plurality of partial character string sets based on a predetermined division criterion, and the labeling unit converts the character string set into the partial character string sets.
  • the included character string is replaced with a label for each type, and the label appearance pattern estimation unit estimates the label appearance pattern using the label string replaced by the labeling unit from the partial 'character string set as input.
  • the information classification device of the present invention as a predetermined division criterion, whether or not the distance between adjacent character strings in the data is greater than or equal to a specified value is set, and based on whether or not the division criterion is satisfied , The power to include each character string in a different set of substrings, or to allow each character string to be included in the same set of substrings.
  • the correspondence information may define the correspondence relationship for the extracted character string with respect to the classification higher than the classified character string type or the lower classification.
  • the information classification device may further include a character information classification unit.
  • the character information classification unit converts each label represented by the estimated appearance pattern into an arbitrary classification of each character string before replacement based on the correspondence information, a higher rank than the arbitrary classification, or from the arbitrary classification.
  • the character string extracted from the data is classified by selecting the matching character information that matches the lower classification and matches the predetermined combination.
  • the character information classification unit in the information classification device of the present invention replaces two or more adjacent character strings of the same type with a single label in the labeling unit if there is a classification condition that is established by a single type of character string.
  • the label string Prior to processing, the label string may be checked against the classification condition, and classification based on the classification condition may be performed.
  • the character information extraction unit in the information classification device of the present invention may include a key dictionary that stores key word information in which a key word extracted as a character string is defined for each type as the extraction information storage unit.
  • the character information extraction unit further includes a data storage unit that stores data such as documents, a text data extraction unit that refers to the data stored in the data storage unit, and extracts text data from the referenced data.
  • a key key that extracts a key word from the extracted text data based on the key information stored in the key dictionary and generates a key string as a character string.
  • a data extraction unit is a data extraction unit.
  • the information classification apparatus of the present invention may further include a result output unit that outputs the classification result.
  • a character string is converted into a series of labels by replacing two or more adjacent character strings of the same type included in the set of extracted character strings with one label. Convert to column.
  • the information classification method of the present invention may further include correspondence information storage processing for storing correspondence information defining a correspondence relationship between the type of the extracted character string and a label that replaces the character string.
  • correspondence information storage processing for storing correspondence information defining a correspondence relationship between the type of the extracted character string and a label that replaces the character string.
  • the extracted character string is replaced with a label for each type based on the correspondence information.
  • the appearance pattern may be sequentially estimated while supplementing the missing label between the preceding and following appearance patterns.
  • the correspondence information may be defined with respect to the extracted character string with respect to a classification higher than or lower than the type of the classified character string.
  • the information classification method may further include character information classification processing.
  • each label represented by the estimated appearance pattern corresponds to an arbitrary classification of each character string before replacement, a higher classification than the arbitrary classification, or a lower classification than the arbitrary classification.
  • the character string extracted from the data is classified by selecting the matching character information that matches the specified combination.
  • the character information classification process in the information classification method of the present invention if there is a classification condition that is satisfied by a single type of character string, two or more adjacent character strings of the same type are replaced with one label in the labeling process.
  • the label string Prior to processing, the label string may be checked against the classification condition, and classification based on the classification condition may be performed.
  • the information classification method of the present invention may further include a process of outputting a classification result.
  • the information classification program according to the present invention replaces a character string into a series of label strings by replacing two or more adjacent character strings of the same type included in the extracted character string set with one label in the label processing. Let the process to convert May be.
  • the information classification program may further execute a correspondence information storage process for storing correspondence information defining a correspondence relationship between the type of the extracted character string and a label for replacing the character string.
  • a correspondence information storage process for storing correspondence information defining a correspondence relationship between the type of the extracted character string and a label for replacing the character string.
  • the label selection process a process of replacing the extracted character string with a label for each type is executed based on the correspondence information.
  • the information classification program according to the present invention may be configured to sequentially execute the appearance pattern estimation while supplementing the missing label between the preceding and following appearance patterns in the label appearance pattern estimation process.
  • the correspondence information may be defined with respect to the extracted character string, with respect to the classification higher than or lower than the classification of the classified character string.
  • the information classification program may further execute character information classification processing.
  • each label represented by the estimated appearance pattern corresponds to an arbitrary classification of each character string before replacement, a higher classification than the arbitrary classification, or a lower classification than the arbitrary classification.
  • the process of classifying the character string extracted from the data is executed by selecting the matching character information that matches the predetermined combination.
  • the information classification program provides that, in the character information classification process, if there is a classification condition that is satisfied by a single type of character string, the same type of adjacent information in the labeling process.
  • the label string Prior to the process of replacing two or more character strings with a single label, the label string may be checked against the classification condition to perform classification according to the classification condition.
  • the information classification program according to the present invention may further execute processing for outputting the result of classification.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

 本発明が適用された表レコード推定装置は、入力したデータからテキストデータを抽出し、抽出したテキストデータから表(表データ)の要素となる一連のキーワードを取得する機能を有する表要素列抽出部と、該表要素列抽出部によって取得した個々のキーワードを分類ルール格納部に格納された対応情報に基づいてその種類別にラベル付けする機能を有する表要素ラベル化部と、該表要素ラベル化部によって種類別に付されたラベルの列から1単位レコードを構成するラベル順列を推定し、当該ラベル順列をレコード推定結果として出力する機能を有するラベル出現パタン推定部とを含む。

Description

明 細 書 情報分類装置、 情報分類方法、 及び情報分類プログラム 本発明は、 2 0 0 6年 5月 2 6日に提出された日本国特許出願第 2 0 0 6 - 1 4 6 1 4 8号及び 2 0 0 7年 5月 1 0日に提出された日本国特許出願第 2 0 0 7 - 1 2 5 6 1 2号に基づき、 且つ、 その優先権の恩恵を主張するものであり、 そ の開示は、 参照することによりここにその全体を組み入れる。 技術分野
本発明は、 潜在的に表形式となりうるキーワード列から個々のレコードを推定 する情報分類装置、 情報分類方法、 及び情報分類プログラムに関する。 背景技術
現在の一般的な企業に代表される殆どの組織には、 人事情報や顧客情報、 財務 情報、 設備情報などをそれぞれ 1件または複数件まとめて記載した文書が大量に 存在する。 今般、 個人情報保護法の施行や日本版 S O X法 (Sarbanes - Oxley ac t) 制定の動きなどにより、 それら組織内文書の多くは以前より厳密に洗い出し て分類し、 管理.保護する必要性が高まってきている。 1個人のみに関する顧客 情報や 1部門のみに関する財務情報が記載された文書に比べ、 複数の顧客情報や 財務情報がまとめて記載された文書は、 漏洩や逸失による被害が一般的に大きい ため、 より重要な文書と考えられる場合が多い。 また、 顧客情報や財務情報など のような特定種類の情報を多数記載する場合、 通常は表形式によって個々の情報 が列挙されるため、 表形式を用いた文書中から顧客情報や財務情報などを正しく 検出できることは、 情報管理上重要である。
しかし、 表形式を用いた文書を構成する表データの記述方法は、 文書ファイル のフォーマットや表の構成の仕方によって千差万別である。 例えば、 ある文書は マイクロソフト社の E x c e 1というソフトウエアが用いられることによって、 E x c e 1プック形式という専用の表形式で表データが記述される。 一方、 別の ある文書は W e bブラウザで閲覧するために H TM L (Hyper Text Markup Lang uage) 形式という表形式で記述されるため、 H TM L専用のタグを使って表デー タが記述される。 このように、 文書中の表データはそれぞれのファイル形式専用 の構造情報を用いて記述され、 さらに個々の表データによっても要素の構成が異 なる。
このため、 様々な形式で記述された表データやレコードを文書から検出する従 来の手法は、 例えば特許文献 1 (特開 2 0 0 3 - 1 5 0 6 2 4号公報) に開示さ れている。 特許文献 1には、 H TM L文書を対象とした場合は T A B L Eタグや T Rタグなどを手掛かりに表データの構造を解析し、 同様に前述の E x c e 1な どによる文書を対象とした場合はその E X c e 1などのソフトゥヱァ専用の構造 解析方法を用いて表データを抽出する手法が開示されている。 また、 明確な表と しての区切り線がなくテキストエディタで要素を列挙したような表データの記述 方法もあるが、 これは例えば特許文献 2 (特開平 9 _ 2 8 2 2 0 8号公報) に開 示されている。 特許文献 2には、 表データを構成するレコードの先頭や末尾を識 別するためのテキストデータのパタンを予め与えておくことで、 個々のレコード を識別して表データの要素を抽出する手法が開示されている。
しかし、 上記従来の手法は以下に示すような問題点を有する。
第 1の問題点は、 様々なファイル形式に対応する表構造解析方法を予め個別に 用意しておくことは、 ファイル形式の詳細な仕様が公開されていない場合もある ため、 一般に容易ではないことである。
第 2の問題点は、 ファイルの拡張子が同じであっても文書を作成するソフトゥ エアやファイル形式自体のパージョンが異なると、 表データなどの構造記述方法 が異なってくる場合があるということであり、 さらに、 将来の新たなファイル形 式への対応をその都度行う必要があるということである。
第 3の問題点は、 フアイル形式ではなくテキストデータの記述パタンを使つて レコードを検出する従来の方法は、 ファイル形式には依存しないものの、 予め 個々の表データにおけるレコードの記述パタンを全て知っておく必要があるため. 多くの人やシステムによって記述された多種多様な表データを含む文書に当該従 来の方法を適用することは困難であるということである。
本発明の例示的な目的は、 データのフアイル形式や表データを構成するレコー ドの識別パタンが予め分からない場合でも、 精度良く表データを構成する個々の レコードを推定する情報分類装置、 情報分類方法、 及び情報分類プログラムを提 供することにある。 発明の開示
本発明によれば、 文字情報を含むデータの構成を解析する情報分類装置が提供 される。 この情報分類装置は、 データの文字情報から所定の文字列を抽出する文 字情報抽出部と、 抽出した各文字列を、 文字列の分類を表すラベルに置き換える ことによって、 文字列を一連のラベル列に変換するラベル化部と、 ラベル列内に 繰り返し出現するラベルの出現パタンを推定するラベル出現パタン推定部とを備 える。
なお、 上記の情報分類装置と、 該情報分類装置と通信ネットワークを介して接 続され、 該通信ネットワークを通じて取得したデータを格納する少なくとも 1つ のデータ蓄積部を含む情報分類システムを提供することができる。 この場合、 前 記情報分類装置における前記文字情報抽出部は、 前記データ蓄積部に格納された 前記データの文字情報から所定の文字列を抽出する。
本発明によればまた、 文字情報を含むデータの構成を解析する情報分類方法が 提供される。 この情報分類方法は、 データの文字情報から所定の文字列を抽出し、 抽出した各文字列を、 文字列の分類を表すラベルに置き換えることによって、 文 字列を一連のラベル列に変換し、 ラベル列内に繰り返し出現するラベルの出現パ タンを推定する。
本発明によれば更に、 コンピュータに、 文字情報を含むデータの構成の解析を 実行させるための情報分類プログラムが提供される。 この情報分類プログラムは、 コンピュータに、 データの文字情報から所定の文字列を抽出する文字情報抽出処 理と、 抽出した各文字列を、 文字列の分類を表すラベルに置き換えることによつ て、 文字列を一連のラベル列に変換するラベル化処理と、 ラベル列内に繰り返し 出現するラベルの出現パタンを推定するラベル出現パタン推定処理とを実行させ る。
以上のような本発明によれば、 ラベルの出現パタンに基づいて、 文字情報を含 むデータの構成を推定できる。 つまり、 本発明による情報分類装置について言え ば、 データの文字情報から所定の文字列を抽出する文字情報抽出部と、 抽出した 各文字列を、 文字列の分類を表すラベルに置き換えることによって、 文字列を一 連のラベル列に変換するラベル化部と、 ラベル列内に繰り返し出現するラベルの 出現パタンを推定するラベル出現パタン推定部とを含む。 これにより、 データの ファイル形式や表を構成するレコードの識別パタンが予め分からない場合や、 個々のレコードの要素が部分的に欠損している不完全な表を対象とする場合や、
1レコードが複数行から構成されている場合においても、 ラベルの出現パタンか らデータの分類に基づいた構成を精度良く推定することができる。 図面の簡単な説明
図 1は、 本発明による情報分類装置の第 1の例示的な実施例である、 表レコー ド推定装置の機能構成を示すプロック図である。
図 2は、 図 1に示された表レコード推定装置のハードウエア構成を示すブロッ ク図である。
図 3は、 図 1に示された表レコード推定装置の動作を示すフローチャートであ る。
図 4は、 図 1に示された表レコード推定装置の第 1の例において入力されるテ キストデータに含まれる表データの例を示す説明図である。
図 5は、 第 1の例におけるキーヮードの種類別ラベルの例を示す説明図である。 図 6は、 第 1の例において表データを構成するキーヮード列から置き換えたラ ベル列から表デ一タのレコード構成を表すラベル列を推定する一連の流れを示し た説明図である。
図 7は、 第 1の例において最終的なレコード推定結果の出力情報を説明する図 である。
図 8は、 図 1に示された表レコード推定装置の第 2の例において表データを構 成するキーヮード列から置き換えたラベル列から表データのレコード構成を表す ラベル列を推定する一連の流れを示した説明図である。
図 9は、 図 1に示された表レコード推定装置の第 3の例において入力されるテ キストデータに含まれる表データの例を示す説明図である。
図 1 0は、 第 3の例におけるキーワードの種類別ラベルの例を示す説明図であ る。
図 1 1は、 本発明の第 2の例示的な実施例において入力されるテキストデータ の例を示す説明図である。
図 1 2は、 本発明による情報分類装置の第 2の例示的な実施例である、 情報角军 析装置の構成を示すプロック図である。
図 1 3は、 第 2の例示的な実施例におけるキーワード辞書の例を示す説明図で ある。
図 1 4は、 第 2の例示的な実施例における分類ルールの例を示す説明図である。 図 1 5は、 第 2の例示的な実施例において入力されたテキストデータから抽出 されたキーヮード列の例を示す説明図である。
図 1 6は、 第 2の例示的な実施例において表データを構成するキーヮード列か ら置き換えたラベル列から表デ一タのレコード構成を表すラベル列を推定する一 連の流れを示した説明図である。
図 1 7は、 第 2の例示的な実施例における出力データの例を示す説明図である。 図 1 8は、 本発明による情報分類装置の第 3の例示的な実施例を示し、 本発明 による情報分類装置を用いて情報分類システムを構成した場合の構成例を示すブ ロック図である。
図 1 9は、 第 2の例示的な実施例における表レコード推定部及びデータ分類部 の別の動作例を示すフローチャートである。
図 2 0は、 第 2の例示的な実施例における分類ルールの他の例を示す説明図で ある。 図 2 1は、 第 2の例示的な実施例において入力されるテキストデータの例を示 す説明図である。
図 2 2は、 第 2の例示的な実施例による分類結果の例を示す説明図である。 例示的な実施例の説明
[第 1の例示的な実施例]
本発明の第 1の例示的な実施例を、 図面を参照して説明する。
(第 1の例示的な実施例の構成)
図 1は、 本発明による情報分類装置の第 1の例示的な実施例である、 表レコー ド推定装置の機能構成を示すプロック図である。
図 1を参照すると、 表レコード推定装置 1 0は、 表要素列抽出部 (表要素列抽 出手段) 1と、 表要素ラベル化部 (表要素ラベル化手段) 2と、 ラベル出現パタ ン推定部 (ラベル出現パタン推定手段) 3と、 分類ルール格納部 (分類ルール格 納手段) 4と、 分割基準格納部 (分割基準格納手段) 5とを備える。
ここで、 表要素列抽出部 1は、 データを入力してテキストデータを抽出する機 能と、 抽出したテキストデータから表 (表データ) の要素となる一連のキーヮー ドを取得する機能を有する。 なお、 表要素列抽出部 1によってテキストデータを 抽出されるデータは、 例えば、 表形式の文書や実行プログラムファイル等を対象 として含んでいてもよく、 データの種類に特に制限はない。
すなわち、 表要素列抽出部 1は、 入力されたデータから抽出したテキストデー タを参照することによって、 表 (表データ) を構成しうる要素集合を当該テキス トデータから抽出する機能を有する。
表要素列抽出部 1においてデータからテキストデータを抽出する方法としては、 データからレイァゥト情報や表データの S線情報などの表示制御用情報 (例えば H TM L文書におけるタグ情報) を取り除くことによってテキストデータを抽出 する方法や、 A S C I Iや J I Sなど特定種類の文字コードに合致するバイナリ データを抽出する方法などがある。 後者の方法では、 対象とするデータはワード プロセッサやテキストエディタなどで作成された文書ファイルに限らず、 テキス トデータを内部に含みうる実行プログラムファイルなども対象とすることができ る。
また、 表要素列抽出部 1は、 分割基準格納部 5に格納された分割基準に基づい て、 抽出したキーヮードが同じ表データを構成するキーヮードであるか否かを判 断する。 表要素列抽出部 1は上述した文字情報抽出処理を実行するものであり、 文字情報抽出手段と呼ばれても良!/、。
表要素ラベル化部 2は、 表要素列抽出部 1によって取得した個々のキーヮード を分類ルール格納部 4に格納された対応情報に基づいてその種類別にラベル付け する機能を有する。
すなわち、 表要素ラベル化部 2は、 テキス トデータから抽出された 1つの要素 集合について、 分類ルール格納部 4に格納された対応情報に基づいて各要素を種 類別のラベルに置き換えることにより、 当該要素集合を一連のラベル列に変換す る機能を有する。 表要素ラベル化部 2は上述したラベル化処理を実行するもので あり、 ラベルィヒ手段と呼ばれても良い。
ラベル出現パタン推定部 3は上述したラベル出現パタン推定処理を実行するも のであり、 表要素ラベル化部 2によって種類別に付されたラベルの列から 1単位 レコードを構成するラベル順列を推定し、 当該ラベル順列をレコード推定結果と して出力する機能を有する。
すなわち、 ラベル出現パタン推定部 3は、 得られたラベル列から同一種類のラ ベルが出現する繰り返しパタンを検出し、 1回の繰り返しパタン分の単位ラベル 列を 1単位の情報を表すレコードと判定する機能を有する。
分類ルール格納部 4は、 各種のキーヮ一ドとラベルとの対応闋係を示す対応情 報 (分類ルール) を格納する機能を有する。 分類ルール格納部 4は上述した対応 情報格納処理を実行するものであり、 対応情報格納手段と呼ばれても良レ、。
分割基準格納部 5は、 抽出したキーヮードが同じ表データに属するか否かの基 準を示す分割基準を格納する機能を有する。
図 2は、 表レコード推定装置 1 0のハードウエア構成を示すブロック図である。 図 2を参照すると、 表レコード推定装置 1 0は、 一般的なコンピュータと同様 のハードウエア構成によって実現することができる。 表レコード推定装置 10は、 CPU (C e n t r a l P r o c e s s i n g Un i t) 1 1、 RAM (R a n d om Ac c e s s M e m o r y) 等のメインメモリであり、 データの 作業領域やデータの一時退避領域に用いられる主記憶部 1 2を含む。 表レコード 推定装置 10はまた、 液晶ディスプレイ、 プリンタやスピーカ等の出力手段 (ま とめて提示部 13と呼ぶ) 、 キーボードやマウス、 スキャナ等の入力手段 (まと めて入力部 14と呼ぶ) を含む。 表レコード推定装置 10は更に、 周辺機器と接 続してデータの送受信を行うインタフェース部 15、 ROM (Re a d On 1 y Memo r y) , 磁気ディスク、 半導体メモリ等の不揮発性メモリから構成 されるハードディスク装置である補助記憶部 16、 上記各構成要素を相互に接続 するシステムバス 17を備えている。
表レコード推定装置 10は、 後述される動作を含む上記各機能を実現するプロ グラムを糸且み込んだ、、 LS I (L a r g e S c a l e I n t e g r a t i o n) 等のハードウエア部品からなる回路部品を実装して上記機能をハードウエア 的に実現することは勿論として、 上記した各構成要素の各機能を提供するプログ ラムを、 コンピュータ上の C PU 1 1で実行することにより、 ソフトウェア的に 実現することができる。
すなわち、 CPUl 1は、 補助記憶部 16に格納されているプログラムを、 主 記憶部 12にロードして実行し、 表レコード推定装置 10の動作を制御すること により、 上述した各機能をソフトウェア的に実現する。 なお、 プログラムは、 C PU1 1で読み出し可能な可搬型の記憶媒体に記憶されても良い。
後述される第 2の例示的な実施例や第 3の例示的な実施例における情報解析装 置も、 表レコード推定装置 10と同様のハードウェア構成を備えることによって、 所定の機能をハードウユア的又はソフトウェア的に実現することができる。
(第 1の例示的な実施例の動作)
図 3は、 表レコード推定装置 10の動作を説明するためのフローチャートであ る。
表レコード推定装置 1 0は、 図 3に示すような手順で表のレコードを推定する。 まず、 表要素列抽出部 1が、 入力されたデータからテキストデータを抽出し (ス テツプ S 1 0 1 ) 、 抽出したテキストデータから 1つの表データを構成する一連 のキーワード列を、 キーワード集合 (部分文字列集合) として取得する (ステツ プ S 1 0 2 ) 。
ステップ S 1 0 2におけるキーワード列の取得方法としては、 例えば表要素列 抽出部 1内の記憶部に予め用意した辞書に含まれるキーヮードと合致する文字列 がテキストデータ中に見つかれば、 その文字列を抽出する方法や、 または、 テキ ストデータの形態素解析を行ない、 固有名詞のうち氏名や地名など文字情報の種 類が特定できるものを全て抽出する方法がある。 これらの方法の他にも、 正規表 現などで定義した一定のパタンに合致する文字列を抽出することで、 電話番号や メールアドレス、 会社名、 学校名、 特定の形式を持つ製品名などを取得する方法 などがある。
また、 1つの表データを構成する範囲の上記キーワード列の区切りは、 例えば、 隣り合うキーワード間の距離で判断することができる。 すなわち、 分割基準とし て同じ表データに含まれるキーワード間の最大許容距離 (容量) を 1 0 0バイト とすると、 テキストデータから抽出されたあるキーワードとその次の抽出された 別のキーワードとの間の距離がデータ長で 1 0 0パイト以内であれば、 表要素列 抽出部 1は、 分割基準に基づいて、 それら 2つのキーワードが同じ表データを構 成する 1つのキーヮード集合 ( 1つの部分文字列集合) であると判断する。
次に、 表要素ラベル化部 2が、 ステップ S 1 0 2で得られた 1つの表データを 構成するキーヮード列を分類ルール格納部 4に格納された対応情報に基づいてそ れぞれ種類別のラベルに置き換える (ステップ S 1 0 3 ) 。
分類ルール格納部 4において、 例えば、 キーワードの内、 氏名は A、 住所は B とレヽうように予めキーヮードの種類と対応するラベルを定義しておくと、 表要素 ラベル化部 2によって山田や鈴木といった名前は Aというラベルに、 京都府や名 古屋市といった地名は Bというラベルに置き換えられる。 このような置換処理を 全てのキーワードに適用すると、 一連のキーワード列はステップ S 1 0 3におい てラベル列となる。 次に、 表要素ラベル化部 2が、 ステップ S 103で得られたラベル列の中で、 隣り合うラベルが同じ種類のラベルであった場合、 それらを 1つのラベルにまと める (ステップ S 104) 。 例えば、 AABBBCというラベル列はまとめられ て AB Cというラベル列になる。
ここで、 ステップ S 103で各キーワードをラベルに置き換える際、 あるキー ヮードを置き換えた場合のラベルが、 当該キーヮードの直前のキーヮードの置き 換え後のラベルと同じであれば、 その当該キーヮードの置き換えた場合のラベル を削除することによって、 表要素ラベルィヒ部 2がステップ S 103とステップ S 104を同時に処理できる。
以上のようにして、 ステップ S 104によって 2つ以上同じ種類のラベルが連 続しないラベル列ができると、 ラベル出現パタン推定部 3が、 そのラベル列の先 頭からラベルを読み込んで (検出して) いき、 既に検出したラベルと同一の種類 のラベルを 2度目に検出したとき、 その直前までの一連のラベルを候補レコード として記憶する (ステップ S 105) 。 例えば、 「ABCABDCA ' · ·」 と いうラベル列があった場合、 先頭から A、 B、 Cと読み込み、 次にまた Aを検出 した時点で、 その直前までのラベル列 「ABC」 を最初の候補レコードとする。 その後、 ラベル出現パタン推定部 3は、 2度目の Aから再ぴ 、 Bと読み込む が、 ここからはステップ S 105で記憶した候補レコード 「ABC」 と比較しな がら読み込む。 例えば、 ABの次に新たなラベル Dを検出すると、 候補レコード 上でも ABの次にラベル Dを挿入し、 新たな候補レコードを 「ABDC」 として 記憶する (ステップ S 106) 。
その後、 ラベル出現パタン推定部 3は、 例えば、 Dの次に Cを検出し、 さらに 3度目の Aを検出すると、 ステップ S 1 06で記憶した新たな候補レコード 「A BDC」 との差異は無いことを理由として、 当該新たな候補レコード 「ABD C」 を上記のようにそのまま後段のステップで利用する。
以降、 ラベル出現パタン推定部 3は、 同様に最新の候補レコードとステップ S 104によつて得られたラベル列中のラベルを順に比較しながら、 候捕レコード を更新していき、 ステップ S 104によって得られたラベル列の最後まで読み込 んだ結果得られた最新の候補レコードを、 その表データのレコード構成を表すラ ベル列と推定 (判定) する (ステップ S 1 0 7 ) 。
(第 1の例示的な実施例の効果)
第 1の例示的な実施例によれば、 データのファイル形式や表データを構成する レコードの識別パタンが予め分からない場合でも、 表データを構成する個々のレ コードについての種類及び構成順序を精度良く推定することができるため、 デー タ中から顧客情報や財務情報などの所定の情報を正しく検出することができる。 その理由は、 以下の通りである。 表レコード推定装置 1 0が、 入力されたデータ からテキストデータを抽出し、 抽出したテキストデータから一連のキーヮードを 抽出する。 この場合、 様々なファイル形式に影響されず、 しかも、 予め個々の表 データにおけるレコードの記述パタンを全て知っておくことを必要としない。 そ して、 多くの人やシステムによって記述された多種多様な表データを含むデータ から抽出した一連のキーヮードを、 キーヮードの種類に対応付けられたラベルに 置き換える。 続いて、 隣接する同一種類のラベルをまとめることによって生成し たラベル列についての同一種類のラベルが繰り返し出現する繰り返しパタンに基 づいて、 1回の繰り返しパタン分の単位ラベル列を 1単位の情報を表すレコード と判定する。
(第 1の例示的な実施例の第 1の例)
第 1の例示的な実施例の第 1の例を、 図面を参照して説明する。 第 1の例は、 本発明を上記第 1の例示的な実施例に適用したものであり、 第 1の例示的な実施 例をより具体的な例によって説明するものである。 なお、 第 1の例の構成及び動 作の概略は上記第 1の例示的な実施例の構成及び動作の概略と同様であるため、 重複する部分については適宜省略して説明する。
(第 1の例の動作)
第 1の例において、 あるデータ中に図 4に示すような表データ 4 0 1が記述さ れていたとする。 前述の表要素列抽出部 1を用いて、 この表データ 4 0 1を構成 する文字列をテキストデータとして抽出し、 さらに、 図 5に示した氏名や地名な どいずれかの種類に合致するキーワードを当該テキストデータから抽出する (図 3のステップ S 101〜S 102参照) 。
さらに、 図 5に示した各種のキーヮードとラベルとの対応関係を示す対応情報 501力 例えば氏名であれば、 ラベル Aを適用することで、 抽出したキーヮー ド列を前述の表要素ラベルィヒ部 2によりラベル列に置き換える (図 3のステップ S 103参照) 。
すなわち、 図 4の表データ 401からは、 表要素列抽出部 1によって、 2行目 から、 氏名 (山田太郎) 、 氏名 (山田花子) 、 地名 (東京都) 、 地名 (港区) 、 メーノレアドレス ( t a r o @ s amp 1 e. c om) というキーワード列が抽出 され、 3行目から、 氏名 (田中次郎) 、 地名 (大阪府) 、 地名 (大阪市) 、 ±也名
(北区) 、 電話番号 (06 -XXXX-XXXX) 、 メールァドレス (t a n a k a @ a b c . n e t) とレヽぅキーワード列が抽出され、 4行目から、 氏名 (小 林三郎) 、 氏名 (小林良子) 、 電話番号 (XX— XXXX— XXXX) というキ 一ワード列が抽出される (図 3のステップ S 102参照) 。 続いて、 図 5に示し た対応情報 501に基づいて、 表要素ラベル化部 2によって、 これがラベル列
{AABB CABBBDCAAD} に置換される (図 3のステップ S 103参
"昭、ヽノ
図 6は、 図 3に示したフローチャートに対応させ、 表データを構成するキーヮ 一ド列から置き換えたラベル列から表データのレコード構成を表すラベル列を推 定する一連の流れを示した説明図である。
まず、 図 4の表データから表要素列抽出部 1によって抽出されたキーワード列 (図 3のステップ S 102参照) が図 5に示した対応関係に基づいて表要素ラベ ル化部 2によって初期ラベル列 (ステップ S 601) に置き換えられる (図 3の ステップ S 1 03参照) 。 得られた初期ラベル列について、 隣り合うラベルで同 じ種類のラベルを 1つにまとめると (図 3のステップ S 1 04参照) 、 ラベル列 {ABCABDCAD} が得られる (ステップ S 602) 。
ラベル出現パタン推定部 3がこのステップ S 602で得られたラベル列 { A B CAB D CAD} を、 上記第 1の例示的な実施例で説明した通り、 先頭から順に 読み込んでゆくと (図 3のステップ S 105参照) 、 最初の候補レコード 「AB C」 が得られる (ステップ S 6 0 3 ) 。 さらに、 上記第 1の例示的な実施例と同 様にして (図 3のステップ S 1 0 6参照) 2つめの候補レコード 「A B D C」 が 得られる (ステップ S 6 0 4 ) 。 図 6のステップ S 6 0 4では、 最初の候補レコ ード 「A B C」 に対して、 2つめの候補レコード 「A B D C」 にはあって最初の 候補レコード 「A B C」 には無いラベル Dに対応する位置に NU L L値を示すァ スタリスク 「*」 を配置している。 以降、 アスタリスク 「*」 表記のラベルは実 際には存在しないが候捕レコードとの対応上要素が抜けているラベルを表すもの とする。
次いで、 図 6において、 上記第 1の例示的な実施例と同様に、 ステップ S 6 0 2で得られたラベル列の左端を先頭として 3度目のラベル Aから順にラベルを読 み込むと、 Aの次には Dが検出される。 この時の最新の候tレコードは 「A B D C」 であるため (ステップ S 6 0 4参照) 、 ラベル出現パタン推定部 3は、 3つ めのレコードにラベル B相当の要素が欠如しているものと判断し、 そのまま次の ラベル Dをラベル列から検出された Dと対応付ける。 なお、 欠如していると判断 されたラベル Bは、 図 6において、 前述の方針に従いァスタリスク 「*」 が仮の ラベルとして記載されている。 また、 この例のラベル列は 2度目に検出された D で終了しているため、 ラベル出現パタン推定部 3が、 最新の候補レコード 「A B D C」 の最後のラベル Cも 3つめのレコードから欠如しているものと推定 (判 定) することから、 前述の方針に従い図 6においてアスタリスク 「*」 で表現さ れている (ステップ S 6 0 5 ) 。
以上のステップにより、 ラベル出現パタン推定部 3は、 候補レコード 「A B D C」 を最終的なレコード推定結果とする {ステップ S 6 0 6 (図 3ステップ S 1 0 7参照) } 。
なお、 推定結果のレコードは、 ラベル出現パタン推定部 3によって、 元のラベ ル列からその要素となるラベルを 1つも漏らすことなく、 当該ラベル列を 1っ以 上のレコードに分割する。
図 7は、 最終的なレコード推定結果の出力情報を説明する図である。
図 7は、 ステップ S 6 0 6において最終的なレコード推定結果とされた 「A B D C」 を、 図 5に示した対応情報 5 0 1に基づきキーワードの種類に対応付けて 示した出力情報 7 0 1を説明する図である。 図 7を参照すると、 出力情報 7 0 1 に基づいて表データのレコード構成を推定することができる。
(第 1の例の効果)
第 1の例による表レコード推定装置 1 0の動作にかかる一連の表レコード推定 方法においては、 テキストデータ上のキーワード列を、 対応関係を示す対応情報 に基づいてラベル列に 1対 1に置き換えることによって、 1次元のラベル列のみ からレコードを推定する。 このため、 見かけ上の表データがどのような構造にな つているかには依存することなく、 また、 キーワード列内において各種類のキー ヮードが出現することもあれば出現しないこともあるような場合であっても、 レ コードを推定することができる。
第 1の例によれば、 例えば、 図 4に示した表データが 1行目に {氏名、 連名、 住所 } を、 2行目に {電話番号、 メールアドレス } をそれぞれ記載した 2行 1組 のレコード構成であつたとしても、 そこから得られるラベル列は図 6のステップ S 6 0 1で得られるラベル列と同じであるため、 表データの構造が相違してもレ コード推定結果に影響しないという効果を奏する。
(第 1の例示的な実施例の第 2の例)
次に、 第 1の例示的な実施例の第 2の例について説明する。 第 2の例は、 上記 第 1の例の変形例であり、 構成及び動作の概略が上記第 1の例示的な実施例の構 成及び動作の概略と同様であるため、 第 1の例と相違する点を中心に説明する。
(第 2の例の動作)
図 8は、 図 6の変形例を示し、 図 3に示したフローチャートに対応させ、 表デ 一タを構成するキーワード列から置き換えたラベル列から表データのレコード構 成を表すラベル列を推定する一連の流れを示した説明図である。
まず、 表要素列抽出部 1によって抽出されたキーワード列が図 5に示した対応 関係に基づいて表要素ラベルイ匕部 2によって初期ラベル列に置き換えられ (ステ ップ S 8 0 1 ) 、 得られた初期ラベル列について、 隣り合うラベルで同じ種類の ラベルを 1つにまとめると、 ラベル列 { A B C B D C B D } が得られたとする (ステップ S 802) 。
ラベル出現パタン推定部 3は、 ステップ S 802で得られたラベル列 {ABC BDCBD} を、 上記第 1の例示的な実施例と同様に、 先頭から順に読み込んで ゆく。 この場合、 「A→B→C→B」 と検出した時点で、 「B」 のラベルが 「C」 のラベルの後、 「A」 のラベルが検出されることなく再度出現しているた め、 既に検出したラベルと同一の種類のラベルを 2度目に検出したこととなる。 この場合、 ラベル出現パタン推定部 3は、 その直前までの一連のラベル 「AB C」 を候補レコードとして記憶する (ステップ S 105参照) 。 すなわち、 ラベ ル出現パタン推定部 3は、 「ABCB」 は 「ABC」 と 「B」 で異なるレコード に属すると判断し、 最初の候補レコードを 「ABC」 と推定する (ステップ S 8 03) 。
この場合、 図 6を参照し、 ステップ S 803と同様にすると、 ラベル出現パタ ン推定部 3は、 候補レコード 「ABDC」 を最終的なレコード推定結果とする (ステップ S 804〜ステップ S 806) 。
(第 2の例の効果)
第 2の例による表レコード推定装置 10の動作にかかる一連の表レコード推定 方法によれば、 例えば、 先頭の 「A」 のような、 ラベル列を読み込む際に基準と するラベルがラベル列内の各レコードに常には出現しない場合であっても、 第 1 の実施例と同様の効果を達成することができる。
(第 1の例示的な実施例の第 3の例)
第 1の例示的な実施例の第 3の例を、 図面を参照して説明する。 第 3の例は、 第 1の例や第 2の例の変形例であり、 入力する表データの構成をより上位の構成 又はより下位の構成によって分類するものである。 なお、 第 3の例は、 構成及び 動作の概略が上記第 1の例示的な実施例の構成及び動作の概略と同様であるため、 第 1の例や第 2の例と相違する点を中心に説明する。
(第 3の例の構成)
図 9は、 図 4の変形例を示し、 図 9に示す表データ 901は、 「住所」 につい て、 「住所」 のより下位の概念を示す分類として 「都道府県」 及び 「市区町村」 を対応付け、 「メールアドレス」 及ぴ 「電話番号」 について、 「メールァドレ ス」 及ぴ 「電話番号」 のより上位の概念としての分類である 「連絡先」 を対応付 けたものである。 また、 図 1 0は、 図 5の変形例を示し、 図 1 0に示す対応情報 1 0 0 1は、 「電話番号」 (ラベル D ) 及ぴ 「メールアドレス」 (ラベル C ) に ついて、 「電話番号」 (ラベル D) 及ぴ 「メールアドレス」 (ラベル C ) のより 上位の概念としての分類である 「連絡先」 を示すラベル Xを対応付けたものであ る。 このことは、 「連絡先」 (ラベル X) について、 「連絡先」 (ラベル X) の より下位の概念を示す分類として 「電話番号」 (ラベル D) 及ぴ 「メールァドレ ス」 (ラベル C ) を対応付けているともいえる。
(第 3の例の動作)
第 3の例において、 図 6のステップ S 6 0 6や図 8のステップ S 8 0 6で示さ れる推定結果 「A B D C」 は、 図 9で示される表データ 9 0 1及ぴ図 1 0で示さ れる対応情報 1 0 0 1に基づいて、 「A B X」 が最終的なレコード推定結果とな る。
(第 3の例の効果)
第 3の例によれば、 抽出したキーワードの種類について、 抽出した複数のキー ヮードの種類をまとめたより上位の概念を示す種類、 又は抽出したキーヮードの 種類を詳細に分類したより下位の概念を示す種類に階層的に任意に対応付けるこ とができるため、 入力したデータの構成を任意の階層によつて推定することがで きる。
[第 2の例示的な実施例]
本発明の第 2の例示的な実施例は、 様々なファイル形式に対応する表構造解析 方法を予め個別に用意しておく必要や、 厳密に表データに対応するレコードの記 述パタン等の体裁を持つ必要などがない。 つまり、 第 2の例示的な実施例は、 図 1 1に示したような自然言語文や語句のリストのみからなるテキストデータ 1 1 0 1からでも、 上記第 1の例と同様にレコードを推定できる。 これを、 以下に説 明する。 なお、 第 2の例示的な実施例のうち、 上記第 1の例示的な実施例や第 1 の例と重複する部分については適宜省略して説明する。 (第 2の例示的な実施例の構成)
図 1 2は、 本発明による情報分類装置の第 2の例示的な実施例である、 情報解 析装置の構成を示すプロック図である。
図 1 2を参照すると、 情報解析装置 2 0は、 第 1の例示的な実施例で説明した 表要素列抽出部 1と同様の機能を有する表要素列抽出部 (文字情報抽出手段) 1 aと、 第 1の例示的な実施例で説明した表要素ラベル化部 2及ぴラベル出現パタ ン推定部 3から構成される表レコード推定部 2 3とを含む。 情報解析装置 2 0は また、 表レコード推定部 2 3によって推定されたレコードから得たキーヮードの 種類の列を分類ルール格納部 (対応情報格納手段) 4 aに格納されている分類ル ールと照合してキーヮード列を分類する機能を有するデータ分類部 2 4とを含む。 情報解析装置 2 0は更に、 データ分類部 2 4によって分類された前記キーワード 列が示す所定の結果を表示する機能を有する結果表示部 (結果出力手段) 2 6と、 分類ルールを格納する機能を有する分類ルール格納部 4 aと、 第 1の例示的な実 施例で説明した分割基準格納部 5とを備える。
表要素列抽出部 l aは、 データ格納部 (データ格納手段) 2 5に格納されてい る文書等のデータを参照し、 参照したデータからテキストデータを抽出する機能 を有するテキストデータ抽出部 (テキストデータ抽出手段) 2 1を含む。 表要素 列抽出部 1 aはまた、 テキストデータ抽出部 2 1によって抽出されたテキストデ ータからキーヮード辞書 2 7に格納されているキーヮード情報に基づいてキーヮ 一ドを抽出してキーヮード列を生成する機能を有するキーヮード抽出部 (キーヮ ード抽出手段) 2 2を含む。 表要素列抽出部 1 aは更に、 文書等のデータを格納 する機能を有するデータ格納部 2 5と、 抽出するキーワードを種類毎に定義付け たキーヮード情報を格納する機能を有するキーヮード辞書 2 7とを備える。 キー ワード辞書 2 7は抽出情報格納手段と呼ばれても良く、 キーワード情報は抽出情 報と呼ばれても良い。
キーワード辞書 2 7は、 例えば、 図 1 3に示すような構成で実現される。 すな わち、 キーワードの種類別に、 氏名であれば "上田" や "加藤" といった名字及 ぴ "太郎" や "花子" といった名前 (図示せず) がキーワード辞書 2 7に記載さ れ、 これらのキーヮードに該当したテキスト文字列がキーワード抽出部 2 2によ つてテキストデータから抽出される。
また、 分類ルール格納部 4 aは、 第 1の例示的な実施例における分類ルール格 納部 4に格納されている分類ル ルに加えて、 例えば、 図 1 4に示したような構 成を有する分類ルール 1 4 0 1を格納することによって実現される。
図 1 4を参照すると、 「自部門連絡先」 という分類ルールは、 所属に該当する キーワードが "製品開発部" であったレコードのみに合致する。 一方、 「他部門 連絡先」 という分類ノレールは、 何らかの所属を含む (前述の例ではラベル Eを含 む) ことを示す "所属! = "NU L L " " という条件に加えて、 所属に該当する キーワードが "製品開発部" ではないことを示す "所属! = "製品開発部" " と いう条件を共に満たした場合のみに合致する。
情報解析装置 2 0は、 図 1 4に示したような分類ルール 1 4 0 1に基づいて、 抽出されたキーワードをラベルに置き換えることによって、 後述する図 1 7に示 すような、 抽出したキーヮードのより詳細な分類を示す分類付きのレコード件数 を表示することができる。
(第 2の例示的な実施例の動作)
情報解析装置 2 0は、 まず、 データ格納部 2 5に格納されているデータを、 テ キストデータ抽出部 2 1を用いて参照し、 各デ タからテキストデータを抽出す る。 テキストデータ抽出部 2 1におけるテキストデータの抽出方法としては、 上 述したように、 データからレイァゥト情報や表データの S線情報などの表示制御 用情報 (例えば H TM L文書におけるタグ情報) を取り除くことによってテキス トデータを抽出する方法や、 A S C I Iや J I Sなど特定種類の文字コードに合 致するバイナリデータを抽出する方法などがある。 後者の方法では、 対象とする データはヮードプロセッサやテキストエディタなどで作成された文書フアイルに 限らず、 テキストデータを内部に含みうる実行プログラムファイルなども対象と することができる。
次いで、 キーワード抽出部 2 2が、 テキストデータ抽出部 2 1によって抽出さ れたテキストデータから、 キーワード辞書 2 7に定義した特定種類のキーワード を抽出し、 キーワード列を生成する。 次いで、 表レコード推定部 2 3力 第 1の 例示的な実施例における図 3などで説明した手順で各キーヮードのラベル化とレ コード推定を行う。 データ分類部 2 4は、 表レコード推定部 2 3によって推定さ れたレコードから得たキーヮードの種類の列を分類ルール格納部 4 aの分類ルー ルと照合して所定の組み合わせに適合するものを適合文字情報として選択するこ とによって前記キーヮード列の分類を行い、 その結果を結果表示部 2 6で表示す る。 データ分類部 2 4は上述した文字情報分類処理を実行するものであり、 文字 情報分類手段と呼ばれても良!、。
第 2の例示的な実施例によれば、 図 1 1に示したテキストデータ 1 1 0 1から、 図 5に示したキーヮードの種類と対応するラベルの定義 (対応関係を示す対応情 報 5 0 1 ) に基づいて表要素列抽出部 1 aによってキーワードを抽出すると、 図 1 5に示すようなキーヮードのリスト 1 5 0 1が得られる。
図 1 5に示すキーワードのリスト 1 5 0 1では、 各行に、 テキストデータから 抽出したキーワード、 当該キーワードの検出位置、 当該キーワードと直前のキー ワード間の距離をそれぞれこの順で記載している。 なお、 キーワードの抽出位置 は、 テキストデータの先頭からのバイト数及ぴキーワードの末尾のバイト数によ つて表している。 ただし、 日本語文字 1文字は 2バイト、 英数字記号 1文字は 1 ノ ィ トとする。
ここで、 分割基準を 1 0 0バイトとすると、 図 1 1に示したテキストデータ 1 1 0 1及び図 1 5に示すキーヮードのリスト 1 5 0 1では、 全てのキーヮード間 の距離が 1 0 0バイト以下である。 このため、 表要素列抽出部 1 aは、 「山田さ ん」 に関する当該キーワードから 「高橋さん」 に関する当該キーワードの全てが 同じ表データを構成するものとして判断する。
抽出したキーワード列を図 5に示した対応情報 5 0 1に基づいて表レコード推 定部 2 3内の表要素ラベルィヒ部 2によってラベル列に置き換えた結果は、 図 1 6 のステップ S 1 6 0 1に示されるようになる。 ここから、 先の例と同様に連続し た同じラベルを 1つにまとめ (ステップ S 1 6 0 2 ) 、 ラベル列の先頭から候補 レコードの推定を開始し (ステップ S 1 6 0 3 ) 、 ラベル列の最後まで到達する と (ステップ S I 604) 、 最終的なレコード推定結果としてラベル列 {AB D} が得られる (ステップ S 1605) 。
ここで、 表レコード推定部 23内のラベル出現パタン推定部 3は、 推定した 1 レコード分のラベル列がステップ S 1604に示したような全ラベル列の中に幾 つ含まれているかを数えることによって、 当該表データが何レコード分の情報を 持っているかを計算できる。
情報解析装置 20は、 レコード推定結果に基づいて各レコードに実際に含まれ ているキーヮードのラベル (図 16のステップ S 1604の中で大文字のアルフ ァベットで示したラベル) を分類すると、 例えば、 図 17に示したような分類結 果 1 701を出力することができる。
情報解析装置 20は、 入力されたテキストデータが図 1 1のようなものであつ た場合、 図 1 7の分類結果 1 701の 2行目に示した a b c. d o cのように、 合計 6件の連絡先が検出されたという分類結果を出力することができる。
また、 図 5に示した対応情報 501のキーワードの種類別ラベルには所属を示 すラベル Eを定義している。 第 2の例示的な実施例において、 図 1 1に示すテキ ストデータ 1101とは別に入力されたテキストデータから氏名や地名などを示 すラベルに加えて所属を示すラベルを含むラベル列 (例えば 「ABEC」 ) が得 られた場合、 情報解析装置 20は、 図 1 7に示す分類結果 1701の 3行目や 4 行目のように、 各レコード別に 「自部門連絡先」 や 「他部門連絡先」 、 及び所属 を示すラベルを含まない 「その他連絡先」 などの件数を表示することもできる。 なお、 上記第 3の例で説明したのと同様に、 「自部門連絡先」 及び 「他部門連 絡先」 について、 「自部門連絡先」 及び 「他部門連絡先」 のより上位の概念とし ての分類である 「連絡先」 を対応付けてもよい。 すなわち、 例えば、 「自部門連 絡先」 にラベル 「Y」 、 「他部門連絡先」 にラベル 「Ζ」 を対応付け、 「自部門 連絡先」 (ラベル Υ) 及ぴ 「他部門連絡先」 (ラベル Ζ) について、 「自部門連 絡先」 (ラベル Υ) 及び 「他部門連絡先」 (ラベル Ζ) のより上位の概念として の分類である 「連絡先」 を示すラベル Xを対応付けてもよい。 このことは、 上記 第 3の例で説明したのと同様に、 「連絡先」 (ラベル X) について、 「連絡先」 (ラベノレ X) のより下位の概念を示す分類として 「自部門連絡先」 (ラベル Y) 及び 「他部門連絡先」 (ラベル Z ) を対応付けているともいえる。
また、 例えば、 分割基準を 4 0バイトとした場合や、 テキストデータ内の構成 が変化する箇所とした場合などは、 図 1 1に示したテキストデータ 1 1 0 1及び 図 1 5に示すキーワードのリスト 1 5 0 1は、 表要素列抽出部 1 aによって、 山 田さんに関する当該キーワードから中川さんに関する当該キーワードによって構 成される表データと、 藤井さんに関する当該キーワードから高橋さんに関する当 該キーワードによって構成される表データとに分割される。
(第 2の例示的な実施例の別の動作)
図 1 9を参照して、 本発明の第 2の例示的な実施例における、 さらに別の動作 について説明する。
図 1 9は、 図 1 2に示された第 2の例示的な実施例における表レコード推定部 2 3およびデータ分類部 2 4の動作を示すフローチャートである。
図 1 9のフローチャートによれば、 図 1、 図 3に示した第 1の例示的な実施例 における表レコード推定装置 1 0の動作と同様に、 まず、 入力されたデータから テキストデータを抽出する (ステップ S 1 0 1 ) 。 続いて、 抽出したテキストデ ータから 1つの表データを構成する一連のキーヮード列を取得する (ステップ 1 0 2 )
次に、 表要素ラベル化部 2が、 ステップ S 1 0 2で得られた 1つの表データを 構成するキーヮード列を分類ルール格納部 4 aに格納された対応情報に基づいて それぞれ種類別のラベルに置き換える (ステップ S 1 0 3 ) 。
ステップ S 1 0 3の後、 ここでは図 3のフローチャートとは異なり、 分類ル一 ル格納部 4 aの分類ルールを参照して 1種類のラベルのみで成立するルールがあ れば、 そのルールに適合するラベルをラベル列から検出し、 当該ラベルを当該ル ールが示す分類の 1件とする (ステップ S 1 9 0 1 ) 。
例えば、 分類ルール格納部 4 aの分類ルールが図 2 0に示したような 3種類の ルール集合からなる分類ルール 2 0 0 1で構成されていたとする。 分類ルールの うち、 「その他連絡先」 のルールは "連絡先! = N U L L " と記載されている。 これは 「連絡先」 に該当するラベルが 1つでも存在すれば、 当該ラベルは 「その 他連絡先」 に分類されることを意味する。 このような 「その他連絡先」 のルール は、 「連絡先」 が図 1 0に示した対応情報 1 0 0 1のように定義されている場合、 メールァドレスまたは電話番号のいずれか 1種類のみに相当するラベルのみで当 該ルールを評価でき、 それらのうちいずれか 1つでもあれば 「その他連絡先」 と 判定される。 ただし、 メールアドレスまたは電話番号が他の分類ルールの判定条 件にも含まれる場合は、 判定条件により多くのラベルを必要とする分類ルールを 優先することで、 分類ルール 2 0 0 1における 「他部門連絡先」 や 「自部門連絡 先」 に該当する情報も適切に抽出することができる。
ここで、 ステップ S 1 0 1によって図 2 1に示すようなテキストデータ 2 1 0 1が抽出された場合、 図 2 0の分類ルール 2 0 0 1により、 末尾の 4つの連続し たメールアドレスが 「その他連絡先」 のルールに適合するため、 ステップ S 1 9 0 1によって当該ルールによる分類が行なわれる。
ステップ S 1 9 0 1の処理を終えると、 図 3のステップ S 1 0 4と同様に、 表 要素ラベル化部 2が、 ラベル列の中で隣り合うラベルが同じ種類のラベルであつ た場合、 それらを 1つのラベルにまとめる (ステップ S 1 9 0 2 ) 。 ステップ S 1 9 0 2の後で行なわれるステップ S 1 0 5、 S 1 0 6、 S I 0 7は図 3のフロ 一チャートの説明と同じであるため省略する。
ステップ S 1 0 7までの処理によって 1つの表を構成するキーワード列から一 連のレコードの列が判定できると、 全ラベル列を、 判定した個々のレコードに対- 応する 1つ以上の部分ラベル列に分割する (ステップ S 1 9 0 3 )
ステップ S 1 9 0 3の処理を終えると、 データ分類部 2 4が、 分割した各部分 ラベル列を分類ルール格納部 4 aの各ルールと照合し、 適合したルールのうち最 も多くのラベルが対応付いたルールによつて当該部分ラベル列をそれぞれ分類す る (ステップ S 1 9 0 4 ) 。
図 1 0に示した対応情報 1 0 0 1及ぴ図 2 0に示した分類ルール 2 0 0 1を利 用して、 図 2 1に示したテキストデータ 2 1 0 1をステップ S 1 9 0 4までの処 理により分類すると、 図 2 2に示した表のようになる。 図 2 2において、 所属が 「製品開発部」 で氏名 (田中) とその連絡先である電話番号及びメールアドレス を含んだ 「自部門連絡先」 1件、 所属が 「製品開発部」 ではなく 「企画部」 で氏 名 (山田) とその連絡先である電話番号を含んだ 「他部門連絡先」 1件がそれぞ れ検出できるほか、 メールァドレスの上位の分類である連絡先のみがあれば成立 する 「その他連絡先」 が計 4件検出できる。
(第 2の例示的な実施例の効果)
第 2の例示的な実施例によれば、 自然言語文や語句の羅列からなるテキストデ ータから、 特定種類のキーヮードの組合せを含んだ任意の情報をその件数と共に 検出することが可能になる。 すなわち、 特定種類のキーワードの組合せについて、 例えば、 「自部門連絡先」 や 「他部門連絡先」 など同一階層の複数の組合せを同 時に検出することができる。 また、 「地名」 が 「東京都港区」 及び 「連絡先」 が
「自部門連絡先」 としての 「製品開発部」 など異なる種類、 異なる階層のキーヮ ードの組合せに適合するものを同時に検出することができる。 更に、 分類ルール 1 4 0 1における 「他部門連絡先」 という分類ルールに関し、 上記 "所属! =
"NU L L " " 及び上記 "所属! == "製品開発部" " という条件に加え、 所属に 該当するキーワードが " 「大阪府」 " であることを示す "所属 = "大阪府" " と いう条件を同時に満たす糸且合せを検出することができる。
以上のような情報解析装置 2 0を利用することにより、 例えば、 個人情報や商 品情報の特徴をキーヮードの種類として定義した辞書を用意することにより、 組 織内の様々な文書 (データ) から個人情報や商品情報を抽出し、 その件数を洗い 出すことで管理を容易にすることができる。 従って、 第 2の例示的な実施例によ る表レコード推定方法とこれを用いた情報解析装置は、 企業などの組織内の資産 管理や情報セキュリティ管理に有用である。 また、 様々な分割基準に基づいて、 入力したテキストデータ 1 1 0 1から作成したキーワードのリスト 1 5 0 1から 単一又は複数の表データを生成することができる。
[第 3の例示的な実施例]
本発明の第 3の例示的な実施例を以下に説明する。 なお、 第 3の例示的な実施 例のうち、 上記第 1、 第 2の例示的な実施例や第 1の例と重複する部分について は適宜省略して説明する。
図 1 8は、 本発明による情報分類装置を用いて情報分類システムを構成した第 3の例示的な実施例を示すプロック図である。 ここでは情報分類装置として情報 解析装置 1 0 0を備えるほ力、 データ蓄積装置 3 0 0を備える。
図 1 8を参照すると、 情報解析装置 1 0 0は、 メインメモリ 1 0 1と、 C P U 1 0 2と、 データ記憶装置 1 0 3と、 通信装置 1 0 4と、 入力装置 1 0 6と、 出 力装置 1 0 7とを少なくとも備え、 第 2の例示的な実施例における情報解析装置
2 0と同様の機能を有する。 情報解析装置 1 0 0は、 通信ネットワーク 2 0 0を 介してデータ蓄積装置 (データ蓄積手段) 3 0 0と接続される。 データ蓄積装置
3 0 0は通信ネットワーク 2 0 0を通じて取得したデータを格納するものであつ て、 情報解析の対象として個人情報や商品情報を含みうるデータを蓄積すること により、 図 1 2に示したデータ格納部 2 5と同様の機能を実現する。
図 1 8ではデータ蓄積装置 3 0 0を 1台のみ示したが、 情報解析装置 1 0 0は 2台以上のデータ蓄積装置 3 0 0に接続されていても良い。 すなわち、 データは 2台以上のデータ蓄積装置に分散して蓄積されていても良い。 さらには、 情報解 祈の対象となるデータの一部または全てが情報解析装置 1 0 0のデータ記憶装置 1 0 3に蓄積されていてもよい。
加えて、 情報解析の対象となるデータは必ずしもワードプロセッサやテキスト エディタなどで作成されたファイルのみに限らず、 テキストデータを内部に含み うるあらゆるファイルであってもよく、 例えば、 実行プログラムファイルであつ ても良い。
また、 データ蓄積装置 3 0 0は、 必ずしも各データを長期間保持するものでな くともよく、 例えば、 Eメール送信サーバとして機能する装置であってもよい。 例えば、 データ蓄積装置 3 0 0が Eメール送信サーバの一部として機能する場合、 通信ネットワーク 2 0 0を介して 1つ以上の端末装置 (図示せず) から送られて きた Eメールデータを他の端末装置や Eメール受信サーバ (図示せず) に送る前 に、 第 3の例示的な実施例における情報解析装置 1 0 0によって特定種類の情報 が当該 Eメールデータに含まれているか否かを確認してもよい。 次に、 第 3の例示的な実施例における情報解析装置 100の構成要素について 説明する。 CPU 102は、 メインメモリ 1 01の記憶するプログラム 105に 従って処理を実行する。 プログラム 105は、 図 1 2に示したテキストデータ抽 出部 21、 キーワード抽出部 22、 表レコード推定部 23、 データ分類部 24、 及び結果表示部 26の処理を実行させる情報解析プログラムである。 従って、 こ れらの各部の動作は、 CPU 102によって実現される。 なお、 プログラム 10 5は、 C P U 102で読み出し可能な可搬型の記憶媒体に記憶されても良い。 データ記憶装置 103は、 少なくとも図 1 2に示したキーワード辞書 27、 分 類ルール格納部 4 aの対応情報 501及び分割基準を記憶する。 また、 前述した ように情報解析の対象となるデータを記憶していても良く、 その場合は C P U 1 02がデータ記憶装置 103に蓄積されたデータを参照する。
通信装置 104は、 CPU 102通信ネットワーク 200との間のインタフエ ースである。 通信ネットワーク 200を介して通信装置 104がデータ蓄積装置 300にアクセスすることで、 CPU102はデータ蓄積装置 300に蓄積され ているデータを参照する。
入力装置 106は、 例えばキーボードゃマウスなどの情報入力装置であり、 C PU 102に対して処理の実行や停止、 処理結果の表示を指示する。 CPU 10 2は、 処理結果を出力装置 107に表示出力させる。 また、 情報解析装置 1 00 がプリンタ (図示せず) を備える場合、 CPU102はプリンタによって処理結 果をプリント用紙に出力してもよい。
第 3の例示的な実施例は、 情報解析装置 100を、 図 1、 図 2に示した表レコ ード推定装置 10と置き換えて情報分類システムを実現するようにしても良い。
(第 3の例示的な実施例の効果)
第 3の例示的な実施例によれば、 情報解析装置 100が、 通信ネットワーク 2 00を介してデータ蓄積装置 300と接続されるため、 情報解析装置 100にお いてデータ蓄積装置を有する必要がない。 また、 情報解析装置 100が、 通信ネ ットワーク 200を介して複数のデータ蓄積装置 300と接続できるため、 災害 や障害等に対し、 可用性等が向上する。 さらに、 通信ネットワーク 200を介し て端末装置から送られてきた Eメールデータを他の端末装置や Eメール受信サー パに送る前に、 情報角军析装置 1 0 0によって特定種類の情報が当該 Eメールデー タに含まれているか否かを確認できる等、 ネットワークを介して送信又は受信さ れる情報内に所定の情報が含まれているか否かを確認することができる。
以上説明してきたように、 本発明によれば、 文書等のデータのファイル形式や 表データを構成するレコードの識別パタンが予め分からない場合でも、 精度良く 表データを構成する個々のレコードを推定できる。 このことから、 本発明は、 組 織内の W e bサーバやファイルサーバ、 端末装置などに蓄積された様々な記述形 式の大量のファイルから、 個人情報や財務情報などを示すキーヮードの組を含ん だファイルとそこに含まれる個人情報や財務情報の種類や件数を明らかにする組 織内情報管理システムに適用でき、 情報セキュリティ監査や情報資産管理の支援 に有効である。 本発明はまた、 製品名、 日付、 価格、 置き場所などのキーワード の組が多数含まれているデータを検出することによって、 設備品情報を含んだ棚 卸し用の文書を精度良く発見できるなど、 データの内容に基づくデータ検索シス テムへの適用も可能である。
以下に、 本発明にかかる情報分類装置、 情報分類方法、 情報分類プログラムの 実施の態様を列挙する。
本発明の情報分類装置におけるラベル化部は、 同一種類の隣り合う 2つ以上の 文字列を 1つのラベルに置き換える。
本発明の情報分類装置は、 更に、 抽出した文字列の種類と文字列を置き換える ラベルとの対応関係を定義した対応情報を格納する対応情報格納部を含んでも良 い。 この場合、 ラベノレ化部は、 対応情報に基づいて、 抽出した文字列を種類別に ラベルに置き換える。
本発明の情報分類装置におけるラベル出現パタン推定部は、 前後の出現パタン 間で欠落したラベルを捕足しながら逐次的に当該出現パタンの推定を行なう。 本発明の情報分類装置における文字情報抽出部は、 データの文字情報から文字 列を抽出するための抽出情報を格納する抽出情報格納部を含み、 抽出情報に基づ いて、 データの文字情報から文字列を抽出する。 本発明の情報分類装置は、 更に、 予め定めた分割基準を格納する分割基準格納 部を含んでも良い。 この場合、 文字情報抽出部は、 抽出情報に基づいて抽出した 文字列の集合を、 予め定めた分割基準に基づいて複数の部分文字列集合に分割し、 ラベル化部は、 部分文字列集合に含まれる文字列を種類別にラベルに置き換え、 ラベル出現パタン推定部は、 部分'文字列集合からラベル化部により置き換えられ たラベル列を入力としてラベルの出現パタンを推定する。
本発明の情報分類装置においては、 予め定めた分割基準として、 データ内での 隣接する文字列間の距離が規定値以上であるか否かを設定し、 分割基準を満たす か否かに基づいて、 各文字列を異なる部分文字列集合に含ませる力 \ 又は、 各文 字列を同一の部分文字列集合に含ませるようにしても良レ、。
本発明の情報分類装置においては、 対応情報は、 抽出した文字列について、 分 類した文字列の種類より上位の分類又はより下位の分類に関しても対応関係を定 義されても良い。 この場合、 情報分類装置は更に、 文字情報分類部を含んでも良 レ、。 文字情報分類部は、 推定した出現パタンで表される各ラベルを、 対応情報に 基づいて置き換え前の各文字列の任意の分類又は該任意の分類より上位の分類あ るいは該任意の分類より下位の分類に対応付け、 所定の組合せに適合する適合文 字情報を選択することによって、 データから抽出した文字列を分類する。
本発明の情報分類装置における文字情報分類部は、 単一種類の文字列で成立す る分類条件があれば、 ラベル化部において同一種類の隣り合う 2つ以上の文字列 を 1つのラベルに置き換える処理の前に、 ラベル列を当該分類条件と照合し、 当 該分類条件による分類を行なうようにしても良い。
本発明の情報分類装置における文字情報抽出部は、 文字列として抽出するキー ヮードを種類毎に定義付けたキーヮード情報を格納するキーヮード辞書を、 前記 抽出情報格納部として含んでも良い。 この場合、 文字情報抽出部は更に、 文書等 のデータを格納するデータ格納部と、 データ格納部に格納されているデータを参 照し、 参照したデータからテキストデータを抽出するテキストデータ抽出部と、 抽出されたテキストデータからキーヮード辞書に格納されているキーヮード情報 に基づいてキーヮードを抽出してキーヮード列を文字列として生成するキーヮー ド抽出部とを含んでも良い。
本発明の情報分類装置は、 更に、 分類の結果を出力する結果出力部を備えても 良い。
本発明の情報分類方法におけるラベル化処理においては、 抽出した文字列の集 合に含まれる同一種類の隣り合う 2つ以上の文字列を 1つのラベルに置き換える ことによつて文字列を一連のラベル列に変換する。
本発明の情報分類方法は、 更に、 抽出した文字列の種類と文字列を置き換える ラベルとの対応関係を定義した対応情報を格納する対応情報格納処理を含んでも 良い。 この場合、 ラベル化処理においては、 対応情報に基づいて、 抽出した文字 列を種類別にラベルに置き換える。
本発明の情報分類方法におけるラベル出現パタン推定処理においては、 前後の 出現パタン間で欠落したラベルを補足しながら逐次的に当該出現パタンの推定を 行なうようにしても良い。
本発明の情報分類方法においては、 対応情報は、 抽出した文字列について、 分 類した文字列の種類より上位の分類又はより下位の分類に関しても対応関係を定 義されても良い。 この場合、 情報分類方法は更に、 文字情報分類処理を含んでも 良レ、。 文字情報分類処理は、 推定した出現パタンで表される各ラベルを、 置き換 え前の各文字列の任意の分類又は該任意の分類より上位の分類又は該任意の分類 より下位の分類に対応付け、 所定の組合せに適合する適合文字情報を選択するこ とによって、 データから抽出した文字列を分類する。
本発明の情報分類方法における文字情報分類処理においては、 単一種類の文字 列で成立する分類条件があれば、 ラベル化処理において同一種類の隣り合う 2つ 以上の文字列を 1つのラベルに置き換える処理の前に、 ラベル列を当該分類条件 と照合し、 当該分類条件による分類を行なうようにしても良い。
本発明の情報分類方法は更に、 分類の結果を出力する処理を含んでも良い。 本発明による情報分類プログラムは、 ラベルィヒ処理において、 抽出した文字列 の集合に含まれる同一種類の隣り合う 2つ以上の文字列を 1つのラベルに置き換 えることによって文字列を一連のラベル列に変換する処理を実行させるようにし ても良い。
本発明による情報分類プログラムは更に、 抽出した文字列の種類と文字列を置 き換えるラベルとの対応関係を定義した対応情報を格納する対応情報格納処理を 実行させても良い。 この場合、 ラベルイ匕処理においては、 対応情報に基づいて、 抽出した文字列を種類別にラベルに置き換える処理を実行させる。
本発明による情報分類プログラムは、 ラベル出現パタン推定処理において、 前 後の出現パタン間で欠落したラベルを補足しながら逐次的に当該出現パタンの推 定を実行させるようにしても良い。
本発明による情報分類プログラムにおいては、 対応情報は、 抽出した文字列に ついて、 分類した文字列の種類より上位の分類又はより下位の分類に関しても対 応関係を定義されても良い。 この場合、 情報分類プログラムは更に、 文字情報分 類処理を実行させても良い。 文字情報分類処理においては、 推定した出現パタン で表される各ラベルを、 置き換え前の各文字列の任意の分類又は該任意の分類よ り上位の分類又は該任意の分類より下位の分類に対応付け、 所定の組合せに適合 する適合文字情報を選択することによって、 データから抽出した文字列を分類す る処理を実行させる。
本発明による情報分類プログラムは、 文字情報分類処理において、 単一種類の 文字列で成立する分類条件があれば、 ラベル化処理において同一種類の隣り合う
2つ以上の文字列を 1つのラベルに置き換える処理の前に、 ラベル列を当該分類 条件と照合し、 当該分類条件による分類を行わせるようにしても良い。
本発明による情報分類プログラムは更に、 分類の結果を出力する処理を実行さ せるようにしても良い。
以上、 幾つかの例示的な実施例、 例をあげて本発明を説明したが、 本発明は必 ずしも、 上記の例示的な実施例、 例に限定されるものでなく、 その技術的思想の 範囲内において様々に変形して実施することができる。

Claims

請 求 の 範 囲
1 . 文字情報を含むデータの構成を解析する情報分類装置において、 前記データの文字情報から所定の文字列を抽出する文字情報抽出手段と、 抽出した各文字列を、 文字列の分類を表すラベルに置き換えることによって、 前記文字列を一連のラベル列に変換するラベル化手段と、
前記ラベル列内に繰り返し出現する前記ラベルの出現パタンを推定するラベル 出現パタン推定手段と、
を含むことを特徴とする情報分類装置。
2 . 前記文字情報抽出手段は、 前記文字列の分類毎に、 出現順が定められた 前記文字列を含む前記データから前記所定の文字列を抽出し、
前記ラベル化手段は、 抽出した各文字列を所定の順序で種類別に前記ラベルに 置き換えることによって、 抽出した文字列を前記一連のラベル列に変換すること を特徴とする請求項 1に記載の情報分類装置。
3 . 前記ラベル化手段は、 同一種類の隣り合う 2つ以上の前記文字列を 1つ の前記ラベルに置き換えることを特徴とする請求項 1又は 2に記載の情報分類装 置。
4 . 更に、 抽出した文字列の種類と前記文字列を置き換える前記ラベルとの 対応閿係を定義した対応情報を格納する対応情報格納手段を含み、
前記ラベル化手段は、 前記対応情報に基づいて、 抽出した文字列を種類別に前 記ラベルに置き換えることを特徴とする請求項 1〜 3のいずれか 1項に記載の情 報分類装置。
5 . 前記ラベル出現パタン推定手段は、 前後の出現パタン間で欠落したラベ ルを補足しながら逐次的に当該出現パタンの推定を行なうことを特徴とする請求 項 1〜 4のいずれか 1項に記載の情報分類装置。
6 . 前記文字情報抽出手段は、 前記データの文字情報から前記文字列を抽出 するための抽出情報を格納する抽出情報格納手段を含み、 前記抽出情報に基づい て、 前記データの文字情報から前記文字列を抽出することを特徴とする請求項 1 〜 5のいずれか 1項に記載の情報分類装置。
7 . 更に、 予め定めた分割基準を格納する分割基準格納手段を含み、 前記文字情報抽出手段は、 前記抽出情報に基づいて抽出した前記文字列の集合 を、 前記予め定めた分割基準に基づいて複数の部分文字列集合に分割し、 前記ラベル化手段は、 前記部分文字列集合に含まれる前記文字列を種類別に前 記ラベルに置き換え、
前記ラベル出現パタン推定手段は、 前記部分文字列集合から前記ラベル化手段 により置き換えられたラベル列を入力としてラベルの出現パタンを推定すること を特徴とする請求項 6に記載の情報分類装置。
8 . 前記予め定めた分割基準として、 前記データ内での隣接する前記文字列 間の距離が規定値以上であるか否かを設定し、
前記分割基準を満たすか否かに基づいて、 各文字列を異なる部分文字列集合に 含ませるか、 又は、 各文字列を同一の部分文字列集合に含ませることを特徴とす る請求項 7に記載の情報分類装置。
9 . 前記対応情報は、 抽出した前記文字列について、 分類した文字列の種類 より上位の分類又はより下位の分類に関しても対応関係を定義され、
更に、 文字情報分類手段を含み、 該文字情報分類手段は、 推定した前記出現パ タンで表される前記各ラベルを、 前記対応情報に基づいて前記置き換え前の前記 各文字列の任意の分類又は該任意の分類より上位の分類あるいは該任意の分類よ り下位の分類に対応付け、 所定の組合せに適合する適合文字情報を選択すること によって、 前記データから抽出した前記文字列を分類することを特徴とする請求 項 4に記載の情報分類装置。
1 0 . 前記文字情報分類手段は、 単一種類の前記文字列で成立する分類条件 があれば、 前記ラベル化手段において同一種類の隣り合う 2つ以上の前記文字列 を 1つの前記ラベルに置き換える処理の前に、 前記ラベル列を当該分類条件と照 合し、 当該分類条件による分類を行なうことを特徴とする請求項 9に記載の情報 分類装置。
1 1 . 前記文字情報抽出手段は、 前記文字列として抽出するキーヮードを種 類毎に定義付けたキーヮード情報を格納するキーヮード辞書を、 前記抽出情報格 納手段として含み、
前記文字情報抽出手段は更に、 文書等のデータを格納するデータ格納手段と、 前記データ格納手段に格納されているデータを参照し、 参.照したデータからテキ ストデータを抽出するテキストデータ抽出手段と、 抽出されたテキストデータか ら前記キーヮード辞書に格納されているキーヮード情報に基づいてキーヮードを 抽出してキーワード列を前記文字列として生成するキーワード抽出手段と含むこ とを特徴とする請求項 6に記載の情報分類装置。
1 2 . 更に、 前記分類の結果を出力する結果出力手段を含むことを特徴とす る請求項 9又は 1 0に記載の情報分類装置。
1 3 . 請求項 1〜1 2のいずれか 1項に記載の情報分類装置と、
前記情報分類装置と通信ネットワークを介して接続され、 該通信ネットワーク を通じて取得したデータを格納する少なくとも 1つのデータ蓄積手段を含む情報 分類システムであって、
前記情報分類装置における前記文字情報抽出手段は、 前記データ蓄積手段に格 納された前記データの文字情報から所定の文字列を抽出することを特徴とする情 報分類システム。
1 4 . 文字情報を含むデータの構成を解析する情報分類方法であって、 前記データの文字情報から所定の文字列を抽出する文字情報抽出処理と、 抽出した各文字列を、 前記文字列の分類を表すラベルに置き換えることによつ て、 前記文字列を一連のラベル列に変換するラベル化処理と、
前記ラベル列内に繰り返し出現する前記ラベルの出現パタンを推定するラベル 出現パタン推定処理と、
を含むことを特徴とする情報分類方法。
1 5 . 前記ラベルィヒ処理においては、 前記抽出した文字列の集合に含まれる 同一種類の隣り合う 2つ以上の前記文字列を 1つの前記ラベルに置き換えること によつて前記文字列を前記一連のラベル列に変換することを特徴とする請求項 1 4に記載の情報分類方法。
1 6 . 更に、 抽出した文字列の種類と前記文字列を置き換える前記ラベルと の対応関係を定義した対応情報を格納する対応情報格納処理を含み、 前記ラベル化処理においては、 前記対応情報に基づいて、 抽出した文字列を種 類別に前記ラベルに置き換えることを特徴とする請求項 1 4又は 1 5に記載の情 報分類方法。
1 7 . 前記ラベル出現パタン推定処理においては、 前後の出現パタン間で欠 落したラベルを補足しながら逐次的に当該出現パタンの推定を行なうことを特徴 とする請求項 1 4〜 1 6のいずれか 1項に記載の情報分類方法。
1 8 . 前記対応情報は、 抽出した前記文字列について、 分類した文字列の種 類より上位の分類又はより下位の分類に関しても対応関係を定義され、
更に、 文字情報分類処理を含み、 該文字情報分類処理は、 推定した前記出現パ タンで表される前記各ラベルを、 前記置き換え前の前記各文字列の任意の分類又 は該任意の分類より上位の分類又は該任意の分類より下位の分類に対応付け、 所 定の組合せに適合する適合文字情報を選択することによって、 前記データから抽 出した前記文字列を分類することを特徴とする請求項 1 6に記載の情報分類方法。
1 9 . 前記文字情報分類処理においては、 単一種類の前記文字列で成立する 分類条件があれば、 前記ラベル化処理において同一種類の隣り合う 2つ以上の前 記文字列を 1つの前記ラベルに置き換える処理の前に、 前記ラベル列を当該分類 条件と照合し、 当該分類条件による分類を行なうことを特徴とする請求項 1 8に 記載の情報分類方法。
2 0 . 更に、 前記分類の結果を出力する処理を含むことを特徴とする請求項 1 8又は 1 9に記載の情報分類方法。
2 1 . コンピュータに、 文字情報を含むデータの構成の解析を実行させるた めの情報分類プログラムであって、
前記データの文字情報から所定の文字列を抽出する文字情報抽出処理と、 抽出した前記各文字列を、 前記文字列の分類を表すラベルに置き換えることに よって、 前記文字列を一連のラベル列に変換するラベル化処理と、
前記ラベル列内に繰り返し出現する前記ラベルの出現パタンを推定するラベル 出現パタン推定処理と、 を実行させるための情報分類プログラム。
2 2 . 前記ラベル化処理においては、 前記抽出した文字列の集合に含まれる 同一種類の隣り合う 2つ以上の前記文字列を 1つの前記ラベルに置き換えること によって前記文字列を一連のラベル列に変換する処理を実行させることを特徴と する請求項 2 1に記載の情報分類プログラム。
2 3 . 更に、 抽出した文字列の種類と前記文字列を置き換える前記ラベルと の対応関係を定義した対応情報を格納する対応情報格納処理を実行させ、 前記ラベル化処理においては、 前記対応情報に基づいて、 抽出した文字列を種 類別に前記ラベルに置き換える処理を実行させることを特徴とする請求項 2 1又 は 2 2に記載の情報分類プログラム。
2 4 . 前記ラベル出現パタン推定処理においては、 前後の出現パタン間で欠 落したラベルを補足しながら逐次的に当該出現パタンの推定を実行させることを 特徴とする請求項 2;!〜 2 3のいずれか 1項に記載の情報分類プログラム。
2 5 . 前記対応情報は、 抽出した前記文字列について、 分類した文字列の種 類より上位の分類又はより下位の分類に関しても対応関係を定義され、
更に、 文字情報分類処理を実行させ、 該文字情報分類処理においては、 推定し た前記出現パタンで表される前記各ラベルを、 前記置き換え前の前記各文字列の 任意の分類又は該任意の分類より上位の分類又は該任意の分類より下位の分類に 対応付け、 所定の組合せに適合する適合文字情報を選択することによって、 前記 データから抽出した前記文字列を分類する処理を実行させることを特徴とする請 求項 2 1〜 2 4のいずれか 1項に記載の情報分類プログラム。
2 6 . 前記文字情報分類処理においては、 単一種類の前記文字列で成立する 分類条件があれば、 前記ラベル化処理において同一種類の隣り合う 2つ以上の前 記文字列を 1つの前記ラベルに置き換える処理の前に、 前記ラベル列を当該分類 条件と照合し、 当該分類条件による分類を行わせることを特徴とする請求項 2 5 に記載の情報分類プログラム。
2 7 . 更に、 前記分類の結果を出力する処理を実行させることを特徴とする 請求項 2 5又は 2 6に記載の情報分類プロダラム。
PCT/JP2007/060741 2006-05-26 2007-05-21 情報分類装置、情報分類方法、及び情報分類プログラム WO2007139039A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008517918A JP5126541B2 (ja) 2006-05-26 2007-05-21 情報分類装置、情報分類方法、及び情報分類プログラム
EP07744175A EP2028598A4 (en) 2006-05-26 2007-05-21 DEVICE, METHOD AND CLASSIFICATION OF INFORMATION PROGRAM
US12/302,483 US9025890B2 (en) 2006-05-26 2007-05-21 Information classification device, information classification method, and information classification program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006146148 2006-05-26
JP2006-146148 2006-05-26
JP2007-125612 2007-05-10
JP2007125612 2007-05-10

Publications (1)

Publication Number Publication Date
WO2007139039A1 true WO2007139039A1 (ja) 2007-12-06

Family

ID=38778560

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/060741 WO2007139039A1 (ja) 2006-05-26 2007-05-21 情報分類装置、情報分類方法、及び情報分類プログラム

Country Status (4)

Country Link
US (1) US9025890B2 (ja)
EP (1) EP2028598A4 (ja)
JP (1) JP5126541B2 (ja)
WO (1) WO2007139039A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146263A (ja) * 2008-12-18 2010-07-01 Nec Corp データ検査装置、データ検査方法、及びデータ検査プログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100714393B1 (ko) * 2005-09-16 2007-05-07 삼성전자주식회사 텍스트 추출 기능을 갖는 호스트 장치 및 그의 텍스트 추출방법
JP5402099B2 (ja) * 2008-03-06 2014-01-29 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
US8131720B2 (en) 2008-07-25 2012-03-06 Microsoft Corporation Using an ID domain to improve searching
US8255416B2 (en) * 2009-02-11 2012-08-28 Execware, LLC System and method for contextual data modeling utilizing tags
US9405821B1 (en) 2012-08-03 2016-08-02 tinyclues SAS Systems and methods for data mining automation
US9396179B2 (en) * 2012-08-30 2016-07-19 Xerox Corporation Methods and systems for acquiring user related information using natural language processing techniques
US8813242B1 (en) * 2013-02-25 2014-08-19 Mobile Iron, Inc. Auto-insertion of information classification
US9495347B2 (en) * 2013-07-16 2016-11-15 Recommind, Inc. Systems and methods for extracting table information from documents
US11048762B2 (en) 2018-03-16 2021-06-29 Open Text Holdings, Inc. User-defined automated document feature modeling, extraction and optimization
US10762142B2 (en) 2018-03-16 2020-09-01 Open Text Holdings, Inc. User-defined automated document feature extraction and optimization
US11610277B2 (en) 2019-01-25 2023-03-21 Open Text Holdings, Inc. Seamless electronic discovery system with an enterprise data portal
WO2020257973A1 (en) * 2019-06-24 2020-12-30 Citrix Systems, Inc. Detecting hard-coded strings in source code
US11861693B2 (en) * 2021-07-30 2024-01-02 Ramp Business Corporation User interface for recurring transaction management

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282208A (ja) 1996-04-10 1997-10-31 Hitachi Ltd テーブル生成方法
JP2000268033A (ja) * 1999-03-12 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 情報列に対してタグ情報を付与するための方法および装置ならびに同方法が記録される記録媒体
JP2003150624A (ja) 2001-11-12 2003-05-23 Mitsubishi Electric Corp 情報抽出装置および情報抽出方法
JP2004240517A (ja) * 2003-02-03 2004-08-26 Toshiba Corp テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム
JP3705439B1 (ja) * 2004-11-08 2005-10-12 クオリティ株式会社 個人情報探索プログラム,個人情報管理システムおよび個人情報管理機能付き情報処理装置
JP2006146148A (ja) 2004-11-22 2006-06-08 Lg Electronics Inc プラズマディスプレイパネル駆動装置及び方法
JP2007125612A (ja) 2005-10-03 2007-05-24 Toyota Motor Corp 半溶融成形方法および半溶融成形装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW421764B (en) * 1996-05-21 2001-02-11 Hitachi Ltd Input character string estimation and identification apparatus
US6052693A (en) * 1996-07-02 2000-04-18 Harlequin Group Plc System for assembling large databases through information extracted from text sources
US6178396B1 (en) * 1996-08-02 2001-01-23 Fujitsu Limited Word/phrase classification processing method and apparatus
JP3639126B2 (ja) * 1998-01-22 2005-04-20 富士通株式会社 住所認識装置及び住所認識方法
US7233891B2 (en) * 1999-08-24 2007-06-19 Virtural Research Associates, Inc. Natural language sentence parser
WO2002097667A2 (en) * 2001-05-31 2002-12-05 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from web pages, and translation into xml
US7035789B2 (en) * 2001-09-04 2006-04-25 Sony Corporation Supervised automatic text generation based on word classes for language modeling
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
US7072880B2 (en) * 2002-08-13 2006-07-04 Xerox Corporation Information retrieval and encoding via substring-number mapping
EP1551007A4 (en) * 2002-10-08 2008-05-21 Matsushita Electric Ind Co Ltd LANGUAGE MODEL CREATION / CREATION DEVICE, VOICE RECOGNITION DEVICE, LANGUAGE MODEL CREATION METHOD, AND VOICE RECOGNITION METHOD
US20040123233A1 (en) * 2002-12-23 2004-06-24 Cleary Daniel Joseph System and method for automatic tagging of ducuments
JP2006099236A (ja) * 2004-09-28 2006-04-13 Toshiba Corp 分類支援装置、分類支援方法及び分類支援プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282208A (ja) 1996-04-10 1997-10-31 Hitachi Ltd テーブル生成方法
JP2000268033A (ja) * 1999-03-12 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 情報列に対してタグ情報を付与するための方法および装置ならびに同方法が記録される記録媒体
JP2003150624A (ja) 2001-11-12 2003-05-23 Mitsubishi Electric Corp 情報抽出装置および情報抽出方法
JP2004240517A (ja) * 2003-02-03 2004-08-26 Toshiba Corp テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム
JP3705439B1 (ja) * 2004-11-08 2005-10-12 クオリティ株式会社 個人情報探索プログラム,個人情報管理システムおよび個人情報管理機能付き情報処理装置
JP2006146148A (ja) 2004-11-22 2006-06-08 Lg Electronics Inc プラズマディスプレイパネル駆動装置及び方法
JP2007125612A (ja) 2005-10-03 2007-05-24 Toyota Motor Corp 半溶融成形方法および半溶融成形装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AIZAWA A. ET AL.: "Record Dotei Mondai ni Kansuru Kenkyu no Kadai to Genjo (Techniques and Research Trends in Record Linkage Studies)", THE IEICE TRANSACTIONS (INFORMATION AND SYSTEMS I - JOHO SHORI), JAPAN, THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J88-D-I, no. 3, 1 March 2005 (2005-03-01), pages 576 - 589, XP003019704 *
DOI M. ET AL.: "Bunsho Kozo Chushutsu Giho no Kaihatsu (Development of Document Architecture Extraction)", THE IEICE TRANSACTIONS (INFORMATION AND SYSTEMS II - JOHO SHORI), JAPAN, THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J76-D-II, no. 9, 25 September 1993 (1993-09-25), pages 2042 - 2052, XP003019705 *
HOSOMI I. ET AL.: "Bunsho Naiyo Kaiseki to Settei Kensho ni Motozuku Joho Roei Kyoi Bunseki Hoshiki (2) Bunsho Naiyo to Kozo Kaiseki o Mochiita Kimitsu Joho Bunrui (An Information Leakage Risk Evaluation Method Based on Sensitive Document Detection and Security.....)", INFORMATION PROCESSING SOCIETY OF JAPAN DAI 67 KAI (HEISEI 17 NEN) ZENKOKU TAIKAI KOEN RONBUNSHU (3), 2 March 2005 (2005-03-02), pages 35 - 36, XP003019706 *
HOSOMI I.: "Joho Shisan Kanri to Kojin Joho Hogo no Tameno Kimitsu Bunsho Kenshutsu Shuho (Methods of Sensitive Document Detection for Information Asset Management and Personal Information Protection", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU (2006-DD-57), vol. 2006, no. 104, 29 September 2006 (2006-09-29), pages 53 - 60, XP003019707 *
See also references of EP2028598A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146263A (ja) * 2008-12-18 2010-07-01 Nec Corp データ検査装置、データ検査方法、及びデータ検査プログラム

Also Published As

Publication number Publication date
US20090148048A1 (en) 2009-06-11
US9025890B2 (en) 2015-05-05
JPWO2007139039A1 (ja) 2009-10-08
JP5126541B2 (ja) 2013-01-23
EP2028598A1 (en) 2009-02-25
EP2028598A4 (en) 2011-06-15

Similar Documents

Publication Publication Date Title
JP5126541B2 (ja) 情報分類装置、情報分類方法、及び情報分類プログラム
US8983962B2 (en) Question and answer data editing device, question and answer data editing method and question answer data editing program
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
JP5311873B2 (ja) ドキュメント生成装置、ドキュメント生成方法及びプログラム
CN102257487B (zh) 分析事件
US20120297296A1 (en) Contract authoring system and method
CN112132710B (zh) 法律要素处理方法、装置、电子设备及存储介质
JP5731361B2 (ja) 文字列変換方法及び文字列変換プログラム
JP5013081B2 (ja) 情報解析装置、情報解析方法、及び情報解析プログラム
JP2011221894A (ja) セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置
JP5676522B2 (ja) 文字列変換方法及びプログラム
JP6884930B2 (ja) 文書検索装置、文書検索プログラム、文書検索方法
CN111988327A (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
US20200226162A1 (en) Automated Reporting System
US8090750B2 (en) Prompting of an end user with commands
US20080319985A1 (en) Storage medium, data extraction apparatus and method
CN112015773A (zh) 知识库的检索方法、装置、电子设备以及存储介质
JP4272690B1 (ja) 個人情報ファイル判定システム
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP4700637B2 (ja) Web文書分割方法、システム及びプログラム
JP2019086934A (ja) 文書検索装置および方法
CN114462405A (zh) 文本类别的识别方法和装置、存储介质及电子装置
KR100544375B1 (ko) 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체
CN113377946A (zh) 一种文档推送方法、装置、存储介质及电子设备
CN118605877A (zh) 一种应用程序的二进制数据的解析方法、装置、设备及介质

Legal Events

Date Code Title Description
DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07744175

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008517918

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12302483

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2007744175

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE