WO2014049708A1 - 文書分析装置およびプログラム - Google Patents

文書分析装置およびプログラム Download PDF

Info

Publication number
WO2014049708A1
WO2014049708A1 PCT/JP2012/074688 JP2012074688W WO2014049708A1 WO 2014049708 A1 WO2014049708 A1 WO 2014049708A1 JP 2012074688 W JP2012074688 W JP 2012074688W WO 2014049708 A1 WO2014049708 A1 WO 2014049708A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
attribute
category
document
pattern
Prior art date
Application number
PCT/JP2012/074688
Other languages
English (en)
French (fr)
Inventor
泰成 宮部
松本 茂
後藤 和之
秀樹 岩崎
磯部 庄三
Original Assignee
株式会社 東芝
東芝ソリューション株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 東芝, 東芝ソリューション株式会社 filed Critical 株式会社 東芝
Priority to PCT/JP2012/074688 priority Critical patent/WO2014049708A1/ja
Priority to CN201280076053.0A priority patent/CN104718546B/zh
Priority to JP2012544356A priority patent/JP5349699B1/ja
Publication of WO2014049708A1 publication Critical patent/WO2014049708A1/ja
Priority to US14/669,721 priority patent/US20150199427A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • Embodiments of the present invention relate to a document analysis apparatus and program for analyzing a digitized document group.
  • the document as described above has, for example, a plurality of attributes, and each of the attributes has a value of the attribute (hereinafter referred to as an attribute value).
  • the document has attributes such as a text (for example, a summary), an applicant, and an application date.
  • each of the text, applicant, and filing date attributes of the document has an attribute value corresponding to the attribute.
  • attributes of a document those that include text consisting of words (a collection of character strings in the entire sentence) such as the text are text attributes, and values that are not continuous (non-consecutive) like the applicant (
  • An attribute having a (discrete value) as an attribute value is called a discrete value attribute
  • an attribute having an unbroken continuous value as the application date is called a continuous value attribute.
  • the document can be classified into each category based on attribute values of the attribute (words appearing in the text, company that is the applicant, application date, etc.).
  • Japanese Patent Laid-Open No. 2010-61176 is limited to a rule having a bias with all attributes such as a word and a date focused by the user, and there is a case where knowledge suitable for the purpose of the user cannot be acquired. For example, a user wants to know the content of a product that has been frequently inquired at a specific time (ie, the word and date are biased in appearance, but the word and query product are not biased) Combination pattern).
  • Japanese Patent Laid-Open No. 2010-61176 it is limited to rules having all attributes and biases. Therefore, it is impossible to analyze combinations of attributes when there is no bias in the appearance of words as described above. Can not get the knowledge.
  • a problem to be solved by the present invention is to provide a document analysis apparatus and program capable of efficiently obtaining knowledge desired by a user.
  • the document analysis apparatus includes a document storage unit, a pattern storage unit, an acquisition unit, a first determination unit, a second determination unit, and a presentation unit.
  • the document storage means stores a plurality of documents including texts composed of a plurality of words, having a plurality of attributes and including attribute values of the attributes.
  • the pattern storage means stores a plurality of patterns indicating the presence / absence of correlation between a word and each of at least two of the plurality of attributes.
  • the acquisition unit acquires a plurality of words by analyzing texts included in a plurality of documents stored in the document storage unit.
  • the first determination unit For each of the acquired words, the first determination unit includes the word and each of at least two attributes designated by the user among a plurality of attributes of a plurality of documents stored in the document storage unit. The presence or absence of correlation is determined.
  • the second determination unit determines whether a determination result by the first determination unit matches a pattern designated by the user among a plurality of patterns stored in the pattern storage unit.
  • the presenting means presents a word determined that the determination result by the first determining means matches the pattern specified by the user.
  • FIG. 2 is a block diagram showing a hardware configuration of the document analysis apparatus according to the embodiment.
  • 1 is a block diagram mainly showing a functional configuration of a document analysis apparatus 10 according to the present embodiment.
  • 6 is a flowchart showing a processing procedure of the document analysis apparatus 10 according to the present embodiment.
  • the figure for demonstrating the pattern which can be designated in the pattern designation
  • the flowchart which shows the process sequence of the word pattern determination process performed by the word pattern determination process part 141.
  • FIG. The figure for demonstrating the correlation determination process of an object word and a discrete value attribute.
  • the flowchart which shows the process sequence of the analysis word extraction process performed by the analysis word extraction part 142.
  • FIG. The figure for demonstrating the word extracted by the word extraction part 142 for analysis.
  • FIG. The figure which shows an example of the display screen when the view list output by the cross tabulation visualization part 132 is displayed.
  • FIG. 1 is a block diagram showing a hardware configuration of the document analysis apparatus according to the present embodiment.
  • the document analysis device is realized as a hardware configuration for realizing each function of the device or a combination configuration of hardware and software.
  • the software is a program installed in advance from a storage medium or a network and causing the document analysis apparatus to realize its function.
  • the document analysis apparatus 10 includes a storage device 11, a keyboard 12, a mouse 12, a central processing unit 14, and a display 15.
  • the storage device 11 is a storage device that can be read or written from the central processing unit 14, and is, for example, a RAM (Random Access Memory).
  • the storage device 11 stores a program (document analysis program) executed by the central processing unit 14 in advance.
  • the keyboard 12 and the mouse 13 are input devices. For example, various information including data or commands is input to the central processing unit 14 by an operation (user) of the document analysis device 10.
  • the central processing unit 14 is a CPU (processor), for example, and has a function of executing a program stored in the storage device 11 and a function of controlling the execution of each process based on information input from the keyboard 12 or the mouse 13. And a function of outputting the execution result to the display 15.
  • CPU processor
  • the display 15 is a display device, and has a function of displaying and visualizing, for example, each architecture model or feature model being edited.
  • the display 15 has a function of displaying information output from the central processing unit 14.
  • the document analysis apparatus 10 is realized by, for example, a computer to which the document analysis program according to the present embodiment is applied.
  • FIG. 2 is a block diagram mainly showing a functional configuration of the document analysis apparatus 10 according to the present embodiment.
  • the document analysis apparatus 10 includes a document storage unit 100, a category storage unit 110, a pattern storage unit 120, a user interface unit 130, and a word extraction unit 140.
  • the document storage unit 100, the category storage unit 110, and the pattern storage unit 120 are stored in, for example, an external storage device (not shown).
  • the user interface 130 and the word extraction unit 140 are realized by executing a document analysis program stored in the storage device 11 by the computer (central processing unit 14) of the document analysis device 10.
  • the document storage unit 100 stores a plurality of documents to be analyzed by the document analysis apparatus 10.
  • the document stored in the document storage unit 100 includes text composed of a plurality of words. Further, the document stored in the document storage unit 100 has an attribute and includes an attribute value of the attribute.
  • the category storage unit 110 stores category information indicating each of the categories into which a plurality of documents stored in the document storage unit 100 are classified (that is, classification results of the plurality of documents). Specifically, the category storage unit 110 stores a result of classifying a plurality of documents stored in the document storage unit 100 based on, for example, attribute values of attributes of the document.
  • the pattern storage unit 120 stores in advance a plurality of patterns indicating whether or not there is a correlation between, for example, two attributes among the attributes of a plurality of documents stored in the document storage unit 100.
  • the document storage unit 100, the category storage unit 110, and the pattern storage unit 120 are realized using, for example, a file system or a database.
  • the user interface unit 130 is a functional unit realized by using the keyboard 12, the mouse 13, and the display 15, and receives, for example, user input information or instruction information.
  • the user interface unit 130 includes a category display operation unit 131 and a cross tabulation visualization unit 132.
  • the category display operation unit 131 is a screen for presenting to the user the category indicated by the category information and the hierarchical structure of the category (hereinafter, category display). Display on the display 15.
  • the category display operation unit 131 accepts a user operation (designation operation) on the category display screen presented to the user.
  • the user displays, on the category display screen, a document (collection) to be analyzed stored in the document storage unit 100, text included in the document, and, for example, two attributes (first attribute) of the document. And a second attribute) and a pattern indicating the presence or absence of correlation between the word and each of the two attributes.
  • the pattern is specified from a plurality of patterns stored in the pattern storage unit 120 described above.
  • the cross tabulation visualization unit 132 includes a category (first attribute) in which documents to be analyzed are classified based on the attribute value of the first attribute (first attribute) of the two attributes specified by the user. Category).
  • the cross tabulation visualization unit 132 also includes a category in which the document to be analyzed is classified based on the attribute value of the second attribute (second attribute) of the two attributes specified by the user (second category). 2 categories).
  • the cross tabulation visualization unit 32 includes a category generated based on the attribute value of the first attribute of the two attributes specified by the user and a category generated based on the attribute value of the second attribute. Generate a cross tabulation result that includes the number of documents classified in both.
  • the cross tabulation result generated by the cross tabulation visualization unit 32 is displayed on, for example, the display 15 together with the words extracted by the word extraction unit 140 described later. Thereby, the cross tabulation result generated by the cross tabulation visualization unit 32 and the word extracted by the word extraction unit 140 are presented to the user.
  • the word extraction unit 140 includes a word pattern determination processing unit 141 and an analysis word extraction unit 142.
  • the word pattern determination processing unit 141 acquires a plurality of words by analyzing texts included in documents to be analyzed (a plurality of documents stored in the document storage unit 100) designated by the user.
  • the word pattern determination processing unit 141 determines, for each acquired word, whether or not there is a correlation between the word and each of the two attributes specified by the user. The word pattern determination processing unit 141 determines whether the determination result matches the pattern specified by the user. The word pattern determination processing unit 141 extracts words whose determination results match the pattern specified by the user.
  • the analysis word extraction unit 142 calculates the feature degree for each word extracted by the word pattern determination processing unit 141 based on the appearance frequency of the word in the document to be analyzed designated by the user.
  • the analysis word extraction unit 142 also determines, for each word extracted by the word pattern determination processing unit 141, the degree of association based on the co-occurrence of the word and the word extracted by the word pattern determination processing unit 141 other than the word. Is calculated.
  • the analysis word extraction unit 142 extracts words to be presented to the user from the words extracted by the word pattern determination processing unit 141 on the basis of the feature degree and the degree of association calculated for each word.
  • FIG. 3 shows an example of the data structure of a document stored in the document storage unit 100 shown in FIG.
  • the document stored in the document storage unit 100 has a plurality of attributes.
  • the document stored in the document storage unit 100 includes an attribute name and an attribute value in association with each attribute of the document.
  • the document name is an attribute name of the document according to the document type.
  • the attribute value is a value of an attribute that the document has.
  • FIG. 3 shows an example of the data structure of a patent document relating to a digital camera.
  • the document 111 includes a document number for identifying the document 111 that is a patent document, a title and body that are the contents of the document 111, and the document as attribute names of attributes of the document 111. It includes the applicant who applied for a patent concerning the contents of 111, the filing date of the patent application, and the importance of the patent.
  • the document 111 includes an attribute value “d01” in association with, for example, the attribute name “document number”. This indicates that the document number for identifying the document 111 is “d01”.
  • the attribute name “document number” (attribute value associated with) has been described, but the document 111 also includes attribute values associated with attribute names in the same manner for other attributes.
  • the attribute values included in the document 111 in association with the attribute names “title” and “body” include text composed of a plurality of words.
  • the attribute value of the attribute whose attribute name is “body” includes, for example, a summary of the patent document.
  • the document storage unit 100 stores a plurality of documents (patent documents). Further, the document stored in the document storage unit 100 may not have all the attributes of the document 111 shown in FIG. 3 described above, or may have other attributes.
  • a type (type of the attribute value) is predetermined for the attribute of the document. For example, when text is included in the attribute value of the attribute, such as an attribute whose attribute name is “title” and “body”, the type of the attribute whose attribute name is “title” and “body” is a text type. . Further, the attribute type in which the attribute values of the attribute are not continuous, such as the attribute having the attribute names “applicant” and “patent importance”, is a discrete value type. Further, an attribute type having a continuous attribute value of the attribute, such as an attribute having an attribute name “application date”, is a continuous value type.
  • FIGS. 4 to 9 are diagrams showing examples of the data structure of the category information stored in the category storage unit 110 shown in FIG.
  • the category information stored in the category storage unit 110 indicates a category into which the documents stored in the document storage unit 100 are classified.
  • the categories indicated by the category information stored in the category storage unit 110 form a hierarchical structure, for example.
  • a category in which documents stored in the document storage unit 100 are classified is created in advance, and category information indicating the category is stored in the category storage unit 110.
  • the category may be created by clustering a plurality of documents stored in the document storage unit 100, for example.
  • the category information includes a category number, a parent category number, a category name, and a document number. As shown in FIGS. 6, 8, and 9, the category information may include conditions as necessary.
  • the category number is an identifier for uniquely identifying the category.
  • the parent category number indicates a category number for identifying a category (parent category) positioned one level higher than the category identified by the category number in the hierarchical structure.
  • the category name indicates the name of the category identified by the category number.
  • the document number indicates a document number for identifying a document classified into a category identified by the category number.
  • the condition indicates a condition to be satisfied by a document classified into the category identified by the category number.
  • the category information stored in the category storage unit 110 is, for example, a category in attribute name or attribute value unit included in the document stored in the document storage unit 100 (that is, a category corresponding to the attribute name or attribute value). Indicates.
  • FIG. 4 shows an example of the data structure of the category information indicating the category of the root (hereinafter referred to as “root category”) in the category hierarchical structure.
  • the category information 121 includes a category number “c01”, a parent category number “(none)”, a category name “(root)”, and a document number “(none)”.
  • the category information 121 indicates that the category name of the root category identified by the category number “c01” is “(root)”.
  • the parent category number “(none)” indicates that there is no parent category of the category (root category) identified by the category number “c01” in the hierarchical structure.
  • the document number “(none)” indicates that the document is not classified into the root category identified by the category number “c01”. Since the same applies to the document number “(none)” included in the category information described below, the description thereof is omitted.
  • FIG. 5 shows an example of a data structure of category information indicating a category located under the root category in the category hierarchical structure.
  • the category information 122 includes a category number “c02”, a parent category number “c01”, a category name “By Applicant”, and a document number “(None)”.
  • the category information 122 indicates that the parent category of the category identified by the category number “c02” is the category identified by the parent category number “c01” (that is, the root category). Further, it is indicated that the category name of the category identified by the category number “c02” is “by applicant”.
  • category information 122 illustrated in FIG. 5 indicates a category corresponding to the attribute name “applicant” included in the document stored in the document storage unit 100.
  • FIG. 6 shows an example of a data structure of category information indicating a category located at a lower level of the category indicated by the category information 122 shown in FIG. 5 in the category hierarchical structure.
  • the parent category of the category identified by the category number “c21” is the category identified by the parent category number “c02” (that is, the category indicated by the category information 122 shown in FIG. 5). It has been shown. Further, it is indicated that the category name of the category identified by the category number “c21” is “Company A”.
  • the condition “Applicant “ Company A ”” indicates that the document includes “Company A” as the attribute value of the attribute name “Applicant”.
  • the category information 123 illustrated in FIG. 6 indicates a category corresponding to the attribute value “Company A” included in the document stored in the document storage unit 100. That is, the category indicated by the category information 123 shown in FIG. 6 is a category in which documents (patent documents) whose applicant is company A are classified.
  • FIG. 7 shows an example of a data structure of category information indicating a category located under the root category in the category hierarchical structure.
  • the category information 124 includes a category number “c03”, a parent category number “c01”, a category name “by patent importance”, and a document number “(None)”.
  • the category information 124 indicates that the parent category of the category identified by the category number “c03” is the category identified by the parent category number “c01” (that is, the root category). Further, it is indicated that the category name of the category identified by the category number “c03” is “by patent importance”.
  • category information 124 illustrated in FIG. 7 indicates a category corresponding to the attribute name “importance of patent” included in the document stored in the document storage unit 100.
  • FIG. 8 shows an example of a data structure of category information indicating a category located at a lower level of the category indicated by the category information 124 shown in FIG. 7 in the category hierarchical structure.
  • the parent category of the category identified by the category number “c31” is the category identified by the parent category number “c03” (that is, the category indicated by the category information 124 illustrated in FIG. 7). It has been shown. Further, it is indicated that the category name of the category identified by the category number “c31” is “A”.
  • the document is classified.
  • the category information 125 illustrated in FIG. 8 indicates a category corresponding to the attribute value “A rank” included in the document stored in the document storage unit 100. That is, the category indicated by the category information 125 shown in FIG. 8 is a category in which documents (patent documents) in which the importance level of the patent is set to A rank are classified.
  • FIG. 9 shows an example of a data structure of category information indicating a category located at a lower level of the category indicated by the category information 124 shown in FIG. 7 in the category hierarchical structure.
  • the parent category of the category identified by the category number “c32” is the category identified by the parent category number “c03” (that is, the category indicated by the category information 124 shown in FIG. 7). It has been shown. Further, it is indicated that the category name of the category identified by the category number “c32” is “B”.
  • the document is classified.
  • the category information 125 shown in FIG. 9 indicates a category corresponding to the attribute value “B rank” included in the document stored in the document storage unit 100. That is, the category indicated by the category information 126 shown in FIG. 9 is a category in which documents (patent documents) in which the importance level of a patent is set to B rank are classified.
  • the category display operation unit 131 included in the user interface unit 130 of the document analysis apparatus 10 presents the categories constituting the hierarchical structure to the user based on the category information stored in the category storage unit 110.
  • the category display screen is displayed (step S1).
  • the categories constituting the hierarchical structure are displayed based on the category number, category name, and parent category number included in the category information stored in the category storage unit 110.
  • FIG. 11 shows an example of a category display screen.
  • a category display area 150a, a title display area 150b, and a text display area 150c are provided on the category display screen 150 shown in FIG.
  • the category display area 150a the category (its category name) indicated by the category information stored in the category storage unit 110 is displayed in a hierarchical structure.
  • the category display area 150a includes, for example, a “by applicant” category and a “patent importance” category as child categories of the root category (categories positioned one level below the root category). It is displayed.
  • the category display area 150a includes “A company” category, “B company” category, “ “Company C” category and “Company D” category are displayed.
  • the “by applicant” category displayed in the category display area 150a is a category whose category name is “by applicant”, and the same applies to other categories. The same applies to the following description.
  • the “by applicant” category and the “importance of patent” category are attribute names included in the document stored in the document storage unit 100. This is a category corresponding to “applicant” and “importance of patent”.
  • each of the “Company A” category, the “Company B” category, the “Company C” category, and the “Company D” category has attribute values “Company A” and “Company B” whose attribute name is “Applicant”. ”,“ Company C ”, and“ Company D ”.
  • the attribute name is “patent importance”.
  • the category corresponding to the attribute values “A rank”, “B rank”, etc. is displayed.
  • the “by applicant” category, the “importance of patent” category, and the like are displayed for convenience, but other attributes (for example, an attribute whose attribute name is “application date”) are displayed. ) Is also displayed in the same manner.
  • the user can select, for example, one of the categories displayed in the category display area 150a.
  • the title display area 150b a list of titles (attribute values for the attribute name “title” included in the document) classified into the category selected by the user among the categories displayed in the category display area 150a. Is displayed.
  • the “Company A” category is selected from the categories displayed in the category display area 150a, and the title display area 150b lists the titles of documents classified in the “Company A” category. Is displayed.
  • the title display area 150b includes “electronic still camera”, “image processing apparatus and digital camera”, “digital camera”, and “digital camera” as titles of documents classified in the “Company A” category. Is displayed.
  • the user can select, for example, one from the list of document titles displayed in the title display area 150b.
  • the text display area 150c the text of the document with the title selected by the user from the list of document titles displayed in the title display area 150b (the attribute value of the attribute whose attribute name is “Body”) is displayed.
  • “image processing apparatus and digital camera” is selected from the list of titles of documents displayed in the title display area 150b, and the title is displayed in the text display area 150c.
  • the text “Facial expression detection unit detects the smiling face of the subject person in the subject image” is displayed.
  • the user can perform an operation of designating various information via the category display screen (screen as shown in FIG. 11) displayed by the category display operation unit 131.
  • the user has a plurality of documents to be analyzed by the document analysis apparatus 10 (hereinafter referred to as an analysis target document), the text of the analysis target document, and two attributes for which the trend is to be analyzed in combination with the text.
  • an operation for designating a pattern indicating the presence / absence of correlation between a word and each of the two attributes and the number of words extracted based on the pattern hereinafter referred to as the number of extracted words
  • the category display operation unit 131 receives the user's specifying operation when the user performs an operation for specifying various information as described above (step S2).
  • the user can designate the analysis target document by designating the category displayed in the category display area 150 a of the category display screen 150.
  • the analysis target document includes documents classified into all categories located under the root category.
  • a designation operation screen 150d is displayed on the category display screen 150 as shown in FIG.
  • This designation operation screen 150d is provided with a text designation field 150e, an attribute 1 designation field 150f, an attribute 2 designation field 150g, a pattern designation field 150h, an extracted word number designation field 150i, an execution button 150j, and a cancel button 150k.
  • the text designation field 150e it is possible to designate a text from which words are extracted.
  • attribute names in this case, “title” and “body”
  • attribute values including the text that are attributes of the analysis target document are displayed. At least one can be selected.
  • “title” and “body” are designated as texts from which words are extracted.
  • the text included in the attribute values of the attributes whose attribute names are “title” and “body” is designated.
  • attribute 1 designation field 150f and the attribute 2 designation field 150g it is possible to designate two attributes for which the trend is to be analyzed in combination with the text designated in the text designation field 150e (text in the analysis target document).
  • the attribute names other than the attribute name and document number displayed in the text designation column 150e here, “Applicant”, “Application Date”, and “Patent Importance” are displayed, and one of the attribute names can be selected.
  • an attribute having a discrete value type hereinafter referred to as a discrete value attribute is selected.
  • the attribute value 2 designation field 150g for example, an attribute whose type is a continuous value type (hereinafter referred to as a continuous value attribute) is selected.
  • “applicant” is designated in the attribute 1 designation field 150f
  • “application date” is designated in the attribute 2 designation field 150g.
  • the attribute designated in the attribute 1 designation column 150f is referred to as a first attribute
  • the attribute designated in the attribute 2 designation column 150g is referred to as a second attribute.
  • the discrete attribute is designated as the first attribute and the continuous attribute is designated as the second attribute.
  • the discrete attribute is designated as the first and second attributes.
  • continuous value attributes may be designated as the first and second attributes.
  • a pattern (a pattern indicating whether or not there is a correlation between a word and each of the first and second attributes) that the user wants to obtain knowledge from among a plurality of patterns stored in the pattern storage unit 120 described above. ) Can be specified.
  • the patterns that can be specified in the pattern specifying field 150h (that is, a plurality of patterns stored in the pattern storage unit 120) will be described.
  • the pattern indicating the presence / absence of correlation between the word and each of the first and second attributes includes first to fourth patterns.
  • first to fifth patterns each of the first to fifth patterns will be described.
  • the first pattern is a pattern indicating that there is a correlation between a word and a first attribute (for example, a discrete value attribute) and a correlation between the word and a second attribute (for example, a continuous value attribute). It is.
  • a word that has a correlation with the first attribute and a correlation with the second attribute is referred to as a word that matches the first pattern.
  • a word X that matches the first pattern is, for example, an attribute whose attribute name is “applicant” (hereinafter, “applicant”). If the attribute name of the second attribute is an attribute whose application name is “application date” (hereinafter referred to as “application date” attribute), It is a word that represents the technology (contents) that has been applied for.
  • the second pattern is a pattern indicating that there is a correlation between the word and the first attribute and there is no correlation between the word and the second attribute.
  • a word that has a correlation with the first attribute and a correlation with the second attribute is referred to as a word that matches the second pattern.
  • the second pattern will be specifically described with reference to FIG. 15.
  • the first attribute is the “applicant” attribute
  • the second attribute is “ In the case of the “application date” attribute, this is a word that represents the technology (contents) for which a specific applicant has applied regardless of the time.
  • the third pattern is a pattern indicating that there is no correlation between the word and the first attribute, and there is a correlation between the word and the second attribute.
  • a word having no correlation with the first attribute and having a correlation with the second attribute is referred to as a word matching the third pattern.
  • the third pattern will be specifically described with reference to FIG. 16.
  • the first attribute is the “applicant” attribute
  • the second attribute is “ In the case of the “application date” attribute, this is a word representing the technology (contents) that each applicant has applied for at a specific time.
  • the word, the first attribute, and the second attribute may or may not be correlated.
  • the fourth pattern there is no correlation between the word and the first attribute, and there is no correlation between the word and the second attribute, but there is a correlation between the word, the first attribute, and the second attribute. It is a pattern indicating that there is.
  • a word having no correlation with the first attribute and no correlation with the second attribute and having a correlation between the first attribute and the second attribute is referred to as a word matching the fourth pattern.
  • the fourth pattern will be specifically described with reference to FIG. 17.
  • the first attribute is the “applicant” attribute
  • the second attribute is “ In the case of the “application date” attribute, this is a word representing the technology (contents) that the applicant has applied for at each time.
  • a fifth pattern as a pattern indicating whether or not there is a correlation between a word and each of the first and second attributes.
  • the fifth pattern there is no correlation between the word and the first attribute, there is no correlation between the word and the second attribute, and there is also a correlation between the word, the first attribute, and the second attribute. It is a pattern indicating that there is no.
  • words that are not correlated at all, such as the fifth pattern are not useful in document analysis, and thus the fifth pattern is not designated by the user as in the pattern designation field 150h shown in FIG.
  • the above-described first to fourth patterns (simply expressed as 1 to 4 in the pattern designation column 150h shown in FIG. 12) can be designated.
  • “pattern 2 (that is, the second pattern)” is designated as the pattern.
  • the patterns are indicated by numbers.
  • images such as those shown in FIGS. 14 to 17 can be conceptually recognized (that is, knowledge obtained by each pattern is obtained).
  • An image representing an example) may be stored in the pattern storage unit 120 in advance, and the image may be displayed.
  • the extracted word number designation field 150i it is possible to designate the number of extracted words (number of extracted words) as words to be presented to the user among the words that match the pattern designated by the user.
  • the extracted word number designation field 150h for example, “5”, “10”, “20”, “30”, and “40” are displayed as the number of extracted words, and “5” is designated as the number of extracted words. ing.
  • the word pattern determination processing unit 141 included in the word extraction unit 140 executes a word pattern determination process (step S3).
  • a word that matches the pattern specified by the user is selected from a plurality of words included in each text of the analysis target document specified by the user. (Representing word) is extracted. Details of the word pattern determination processing unit 141 will be described later.
  • the analysis word extraction unit 142 executes an analysis word extraction process (step S4).
  • this analysis word extraction process each of the words extracted by the word extraction unit 140 is weighted, and a word having a higher rank is extracted.
  • the number of words designated by the user as the number of extracted words is extracted. Details of the analysis word extraction process will be described later.
  • the cross tabulation visualization unit 132 included in the user interface unit 130 executes a cross tabulation result display process (step S5).
  • a category generated based on the attribute value of the first attribute designated by the user and a category generated based on the attribute value of the second attribute are The result of cross tabulation (cross tabulation result) and the list of words extracted by the analysis word extraction unit 142 are visualized and presented (displayed). The details of the cross tabulation result display process will be described later.
  • step S3 the processing procedure of the above-described word pattern determination process (the process of step S3 shown in FIG. 10) will be described in detail with reference to the flowchart of FIG. Note that the word pattern determination process is executed by the word pattern determination processing unit 141 included in the word extraction unit 140.
  • the word pattern determination processing unit 141 initializes a list of extraction results obtained by the word pattern determination processing (step S11).
  • the word pattern determination processing unit 141 acquires the designated text included in each of the analysis target documents designated by the user. For example, when the title and the body are designated as the designated text, the text contained in the attribute values of the “title” attribute and the “body” attribute included in each of the analysis target documents is acquired.
  • the word pattern determination processing unit 141 performs morphological analysis on the acquired designated text (step S12).
  • the word pattern determination processing unit 141 acquires a set of morphemes (hereinafter referred to as words) based on the morpheme analysis result.
  • the set of words acquired by the word pattern determination processing unit 141 includes independent words such as nouns, verbs, and adjectives, for example.
  • the word pattern determination processing unit 141 acquires one word from the set of words acquired based on the morphological analysis result (step S13).
  • the word acquired in step S13 is referred to as a target word.
  • the word pattern determination processing unit 141 determines the correlation between the target word and the first attribute (step S14). In other words, the word pattern determination processing unit 141 determines whether or not there is a correlation between the target word and the first attribute (that is, whether or not there is a correlation).
  • the process for determining the correlation between the target word and the first attribute differs depending on whether the first attribute is a discrete value attribute or a continuous value attribute. Whether the first attribute is a discrete value attribute or a continuous value attribute is determined based on the type of the first attribute described above.
  • the correlation determination process between the target word and the first attribute when the first attribute is a discrete value attribute (hereinafter referred to as the correlation determination process between the target word and the discrete value attribute) will be described.
  • the bias of the appearance probability of the target word is statistically determined for a specific discrete value (that is, the attribute value of the discrete value attribute) for the category of the classified discrete value attribute. Whether it is significant or not is determined. Specifically, as shown in FIG. 19, when the appearance probabilities of each applicant for the word “smile” are compared, the application probability of a specific applicant (here, Company A) is the appearance probability of another applicant. Is significantly biased. In this case, the word “smile” is determined to have a correlation with the discrete value attribute (first attribute).
  • analysis of variance is used in the above-described correlation determination process between the target word and the discrete value attribute.
  • a set of categories of discrete value attributes (each attribute value thereof) is disC1, disC2,..., DisCa.
  • the set of categories of discrete value attributes is a set of a plurality of categories in which documents to be analyzed are classified based on the attribute values of the discrete value attributes.
  • the set of discrete value attribute categories includes “A company” as the attribute value of the “applicant” attribute among the analysis target documents. Categorized in which documents that include “Company B” as the attribute value of the “applicant” attribute are classified, categories in which documents that include “C company” as the attribute value of the “applicant” attribute are classified, etc. Is included. Note that the above disC1, disC2,..., DisCa are in an exclusive relationship.
  • the number of categories of the discrete attribute is a
  • the analysis target document set is D
  • the number of documents in the analysis target document set is
  • the total sum of squares St is calculated based on the following formula (1).
  • df (t, D) indicates the number of documents that include the target word t in the analysis target document set D in the designated text.
  • CT in the formula (1) is defined by the following formula (2).
  • an inter-group sum of squares (sum of squares of biases of appearance probabilities for each attribute value of the discrete value attribute with respect to the entire set) Sa is calculated based on the following equation (3).
  • df (t, disCi) indicates the number of documents that include the target word t in the designated text among the documents classified into the category disCi of the discrete value attribute.
  • disCi indicates the number of documents classified into the discrete value attribute category disCi.
  • the error variation sum Se is calculated by applying the total sum of squares St and the inter-group sum of squares Sa calculated based on the above formulas (1) and (3) to the following formula (5). .
  • the error variance Ve is calculated by applying the error variation sum Se calculated based on the above equations (5) and (6) and the degree of freedom ⁇ e of the error variation sum to the following equation (8). Is done.
  • the variance ratio Fa is calculated by applying the inter-group variance Va and the error variance Ve calculated based on the above formulas (7) and (8) to the following formula (9).
  • the variance ratio Fa calculated by the equation (9) is the degree of freedom ⁇ a between groups calculated by the equation (4), and the equation (6). Is larger than the value of the F distribution of the degree of freedom ⁇ e of the sum of error fluctuations calculated by the above, the bias of the appearance probability of the target word is significant between the discrete value attributes (category), that is, the target word and the discrete value It is determined that there is a correlation with the attribute (first attribute).
  • the values of the F distribution with the degree of freedom ⁇ a and the degree of freedom ⁇ e may be acquired from, for example, an F distribution table prepared in advance in the document analysis apparatus 10 or may be calculated.
  • the correlation determination process between the target word and the continuous value attribute it is determined whether or not the appearance probability of a word in a specific range of continuous values is statistically significant as compared to other continuous value ranges.
  • the histogram is a graph obtained by dividing a range where continuous values exist into several sections and counting the frequency of appearance of data corresponding to each section. In order to draw a histogram, it is necessary to obtain the number of sections (hereinafter referred to as a series) and the width of the sections (hereinafter referred to as a class width). Here, for example, it is assumed that the series and class width are obtained using the Sturges formula.
  • the series k is calculated based on the following equation (10).
  • a set of categories of continuous value attributes (each attribute value) is set as cv1, cv2,... CvD.
  • max (cv) in Expression (11) indicates the maximum value of the attribute values (that is, continuous values) of the continuous value attribute.
  • min (cv) in equation (11) indicates the minimum value of the attribute values (that is, continuous values) of the continuous value attribute.
  • the significance of the bias in the appearance probability of the word in the class width h calculated based on the equation (11) is obtained.
  • the determination is performed by the same process as the above-described correlation determination process between the target word and the discrete value attribute.
  • a set of continuous value attribute categories (set for each continuous value width h) is generated using the class width h and the attribute value of the first attribute, and the generated continuous value attribute category is generated.
  • a process similar to the above-described correlation determination process between the target word and the discrete value attribute is executed with the set of categories as the set of discrete value attribute categories. Thereby, it is determined whether or not there is a correlation between the target word and the continuous value attribute (first attribute).
  • the set of continuous value attribute categories includes, for example, a category generated for each class width h from the minimum attribute value of the continuous value attribute, and a document corresponding to each class width h (analysis target document). Is included.
  • a document corresponding to the class width h is, for example, a document filed in the period of the class width h when the continuous value attribute is the “application date” attribute (that is, corresponding to the class width h within the period of the class width h). Document that includes the filing date as the attribute value of the “filing date” attribute.
  • the “applicant” attribute is designated as the first attribute as described above with reference to FIG. 12, the above-described correlation determination process between the target word and the discrete value attribute is executed in step S14. Is done.
  • the word pattern determination processing unit 141 determines that the determination result (that is, whether there is a correlation between the target word and the first attribute). Whether or not) matches the specified pattern is determined (step S15).
  • the designated pattern is the above-described second pattern (that is, a pattern indicating that there is a correlation between the word and the first attribute and no correlation between the word and the second attribute).
  • the second pattern since there is a correlation between the word and the first attribute, when the determination result in step S14 is “there is a correlation between the target word and the first attribute” Is determined that the determination result matches the specified pattern. On the other hand, if the determination result in step S14 is “there is no correlation between the target word and the first attribute”, it is determined that the determination result does not match the specified pattern.
  • the second pattern has been described here, the same applies to other patterns.
  • step S14 If it is determined that the determination result in step S14 does not match the specified pattern (NO in step S15), the process in step S21 described later is executed.
  • step S14 determines whether the determination result in step S14 matches the specified pattern (YES in step S15).
  • step S16 determines the correlation between the target word and the second attribute. Note that the process for determining the correlation between the target word and the second attribute is the same as the process in step S14 described above, and thus detailed description thereof is omitted.
  • step S16 the above-described correlation determination process between the target word and the continuous value attribute is executed in step S16. Is done.
  • the word pattern determination processing unit 141 determines whether or not the determination result in step S16 (that is, whether or not there is a correlation between the target word and the second attribute) matches the specified pattern (step S17). ).
  • the designated pattern is the second pattern (that is, a pattern indicating that there is a correlation between the word and the first attribute and there is no correlation between the word and the second attribute).
  • the second pattern since there is no correlation between the word and the second attribute, when the determination result in step S16 is “there is a correlation between the target word and the second attribute” Is determined that the determination result does not match the specified pattern.
  • the determination result in step S14 is “there is no correlation between the target word and the second attribute”, it is determined that the determination result matches the specified pattern.
  • step S16 If it is determined that the determination result in step S16 does not match the specified pattern (NO in step S17), the process in step S21 described later is executed.
  • step S16 when it is determined that the determination result in step S16 matches the specified pattern (YES in step S17), the word pattern determination processing unit 141 causes the target word to appear unevenly depending on the first attribute and the second attribute. It is determined whether there is a correlation between the target word, the first attribute, and the second attribute (step S18). In other words, the word pattern determination processing unit 141 determines whether or not there is a correlation between the target word, the first attribute, and the second attribute (that is, whether there is a correlation).
  • the attribute value (eg, discrete value) of the first attribute and the attribute value (eg, continuous value) of the second attribute are combined. Whether or not the bias of the appearance probability of the target word in each document set (a set of documents including each of the attribute values of the first attribute and each of the attribute values of the second attribute) is statistically significant Is determined.
  • two-way analysis of variance is used in the above-described process for determining the correlation between the target word, the first attribute, and the second attribute.
  • the description will be made assuming that the first attribute is a discrete value attribute and the second attribute is a continuous value attribute.
  • the set of discrete value attribute (first attribute) categories is set to disC1, disC2,..., DisCa, and the number of categories of the discrete value attribute is set to a.
  • a set of continuous value attribute (second attribute) categories (a set of continuous value for each class width) is set as conC1, conC2,..., ConCb, and the number of categories of the continuous value attribute is set as b.
  • the analysis target document set is D
  • the number of documents in the analysis target document set is
  • df (t, D) indicates the number of documents that include the target word t in the analysis target document set D in the designated text.
  • CT in the equation (12) is defined by the following equation (13).
  • N in this formula (13) is defined by the following formula (14).
  • df (t, disCi) indicates the number of documents that include the target word t in the designated text among the documents classified into the category disCi of the discrete value attribute.
  • disCi indicates the number of documents classified into the discrete value attribute category disCi.
  • df (t, conCi) indicates the number of documents including the target word t in the designated text among the documents classified into the continuous value attribute category conCi.
  • conCi indicates the number of documents classified into the continuous value attribute category conCi.
  • df (t, (disCi, conCi) is the word “t” in the designated text among documents classified into both the discrete value attribute category “disCi” and the continuous value attribute category “conCi”.
  • disCiCconCi indicates the number of documents classified into both the discrete value attribute category disCi and the continuous value attribute category conCi.
  • the degree of freedom ⁇ ab of the sum of squares between sets obtained by combining class values of discrete values and continuous values is calculated.
  • (a-1) is the degree of freedom ⁇ a of the sum of squares between discrete values
  • (b-1) is the degree of freedom of the sum of squares between class widths ⁇ b. .
  • the error variance Ve is calculated by applying the error fluctuation sum Se calculated based on the above equations (19) and (20) and its degree of freedom ⁇ e to the following equation (22).
  • the variance ratio Fab is calculated by applying the inter-group variance Vab and the error variance Ve calculated based on the above formulas (20) and (21) to the following formula (23).
  • the variance calculated by the equation (23) If the ratio Fab is larger than the F distribution value of the degree of freedom ⁇ ab calculated by Expression (18) and the degree of freedom ⁇ e calculated by Expression (20), the first attribute (discrete value) and the second attribute It is determined that there is a significant bias in the appearance probability of words between sets in combination with (class value width of continuous values), that is, there is a correlation between the target word, the first attribute, and the second attribute.
  • the values of the F distribution of the degree of freedom ⁇ ab and the degree of freedom ⁇ e may be acquired from, for example, an F distribution table prepared in advance in the document analysis apparatus 10 as described above, or may be calculated. .
  • the word pattern determination processing unit 141 determines the determination result (that is, the target word, the first attribute, and the second attribute It is determined whether or not there is a correlation with the attribute of (2) or not (step S19).
  • the designated pattern is the fourth pattern (that is, there is no correlation between the word and the first attribute, and there is no correlation between the word and the second attribute. And a pattern indicating that there is a correlation between the second attribute and the second attribute. According to the fourth pattern, it is indicated that there is a correlation between the word, the first attribute, and the second attribute. Therefore, the determination result in step S18 is “target word, first attribute, and second attribute”. Is determined to be in agreement with the designated pattern. On the other hand, when the determination result in step S18 is “there is no correlation between the target word, the first attribute, and the second attribute”, it is determined that the determination result does not match the specified pattern.
  • the target word, the first attribute, and the second attribute may or may not be correlated.
  • the designated pattern when the designated pattern is the first to third patterns, it may be determined that the designated pattern matches regardless of the determination result of step S18.
  • the processes of steps S18 and S19 are omitted. Such a configuration may be used.
  • the process of step S20 described later may be executed after it is determined in step S17 that the determination result matches the specified pattern.
  • step S18 If it is determined that the determination result in step S18 does not match the specified pattern (NO in step S19), the process in step S21 described later is executed.
  • the word pattern determination processing unit 141 adds (registers) the target word to the list (step S20).
  • the word added to the list is a word whose correlation with each of the first and second attributes matches the specified pattern.
  • the word pattern determination processing unit 141 performs step S13 described above for all the words (words acquired by performing morphological analysis on the designated text included in the analysis target document) acquired by the word pattern determination processing unit 141. It is determined whether or not the processing of S20 has been executed (step S21).
  • step S21 If it is determined that processing has not been performed for all words (NO in step S21), the process returns to step S13 described above and is repeated.
  • the word pattern determination processing unit 141 outputs the list to the analysis word extracting unit 142 (step S22).
  • a set of words that match the specified pattern is extracted from a plurality of words acquired by performing morphological analysis on the specified text included in the analysis target document.
  • the designated pattern is the second pattern described above
  • the second attribute continuous value
  • a word having no correlation with the attribute “application date” attribute) is extracted.
  • the first attribute is determined by individually determining the correlation with the first attribute, the correlation with the second attribute, and the correlation between the first attribute and the second attribute. If the determination result of the correlation with the attribute does not match the specified pattern, it is not necessary to perform subsequent determination processing for the target word. For this reason, according to the word pattern determination process in the present embodiment, it is possible to speed up the process as compared with the case where it is determined whether or not the pattern matches the specified pattern after determining all the correlations.
  • step S4 the processing procedure of the above-described analysis word extraction process (the process of step S4 shown in FIG. 10) will be described in detail with reference to the flowchart of FIG. Note that the analysis word extraction process is executed by the analysis word extraction unit 142 included in the word extraction unit 140.
  • the analysis word extraction unit 142 performs the following steps for each word registered in the list (hereinafter referred to as an analysis word list) output by the word pattern determination processing unit 141.
  • the processing from S31 to S37 is executed.
  • the analysis word extraction unit 142 acquires one word registered in the analysis word list (step S31).
  • the analysis word extraction unit 142 calculates the feature degree of the word ti representing the content of the designated text based on the appearance frequency of the word ti in the designated text of the analysis target document (step S32).
  • the feature degree calculation processing of the word ti will be specifically described.
  • the feature degree of the word ti is calculated by, for example, TF-IDF.
  • TF-IDF is a typical method for extracting words representing the contents of text, and is characterized by words that frequently appear in a document and do not appear so much in the entire document set. It is considered as a word.
  • TF-IDF is a typical method for extracting words representing the contents of text, and is characterized by words that frequently appear in a document and do not appear so much in the entire document set. It is considered as a word.
  • TF-IDF is a typical method for extracting words representing the contents of text, and is characterized by words that frequently appear in a document and do not appear so much in the entire document set. It is considered as a word.
  • formulas for TF-IDF There are various formulas for TF-IDF. Here, as a typical example, it is assumed that the formula is calculated by the following formula (24).
  • Tf (ti, D) in the equation (25) indicates the number of words ti included in the designated text of the analysis target document set D. Further, df (ti, D) indicates the number of documents including the word ti in the analysis target document set D in the designated text.
  • idf (ti) in the equation (24) is defined by the following equation (26).
  • D is the number of documents in the analysis target document set D.
  • the analysis word extraction unit 142 executes the following steps S33 to S35 for each word registered in the analysis word list.
  • the analysis word extraction unit 142 acquires one word registered in the analysis word list (step S33).
  • the analysis word extraction unit 142 determines whether or not the above-described word ti and the word tj are different (that is, ti ⁇ tj) (step S34).
  • step S34 When it is determined that the word ti and the word tj are not different (that is, the word ti and the word tj are the same) (NO in step S34), the process of step S35 is not executed, and the process of step S36 described later is performed. Is executed.
  • the analysis word extracting unit 142 calculates the degree of association based on the co-occurrence of the word ti and the word tj (step S35). .
  • the degree of association based on the co-occurrence of the word ti and the word tj appears that a plurality of words appear statistically and significantly co-occur with each other, and appear with little co-occurrence with other words.
  • the non-existent word is based on the fact that it is a word representing the contents of the designated text in the analysis target document set.
  • word co-occurrence There is no particular limitation as long as it is a method using word co-occurrence, and for example, mutual information, dice coefficient, self-mutual information, etc. can be used. To do.
  • a word that is a target of co-occurrence with the word ti is a word that matches the same pattern as the word ti, That is, as described above, the word is registered in the analysis word list (word tj).
  • the degree of association is calculated only for the word tj for which the co-occurrence frequency with the word ti is determined to be statistically significant by the chi-square test. The That is, the degree of association is not calculated for the word tj determined that the co-occurrence frequency with the word ti is not statistically significant by the chi-square test.
  • the chi-square test for example, if the value of the chi-square distribution at the 0.5% significance level is greater than 7.88, it is determined to be statistically significant.
  • the chi-square value used by the chi-square test is calculated based on the following equation (27).
  • a1 is df (ti, D), and the number of documents including the word ti in the analysis target document set D in the designated text (that is, the frequency of the word ti in the analysis target document set D). ).
  • B1 is df (tj, D), and indicates the number of documents including the word tj in the analysis target document set D in the designated text (that is, the frequency of the word tj in the analysis target document set D).
  • A2 is
  • B2 is
  • x11 is df ((ti, tj), D), and represents the number of documents including the word ti and the word tj in the analysis target document set D in the designated text (that is, the co-occurrence frequency of the word ti and the word tj). Show.
  • x12 is a1-x11, and the number of documents not including the word ti and the word tj in the document set including the word ti in the analysis target document set D in the designated text (that is, the document not including x11 in the set of words ti) Frequency).
  • x21 is b1-x11, and the number of documents not including the word ti and the word tj in the document set including the word tj in the analysis target document set D in the designated text (that is, the document not including x11 in the set of words tj) Frequency).
  • x22 is a2-x22 and includes the number of documents not including the document set x21 in the document set not including the word ti in the analysis target document set D (that is, including x21 in the set not including the word tj). No document frequency).
  • the mutual information mi (ti) between the word ti and the word tj is calculated based on the following equation (28).
  • the analysis word extraction unit 142 determines whether or not the processing in steps S33 to S35 described above has been executed for all words registered in the analysis word list (step S36).
  • step S36 If it is determined that processing has not been performed for all the words registered in the analysis word list (NO in step S36), the process returns to step S33 described above and is repeated.
  • step S36 when it is determined that the processing has been executed for all the words registered in the analysis word list (YES in step S36), the feature degree calculated in step S32 described above and all the values calculated in step S35 are used.
  • the sum of the degree of association (that is, the degree of association between each word tj and the word ti determined that the co-occurrence frequency with the word ti is statistically significant by the chi-square test) is used as the weight of the word ti (step S37).
  • the feature level and the relevance level are preferably added after being normalized.
  • the analysis word extraction unit 142 determines whether or not the processing in steps S31 to S37 described above has been executed for all the words registered in the analysis word list (step S38).
  • step S38 If it is determined that processing has not been performed for all the words registered in the analysis word list (NO in step S38), the process returns to step S31 described above and is repeated.
  • the analysis word extraction unit 142 sorts the words registered in the analysis word list in the order of the weights of the words (step S39).
  • the analysis word extraction unit 142 outputs the word having the higher weight among the sorted words to the cross tabulation visualization unit 132 included in the user interface unit 130 (step S40). In this case, the analysis word extraction unit 142 outputs the number of words designated by the user as the number of extracted words.
  • each of the words (words registered in the analysis word list) extracted by the word pattern determination processing unit 141 is weighted, and the word is extracted from the words.
  • a word having a high weight that is, a word useful for analysis in the pattern
  • the word output by the analysis word extraction unit 142 is presented to the user by the cross tabulation visualization unit 132.
  • the words extracted by the word pattern determination processing unit 141 are the feature words calculated for each word and the degree of association (that is, the weight of the word). ) To the user.
  • the degree of association is not calculated for the word tj determined to be not statistically significant by the ⁇ square test, the degree of association for such a word tj is calculated. In comparison, more appropriate weighting can be performed.
  • the analysis word list 201 shown in FIG. 21 is an analysis word list (that is, a list output by the word pattern determination process) before the analysis word extraction process is executed.
  • analysis word list 201 it is assumed that a plurality of words including the words “refraction”, “GR”, “consumption”, “SA”, and “microscope” are registered in the analysis word list 201.
  • this analysis word list 201 it is assumed that words are registered in the DF order (in order of the number of documents including the word in the analysis target document set D in the designated text).
  • the words “GR” and “SA” registered in the analysis word list 201 are words that do not represent the contents of the designated text included in the analysis target document.
  • the analysis word list 202 shown in FIG. 21 is an analysis word list after each word registered in the analysis word list 201 is sorted by the weight of the word.
  • the analysis word list 202 is sorted by the weight of each word registered in the analysis word list 201, for example, the words “refraction”, “power”, “consumption”, “Microscope”, “voltage”, etc. are registered at the top.
  • “5” is designated as the number of extracted words described above
  • the five words “refractive”, “power” having the highest weight in the word list for analysis 202, “Consumption”, “microscope”, and “voltage” are extracted, and words that do not represent the contents of the designated text such as the above-mentioned words “GR” and “SA” are not extracted.
  • the cross tabulation result display process is executed by the cross tabulation visualization unit 132 included in the user interface unit 130.
  • the cross tabulation visualization unit 132 initializes a view list that is a return value of the cross tabulation visualization unit 132 (step S41).
  • the cross tabulation visualization unit 132 includes a plurality of classified analysis target documents based on the attribute value of the first attribute (first attribute specified by the user) included in each analysis target document.
  • Category (first category) is generated (step S42). For example, when the first attribute is the “applicant” attribute, the cross tabulation visualization unit 132 generates the category (set) of the discrete value attributes described above. Specifically, the cross tabulation visualization unit 132 generates a category in which analysis target documents including, for example, “Company A” as the attribute value of the “applicant” attribute are classified. A category is similarly generated for other attribute values of the “applicant” attribute (for example, “Company B” and “Company C”).
  • the category generated in step S42 is referred to as a first attribute category.
  • category information indicating the category of the first attribute (hereinafter referred to as the first attribute) for each category of the first attribute.
  • the first attribute category information indicating the category of the first attribute (hereinafter referred to as the first attribute) for each category of the first attribute.
  • the data structure of the category information of the first attribute is as described with reference to FIGS. 4 to 9, and therefore detailed description thereof is omitted. That is, according to the category information of the first attribute, it is possible to specify a document or the like classified into the category of the first attribute.
  • the cross tabulation visualization unit 132 also includes a plurality of classified analysis documents based on the attribute value of the second attribute (second attribute specified by the user) included in each analysis document.
  • a category (second category) is generated (step S43). For example, when the second attribute is the “application date” attribute, the cross tabulation visualization unit 132 generates the category of the continuous value attribute described above. Specifically, as described above, the class width is calculated, and the set of continuous value attribute categories (for each continuous class width) using the class width and the attribute value of the second attribute (that is, the continuous value). Set) is generated. Since the class width is calculated as described above, a detailed description thereof is omitted.
  • the category generated in step S43 is referred to as a second attribute category.
  • category information indicating the category of the second attribute (hereinafter referred to as the second attribute) for each category of the second attribute.
  • the second attribute category information indicating the category of the second attribute (hereinafter referred to as the second attribute) for each category of the second attribute.
  • the data structure of the category information of the second attribute is as described with reference to FIGS. That is, according to the category information of the second attribute, it is possible to specify a document or the like classified into the category of the second attribute.
  • the first attribute category and the second attribute category are generated in steps S42 and S43.
  • the first attribute category for example, discrete value
  • Attribute category for example, the discrete value
  • the second attribute category for example, the continuous value attribute category
  • the cross tabulation visualization unit 132 executes the following steps S44 to S48 for each of the generated first attribute categories.
  • the cross tabulation visualization unit 132 acquires one category information of the first attribute from the category storage unit 110 (step S44).
  • the category of the first attribute indicated by the category information of the first attribute acquired in step S44 is referred to as a target category of the first attribute.
  • the cross tabulation visualization unit 132 executes the following steps S45 to S47 for each of the generated second attribute categories.
  • the cross tabulation visualization unit 132 acquires one category information of the second attribute from the category storage unit 110 (step S45).
  • the category of the second attribute indicated by the category information of the second attribute acquired in step S45 is referred to as a target category of the second attribute.
  • the cross tabulation visualization unit 132 sets the target category and the second attribute of the first attribute.
  • a document set classified into both of the target categories that is, a document set appearing in both categories.
  • the cross tabulation visualization unit 132 specifies the number of documents classified into both the target category of the first attribute and the target category of the second attribute (step S46).
  • the cross tabulation visualization unit 132 adds (registers) the specified number of documents to the view list in association with the target category of the first attribute and the target category of the second attribute (step S47).
  • the cross tabulation visualization unit 132 determines whether or not the processing in steps S45 to S47 described above has been executed for all the generated second attribute categories (step S48).
  • step S48 If it is determined that the process has not been executed for all the second attribute categories (NO in step S48), the process returns to the above step S45 and is repeated.
  • step S48 when it is determined that the processing has been executed for all the second attribute categories (YES in step S48), the cross tabulation visualization unit 132 performs the above steps for all the generated first attribute categories. It is determined whether or not the processing of S44 to S48 has been executed (step S49).
  • step S49 If it is determined that the process has not been executed for all the first attribute categories (NO in step S49), the process returns to the above step S44 and is repeated.
  • the cross tabulation visualization unit 132 sets the word list output to the view list by the analysis word extraction unit 142. (List) is added, and the view list is output (step S50). The contents of the view list are displayed on the display 15 as a cross tabulation result, for example.
  • FIG. 23 shows an example of a display screen when the view list output by the cross tabulation visualization unit 132 is displayed.
  • each category here, “Company A”, “Company B”, “Company C”, and “Company D” of the first attribute (for example, “Applicant” attribute that is a discrete value attribute). ”) Is the vertical axis, the second attribute (for example,“ application date ”attribute which is a continuous value attribute) is the horizontal axis, and the vertical axis category and horizontal axis are in the column where the vertical axis and horizontal axis cross. The number of documents (analysis target documents) classified into both categories is indicated by a circle.
  • represents one application (one document).
  • the boundary of the class width in the continuous value (that is, the display of the category of the continuous value attribute) is omitted for easy understanding.
  • the word list includes five words “refraction”, “power”, and “consumption” extracted by the word extraction unit 142 for analysis. ",” Microscope "and” Voltage "are displayed. Note that the words displayed in the word list are words that match the second pattern (designated pattern) described above.
  • the user can select one of the five words displayed in the word list on the display screen 301 shown in FIG.
  • the cross tabulation result in the document set narrowed down to documents including the word “refractive” in the designated text. Is displayed.
  • the vertical and horizontal axes are crossed in the column of the analysis target document that includes the word “refraction” in the designated text.
  • the (number of) documents classified into both the axis category (first attribute category) and the horizontal axis category (second attribute category) are indicated by circles.
  • the display screen 301 shown in FIG. 23 (and the display screen 302 shown in FIG. 24) has been described as displaying the cross tabulation result and the word list.
  • the word list is displayed on the display screen. It doesn't matter.
  • the user can obtain knowledge of the pattern specified by the user as described above by searching the analysis target document using the words displayed in the word list as keywords.
  • the cross tabulation results are displayed in a scatter diagram, but the cross tabulation results may be displayed as a line graph as shown in FIG. 25, or the cross tabulation as shown in FIG. The result may be displayed numerically.
  • the cross tabulation results shown in FIGS. 23, 24, and 26 are obtained only when the two attributes specified by the user (that is, the first and second attributes) are a combination of a discrete value attribute and a continuous value attribute.
  • the present invention can also be applied to a combination in which both are discrete value attributes or a combination in which both are continuous value attributes.
  • the cross tabulation result shown in FIG. 25 is applicable when at least one of the two attributes designated by the user is a continuous value attribute.
  • a plurality of words are acquired by analyzing text included in the analysis target document, and for each of the acquired words, at least two attributes specified by the word and the user are acquired.
  • Knowledge desired by the user by determining whether or not there is a correlation with each (for example, the first and second attributes) and presenting a word whose determination result matches a pattern (specified pattern) specified by the user Can be obtained efficiently.
  • the feature word and the degree of association calculated for each word for which it is determined that the presence or absence of correlation with each of the two attributes specified by the user matches the pattern specified by the user. Since it is presented based on (that is, the weight of the word), only useful words can be presented to the user even when there are many words determined to match the pattern.
  • the description has been mainly given on the assumption that two attributes (first and second attributes) are designated by the user. However, for example, three or more attributes may be designated.
  • first to third attributes For example, if three attributes (hereinafter referred to as first to third attributes) are designated by the user, the presence / absence of correlation between the word and each of the first to third attributes designated by the user is determined.
  • the pattern shown is specified by the user.
  • the correlation between the word and the first attribute, the correlation between the word and the second attribute, the correlation between the word and the third attribute, the word and the first attribute The correlation between the attribute, the second attribute, and the third attribute is determined, and it is determined whether or not each determination result matches the pattern specified by the user.
  • the method described in the above embodiment is a program that can be executed by a computer as a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), optical disk (CD-ROM, DVD, etc.), magneto-optical disk (MO). ), And can be distributed in a storage medium such as a semiconductor memory.
  • a magnetic disk floppy (registered trademark) disk, hard disk, etc.
  • optical disk CD-ROM, DVD, etc.
  • MO magneto-optical disk
  • the storage medium can store a program and can be read by a computer
  • the storage format may be any form.
  • an OS operating system
  • MW middleware
  • database management software network software, and the like
  • the storage medium in the present invention is not limited to a medium independent of a computer, but also includes a storage medium in which a program transmitted via a LAN, the Internet, or the like is downloaded and stored or temporarily stored.
  • the number of storage media is not limited to one, and the case where the processing in the present embodiment is executed from a plurality of media is also included in the storage media in the present invention, and the media configuration may be any configuration.
  • the computer executes each process according to the present embodiment based on a program stored in a storage medium, and includes a single device such as a personal computer or a system in which a plurality of devices are connected to a network. Any configuration may be used.
  • the computer in the present invention is not limited to a personal computer, but includes an arithmetic processing device, a microcomputer, and the like included in an information processing device, and is a generic term for devices and devices that can realize the functions of the present invention by a program. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 実施形態に係る文書分析装置は、取得手段と、第1の判定手段と、第2の判定手段と、提示手段とを具備する。取得手段は、文書格納手段に格納されている複数の文書に含まれるテキストを解析することによって複数の単語を取得する。第1の判定手段は、取得された単語毎に、当該単語と文書格納手段に格納されている複数の文書が有する複数の属性のうちユーザによって指定された少なくとも2つの属性の各々との相関の有無を判定する。第2の判定手段は、第1の判定手段による判定結果が、パターン格納手段に格納されている複数のパターンのうちユーザによって指定されたパターンと一致するかを判定する。提示手段は、第1の判定手段による判定結果がユーザによって指定されたパターンと一致すると判定された単語を提示する。

Description

文書分析装置およびプログラム
 本発明の実施形態は、電子化された文書群を分析する文書分析装置およびプログラムに関する。
 近年では、情報システムの高度化に伴い、例えば特許文献、新聞記事、ウェブページまたは書籍等の電子化された文書(以下、単に文書と表記)を大量に記録し、保存することが可能である。そこで、これらの蓄積された文書群を日々の業務に有効活用していくことが求められている。
 文書群の有効活用の具体例としては、例えば膨大な量の新聞記事を分類することで多くの人が利用しやすいように整理する、あるいは、現在研究開発している技術に関係のある特許文献を分類することで自他社の特許群の傾向を分析し、新しい研究開発分野を発見する等が考えられる。
 つまり、情報の有効活用の点から、大量の文書を内容等に応じて分類(整理)しておくことが好ましい。
 ここで、上記したような文書は例えば複数の属性を有し、当該属性の各々は当該属性の値(以下、属性値と表記)をもつ。文書が例えば特許文献である場合、当該文書は、本文(例えば、要約)、出願人および出願日等の属性を有する。また、文書が有する本文、出願人および出願日の属性の各々は、当該属性に対応する属性値をもつ。なお、文書が有する属性のうち、本文のように単語からなるテキスト(文章全体における文字列の集合体)を含むものをテキスト属性、出願人のように連続していない(非連続な)値(離散値)を属性値としてもつ属性を離散値属性、出願日のように切れ目がなく連続している値を属性値としてもつ属性を連続値属性という。このように文書が属性を有する場合、当該文書は、当該属性の属性値(本文中に出現する単語、出願人である企業および出願日等)で各カテゴリに分類されることができる。
特開2011-198111号公報 特開2010-061176号公報
 ところで、例えば大量の文書のテキストと当該文書に紐づけられている複数の属性とを組み合わせた傾向を分析する場合、あるテキストの内容が複数の属性によって偏って出現しているという知見を得たい場合がある。具体的には、テキストを要約文、離散値属性を出願人、連続値属性を出願日とした特許のベンチマーク分析において、他社と比較して、自社が有意に多く出願した期間や技術を知りたい場合がある。
 しかし、特開2011-198111号では、上記のような連続値や離散値などの2つの属性を考慮した特徴語抽出ではなく、1つの属性からの特徴語抽出である。属性が2つ以上になる場合、テキストと、2つの属性を組み合わせて分析するため、属性が1つの場合と比べて、より試行錯誤を要するという課題がある。
 特開2010-61176号は、単語と、ユーザが着目した日付などの全ての属性と偏りがあるルールに限定しており、ユーザの目的にあった知見を獲得できない場合がある。例えば、ある特定の時期に、製品に共通して問い合わせが多かった内容を、ユーザが知りたいとする(すなわち、単語と日付とは出現に偏りがあるが、単語と問い合わせ製品とは偏りがない組み合わせのパターン)。しかし、特開2010-61176号では、全ての属性と偏りがあるルールに限定しているため、このように単語の出現の偏りがない場合の属性の組み合わせを分析できず、ユーザの目的にあった知見を獲得できない。
 そこで、本発明が解決しようとする課題は、ユーザが所望する知見を効率的に得ることが可能な文書分析装置およびプログラムを提供することにある。
 実施形態に係る文書分析装置は、文書格納手段と、パターン格納手段と、取得手段と、第1の判定手段と、第2の判定手段と、提示手段とを具備する。
 前記文書格納手段は、複数の単語からなるテキストを含む複数の文書であって、複数の属性を有し、当該属性の属性値を含む複数の文書を格納する。
 前記パターン格納手段は、単語と前記複数の属性のうちの少なくとも2つの属性の各々との相関の有無を示す複数のパターンを格納する。
 前記取得手段は、前記文書格納手段に格納されている複数の文書に含まれるテキストを解析することによって複数の単語を取得する。
 前記第1の判定手段は、前記取得された単語毎に、当該単語と前記文書格納手段に格納されている複数の文書が有する複数の属性のうちユーザによって指定された少なくとも2つの属性の各々との相関の有無を判定する。
 前記第2の判定手段は、前記第1の判定手段による判定結果が、前記パターン格納手段に格納されている複数のパターンのうち前記ユーザによって指定されたパターンと一致するかを判定する。
 前記提示手段は、前記第1の判定手段による判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語を提示する。
実施形態に係る文書分析装置のハードウェア構成を示すブロック図。 本実施形態に係る文書分析装置10の主として機能構成を示すブロック図。 図2に示す文書格納部100に格納されている文書のデータ構造の一例を示す図。 カテゴリの階層構造におけるルートのカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。 カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。 カテゴリの階層構造において図5に示すカテゴリ情報122によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。 カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。 カテゴリの階層構造において図7に示すカテゴリ情報124によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。 カテゴリの階層構造において図7に示すカテゴリ情報124によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。 本実施形態に係る文書分析装置10の処理手順を示すフローチャート。 カテゴリ表示画面の一例を示す図。 ユーザが各種情報を指定する際の画面について説明するための図。 パターン指定欄150hにおいて指定することができるパターンについて説明するための図。 第1のパターンについて具体的に説明するための図。 第2のパターンについて具体的に説明するための図。 第3のパターンについて具体的に説明するための図。 第4のパターンについて具体的に説明するための図。 単語パターン判定処理部141によって実行される単語パターン判定処理の処理手順を示すフローチャート。 対象単語と離散値属性との相関判定処理について説明するための図。 分析用単語抽出部142によって実行される分析用単語抽出処理の処理手順を示すフローチャート。 分析用単語抽出部142によって抽出される単語について説明するための図。 クロス集計可視化部132によって実行されるクロス集計結果表示処理の処理手順を示すフローチャート。 クロス集計可視化部132によって出力されたviewリストが表示された場合の表示画面の一例を示す図。 単語「屈折」が選択された場合における表示画面の一例を示す図。 折れ線グラフで表示されたクロス集計結果の一例を示す図。 数値で表示されたクロス集計結果の一例を示す図。
 以下、図面を参照して、実施形態について説明する。
 図1は、本実施形態に係る文書分析装置のハードウェア構成を示すブロック図である。なお、文書分析装置は、当該装置の各機能を実現するためのハードウェア構成、またはハードウェアとソフトウェアとの組み合わせ構成として実現されている。ソフトウェアは、予め記憶媒体またはネットワークからインストールされ、文書分析装置にその機能を実現させるためのプログラムからなる。
 図1に示すように、文書分析装置10は、記憶装置11、キーボード12、マウス12、中央演算装置14およびディスプレイ15を備える。
 記憶装置11は、中央演算装置14から読み出しまたは書き込みが可能な記憶装置であり、例えばRAM(Random Access Memory)である。記憶装置11には、予め中央演算装置14によって実行されるプログラム(文書分析プログラム)が記憶されている。
 キーボード12およびマウス13は、入力装置であり、例えば文書分析装置10の操作者(ユーザ)の操作により、データまたは命令からなる各種情報を中央演算装置14に入力する。
 中央演算装置14は、例えばCPU(プロセッサ)であり、記憶装置11に記憶されているプログラムを実行する機能と、キーボード12またはマウス13から入力される情報に基づいて各処理の実行を制御する機能と、実行結果をディスプレイ15に出力する機能とを有する。
 ディスプレイ15は、表示装置であり、例えば編集中の各アーキテクチャモデルやフィーチャモデル等を表示して可視化する機能を有する。また、ディスプレイ15は、中央演算装置14から出力された情報を表示する機能を有する。
 なお、文書分析装置10は、例えば本実施形態に係る文書分析プログラムが適用された計算機によって実現される。
 図2は、本実施形態に係る文書分析装置10の主として機能構成を示すブロック図である。
 図2に示すように、文書分析装置10は、文書格納部100、カテゴリ格納部110、パターン格納部120、ユーザインタフェース部130および単語抽出部140を含む。なお、文書格納部100、カテゴリ格納部110及びパターン格納部120は、例えば図示しない外部記憶装置等に格納される。また、ユーザインタフェース130および単語抽出部140は、文書分析装置10のコンピュータ(中央演算装置14)が記憶装置11に記憶されている文書分析プログラムを実行することにより実現される。
 文書格納部100には、文書分析装置10による分析の対象となる複数の文書が格納される。文書格納部100に格納されている文書は、複数の単語からなるテキストを含む。また、文書格納部100に格納されている文書は、属性を有し、当該属性の属性値を含む。
 カテゴリ格納部110は、文書格納部100に格納されている複数の文書が分類されたカテゴリの各々を示すカテゴリ情報(つまり、当該複数の文書の分類結果)が格納される。具体的には、カテゴリ格納部110には、例えば文書が有する属性の属性値に基づいて文書格納部100に格納されている複数の文書が分類された結果が格納される。
 パターン格納部120には、単語と文書格納部100に格納されている複数の文書が有する属性のうちの例えば2つの属性との相関の有無を示す複数のパターンが予め格納されている。
 なお、文書格納部100、カテゴリ格納部110およびパターン格納部120は、例えばファイルシステムまたはデータベース等を用いて実現される。
 ユーザインタフェース部130は、上記したキーボード12、マウス13およびディスプレイ15を用いて実現される機能部であり、例えばユーザの入力情報または指示情報等を受け付ける。ユーザインタフェース部130は、カテゴリ表示操作部131およびクロス集計可視化部132を含む。
 カテゴリ表示操作部131は、カテゴリ格納部110に格納されているカテゴリ情報に基づいて、当該カテゴリ情報によって示されるカテゴリおよび当該カテゴリの階層構造をユーザに対して提示するための画面(以下、カテゴリ表示画面と表記)をディスプレイ15に表示する。また、カテゴリ表示操作部131は、ユーザに対して提示されたカテゴリ表示画面に対するユーザの操作(指定操作)を受け付ける。この場合、ユーザは、カテゴリ表示画面に対して、文書格納部100に格納されている分析の対象となる文書(集合)、当該文書に含まれるテキスト、当該文書が有する例えば2つの属性(第1および第2の属性)、および単語と当該2つの属性の各々との相関の有無を示すパターンを指定することができる。なお、パターンは、上記したパターン格納部120に格納されている複数のパターンの中から指定される。
 クロス集計可視化部132は、ユーザによって指定された2つの属性のうちの1つ目の属性(第1の属性)の属性値に基づいて分析の対象となる文書が分類されたカテゴリ(第1のカテゴリ)を生成する。また、クロス集計可視化部132は、ユーザによって指定された2つの属性のうちの2つ目の属性(第2の属性)の属性値に基づいて分析の対象となる文書が分類されたカテゴリ(第2のカテゴリ)を生成する。
 クロス集計可視化部32は、ユーザによって指定された2つの属性のうちの1つ目の属性の属性値に基づいて生成されたカテゴリおよび2つ目の属性の属性値に基づいて生成されたカテゴリの両方に分類された文書の数を含むクロス集計結果を生成する。
 クロス集計可視化部32によって生成されたクロス集計結果は、後述する単語抽出部140によって抽出された単語とともに例えばディスプレイ15に表示される。これにより、クロス集計可視化部32によって生成されたクロス集計結果および単語抽出部140によって抽出された単語は、ユーザに対して提示される。
 単語抽出部140は、単語パターン判定処理部141および分析用単語抽出部142を含む。
 単語パターン判定処理部141は、ユーザによって指定された分析の対象となる文書(文書格納部100に格納されている複数の文書)に含まれるテキストを解析することによって複数の単語を取得する。
 単語パターン判定処理部141は、取得された単語毎に、当該単語とユーザによって指定された2つの属性の各々との相関の有無を判定する。単語パターン判定処理部141は、判定結果がユーザによって指定されたパターンと一致するか否かを判定する。単語パターン判定処理部141は、判定結果がユーザによって指定されたパターンと一致する単語を抽出する。
 分析用単語抽出部142は、単語パターン判定処理部141によって抽出された単語毎に、ユーザによって指定された分析の対象となる文書における当該単語の出現頻度に基づいて特徴度を算出する。
 また、分析用単語抽出部142は、単語パターン判定処理部141によって抽出された単語毎に、当該単語と当該単語以外の単語パターン判定処理部141によって抽出された単語との共起に基づく関連度を算出する。
 分析用単語抽出部142は、単語パターン判定処理部141によって抽出された単語の中から、当該単語毎に算出された特徴度および関連度に基づいてユーザに対して提示される単語を抽出する。
 なお、分析用単語抽出部142によって抽出された単語は、上記したようにクロス集計可視化部132によってユーザに提示される。
 図3は、図2に示す文書格納部100に格納されている文書のデータ構造の一例を示す。図2に示すように、文書格納部100に格納されている文書は、複数の属性を有する。また、文書格納部100に格納されている文書は、当該文書が有する属性毎に属性名および属性値を対応づけて含む。
 文書名は、文書の種類に応じて当該文書が有する属性の名称である。属性値は、文書が有する属性の値である。
 ここで、図3は、デジタルカメラに関する特許文書のデータ構造の一例を示す。図3に示す例では、文書111には、当該文書111が有する属性の属性名として、特許文書である文書111を識別するための文書番号、当該文書111の内容であるタイトルおよび本文、当該文書111の内容に関する特許出願をした出願人、当該特許出願の出願日および当該特許の重要度が含まれている。
 また、文書111には、例えば属性名「文書番号」に対応づけて属性値「d01」が含まれている。これによれば、文書111を識別するための文書番号が「d01」であることが示されている。ここでは、属性名「文書番号」(に対応づけられている属性値)について説明したが、文書111には、他の属性についても同様に属性名に対応づけて属性値が含まれている。なお、属性名「タイトル」および「本文」に対応づけて文書111に含まれる属性値には、複数の単語からなるテキストが含まれている。図3に示す文書(特許文書)111の場合、属性名が「本文」である属性の属性値には、例えば特許文書の要約等が含まれる。
 ここでは、文書111について説明したが、文書格納部100には、複数の文書(特許文書)が格納されている。また、文書格納部100に格納されている文書は、上記した図3に示す文書111が有する属性の全てを有していなくてもよいし、他の属性を有していてもよい。
 なお、図3においては省略されているが、文書が有する属性には型(当該属性値の型)が予め定められている。例えば属性名が「タイトル」および「本文」である属性のように当該属性の属性値にテキストが含まれる場合、当該属性名が「タイトル」および「本文」である属性の型はテキスト型である。また、属性名が「出願人」および「特許の重要度」である属性のように当該属性の属性値が連続していない値である属性の型は離散値型である。更に、属性名が「出願日」である属性のように当該属性の属性値が連続している値である属性の型は連続値型である。
 図4~図9は、図2に示すカテゴリ格納部110に格納されているカテゴリ情報のデータ構造の一例を示す図。カテゴリ格納部110に格納されているカテゴリ情報は、文書格納部100に格納されている文書が分類されたカテゴリを示す。なお、カテゴリ格納部110に格納されているカテゴリ情報によって示されるカテゴリは、例えば階層構造を構成する。なお、本実施形態において、文書格納部100に格納されている文書が分類されたカテゴリは予め作成され、当該カテゴリを示すカテゴリ情報がカテゴリ格納部110に格納されているものとする。また、カテゴリは、例えば文書格納部100に格納されている複数の文書をクラスタリングすることによって作成されてもよい。
 図4~図9に示すように、カテゴリ情報には、カテゴリ番号、親カテゴリ番号、カテゴリ名および文書番号が含まれる。なお、図6、図8および図9に示すように、カテゴリ情報には、必要に応じて条件が含まれていても構わない。
 カテゴリ番号は、カテゴリを一意に識別するための識別子である。親カテゴリ番号は、階層構造においてカテゴリ番号によって識別されるカテゴリの一階層上位に位置するカテゴリ(親カテゴリ)を識別するためのカテゴリ番号を示す。カテゴリ名は、カテゴリ番号によって識別されるカテゴリの名称を示す。文書番号は、カテゴリ番号によって識別されるカテゴリに分類された文書を識別するための文書番号を示す。また、条件は、カテゴリ番号によって識別されるカテゴリに分類される文書が満たすべき条件を示す。
 なお、カテゴリ格納部110に格納されているカテゴリ情報は、例えば文書格納部100に格納されている文書に含まれる属性名または属性値単位のカテゴリ(つまり、属性名または属性値に対応するカテゴリ)を示す。
 図4は、カテゴリの階層構造におけるルートのカテゴリ(以下、ルートカテゴリと表記)を示すカテゴリ情報のデータ構造の一例を示す。
 図4に示す例では、カテゴリ情報121には、カテゴリ番号「c01」、親カテゴリ番号「(なし)」、カテゴリ名「(ルート)」および文書番号「(なし)」が含まれている。このカテゴリ情報121によれば、カテゴリ番号「c01」によって識別されるルートカテゴリのカテゴリ名が「(ルート)」であることが示されている。なお、親カテゴリ番号「(なし)」は、階層構造においてカテゴリ番号「c01」によって識別されるカテゴリ(ルートカテゴリ)の親カテゴリは存在しないことが示されている。また、文書番号「(なし)」は、カテゴリ番号「c01」によって識別されるルートカテゴリには文書が分類されていないことが示されている。なお、以下に説明するカテゴリ情報に含まれる文書番号「(なし)」についても同様であるため、その説明については省略する。
 図5は、カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。
 図5に示す例では、カテゴリ情報122には、カテゴリ番号「c02」、親カテゴリ番号「c01」カテゴリ名「出願人別」および文書番号「(なし)」が含まれている。このカテゴリ情報122によれば、カテゴリ番号「c02」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「c01」によって識別されるカテゴリ(つまり、ルートカテゴリ)であることが示されている。また、カテゴリ番号「c02」によって識別されるカテゴリのカテゴリ名が「出願人別」であることが示されている。
 なお、図5に示すカテゴリ情報122は、文書格納部100に格納されている文書に含まれる属性名「出願人」に対応するカテゴリを示している。
 図6は、カテゴリの階層構造において図5に示すカテゴリ情報122によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。
 図6に示す例では、カテゴリ情報123には、カテゴリ番号「c21」、親カテゴリ番号「c02」、カテゴリ名「A社」、文書番号「d01,d15,d23,d36,…」および条件「出願人=“A社”」が含まれている。このカテゴリ情報123によれば、カテゴリ番号「c21」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「c02」によって識別されるカテゴリ(つまり、図5に示すカテゴリ情報122によって示されるカテゴリ)であることが示されている。また、カテゴリ番号「c21」によって識別されるカテゴリのカテゴリ名が「A社」であることが示されている。また、カテゴリ番号「c21」によって識別されるカテゴリには、条件「出願人=“A社”」を満たす文書、つまり、文書番号「d01」、「d15」、「d23」および「d36」等によって識別される文書が分類されていることが示されている。なお、条件「出願人=“A社”」は、文書が属性名「出願人」の属性値として「A社」を含むことを示している。
 なお、図6に示すカテゴリ情報123は、文書格納部100に格納されている文書に含まれる属性値「A社」に対応するカテゴリを示している。つまり、図6に示すカテゴリ情報123によって示されるカテゴリは、出願人をA社とする文書(特許文書)が分類されているカテゴリである。
 図7は、カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。
 図7に示す例では、カテゴリ情報124には、カテゴリ番号「c03」、親カテゴリ番号「c01」、カテゴリ名「特許の重要度別」および文書番号「(なし)」が含まれている。このカテゴリ情報124によれば、カテゴリ番号「c03」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「c01」によって識別されるカテゴリ(つまり、ルートカテゴリ)であることが示されている。また、カテゴリ番号「c03」によって識別されるカテゴリのカテゴリ名が「特許の重要度別」であることが示されている。
 なお、図7に示すカテゴリ情報124は、文書格納部100に格納されている文書に含まれる属性名「特許の重要度」に対応するカテゴリを示している。
 図8は、カテゴリの階層構造において図7に示すカテゴリ情報124によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。
 図8に示す例では、カテゴリ情報125には、カテゴリ番号「c31」、親カテゴリ番号「c03」、カテゴリ名「A」、文書番号「d07,d23,d58,…」および条件「特許の重要度=“Aランク”」が含まれている。このカテゴリ情報125によれば、カテゴリ番号「c31」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「c03」によって識別されるカテゴリ(つまり、図7に示すカテゴリ情報124によって示されるカテゴリ)であることが示されている。また、カテゴリ番号「c31」によって識別されるカテゴリのカテゴリ名が「A」であることが示されている。また、カテゴリ番号「c31」によって識別されるカテゴリには、条件「特許の重要度=“Aランク”」を満たす文書、つまり、文書番号「d07」、「d23」および「d58」等によって識別される文書が分類されていることが示されている。なお、条件「特許の重要度=“Aランク”」は、文書が属性名「特許の重要度」の属性値として「Aランク」を含むことを示している。
 なお、図8に示すカテゴリ情報125は、文書格納部100に格納されている文書に含まれる属性値「Aランク」に対応するカテゴリを示している。つまり、図8に示すカテゴリ情報125によって示されるカテゴリは、特許の重要度がAランクに設定されている文書(特許文書)が分類されているカテゴリである。
 図9は、カテゴリの階層構造において図7に示すカテゴリ情報124によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。
 図9に示す例では、カテゴリ情報126には、カテゴリ番号「c32」、親カテゴリ番号「c03」、カテゴリ名「B」、文書番号「d15,d32,d69,…」および条件「特許の重要度=“Bランク”」が含まれている。このカテゴリ情報126によれば、カテゴリ番号「c32」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「c03」によって識別されるカテゴリ(つまり、図7に示すカテゴリ情報124によって示されるカテゴリ)であることが示されている。また、カテゴリ番号「c32」によって識別されるカテゴリのカテゴリ名が「B」であることが示されている。また、カテゴリ番号「c32」によって識別されるカテゴリには、条件「特許の重要度=“Bランク”」を満たす文書、つまり、文書番号「d15」、「d32」および「d69」等によって識別される文書が分類されていることが示されている。なお、条件「特許の重要度=“Bランク”」は、文書が属性名「特許の重要度」の属性値として「Bランク」を含むことを示している。
 なお、図9に示すカテゴリ情報125は、文書格納部100に格納されている文書に含まれる属性値「Bランク」に対応するカテゴリを示している。つまり、図9に示すカテゴリ情報126によって示されるカテゴリは、特許の重要度がBランクに設定されている文書(特許文書)が分類されているカテゴリである。
 次に、図10のフローチャートを参照して、本実施形態に係る文書分析装置10の処理手順について説明する。
 まず、文書分析装置10のユーザインタフェース部130に含まれるカテゴリ表示操作部131は、カテゴリ格納部110に格納されているカテゴリ情報に基づいて、階層構造を構成するカテゴリをユーザに対して提示するためのカテゴリ表示画面を表示する(ステップS1)。この場合、階層構造を構成するカテゴリは、カテゴリ格納部110に格納されているカテゴリ情報に含まれるカテゴリ番号、カテゴリ名および親カテゴリ番号に基づいて表示される。
 ここで、図11は、カテゴリ表示画面の一例を示す。図11に示すカテゴリ表示画面150には、カテゴリ表示領域150a、タイトル表示領域150bおよび本文表示領域150cが設けられている。カテゴリ表示領域150aには、カテゴリ格納部110に格納されているカテゴリ情報によって示されるカテゴリ(のカテゴリ名)が階層構造で表示される。図11に示す例では、カテゴリ表示領域150aには、ルートカテゴリの子カテゴリ(当該ルートカテゴリの一階層下位に位置するカテゴリ)として、例えば「出願人別」カテゴリおよび「特許の重要度」カテゴリが表示されている。更に、カテゴリ表示領域150aには、「出願人別」カテゴリの子カテゴリ(当該「出願人別」カテゴリの一階層下位に位置するカテゴリ)として、「A社」カテゴリ、「B社」カテゴリ、「C社」カテゴリおよび「D社」カテゴリが表示されている。ここで、カテゴリ表示領域150aに表示されている例えば「出願人別」カテゴリとはカテゴリ名が「出願人別」であるカテゴリであるものとし、他のカテゴリについても同様であるものとする。また、以下の説明においても同様に表記する。
 なお、図11に示すカテゴリ表示領域150aに表示されているカテゴリのうちの「出願人別」カテゴリおよび「特許の重要度」カテゴリは、文書格納部100に格納されている文書に含まれる属性名「出願人」および「特許の重要度」に対応するカテゴリである。また、「A社」カテゴリ、「B社」カテゴリ、「C社」カテゴリおよび「D社」カテゴリの各々は、属性名が「出願人」である属性の属性値「A社」、「B社」、「C社」および「D社」に対応するカテゴリである。
 また、図11に示すカテゴリ表示領域150aには表示されていないが、当該カテゴリ表示領域150aにおいてユーザが例えば「特許の重要度」カテゴリを指定すると、属性名が「特許の重要度」である属性の属性値「Aランク」および「Bランク」等に対応するカテゴリ(つまり、「特許の重要度」カテゴリの子カテゴリ)が表示される。なお、カテゴリ表示領域150aには、便宜的に「出願人別」カテゴリおよび「特許の重要度」カテゴリ等が表示されているが、他の属性(例えば、属性名が「出願日」である属性)に対応するカテゴリについても同様に表示される。
 ここで、ユーザは、カテゴリ表示領域150aに表示されているカテゴリのうちの例えば1つを選択することができる。タイトル表示領域150bには、カテゴリ表示領域150aに表示されたカテゴリのうち、ユーザによって選択されたカテゴリに分類された文書のタイトル(当該文書に含まれる属性名「タイトル」に対する属性値)の一覧が表示される。図11に示す例では、カテゴリ表示領域150aに表示されているカテゴリのうち「A社」カテゴリが選択され、タイトル表示領域150bには、当該「A社」カテゴリに分類された文書のタイトルの一覧が表示されている。具体的には、タイトル表示領域150bには、「A社」カテゴリに分類された文書のタイトルとして、「電子スチルカメラ」、「画像処理装置およびデジタルカメラ」、「デジタルカメラ」および「デジタルカメラ」が表示されている。
 また、ユーザは、タイトル表示領域150bに表示されている文書のタイトルの一覧の中から例えば1つを選択することができる。本文表示領域150cには、タイトル表示領域150bに表示された文書のタイトルの一覧の中からユーザによって選択されたタイトルの文書の本文(属性名が「本文」である属性の属性値)が表示される。図11に示す例では、タイトル表示領域150bに表示されている文書のタイトルの一覧の中から「画像処理装置およびデジタルカメラ」が選択され、本文表示領域150cには、タイトルが当該「画像処理装置およびデジタルカメラ」である文書の本文「顔表情検出部は、被写体画像中の被写体人物の笑顔を検出する。」が表示されている。
 再び図10に戻ると、ユーザは、カテゴリ表示操作部131によって表示されたカテゴリ表示画面(図11に示すような画面)を介して、各種情報を指定する操作を行うことができる。具体的には、ユーザは、文書分析装置10による分析の対象となる複数の文書(以下、分析対象文書と表記)、当該分析対象文書のテキスト、当該テキストと組み合わせて傾向を分析したい2つの属性、単語と当該2つの属性の各々との相関の有無を示すパターンおよび当該パターンに基づいて抽出される単語の数(以下、抽出単語数と表記)を指定する操作を行う。
 カテゴリ表示操作部131は、ユーザによって上記したような各種情報を指定する操作が行われた場合、当該ユーザの指定操作を受け付ける(ステップS2)。
 ここで、図12を参照して、ユーザが各種情報を指定する際の画面について説明する。この場合、ユーザは、カテゴリ表示画面150のカテゴリ表示領域150aに表示されているカテゴリを指定することによって分析対象文書を指定することができる。なお、図12に示すように、例えばルートカテゴリを指定した場合、分析対象文書には、当該ルートカテゴリの下位に位置する全てのカテゴリに分類されている文書が含まれる。
 また、ユーザが各種情報を指定する場合、カテゴリ表示画面150には、図12に示すように指定操作画面150dが表示される。この指定操作画面150dには、テキスト指定欄150e、属性1指定欄150f、属性2指定欄150g、パターン指定欄150h、抽出単語数指定欄150i、実行ボタン150jおよびキャンセルボタン150kが設けられている。
 テキスト指定欄150eでは、単語を抽出する対象となるテキストを指定することができる。テキスト指定欄150eにおいては、分析対象文書が有する属性であってテキストを含む属性値に対応する属性の属性名(ここでは、「タイトル」および「本文」)が表示されており、当該属性名の中から少なくとも1つを選択することができる。図12に示す例では、単語を抽出する対象となるテキストとして「タイトル」および「本文」が指定されている。この場合、属性名が「タイトル」および「本文」である属性の属性値に含まれるテキストが指定されたことになる。
 属性1指定欄150fおよび属性2指定欄150gでは、テキスト指定欄150eにおいて指定されたテキスト(分析対象文書中のテキスト)と組み合わせて傾向を分析したい2つの属性を指定することができる。属性1指定欄150fおよび属性2指定欄150gにおいては、分析対象文書が有する属性の属性名のうち、上記したテキスト指定欄150eに表示されている属性名および文書番号以外の属性名(ここでは、「出願人」、「出願日」および「特許の重要度」)が表示されており、それぞれ当該属性名のうちの1つを選択することができる。なお、属性1指定欄150fにおいては、例えば型が離散値型の属性(以下、離散値属性と表記)が選択される。一方、属性値2指定欄150gにおいては、例えば型が連続値型の属性(以下、連続値属性と表記)が選択される。図12に示す例では、属性1指定欄150fにおいて「出願人」、属性2指定欄150gにおいて「出願日」が指定されている。以下、属性1指定欄150fにおいて指定された属性を第1の属性、属性2の指定欄150gにおいて指定された属性を第2の属性と称する。なお、ここでは第1の属性として離散値属性が指定され、第2の属性として連続値属性が指定されるものとして説明したが、例えば第1および第2の属性として離散値属性が指定されてもよいし、当該第1および第2の属性として連続値属性が指定されてもよい。
 パターン指定欄150hでは、上記したパターン格納部120に格納されている複数のパターンの中からユーザが知見を得たいパターン(単語と第1および第2の属性の各々との相関の有無を示すパターン)を指定することができる。
 ここで、図13を参照して、パターン指定欄150hにおいて指定することができるパターン(つまり、パターン格納部120に格納されている複数のパターン)について説明する。
 図13に示すように、単語と第1および第2の属性の各々との相関の有無を示すパターンは、第1~第4のパターンを含む。以下、第1~第5のパターンのそれぞれについて説明する。
 まず、第1のパターンは、単語と第1の属性(例えば、離散値属性)との相関があり、当該単語と第2の属性(例えば、連続値属性)との相関があることを示すパターンである。なお、第1の属性との相関があり、第2の属性との相関がある単語を、第1のパターンに一致する単語と称する。
 ここで、図14を用いて第1のパターンについて具体的に説明すると、第1のパターンに一致する単語Xは、例えば第1の属性の属性名が「出願人」である属性(以下、「出願人」属性と表記)であり、第2の属性の属性名が「出願日」である属性(以下、「出願日」属性と表記)である場合に、特定の出願人が、特定の時期に出願している技術(内容)を表す単語である。
 第2のパターンは、単語と第1の属性との相関があり、当該単語と第2の属性との相関がないことを示すパターンである。なお、第1の属性との相関があり、第2の属性との相関がある単語を、第2のパターンに一致する単語と称する。
 ここで、図15を用いて第2のパターンについて具体的に説明すると、第2のパターンに一致する単語Xは、例えば第1の属性が「出願人」属性であり、第2の属性が「出願日」属性である場合に、特定の出願人が時期によらず、出願している技術(内容)を表す単語である。
 第3のパターンは、単語と第1の属性との相関がなく、当該単語と第2の属性との相関があることを示すパターンである。なお、第1の属性との相関がなく、第2の属性との相関がある単語を、第3のパターンに一致する単語と称する。
 ここで、図16を用いて第3のパターンについて具体的に説明すると、第3のパターンに一致する単語Xは、例えば第1の属性が「出願人」属性であり、第2の属性が「出願日」属性である場合に、各出願人が特定の時期に出願している技術(内容)を表す単語である。
 なお、上記した第1~第3のパターンにおいては、単語と第1の属性と第2の属性との相関はあってもなくても構わない。
 第4のパターンは、単語と第1の属性との相関がなく、更に、当該単語と第2の属性との相関はないが、当該単語と第1の属性と第2の属性との相関があることを示すパターンである。なお、第1の属性との相関がなく、第2の属性との相関もなく、第1の属性と第2の属性との相関がある単語を、第4のパターンに一致する単語と称する。
 ここで、図17を用いて第4のパターンについて具体的に説明すると、第4のパターンに一致する単語Xは、例えば第1の属性が「出願人」属性であり、第2の属性が「出願日」属性である場合に、各出願人がそれぞれの時期に出願している出願している技術(内容)を表す単語である。
 なお、単語と第1および第2の属性の各々との相関の有無を示すパターンには、上記した第1~第4のパターン以外に、第5のパターンがある。この第5のパターンは、単語と第1の属性との相関がなく、当該単語と第2の属性との相関がなく、更に、当該単語と第1の属性と第2の属性との相関もないことを示すパターンである。なお、第5のパターンのように全てに相関がない単語は文書の分析において有用でないため、上述した図12に示すパターン指定欄150hのように、第5のパターンはユーザによって指定されない。換言すれば、パターン指定欄150hにおいては、上述した第1~第4のパターン(図12に示すパターン指定欄150hでは、単に1~4と表記)が指定されることができる。図12に示す例では、パターンとして「パターン2(つまり、第2のパターン)」が指定されている。
 なお、図12に示す例では、パターンを番号で表示しているが、例えば図14~図17に示すような各パターンを概念的に認識できるような画像(つまり、各パターンによって得られる知見の例を表す画像)が予めパターン格納部120に格納されており、当該画像が表示されても構わない。
 抽出単語数指定欄150iでは、上記したユーザによって指定されたパターンと一致する単語のうちユーザに対して提示される単語として抽出される単語の数(抽出単語数)を指定することができる。抽出単語数指定欄150hにおいては、抽出単語数として例えば「5」、「10」、「20」、「30」および「40」が表示されており、当該抽出単語数として「5」が指定されている。
 上記した各欄150e~150iの各々において指定操作が行われた後に、指定操作画面150dに設けられている実行ボタン150jが例えばマウス13等を用いて指定(押下)された場合、後述する単語パターン判定処理が実行される。一方、指定操作画面150dに設けられているキャンセルボタン150kがマウス13等を用いて指定(押下)された場合、例えば各欄150e~150iにおいて行われた指定操作が無効となり、図11に示すカテゴリ表示画面に戻る。
 再び図10に戻ると、カテゴリ表示操作部131によってユーザの指定操作が受け付けられると、単語抽出部140に含まれる単語パターン判定処理部141は、単語パターン判定処理を実行する(ステップS3)。この単語パターン判定処理によれば、ユーザによって指定された分析対象文書の各々のテキストに含まれる複数の単語の中から、当該ユーザによって指定されたパターンに一致する単語(分析に役立つテキストの内容を表す単語)が抽出される。なお、単語パターン判定処理部141の詳細については後述する。
 次に、分析用単語抽出部142は、分析用単語抽出処理を実行する(ステップS4)。この分析用単語抽出処理によれば、単語抽出部140によって抽出された単語の各々に対して重み付けが行われ、当該重み付けの結果が上位の単語が抽出される。ここでは、上記したユーザによって単語抽出数として指定された数の単語が抽出される。なお、分析用単語抽出処理の詳細については後述する。
 ユーザインタフェース部130に含まれるクロス集計可視化部132は、クロス集計結果表示処理を実行する(ステップS5)。このクロス集計結果表示処理によれば、後述するようにユーザによって指定された第1の属性の属性値に基づいて生成されたカテゴリと第2の属性の属性値に基づいて生成されたカテゴリとをクロス集計した結果(クロス集計結果)および分析用単語抽出部142によって抽出された単語のリストが可視化されて提示(表示)される。なお、クロス集計結果表示処理の詳細については後述する。
 次に、図18のフローチャートを参照して、上述した単語パターン判定処理(図10に示すステップS3の処理)の処理手順について詳細に説明する。なお、単語パターン判定処理は、単語抽出部140に含まれる単語パターン判定処理部141によって実行される。
 以下、上記したようにカテゴリ表示画面を介してユーザによって指定されたテキストおよびパターンをそれぞれ指定テキストおよび指定パターンと称する。
 まず、単語パターン判定処理部141は、単語パターン判定処理による抽出結果のリストを初期化する(ステップS11)。
 単語パターン判定処理部141は、ユーザによって指定された分析対象文書(の各々)に含まれる指定テキストを取得する。例えば指定テキストとしてタイトルおよび本文が指定されている場合には、分析対象文書の各々に含まれる「タイトル」属性および「本文」属性の属性値に含まれるテキストが取得される。単語パターン判定処理部141は、取得された指定テキストを形態素解析する(ステップS12)。単語パターン判定処理部141は、形態素解析結果に基づいて、形態素(以下、単語と表記)の集合を取得する。ここで単語パターン判定処理部141によって取得される単語の集合には、例えば品詞が名詞、動詞および形容詞等の自立語が含まれる。
 次に、単語パターン判定部141によって取得された単語の各々について、以下のステップS13~S20の処理が実行される。
 この場合、単語パターン判定処理部141は、形態素解析結果に基づいて取得された単語の集合から単語を1つ取得する(ステップS13)。以下、このステップS13において取得された単語を対象単語と称する。
 単語パターン判定処理部141は、対象単語と第1の属性との相関を判定する(ステップS14)。換言すれば、単語パターン判定処理部141は、対象単語と第1の属性との相関の有無(つまり、相関があるかないか)を判定する。
 ここで、対象単語と第1の属性との相関の判定処理について詳細に説明する。対象単語と第1の属性との相関の判定処理は、当該第1の属性が離散値属性であるかまたは連続値属性であるかで異なる。なお、第1の属性が離散値属性であるかまたは連続値属性であるかは、上述した当該第1の属性の型に基づいて判別される。
 まず、第1の属性が離散値属性である場合の対象単語と第1の属性との相関の判定処理(以下、対象単語と離散値属性との相関判定処理と表記)について説明する。
 対象単語と離散値属性との相関判定処理では、分類済みの離散値属性のカテゴリを対象に、特定の離散値(つまり、離散値属性の属性値)において対象単語の出現確率の偏りが統計的に有意であるか否かが判定される。具体的には、図19に示すように、単語「笑顔」の各出願人毎の出現確率を比較すると、特定の出願人(ここでは、A社)の出願確率が他の出願人の出現確率と比べて有意に偏っている。この場合、単語「笑顔」は、離散値属性(第1の属性)と相関があると判定される。
 このような集合間の出現確率の偏りの有意性を判定する方法として、分散分析がある。従って、上記した対象単語と離散値属性との相関判定処理においては、分散分析が用いられる。
 以下、分散分析を用いた対象単語と離散値属性との相関判定処理について具体的に説明する。
 ここでは、離散値属性(の各属性値)のカテゴリの集合をdisC1,disC2,…,disCaとする。なお、離散値属性のカテゴリの集合とは、当該離散値属性の属性値に基づいて分析対象文書が部類された複数のカテゴリの集合である。具体的には、離散値属性が「出願人」属性である場合、離散値属性のカテゴリの集合には、分析対象文書のうち、「出願人」属性の属性値として「A社」を含む文書が分類されたカテゴリ、「出願人」属性の属性値として「B社」を含む文書が分類されたカテゴリ、「出願人」属性の属性値として「C社」を含む文書が分類されたカテゴリ等が含まれる。なお、上記したdisC1,disC2,…,disCaは、排他関係にあるものとする。
 また、離散値属性のカテゴリ数をa、分析対象文書集合をD、当該分析対象文書集合における文書数を|D|とする。
 この場合、以下の式(1)に基づいて総平方和Stが算出される。
Figure JPOXMLDOC01-appb-M000001
 なお、この式(1)において、df(t,D)は、分析対象文書集合Dにおける対象単語tを指定テキスト中に含む文書の数を示す。また、式(1)におけるCTは、以下の式(2)によって定義される。
Figure JPOXMLDOC01-appb-M000002
 次に、以下の式(3)に基づいて群間平方和(全体集合に対する離散値属性の属性値毎での出現確率の偏りの平方和)Saが算出される。
Figure JPOXMLDOC01-appb-M000003
 なお、この式(3)において、df(t,disCi)は、離散値属性のカテゴリdisCiに分類された文書のうち対象単語tを指定テキスト中に含む文書の数を示す。また、式(3)において、|disCi|は、離散値属性のカテゴリdisCiに分類された文書の数を示す。
 また、以下の式(4)に基づいて群間平方和の自由度φaが算出される。
Figure JPOXMLDOC01-appb-M000004
 次に、上記した式(1)および式(3)に基づいて算出された総平方和Stおよび群間平方和Saを以下の式(5)に当てはめることによって、誤差変動和Seが算出される。
Figure JPOXMLDOC01-appb-M000005
 また、以下の式(6)に基づいて誤差変動和の自由度φeが算出される。
Figure JPOXMLDOC01-appb-M000006
 更に、上記した式(3)および式(4)に基づいて算出された群間平方和Saおよび当該群間平方和の自由度φaを以下の式(7)に当てはめることによって、群間の分散Vaが算出される。
Figure JPOXMLDOC01-appb-M000007
 また、上記した式(5)および式(6)に基づいて算出された誤差変動和Seおよび当該誤差変動和の自由度φeを以下の式(8)に当てはめることによって、誤差の分散Veが算出される。
Figure JPOXMLDOC01-appb-M000008
 最後に、上記した式(7)および式(8)に基づいて算出された群間の分散Vaおよび誤差の分散Veを以下の式(9)に当てはめることによって、分散比Faが算出される。
Figure JPOXMLDOC01-appb-M000009
 上記した対象単語と離散値属性との相関判定処理においては、式(9)によって算出された分散比Faが、式(4)によって算出された群間平方和の自由度φa、式(6)によって算出された誤差変動和の自由度φeのF分布の値よりも大きければ、離散値属性(のカテゴリ)間で、対象単語の出現確率の偏りが有意である、つまり、対象単語と離散値属性(第1の属性)との相関があると判定される。なお、自由度φa、自由度φeのF分布の値は、例えば文書分析装置10において予め用意されているF分布表から取得されてもよいし、計算によって算出されても構わない。
 次に、第1の属性が連続値属性である場合の対象単語と第1の属性との相関の判定処理(以下、対象単語と連続値属性との相関判定処理と表記)について説明する。
 対象単語と連続値属性との相関判定処理では、連続値の特定の範囲での単語の出現確率が他の連続値の範囲と比べて統計的に有意であるか否かが判定される。
 なお、連続値属性の属性値(連続値)は、上記した離散値属性の属性値(離散値)とは異なり、データの切れ目がなく、機械的に特定の範囲の出現確率を求めることができない。そこで、本実施形態においては、ヒストグラムが用いられる。ヒストグラムとは、連続値が存在する範囲をいくつかの区間に分けて、当該各区間に該当するデータの出現の頻度を数えてグラフ化したものである。ヒストグラムを描くためには、区間の個数(以下、級数と表記)と、区間の幅(以下、階級幅と表記)を求める必要がある。ここでは、例えばスタージェスの公式を用いて級数および階級幅が求められるものとする。
 スタージェスの公式によれば、級数kは、以下の式(10)に基づいて算出される。
Figure JPOXMLDOC01-appb-M000010
 なお、式(10)において、|D|は、分析対象文書の数を示す。また、階級幅hは、上記した式(10)に基づいて算出された級数kを用いて以下の式(11)に基づいて算出される。
Figure JPOXMLDOC01-appb-M000011
 ここで、連続値属性(の各属性値)のカテゴリの集合をcv1,cv2,…,cvDとする。この場合、式(11)におけるmax(cv)は、連続値属性の属性値(つまり、連続値)の最大値を示す。一方、式(11)におけるmin(cv)は、連続値属性の属性値(つまり、連続値)の最小値を示す。
 対象単語と連続値属性との相関判定処理においては、上記したようにヒストグラムが求められた後、式(11)に基づいて算出された階級幅hにおける単語の出現確率の偏りの有意性を、上述した対象単語と離散値属性との相関判定処理と同様の処理によって判定する。
 具体的には、階級幅hおよび第1の属性の属性値を用いて連続値属性のカテゴリの集合(連続値の階級幅h毎の集合)が生成され、当該生成された連続値属性のカテゴリの集合を離散値属性のカテゴリの集合として上述した対象単語と離散値属性との相関判定処理と同様の処理が実行される。これにより、対象単語と連続値属性(第1の属性)との相関の有無が判定される。なお、連続値属性のカテゴリの集合には、例えば連続値属性の属性値の最小値から階級幅h毎に生成されたカテゴリであって、当該各階級幅hに該当する文書(分析対象文書)が分類されたカテゴリが含まれる。また、階級幅hに該当する文書とは、連続値属性が例えば「出願日」属性である場合に、当該階級幅hの期間に出願された文書(つまり、当該階級幅hの期間内に該当する出願日を「出願日」属性の属性値として含む文書)をいう。
 なお、前述した図12において説明したように第1の属性として例えば「出願人」属性が指定された場合には、ステップS14においては、上記した対象単語と離散値属性との相関判定処理が実行される。
 このように、対象単語と第1の属性との相関の判定処理が実行された場合、単語パターン判定処理部141は、当該判定結果(つまり、対象単語と第1の属性との相関があるか否か)が指定パターンと一致するか否かを判定する(ステップS15)。
 ここで、指定パターンが上述した第2のパターン(つまり、単語と第1の属性との相関があり、当該単語と第2の属性との相関がないことを示すパターン)である場合を想定する。第2のパターンによれば単語と第1の属性との相関があることが示されているため、ステップS14における判定結果が「対象単語と第1の属性との相関がある」である場合には、当該判定結果が指定パターンと一致すると判定される。一方、ステップS14における判定結果が「対象単語と第1の属性との相関がない」である場合には、当該判定結果が指定パターンと一致しないと判定される。ここでは、第2のパターンについて説明したが、他のパターンについても同様である。
 ステップS14における判定結果が指定パターンと一致しないと判定された場合(ステップS15のNO)、後述するステップS21の処理が実行される。
 一方、ステップS14における判定結果が指定パターンと一致すると判定された場合(ステップS15のYES)、単語パターン判定処理部141は、対象単語と第2の属性との相関を判定する(ステップS16)。なお、この対象単語と第2の属性との相関の判定処理については、上記したステップS14の処理と同様であるため、その詳しい説明を省略する。
 なお、前述した図12において説明したように第2の属性として例えば「出願日」属性が指定された場合には、ステップS16においては、上記した対象単語と連続値属性との相関判定処理が実行される。
 次に、単語パターン判定処理部141は、ステップS16における判定結果(つまり、対象単語と第2の属性との相関があるか否か)が指定パターンと一致するか否かを判定する(ステップS17)。
 ここで、上記したように指定パターンが第2のパターン(つまり、単語と第1の属性との相関があり、当該単語と第2の属性との相関がないことを示すパターン)である場合を想定する。第2のパターンによれば単語と第2の属性との相関がないことが示されているため、ステップS16における判定結果が「対象単語と第2の属性との相関がある」である場合には、当該判定結果が指定パターンと一致しないと判定される。一方、ステップS14における判定結果が「対象単語と第2の属性との相関がない」である場合には、当該判定結果が指定パターンと一致すると判定される。
 ステップS16における判定結果が指定パターンと一致しないと判定された場合(ステップS17のNO)、後述するステップS21の処理が実行される。
 一方、ステップS16における判定結果が指定パターンと一致すると判定された場合(ステップS17のYES)、単語パターン判定処理部141は、対象単語が第1の属性と第2の属性とによって偏って出現しているか否か、つまり、対象単語と第1の属性と第2の属性との相関を判定する(ステップS18)。換言すれば、単語パターン判定処理部141は、対象単語と第1の属性と第2の属性との相関の有無(つまり、相関があるかないか)を判定する。
 ここで、対象単語と第1の属性と第2の属性との相関の判定処理について詳細に説明する。
 対象単語と第1の属性と第2の属性との相関の判定処理では、第1の属性の属性値(例えば、離散値)および第2の属性の属性値(例えば、連続値)とを組み合わせた各文書集合(当該第1の属性の属性値の各々および当該第2の属性の属性値の各々を含む文書の集合)における対象単語の出現確率の偏りが統計的に有意であるか否かが判定される。
 このような2つの属性を組み合わせた偏りを判定する方法として、二元配置分散分析がある。従って、上記した対象単語と第1の属性と第2の属性との相関の判定処理においては、二元配置分散分析が用いられる。
 以下、二元配置分散分析を用いた対象単語と第1の属性と第2の属性との相関の判定処理について具体的に説明する。ここでは、第1の属性が離散値属性であり、第2の属性が連続値属性であるものとして説明する。
 なお、上述した離散値属性(第1の属性)のカテゴリの集合をdisC1,disC2,…,disCaとし、当該離散値属性のカテゴリの数をaとする。また、上述した連続値属性(第2の属性)のカテゴリの集合(連続値の階級幅毎の集合)をconC1,conC2,…,conCbとし、当該連続値属性のカテゴリの数をbとする。また、分析対象文書集合をD、当該分析対象文書集合における文書数を|D|とする。
 この場合、以下の式(12)に基づいて総平方和Stが算出される。
Figure JPOXMLDOC01-appb-M000012
 なお、この式(12)において、df(t,D)は、分析対象文書集合Dにおける対象単語tを指定テキスト中に含む文書の数を示す。また、式(12)におけるCTは、以下の式(13)によって定義される。
Figure JPOXMLDOC01-appb-M000013
 この式(13)におけるnは、以下の式(14)によって定義される。
Figure JPOXMLDOC01-appb-M000014
 次に、以下の式(15)に基づいて離散値間平方和Saが算出される。
Figure JPOXMLDOC01-appb-M000015
 なお、この式(15)において、df(t,disCi)は、離散値属性のカテゴリdisCiに分類された文書のうち対象単語tを指定テキスト中に含む文書の数を示す。また、式(15)において、|disCi|は、離散値属性のカテゴリdisCiに分類された文書の数を示す。
 また、以下の式(16)に基づいて連続値の階級幅間平方和Sbが算出される。
Figure JPOXMLDOC01-appb-M000016
 なお、この式(16)において、df(t,conCi)は、連続値属性のカテゴリconCiに分類された文書のうち対象単語tを指定テキスト中に含む文書の数を示す。また、式(15)において、|conCi|は、連続値属性のカテゴリconCiに分類された文書の数を示す。
 次に、以下の式(17)に基づいて離散値と連続値の階級幅を組み合わせた集合間の平方和Sabが算出される。
Figure JPOXMLDOC01-appb-M000017
 なお、この式(17)において、df(t,(disCi,conCi)は、離散値属性のカテゴリdisCiおよび連続値属性のカテゴリconCiの両方に分類された文書のうち対象単語tを指定テキスト中に含む文書の数を示す。また、式(17)において、|disCi∧conCi|は、離散値属性のカテゴリdisCiおよび連続値属性のカテゴリconCiの両方に分類された文書の数を示す。
 また、以下の式(18)に基づいて離散値と連続値の階級幅を組み合わせた集合間の平方和の自由度φabが算出される。
Figure JPOXMLDOC01-appb-M000018
 なお、この式(18)における(a-1)は上記した離散値間平方和の自由度φaであり、(b-1)は上記した連続値の階級幅間平方和の自由度φbである。
 次に、上記した式(12)に基づいて算出された総平方和St、式(15)に基づいて算出された離散値間平方和Sa、式(16)に基づいて算出された連続値の階級幅間平方和Sbおよび式(17)に基づいて算出された離散値と連続値の階級幅を組み合わせた集合間の平方和Sabを以下の式(19)に当てはめることによって、誤差変動和Seが算出される。
Figure JPOXMLDOC01-appb-M000019
 また、以下の式(20)に基づいて誤差変動和の自由度φeが算出される。
Figure JPOXMLDOC01-appb-M000020
 次に、上記した式(17)および式(18)に基づいて算出された離散値と連続値の階級幅を組み合わせた集合間の平方和Sabおよびその自由度φabを以下の式(21)に当てはめることによって、群間の分散Vabが算出される。
Figure JPOXMLDOC01-appb-M000021
 更に、上記した式(19)および式(20)に基づいて算出された誤差変動和Seおよびその自由度φeを以下の式(22)に当てはめることによって、誤差の分散Veが算出される。
Figure JPOXMLDOC01-appb-M000022
 最後に、上記した式(20)および式(21)に基づいて算出された群間の分散Vabおよび誤差の分散Veを以下の式(23)に当てはめることによって、分散比Fabが算出される。
Figure JPOXMLDOC01-appb-M000023
 上記した二元配置分散分析を用いた対象単語と第1の属性(離散値属性)と第2の属性(連続値属性)との相関の判定処理においては、式(23)によって算出された分散比Fabが、式(18)によって算出された自由度φab、式(20)によって算出された自由度φeのF分布の値よりも大きければ、第1の属性(離散値)および第2の属性(連続値の階級幅)とを組み合わせた集合間で、単語の出現確率の偏りが有意である、つまり、対象単語と第1の属性と第2の属性との相関があると判定される。なお、自由度φab、自由度φeのF分布の値は、上記したように例えば文書分析装置10において予め用意されているF分布表から取得されてもよいし、計算によって算出されても構わない。
 上記した対象単語と第1の属性と第2の属性との相関の判定処理が実行された場合、単語パターン判定処理部141は、当該判定結果(つまり、対象単語と第1の属性と第2の属性との相関があるか否か)が指定パターンと一致するか否かを判定する(ステップS19)。
 ここで、指定パターンが上述した第4のパターン(つまり、単語と第1の属性との相関がなく、更に、当該単語と第2の属性との相関はないが、当該単語と第1の属性と第2の属性との相関があることを示すパターン)である場合を想定する。第4のパターンによれば単語と第1の属性と第2の属性との相関があることが示されているため、ステップS18における判定結果が「対象単語と第1の属性と第2の属性との相関がある」である場合には、当該判定結果が指定パターンと一致すると判定される。一方、ステップS18における判定結果が「対象単語と第1の属性と第2の属性との相関がない」である場合には、当該判定結果が指定パターンと一致しないと判定される。
 なお、ここでは第4のパターンについて説明したが、上述したように第1~第3のパターンにおいては対象単語と第1の属性と第2の属性との相関はあってもなくてもよい。このため、指定パターンが第1~第3のパターンである場合には、ステップS18の判定結果にかかわらず指定パターンと一致すると判定されてもよいし、例えばステップS18およびS19の処理が省略されるような構成であっても構わない。ステップS18およびS19の処理が省略される場合には、ステップS17において判定結果が指定パターンと一致すると判定された後に、後述するステップS20の処理が実行されればよい。
 ステップS18における判定結果が指定パターンと一致しないと判定された場合(ステップS19のNO)、後述するステップS21の処理が実行される。
 一方、ステップS18における判定結果が指定パターンと一致すると判定された場合(ステップS19のYES)、単語パターン判定処理部141は、対象単語をリストに追加(登録)する(ステップS20)。なお、ここでリストに追加される単語は、第1および第2の属性の各々との相関が指定パターンに一致する単語である。
 次に、単語パターン判定処理部141は、当該単語パターン判定処理部141によって取得された全ての単語(分析対象文書に含まれる指定テキストを形態素解析することによって取得された単語)について上記したステップS13~S20の処理が実行されたか否かを判定する(ステップS21)。
 全ての単語について処理が実行されていないと判定された場合(ステップS21のNO)、上記したステップS13に戻って処理が繰り返される。
 一方、全ての単語について処理が実行されたと判定された場合(ステップS21のYES)、単語パターン判定処理部141は、リストを分析用単語抽出部142に対して出力する(ステップS22)。
 このように単語パターン判定処理においては、分析対象文書に含まれる指定テキストを形態素解析することによって取得された複数の単語の中から指定パターンに一致する単語の集合が抽出される。具体的には、例えば指定パターンが上述した第2のパターンである場合には、第1の属性(離散値属性である「出願人」属性)との相関があり、第2の属性(連続値属性である「出願日」属性)との相関がない単語が抽出される。
 なお、上記した単語パターン判定処理においては、第1の属性との相関、第2の属性との相関および第1の属性と第2の属性との相関を個別に判定することによって、例えば第1の属性との相関の判定結果が指定パターンと一致しない場合には対象単語についての以降の判定処理を実行する必要がない。このため、本実施形態における単語パターン判定処理によれば、全ての相関を判定した後に指定パターンと一致するか否かを判定する場合と比較して処理を高速化することができる。
 次に、図20のフローチャートを参照して、上述した分析用単語抽出処理(図10に示すステップS4の処理)の処理手順について詳細に説明する。なお、分析用単語抽出処理は、単語抽出部140に含まれる分析用単語抽出部142によって実行される。
 分析用単語抽出処理においては、分析用単語抽出部142は、単語パターン判定処理部141によって出力されたリスト(以下、分析用単語リストと表記)に登録されている単語の各々について、以下のステップS31~ステップS37の処理を実行する。
 この場合、分析用単語抽出部142は、分析用単語リストに登録されている単語を1つ取得する(ステップS31)。以下、分析用単語リストにn個の単語が登録されているものとし、このステップS31において取得された単語を単語ti(i=1,2,…,n)と称する。
 分析用単語抽出部142は、分析対象文書の指定テキスト中における単語tiの出現頻度に基づいて、指定テキストの内容を表す単語tiの特徴度を算出する(ステップS32)。
 ここで、単語tiの特徴度の算出処理について具体的に説明する。ここでは、単語tiの特徴度は、例えばTF-IDFによって算出されるものとする。TF-IDFは、テキストの内容を表す単語を抽出するための代表的な手法であり、文書中に頻繁に出現し、かつ、全体の文書集合の中であまり出現していない単語を特徴的な単語とみなすものである。TF-IDFには様々な数式があるが、ここでは代表的なものとして、以下の式(24)によって算出されるものとする。
Figure JPOXMLDOC01-appb-M000024
 なお、式(24)におけるtf(ti)は、以下の式(25)によって定義される。
Figure JPOXMLDOC01-appb-M000025
 この式(25)におけるtf(ti,D)は、分析対象文書集合Dの指定テキスト中に含まれる単語tiの数を示す。また、df(ti,D)は、分析対象文書集合Dにおける単語tiを指定テキスト中に含む文書の数を示す。
 また、式(24)におけるidf(ti)は、以下の式(26)によって定義される。なお、式(25)における|D|は分析対象文書集合Dにおける文書数である。
Figure JPOXMLDOC01-appb-M000026
 次に、分析用単語抽出部142は、分析用単語リストに登録されている単語の各々について、以下のステップS33~S35の処理を実行する。
 この場合、分析用単語抽出部142は、分析用単語リストに登録されている単語を1つ取得する(ステップS33)。以下、このステップS33において取得された単語を単語tj(j=1,2,…,n)と称する。
 分析用単語抽出部142は、上記した単語tiと単語tjとが異なる(つまり、ti≠tj)か否かを判定する(ステップS34)。
 単語tiと単語tjとが異ならない(つまり、単語tiと単語tjとが同じである)と判定された場合(ステップS34のNO)、ステップS35の処理は実行されず、後述するステップS36の処理が実行される。
 一方、単語tiと単語tjとが異なると判定された場合(ステップS34のYES)、分析用単語抽出部142は、単語tiと単語tjとの共起に基づく関連度を算出する(ステップS35)。
 なお、単語tiと単語tjとの共起に基づく関連度は、複数の単語同士が統計的に有意に互いに共起して出現し、かつ、他の単語とはあまり共起して出現していない単語は分析対象文書集合において指定テキストの内容を表す単語であるということに基づく。単語の共起を用いた手法であれば特に制限はなく、例えば相互情報量、ダイス係数、自己相互情報量等を用いることができるが、本実施形態においては相互情報量を用いた場合について説明する。
 また、指定テキストは複数の単語で表現されており、同じパターンに一致する単語同士での共起は意味があると考えられる。このため、本実施形態において、単語tiとの共起の対象とする単語(つまり、単語tiとの共起に基づく関連度を算出する単語)は、当該単語tiと同じパターンに一致する単語、つまり、上記したように分析用単語リストに登録されている単語(単語tj)とする。
 以下、単語tiと単語tjとの共起に基づく関連度(相互情報量)の算出処理について具体的に説明する。
 この単語tiと単語tjとの共起に基づく関連度の算出処理においては、単語tjが、単語tiとの共起頻度がχ二乗検定によって統計的に有意であるか否かが判定される。単語tiと単語tjとの共起に基づく関連度の算出処理においては、単語tiとの共起頻度がχ二乗検定によって統計的に有意であると判定された単語tjについてのみ関連度が算出される。つまり、単語tiとの共起頻度がχ二乗検定によって統計的に有意でないと判定された単語tjについては関連度は算出されない。
 χ二乗検定によれば、例えば0.5%有意水準でのχ二乗分布の値が7.88より大きければ統計的に有意であると判定される。このχ二乗検定によって用いられるχ二乗値は、以下の式(27)に基づいて算出される。
Figure JPOXMLDOC01-appb-M000027
 なお、式(27)において、a1は、df(ti,D)であり、分析対象文書集合Dにおける単語tiを指定テキスト中に含む文書の数(つまり、単語tiの分析対象文書集合Dにおける頻度)を示す。
 b1は、df(tj,D)であり、分析対象文書集合Dにおける単語tjを指定テキスト中に含む文書の数(つまり、単語tjの分析対象文書集合Dにおける頻度)を示す。
 a2は、|D|-df(ti,D)であり、分析対象文書集合Dにおける単語tiを指定テキスト中に含まない文書の数(つまり、単語tiを含まない文書の頻度)を示す。
 b2は、|D|-df(tj,D)であり、分析対象文書集合Dにおける単語tjを指定テキスト中に含まない文書の数(つまり、単語tjを含まない文書の頻度)を示す。
 x11は、df((ti,tj),D)であり、分析対象文書集合Dにおける単語tiおよび単語tjを指定テキスト中に含む文書の数(つまり、単語tiおよび単語tjの共起頻度)を示す。
 x12は、a1-x11であり、分析対象文書集合Dにおける単語tiを指定テキスト中に含む文書集合における単語tiおよび単語tjを含まない文書の数(つまり、単語tiの集合におけるx11を含まない文書の頻度)を示す。
 x21は、b1-x11であり、分析対象文書集合Dにおける単語tjを指定テキスト中に含む文書集合における単語tiおよび単語tjを含まない文書の数(つまり、単語tjの集合におけるx11を含まない文書の頻度)を示す。
 x22は、a2-x22であり、分析対象文書集合Dにおける単語tiを指定テキスト中に含まない文書集合におけるx21の文書集合を含まない文書の数(つまり、単語tjを含まない集合におけるx21を含まない文書の頻度)を示す。
 上記したχ二乗検定によって単語tjが統計的に有意であると判定された場合、単語tiと単語tjとの相互情報量mi(ti)は、以下の式(28)に基づいて算出される。
Figure JPOXMLDOC01-appb-M000028
 次に、分析用単語抽出部142は、分析用単語リストに登録されている全ての単語について上記したステップS33~S35の処理が実行されたか否かを判定する(ステップS36)。
 分析用単語リストに登録されている全ての単語について処理が実行されていないと判定された場合(ステップS36のNO)、上記したステップS33に戻って処理が繰り返される。
 一方、分析用単語リストに登録されている全ての単語について処理が実行されたと判定された場合(ステップS36のYES)、上記したステップS32において算出された特徴度およびステップS35によって算出された全ての関連度(つまり、単語tiとの共起頻度がχ二乗検定によって統計的に有意であると判定された単語tjの各々と単語tiとの関連度)の和を単語tiの重みとする(ステップS37)。なお、特徴度および関連度は、それぞれ正規化された後に加算されることが好ましい。
 次に、分析用単語抽出部142は、分析用単語リストに登録されている全ての単語について上記したステップS31~S37の処理が実行されたか否かを判定する(ステップS38)。
 分析用単語リストに登録されている全ての単語について処理が実行されていないと判定された場合(ステップS38のNO)、上記したステップS31に戻って処理が繰り返される。
 一方、分析用単語リストに登録されている全ての単語について処理が実行されたと判定された場合(ステップS38のYES)、当該分析用単語リストに登録されている全ての単語について重みづけがされた状態となっている。
 この場合、分析用単語抽出部142は、分析用単語リストに登録されている単語を、当該単語の重みの順でソートする(ステップS39)。
 分析用単語抽出部142は、ソートされた単語のうち重みが上位の単語を、ユーザインタフェース部130に含まれるクロス集計可視化部132に出力する(ステップS40)。この場合、分析用単語抽出部142は、ユーザによって抽出単語数として指定された数の単語を出力する。
 このように分析用単語抽出処理においては、単語パターン判定処理部141によって抽出された単語(分析用単語リストに登録されている単語)の各々に対して重みづけがされ、当該単語の中から当該重みの高い単語(つまり、パターンにおける分析に役立つ単語)が抽出されて出力される。なお、分析用単語抽出部142によって出力された単語はクロス集計可視化部132によってユーザに対して提示される。
 つまり、本実施形態においては、単語パターン判定処理部141によって抽出された単語(指定パターンと一致すると判定された単語)が当該単語毎に算出された特徴語および関連度(つまり、当該単語の重み)に基づいてユーザに対して提示される。
 また、本実施形態においては、上記したようにχ二乗検定によって統計的に有意でないと判定された単語tjについては関連度が算出されないため、このような単語tjについての関連度を算出する場合と比較して、より適切な重みづけをすることができる。
 ここで、図21を参照して、分析用単語抽出部142によって抽出(出力)される単語について説明する。
 図21に示す分析用単語リスト201は、分析用単語抽出処理が実行される前の分析用単語リスト(つまり、単語パターン判定処理によって出力されたリスト)である。
 図21に示すように、分析用単語リスト201には、単語「屈折」、「GR」、「消費」、「SA」および「顕微鏡」を含む複数の単語が登録されているものとする。この分析用単語リスト201では、単語がDF順(分析対象文書集合Dにおける当該単語を指定テキスト中に含む文書の数の順)に登録されているものとする。なお、分析用単語リスト201に登録されている単語「GR」および「SA」は、分析対象文書に含まれる指定テキストの内容を表さない単語である。
 一方、図21に示す分析用単語リスト202は、分析用単語リスト201に登録されている各単語が当該単語の重みでソートされた後の分析用単語リストである。
 図21に示すように、分析用単語リスト202においては、分析用単語リスト201に登録されている各単語の重みでソートされることによって、例えば単語「屈折」、「電力」、「消費」、「顕微鏡」および「電圧」等が上位に登録されている。ここで、上記した抽出単語数として「5」が指定されているものとすると、分析用単語抽出処理においては、分析用単語リスト202において重みが上位の5つの単語「屈折」、「電力」、「消費」、「顕微鏡」および「電圧」が抽出され、上記した単語「GR」および「SA」等の指定テキストの内容を表さない単語については抽出されない。
 次に、図22のフローチャートを参照して、前述したクロス集計結果表示処理(図10に示すステップS5の処理)の処理手順について説明する。なお、クロス集計結果表示処理は、ユーザインタフェース部130に含まれるクロス集計可視化部132によって実行される。
 まず、クロス集計可視化部132は、クロス集計可視化部132の返り値であるviewリストを初期化する(ステップS41)。
 次に、クロス集計可視化部132は、分析対象文書の各々に含まれる第1の属性(ユーザによって指定された1つ目の属性)の属性値に基づいて、当該分析対象文書が分類された複数のカテゴリ(第1のカテゴリ)を生成する(ステップS42)。例えば第1の属性が「出願人」属性である場合、クロス集計可視化部132は、前述した離散値属性のカテゴリ(の集合)を生成する。具体的には、クロス集計可視化部132は、「出願人」属性の属性値として例えば「A社」を含む分析対象文書が分類されたカテゴリが生成される。なお、「出願人」属性の他の属性値(例えば、「B社」および「C社」等)についても同様にカテゴリが生成される。以下、ステップS42において生成されたカテゴリを、第1の属性のカテゴリと称する。
 上記したようにクロス集計可視化部132によって第1の属性のカテゴリが生成された場合、当該第1の属性のカテゴリ毎に、当該第1の属性のカテゴリを示すカテゴリ情報(以下、第1の属性のカテゴリ情報と表記)がカテゴリ格納部110に格納される。なお、第1の属性のカテゴリ情報のデータ構造は、前述した図4~図9において説明した通りであるため、その詳しい説明を省略する。つまり、第1の属性のカテゴリ情報によれば、当該第1の属性のカテゴリに分類された文書等を特定することができる。
 また、クロス集計可視化部132は、分析対象文書の各々に含まれる第2の属性(ユーザによって指定された2つ目の属性)の属性値に基づいて、当該分析対象文書が分類された複数のカテゴリ(第2のカテゴリ)を生成する(ステップS43)。例えば第2の属性が「出願日」属性である場合、クロス集計可視化部132は、前述した連続値属性のカテゴリ(の集合)を生成する。具体的には、前述したように階級幅が算出され、当該階級幅および第2の属性の属性値(つまり、連続値)を用いて連続値属性のカテゴリの集合(連続値の階級幅毎の集合)が生成される。なお、階級幅の算出については、前述した通りであるため、その詳しい説明を省略する。以下、ステップS43において生成されたカテゴリを、第2の属性のカテゴリと称する。
 上記したようにクロス集計可視化部132によって第2の属性のカテゴリが生成された場合、当該第2の属性のカテゴリ毎に、当該第2の属性のカテゴリを示すカテゴリ情報(以下、第2の属性のカテゴリ情報と表記)がカテゴリ格納部110に格納される。なお、第2の属性のカテゴリ情報のデータ構造は、前述した図4~図9において説明した通りであるため、その詳しい説明を省略する。つまり、第2の属性のカテゴリ情報によれば、当該第2の属性のカテゴリに分類された文書等を特定することができる。
 ここでは、ステップS42およびS43において第1の属性のカテゴリおよび第2の属性のカテゴリが生成されるものとして説明したが、例えば前述した相関判定処理において当該第1の属性のカテゴリ(例えば、離散値属性のカテゴリ)および当該第2の属性のカテゴリ(例えば、連続値属性のカテゴリ)が生成され、当該各カテゴリを示すカテゴリ情報がカテゴリ格納部110に格納されていた場合には、当該ステップS42およびS43の処理は省略されても構わない。
 次に、クロス集計可視化部132は、生成された第1の属性のカテゴリの各々について、以下のステップS44~S48の処理を実行する。
 この場合、クロス集計可視化部132は、第1の属性のカテゴリ情報をカテゴリ格納部110から1つ取得する(ステップS44)。以下、このステップS44において取得された第1の属性のカテゴリ情報によって示される第1の属性のカテゴリを第1の属性の対象カテゴリと称する。
 次に、クロス集計可視化部132は、生成された第2の属性のカテゴリの各々について、以下のステップS45~S47の処理を実行する。
 この場合、クロス集計可視化部132は、第2の属性のカテゴリ情報をカテゴリ格納部110から1つ取得する(ステップS45)。以下、このステップS45において取得された第2の属性のカテゴリ情報によって示される第2の属性のカテゴリを第2の属性の対象カテゴリと称する。
 クロス集計可視化部132は、ステップS44において取得された第1の属性のカテゴリ情報およびステップS45において取得された第2の属性のカテゴリ情報に基づいて、第1の属性の対象カテゴリおよび第2の属性の対象カテゴリの両方に分類された文書集合(つまり、両方のカテゴリに出現する文書集合)を特定する。
 これにより、クロス集計可視化部132は、第1の属性の対象カテゴリおよび第2の属性の対象カテゴリの両方に分類された文書数を特定する(ステップS46)。
 クロス集計可視化部132は、特定された文書数を、第1の属性の対象カテゴリおよび第2の属性の対象カテゴリと関連づけてviewリストに追加(登録)する(ステップS47)。
 次に、クロス集計可視化部132は、生成された全ての第2の属性のカテゴリについて、上記したステップS45~S47の処理が実行されたか否かを判定する(ステップS48)。
 全ての第2の属性のカテゴリについて処理が実行されていないと判定された場合(ステップS48のNO)、上記したステップS45に戻って処理が繰り返される。
 一方、全ての第2の属性のカテゴリについて処理が実行されたと判定された場合(ステップS48のYES)、クロス集計可視化部132は、生成された全ての第1の属性のカテゴリについて、上記したステップS44~S48の処理が実行されたか否かを判定する(ステップS49)。
 全ての第1の属性のカテゴリについて処理が実行されていないと判定された場合(ステップS49のNO)、上記したステップS44に戻って処理が繰り返される。
 一方、全ての第1の属性のカテゴリについて処理が実行されたと判定された場合(ステップS49のYES)、クロス集計可視化部132は、viewリストに分析用単語抽出部142によって出力された単語の集合(リスト)を追加して、当該viewリストを出力する(ステップS50)。なお、viewリストの内容は、例えばクロス集計結果としてディスプレイ15に表示される。
 ここで、図23は、クロス集計可視化部132によって出力されたviewリストが表示された場合の表示画面の一例を示す。
 図23に示す表示画面301においては、クロス集計結果および単語リストが表示されている。
 クロス集計結果によれば、第1の属性(例えば、離散値属性である「出願人」属性)の各カテゴリ(ここでは、「A社」、「B社」、「C社」および「D社」)を縦軸とし、第2の属性(例えば、連続値属性である「出願日」属性)を横軸とし、当該縦軸と横軸とがクロスした欄に当該縦軸のカテゴリと横軸のカテゴリとの両方に分類された文書(分析対象文書)の数が○印で示されている。このクロス集計結果において、○は1件の出願(1つの文書)を表しているものとする。
 なお、表示画面301のクロス集計結果では、分かり易さのために、連続値における階級幅の境界(つまり、連続値属性のカテゴリの表示)が省略されている。
 また、上記したように抽出単語数として「5」が指定されているものとすると、単語リストには、分析用単語抽出部142によって抽出された5つの単語「屈折」、「電力」、「消費」、「顕微鏡」および「電圧」が表示される。なお、単語リストに表示されている単語は、上記した第2のパターン(指定パターン)に一致する単語であるものとする。
 ここで、ユーザは、図23に示す表示画面301において、単語リストに表示されている5つの単語のうちの1つを選択することができる。図23に示す例において、ユーザによって例えば単語「屈折」が選択されたものとすると、図24に示すように、単語「屈折」を指定テキスト中に含む文書に絞り込まれた文書集合におけるクロス集計結果を表示する表示画面302が表示される。具体的には、この表示画面302のクロス集計結果によれば、縦軸と横軸とがクロスした欄には、分析対象文書のうち単語「屈折」を指定テキスト中に含む文書のうち当該縦軸のカテゴリ(第1の属性のカテゴリ)と横軸のカテゴリ(第2の属性のカテゴリ)との両方に分類された文書(の数)が○印で示されている。
 これにより、図23に示す表示画面301のクロス集計結果においては文書数(文書の出現)に偏りがないが、図24に示す表示画面302のクロス集計結果においては、単語「屈折」(によって表される技術内容)では「A社」が特定の出願日によらず多くの出願をしていることを容易に把握することができる。すなわち、図24に示す表示画面302のクロス集計結果においては、単語と出願人(第1の属性)には相関があり、単語と出願日(第2の属性)には相関がないという、ユーザによって指定された第2のパターンの知見を得ることができる。
 ここでは、図23に示す表示画面301(および図24に示す表示画面302)においてはクロス集計結果および単語リストが表示されるものとして説明したが、表示画面には、例えば単語リストのみが表示されても構わない。この場合、ユーザは、単語リストに表示されている単語をキーワードとして分析対象文書を検索することによって、上記したようにユーザによって指定されたパターンの知見を得ることができる。
 なお、図23および図24においてはクロス集計結果を散布図で表示しているが、図25に示すようにクロス集計結果を折れ線グラフで表示してもよいし、図26に示すようにクロス集計結果を数値で表示してもよい。なお、図23、図24および図26に示すクロス集計結果は、ユーザによって指定された2つの属性(つまり、第1および第2の属性)が離散値属性および連続値属性の組み合わせの場合だけでなく、例えば両方とも離散値属性である組み合わせの場合や両方とも連続値属性である組み合わせの場合にも適用可能である。一方、図25に示すクロス集計結果は、ユーザによって指定された2つの属性のうちの少なくとも1つが連続値属性である場合に適用可能である。
 上記したように本実施形態においては、分析対象文書に含まれるテキストを解析することによって複数の単語を取得し、当該取得された単語毎に、当該単語とユーザによって指定された少なくとも2つの属性の各々(例えば、第1および第2の属性)との相関の有無を判定し、当該判定結果がユーザによって指定されたパターン(指定パターン)と一致する単語を提示する構成により、ユーザが所望する知見を効率的に得ることが可能となる。
 つまり、本実施形態においては、分析対象文書に含まれるテキスト中の単語と例えば2つの属性の各々との相関関係に着目し、当該テキストからユーザによって指定されたパターンと一致する単語を自動で抽出することができる。これにより、本実施形態においては、分析対象文書に含まれるテキストと2つの属性とを組み合わせた傾向の分析において、ユーザの目的に応じた知見を効率的に獲得することが可能となる。
 また、本実施形態においては、ユーザによって指定された2つの属性の各々との相関の有無がユーザによって指定されたパターンと一致すると判定された単語が当該単語毎に算出された特徴語および関連度(つまり、当該単語の重み)に基づいて提示されるため、パターンと一致すると判定された単語が多い場合であってもより有用な単語のみをユーザに対して提示することが可能となる。
 なお、本実施形態においてはユーザによって2つの属性(第1および第2の属性)が指定されるものとして主に説明したが、例えば3つ以上の属性が指定されても構わない。
 例えばユーザによって3つの属性(以下、第1~第3の属性と表記)が指定されたものとすると、単語と当該ユーザによって指定された第1~第3の属性の各々との相関の有無を示すパターンがユーザによって指定される。また、前述した単語パターン判定処理においては、単語と第1の属性との相関、当該単語と第2の属性との相関、当該単語と第3の属性との相関、当該単語と当該第1の属性と当該第2の属性と当該第3の属性との相関が判定され、当該各判定結果がユーザによって指定されたパターンと一致するか否かが判定される。
 これにより、例えばユーザによって3つの属性が指定された場合であっても、本実施形態において説明したように当該ユーザによって指定されたパターンと一致する単語を抽出することができる。
 なお、上記した実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD-ROM、DVDなど)光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
 また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
 また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
 更に、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
 また、記憶媒体は1つに限らず、複数の媒体から本実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であってもよい。
 なお、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
 また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
 本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 
 10…文書分析装置、11…記憶装置、12…キーボード、13…マウス、14…中央演算装置、15…ディスプレイ、100…文書格納部、110…カテゴリ格納部、120…パターン格納部、130…ユーザインタフェース部、131…カテゴリ表示操作部、132…クロス集計可視化部、140…単語抽出部、141…単語パターン判定処理部、142…分析用単語抽出部。

Claims (6)

  1.  複数の単語からなるテキストを含む複数の文書であって、複数の属性を有し、当該属性の属性値を含む複数の文書を格納する文書格納手段と、
     単語と前記複数の属性のうちの少なくとも2つの属性の各々との相関の有無を示す複数のパターンを格納するパターン格納手段と、
     前記文書格納手段に格納されている複数の文書に含まれるテキストを解析することによって複数の単語を取得する取得手段と、
     前記取得された単語毎に、当該単語と前記文書格納手段に格納されている複数の文書が有する複数の属性のうちユーザによって指定された少なくとも2つの属性の各々との相関の有無を判定する第1の判定手段と、
     前記第1の判定手段による判定結果が、前記パターン格納手段に格納されている複数のパターンのうち前記ユーザによって指定されたパターンと一致するかを判定する第2の判定手段と、
     前記第1の判定手段による判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語を提示する提示手段と
     を具備することを特徴とする文書分析装置。
  2.  前記判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語毎に、前記文書格納手段に格納されている複数の文書における当該単語の出現頻度に基づいて特徴度を算出する第1の算出手段と、
     前記判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語毎に、前記文書格納手段に格納されている複数の文書における当該単語と当該単語以外の前記第1の判定手段による判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語との共起に基づく関連度を算出する第2の算出手段と、
     前記提示手段は、前記第1の判定手段による判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語を、当該単語毎に算出された特徴度および関連度に基づいて提示する
     ことを特徴とする請求項1記載の文書分析装置。
  3.  前記第2の算出手段は、前記第1の判定手段による判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語毎に、当該単語と、当該単語との共起頻度が統計的に有意な単語との共起に基づく関連度を算出することを特徴とする請求項2記載の文書分析装置。
  4.  カテゴリ生成手段を更に具備し、
     前記ユーザによって指定された少なくとも2つの属性は、第1および第2の属性を含み、
     前記カテゴリ生成手段は、前記複数の文書に含まれる前記第1の属性の属性値に基づいて当該複数の文書が分類された第1のカテゴリを生成し、前記複数の文書に含まれる前記第2の属性の属性値に基づいて当該複数の文書が分類された第2のカテゴリを生成し、
     前記提示手段は、前記生成された第1および第2のカテゴリの両方に分類された文書の数を含むクロス集計結果を更に提示する
     ことを特徴とする請求項1記載の文書分析装置。
  5.  前記提示手段は、前記提示された単語が前記ユーザによって指定された場合、当該単語を含む文書のうち前記生成された第1および第2のカテゴリの両方に分類された文書の数を含むクロス集計結果を表示することを特徴とする請求項4記載の文書分析装置。
  6.  複数の単語からなるテキストを含む複数の文書であって、複数の属性を有し、当該属性の属性値を含む複数の文書を格納する文書格納手段と、単語と前記複数の属性のうちの少なくとも2つの属性の各々との相関の有無を示す複数のパターンを格納するパターン格納手段とを有する文書分析装置のコンピュータによって実行されるプログラムであって、
     前記コンピュータに、
     前記文書格納手段に格納されている複数の文書に含まれるテキストを解析することによって複数の単語を取得するステップと、
     前記取得された単語毎に、当該単語と前記文書格納手段に格納されている複数の文書が有する複数の属性のうちユーザによって指定された少なくとも2つの属性の各々との相関の有無を判定するステップと、
     前記判定結果が、前記パターン格納手段に格納されている複数のパターンのうち前記ユーザによって指定されたパターンと一致するかを判定するステップと、
     前記判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語を提示するステップと
     を実行させるためのプログラム。
PCT/JP2012/074688 2012-09-26 2012-09-26 文書分析装置およびプログラム WO2014049708A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2012/074688 WO2014049708A1 (ja) 2012-09-26 2012-09-26 文書分析装置およびプログラム
CN201280076053.0A CN104718546B (zh) 2012-09-26 2012-09-26 文档分析装置以及记录介质
JP2012544356A JP5349699B1 (ja) 2012-09-26 2012-09-26 文書分析装置およびプログラム
US14/669,721 US20150199427A1 (en) 2012-09-26 2015-03-26 Document analysis apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/074688 WO2014049708A1 (ja) 2012-09-26 2012-09-26 文書分析装置およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/669,721 Continuation-In-Part US20150199427A1 (en) 2012-09-26 2015-03-26 Document analysis apparatus and program

Publications (1)

Publication Number Publication Date
WO2014049708A1 true WO2014049708A1 (ja) 2014-04-03

Family

ID=49764933

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/074688 WO2014049708A1 (ja) 2012-09-26 2012-09-26 文書分析装置およびプログラム

Country Status (4)

Country Link
US (1) US20150199427A1 (ja)
JP (1) JP5349699B1 (ja)
CN (1) CN104718546B (ja)
WO (1) WO2014049708A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135632A (ja) * 2019-02-22 2020-08-31 三井化学株式会社 情報処理装置及びプログラム
US11055357B2 (en) 2018-10-04 2021-07-06 Fronteo, Inc. Computer, data element presentation method, and program
CN113515627A (zh) * 2021-05-19 2021-10-19 北京世纪好未来教育科技有限公司 文档检测方法、装置、设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102280B2 (en) * 2015-08-31 2018-10-16 International Business Machines Corporation Determination of expertness level for a target keyword
JP6881322B2 (ja) * 2016-02-12 2021-06-02 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
EP3872743A4 (en) * 2018-10-26 2022-07-13 Dayang Intelligence Co. Ltd METHOD FOR GENERATION AND TRANSMISSION OF DATA IN MARC FORMAT IN REAL TIME DURING A REQUEST FOR A BOOK DESIRED BY A USER, AND ASSOCIATED SYSTEM

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063353A (ja) * 2003-08-20 2005-03-10 Nippon Telegr & Teleph Corp <Ntt> 説明変数有効度検証のためのデータ分析装置、該データ分析をコンピュータに実行させるためのプログラム及び該プログラムの記録媒体
JP2011253449A (ja) * 2010-06-03 2011-12-15 Toshiba Corp 文書分析装置およびプログラム
JP2012073812A (ja) * 2010-09-29 2012-04-12 Hitachi Ltd データ分析支援システム及び方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108641A (ja) * 1991-10-17 1993-04-30 Fuji Xerox Co Ltd 文書スタイル設計支援装置
US7181459B2 (en) * 1999-05-04 2007-02-20 Iconfind, Inc. Method of coding, categorizing, and retrieving network pages and sites
US8473532B1 (en) * 2003-08-12 2013-06-25 Louisiana Tech University Research Foundation Method and apparatus for automatic organization for computer files
GB0414332D0 (en) * 2004-06-25 2004-07-28 British Telecomm Data storage and retrieval
US20060047631A1 (en) * 2004-08-11 2006-03-02 Kabushiki Kaisha Toshiba Document information management apparatus and document information management program
US7917492B2 (en) * 2007-09-21 2011-03-29 Limelight Networks, Inc. Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
JP4807330B2 (ja) * 2007-06-15 2011-11-02 富士ゼロックス株式会社 文書処理装置及びプログラム
US10169484B2 (en) * 2010-09-23 2019-01-01 Fisher-Rosemount Systems, Inc. Methods and apparatus to manage process control search results

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063353A (ja) * 2003-08-20 2005-03-10 Nippon Telegr & Teleph Corp <Ntt> 説明変数有効度検証のためのデータ分析装置、該データ分析をコンピュータに実行させるためのプログラム及び該プログラムの記録媒体
JP2011253449A (ja) * 2010-06-03 2011-12-15 Toshiba Corp 文書分析装置およびプログラム
JP2012073812A (ja) * 2010-09-29 2012-04-12 Hitachi Ltd データ分析支援システム及び方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11055357B2 (en) 2018-10-04 2021-07-06 Fronteo, Inc. Computer, data element presentation method, and program
JP2020135632A (ja) * 2019-02-22 2020-08-31 三井化学株式会社 情報処理装置及びプログラム
CN113515627A (zh) * 2021-05-19 2021-10-19 北京世纪好未来教育科技有限公司 文档检测方法、装置、设备及存储介质
CN113515627B (zh) * 2021-05-19 2023-07-25 北京世纪好未来教育科技有限公司 文档检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN104718546B (zh) 2017-12-05
US20150199427A1 (en) 2015-07-16
JP5349699B1 (ja) 2013-11-20
CN104718546A (zh) 2015-06-17
JPWO2014049708A1 (ja) 2016-08-22

Similar Documents

Publication Publication Date Title
Kim et al. A hierarchical aspect-sentiment model for online reviews
US9262527B2 (en) Optimized ontology based internet search systems and methods
JP5349699B1 (ja) 文書分析装置およびプログラム
Kuzey et al. Extraction of temporal facts and events from Wikipedia
JP5359399B2 (ja) テキスト分析装置および方法、並びにプログラム
Bykau et al. Fine-grained controversy detection in Wikipedia
Wei et al. DF-Miner: Domain-specific facet mining by leveraging the hyperlink structure of Wikipedia
KR101401225B1 (ko) 문서 분석 시스템
Mesbah et al. Facet embeddings for explorative analytics in digital libraries
JPWO2010013472A1 (ja) データ分類システム、データ分類方法、及びデータ分類プログラム
JP5224532B2 (ja) 評判情報分類装置及びプログラム
Hofstätter et al. Neural-IR-Explorer: A Content-Focused Tool to Explore Neural Re-Ranking Results
KR101078978B1 (ko) 문서 분류 시스템
AT&T
Scholtes et al. Big data analytics for e-discovery
CN109213830B (zh) 专业性技术文档的文档检索系统
KR101078966B1 (ko) 문서 분석 시스템
JP6612291B2 (ja) 類似文書検索装置、類似文書検索方法及びプログラム
KR101078945B1 (ko) 문서 분석 시스템
Kim et al. Detecting family resemblance: Automated genre classification
Hausner et al. TiCCo: time-centric content exploration
Izo et al. Named entities as a metadata resource for indexing and searching information
JP5481543B2 (ja) 文書分析装置およびプログラム
Szlávik et al. Summarisation of the logical structure of XML documents
Ericson et al. Tracing Class and Capitalism in Critical AI Research

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2012544356

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12885380

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12885380

Country of ref document: EP

Kind code of ref document: A1