WO2007015505A1 - データ処理装置、データ処理方法、データ処理プログラム - Google Patents

データ処理装置、データ処理方法、データ処理プログラム Download PDF

Info

Publication number
WO2007015505A1
WO2007015505A1 PCT/JP2006/315274 JP2006315274W WO2007015505A1 WO 2007015505 A1 WO2007015505 A1 WO 2007015505A1 JP 2006315274 W JP2006315274 W JP 2006315274W WO 2007015505 A1 WO2007015505 A1 WO 2007015505A1
Authority
WO
WIPO (PCT)
Prior art keywords
node
nodes
extracting
data processing
text
Prior art date
Application number
PCT/JP2006/315274
Other languages
English (en)
French (fr)
Inventor
Yousuke Sakao
Takahiro Ikeda
Kenji Satou
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to US11/996,484 priority Critical patent/US8775158B2/en
Priority to JP2007529503A priority patent/JP4992715B2/ja
Publication of WO2007015505A1 publication Critical patent/WO2007015505A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • Data processing apparatus data processing method, and data processing program
  • the present invention is structured by analyzing input data such as digitized text stored on a computer by means of syntax analysis, text mining, text summarization, text search, text classification, etc.
  • a data processing device that extracts a feature structure from a deformed graph by transforming a graph representing the structure of input data obtained by means such as parsing based on the relationship between nodes, and data It relates to processing methods and data processing programs.
  • Patent Document 1 discloses a configuration as shown in FIG.
  • the conventional text mining device includes a basic dictionary storage unit, a document data storage unit, a field-dependent dictionary storage unit, a language feature analysis device, a language analysis device, a pattern extraction device, and a frequent pattern display device. And.
  • the text mining device shown in FIG. 24 generally operates as follows. First, the language feature analyzer creates a field-dependent dictionary from the basic dictionary and document data. Next, the language analyzer creates a sentence structure such as a syntax tree for each sentence from the basic dictionary, the field-dependent dictionary, and the document data.
  • the sentence structure refers to a graph structure that represents text obtained by parsing text.
  • the pattern extraction device extracts the feature structure using this sentence structure, and stores the document in the document data that matches the feature structure in the frequent pattern matching document storage unit and outputs the feature structure at the same time.
  • the feature structure refers to a partial structure that characterizes a text set such as a frequent pattern extracted by applying a text mining process to a partial structure of a sentence structure.
  • Patent Document 1 Japanese Patent Laid-Open No. 2001-84250
  • the conventional mining apparatus as described above has a plurality of words indicating the same content in the text.
  • words that refer to the same content here refers to pronouns or zero pronouns that have an anaphoric relationship and antecedents.
  • a conventional text mining device for example, has the same meaning in a single text in a single text and multiple texts that point to the same content in a single text. Text mining cannot be performed by equating words written with words (including zero pronouns etc., omitted in the text).
  • a conventional text mining device uses a single word in one text for a single content that has the same meaning, and multiple words that point to the same content in one text. This is because it is provided with a means to identify the case of being written using
  • Figure 25 shows the parsing of two texts, "Vehicle A is cheaper and higher performance" (text S 100) and “Vehicle A is cheaper and more powerful” (text S101).
  • text S 100 "Vehicle A is cheaper and higher performance”
  • text S101 “Vehicle A is cheaper and more powerful”
  • a sentence structure T100 is obtained and extracted as it is as a feature structure P T101 (FIG. 25 (a)).
  • sentence structure T101 and sentence structure T102 are obtained, and feature structures PT101 and PT102 are extracted as feature structures (Fig. 25 (b)).
  • Text S100 uses the single word “car model A” and text S101 is omitted before “car model A” and “high performance”! ,
  • the two words are used to describe the same content, “Vehicle A is cheap and high performance”. Therefore, it is desirable that the partial structure PT103 in FIG. 26 representing this content is extracted as a feature structure from two texts.
  • Semantically related words '' include, for example, words in the same surface layer, words that are related to synonyms in the thesaurus, user-specified synonyms, superordinate concepts and subordinate concepts, and the like. Examples include words that are related semantically, but do not refer to the same content, such as words (related words in the thesaurus) and related words specified by the user.
  • a user-specified synonym is a word specified by the user as a plurality of words that can indicate the same content, and is determined as the same word when extracting a feature structure such as a frequent pattern.
  • the user-specified related words are words that the user specifies as words that are related to each other but do not necessarily indicate the same contents.
  • FIG. 27 when one content is described using a plurality of semantically related words in one text, in the conventional technology, the content is extracted into one structure.
  • Figure 27 shows that “light cars are generally cheaper but B's light cars are expensive” (text S 102) and “light cars are cheap. B's light cars are expensive” (text S1 03).
  • This is an example of a sentence structure obtained by parsing two texts and a structure from which the sentence structure is extracted when text mining is performed on the sentence structure using conventional technology.
  • sentence structure T103 When text S102 is parsed, sentence structure T103 is obtained, and partial structures PT104 and PT105 are extracted as characteristic partial structures (FIG. 27 (a)).
  • sentence structures T104 and T105 are obtained, and partial structures PT106 and PT107 are extracted as feature partial structures (FIG. 27 (b)).
  • the two texts have related contents written using multiple words “light cars” on the same surface, but the structure of the contents described for general light cars (PT10 4 And PT106) and the light vehicle of Company B are extracted separately (PT105 and PT107).
  • the present invention correctly corrects the feature structure even when input data such as text includes a plurality of words indicating the same contents or a plurality of words that are semantically related. It is an object to provide a data processing apparatus, method and program that can be extracted.
  • the data processing apparatus includes related node extraction means, and extracts related nodes including words related to the graph power obtained as a result of syntax analysis or the like.
  • the related node joining means transforms the graph by joining some or all of the related nodes.
  • “joining” means connecting a plurality of nodes to one node, or connecting a node in the dart and another node with a new branch.
  • the feature structure extracting means extracts the feature structure from the graph deformed by the related node joining means (Claim 1).
  • the related node joining means transforms the graph by joining the related nodes. This transformation is done by connecting related nodes containing semantically related words or connecting them with new branches, so it can be obtained by parsing even though it originally represents the same meaning. In the first graph, it is possible to associate multiple substructures that cannot be recognized as such.
  • the feature structure can be correctly extracted even when the input data includes a plurality of words indicating the same content or a plurality of words that are semantically related.
  • the related node joining means converts the related nodes into semantic relevance. It is also possible to classify into strongly related nodes and weakly related nodes according to the strength of the nodes, and to combine the strongly related nodes into one node (claim 2).
  • the graph can be transformed so that nodes that point to the same content are combined into a single node.
  • the feature structure extraction means extracts the feature structure from the graph after the transformation in this way, one content having the same meaning is written using a single word in one input data,
  • a feature structure can be extracted by equating the case where multiple words (for example, antecedents and corresponding pronouns) indicating the same content are written in one input data.
  • the related node joining means classifies the related nodes into strong related nodes and weak related nodes according to the strength of semantic relevance, and connects weakly related nodes with semantic related branches.
  • the structure extraction means includes a node in which the substructure of the graph includes nodes connected by semantically related branches, and at least one of the nodes is connected to another node by a dependency branch! / Wow! / In some cases, the feature structure should not be extracted. (Claim 3). In the feature structure extraction process, this semantically related branch is distinguished from the branch representing the dependency relationship in the graph structure.
  • the nodes that are semantically related to each other are connected by the semantically related branches, and the structure is transformed.
  • the graph can be transformed so that the nodes corresponding to the word are connected by semantically related branches and combined into one substructure.
  • the feature structure extraction means extracts the feature structure from the graph graph transformed in this way, when one content is described using a plurality of semantically related words in one input data.
  • the contents can be extracted into a single structure.
  • the related node extracting means extracts an anaphoric node that is a node including an antecedent having an anaphoric relationship with a pronoun or zero pronoun as a related node, and the related node joining means is an anabolic node. May be classified as strongly related nodes. 4) 0
  • the related node extracting means extracts the same surface node that is a node including the word having the same surface layer as the related node, and the related node joining means uses the same surface node as the weakly related node. If so, (Claim 5).
  • the related node extracting unit extracts a synonym node that is a node including a synonym word in the thesaurus as a related node, and the related node joining unit weakens the synonym node. It may be classified as a related node ⁇ (Claim 6).
  • the related node extracting unit extracts a specified synonym node that is a node including the synonym specified by the user as a related node, and the related node joining unit weakens the specified synonym node. It may be classified as a related node (claim 7).
  • the related node extracting means extracts a related word node that is a node including a word that is a related word in the thesaurus as a related node, and the related node joint means is weakly related to the related word node. It may be classified as a node! ⁇ (Claim 8).
  • the related node extracting means extracts a specified related word node that is a node including the related word specified by the user as a related node, and the related node joining means weakens the specified related word node. It may be classified as a related node (claim 9).
  • the semantic relevance calculating means calculates a semantic relevance indicating the strength of the semantic relevance of the words included in the related nodes, and the related node joining means
  • the related nodes may be classified into strongly related nodes and weakly related nodes based on the degree (claim 10).
  • the related node joining means classifies the related nodes whose semantic relevance is smaller than the first threshold value as weakly related nodes, and the semantic relevance is greater than or equal to the first threshold.
  • the nodes may be classified as strongly related nodes (claim 11).
  • the feature structure extracted by the feature structure extraction means can be adjusted by appropriately determining the threshold according to the operation and adjusting the operation of the related node joining means.
  • the related nodes that are semantically related nodes are extracted from the nodes of the graph representing the structure of the sentence, and a part or all of the related nodes are joined together.
  • the graph is deformed, and the feature structure is extracted from the deformed graph (claim 13).
  • the graph is deformed by joining related nodes. This transformation is done by connecting related nodes containing semantically related words or connecting them with new branches. In the first graph, it is possible to associate multiple substructures that cannot be recognized as such.
  • the feature structure can be correctly extracted even when the input data includes a plurality of words indicating the same content or a plurality of words that are semantically related.
  • a step of extracting a related node which is a node that is semantically related, is extracted to a computer and a part or all of the related nodes.
  • the step of deforming the graph by joining and the step of extracting the feature structure from the deformed graph is executed (claim 14).
  • the computer is caused to execute the step of deforming the graph by joining the related nodes. This transformation is done by connecting related nodes containing semantically related words or connecting them with new branches, so it can be obtained by parsing even though it originally represents the same meaning. In the first graph, multiple substructures that cannot be recognized as such can be related.
  • the feature structure can be correctly extracted even when the input data includes a plurality of words indicating the same content or a plurality of words that are semantically related.
  • the related node extracting means extracts the nodes that are semantically related as the related nodes, and the related node joining means joins the related nodes to perform data processing such as mining.
  • the graph obtained by analyzing the input data subject to Shape.
  • the feature structure extraction means extracts the feature structure from the graph after deformation.
  • the feature structure can be correctly extracted even when the input data subject to data processing contains multiple words that point to the same content or multiple words that are semantically related. .
  • FIG. 1 is a functional block diagram showing the configuration of the text mining device 10.
  • the text mining device 10 includes, for example, a personal computer, and includes a storage device 1 that stores information, a data processing device 2 that operates by program control, and an output device 3 that displays the detected partial structure.
  • the storage device 1 stores a text database (DB) 11.
  • the text DB 11 stores a set of texts to be subjected to text mining.
  • the data processing device 2 includes language analysis means 21, related node extraction means 22, related node connection means 23, and feature structure extraction means 24.
  • the language analysis means 21 reads a text set from the text DB 11 and analyzes each text in the set to generate a sentence structure.
  • the related node extracting means 22 extracts nodes (related contacts) that are semantically related to each other from the sentence structures in the set of sentence structures sent from the language analyzing means 21.
  • nodes that are semantically related include nodes that have an anaphoric or zero pronoun and antecedent, nodes that have the same surface layer, nodes that have synonyms in the thesaurus, and user-specified Nodes that are related to each other, nodes that are related to related terms in the thesaurus, and nodes that are related to related terms specified by the user.
  • the extraction of related nodes includes, for example, anaphora analysis, pattern matching of surface layers of two clauses, pattern matching between user-specified synonyms and related word surfaces and phrase surface layers, words in the thesaurus A known technique such as pattern matching between the phrase and the surface of the phrase is used.
  • the related node joining means 23 receives the set of sentence structures and the related node information from the related node extracting means 22 and transforms each sentence structure.
  • the related node joining means 23 receives a set of sentence structures and related node information from the related node extracting means 22 and combines the related nodes in each sentence structure to form each sentence structure as one node. The deformation of.
  • the related node joining means 23 receives a set of sentence structures and related node information from the related node extracting means 22 and semantically connects nodes that are semantically related to each other in each sentence structure.
  • Each sentence structure is transformed by connecting with related branches.
  • the related node joining means 23 receives a set of sentence structures and related node information from the related node extracting means 22, and the extracted related nodes in each sentence structure are connected between the nodes.
  • Classify relationships For example, there are two types of cases: multiple nodes extracted as related nodes point to the same content (strongly related nodes) and semantically related but not necessarily the same content (weakly related nodes). Classify.
  • related nodes are connected and combined into one node, and for weakly related nodes, related nodes are connected with semantically related branches.
  • the nodes of pronouns or zero pronouns that have an anaphoric relationship and the nodes of antecedents are strongly related nodes.
  • a node is a weakly related node.
  • nodes A, B, and C in a sentence structure if node A and node B are related nodes, and node B and node C are also related nodes, node A and node C are also related nodes. It is also good. In that case, the classification of the relationship between node A and node C is, for example, when node A and node B are strongly related nodes, and node B and node C are also strongly related nodes. In other cases, nodes A and C are used as weakly related nodes.
  • a plurality of strongly related node sets to be coupled to one node are extracted from the sentence structure, and a certain node is included in the plurality of strongly related linked node sets.
  • Figure 2 shows the sentence structure of the text “Vehicle A is cheap. This is fast. This is popular” (text S20). From the text S20, the structures T20—A, T20—B, T320—C are obtained. Note that the subscripts A and B are given in the order in which they appear in the text S20 to distinguish the two nodes “this” in FIG.
  • Figure 3 shows the sentence structure T21 as a result of applying method 1 to the sentence structure in Figure 2 and joining related nodes.
  • structure T21 the three nodes “car type A”, “this” (subscript A), and “this” (subscript B) in FIG. 2 are connected to one node, and the node “car type A” in FIG. It has become.
  • Figure 4 shows the sentence structure T22 that is the result of applying Method 2 to the sentence structure in Figure 2 and joining related nodes.
  • the nodes “car type A” and “this” (subscript A) in Fig. 2 are combined into one node, resulting in node “car type A” (subscript A) in Fig. 4.
  • node “car type A” and “this” (subscript B) in Fig. 2 are combined into one node, and node "car type A” (subscript B) in Fig. 4 is formed.
  • branches connecting the respective contacts in FIG. 4 are all normal branches indicating the dependency.
  • Fig. 5 shows “Comparison of Kanto, Kansai and Chubu” (text S2 1) t and U sentence text structure T23. Note that the subscripts A, B, and C are given in the order they appear in the text S21 to distinguish the three “car models” in T23 from the nodes.
  • the nodes “car type” (subscript A), “car type” (subscript B), “car type” ( Subscript A) and “car type” (subscript C), "car type” (subscript B) and “car type” (subscript C) are semantically related branches.
  • the "vehicle type” (subscript A), "car type” (subscript B), and “vehicle type” (subscript C) are included in multiple weakly related node sets. It will be.
  • the node corresponding to the clause having the closest distance in the text among the related nodes may be connected with the semantically related branch (method 4). However, if there are multiple nodes corresponding to the closest node in the text among the related nodes, connect semantically related branches to all of them.
  • the sentence structure T24 is the result of joining the related nodes by applying Method 3 to the sentence structure T23 in Fig. 5.
  • Figure 6 shows.
  • the dotted lines in the sentence structure T24 in Fig. 6 indicate semantically related branches.
  • Related nodes in Fig. 5 “Car type” (subscript A) and “Vehicle type” (subscript B), “Vehicle type” (subscript A) and “Vehicle type” (subscript C), “Vehicle type” (subscript B) And “car model” (subscript C) are all semantically related branches, and the sentence structure is T24.
  • Figure 7 shows.
  • the dotted lines in the sentence structure T25 in Fig. 7 indicate semantically related branches.
  • the node “car type” (subscript C) in FIG. 7 corresponds to a clause with a shorter distance within the sentence among the two related nodes “car type” (subscript A) and “car type” (subscript B). Trying to connect semantically related branches to “car type” (subscript B), but “car type” (subscript B) and “car type” (subscript C) are already connected by semantic related branches. None is done! /
  • the feature structure extraction means 24 extracts a characteristic partial structure from the set of sentence structures deformed by joining the related nodes sent from the related node joining means 23, and sends it to the output device 3.
  • the structure in which the dependency branch is not connected to another node from at least one of the nodes connected by the semantically related branch by the related node joining means 23 is used as the feature structure extracting means 24. Do not extract.
  • FIG. 8 is a flowchart for explaining the operation of the text mining apparatus 10.
  • the language analysis means 21 reads a text set from the text DB 11.
  • the language analysis means 21 analyzes each text in the text set, generates a sentence structure as an analysis result, and sends it to the related node extraction means 22 (step Al in FIG. 8).
  • the related node extraction means 22 extracts nodes that are also related to each sentence structure force in a given set of sentence structures, and joins the information of the set of sentence structures and related nodes in each sentence structure. This is sent to means 23 (step A2 in FIG. 8: related node extraction step).
  • the related node joining means 23 joins nodes related to each other in each sentence structure from the given set of sentence structures and the information on the related nodes in each sentence structure.
  • Each sentence structure in the set is transformed, and the set of structures obtained as a result of the transformation is sent to the feature structure extraction means 24 (step A3 in FIG. 8: related node joining step).
  • the feature structure extraction means 24 extracts a characteristic partial structure from a set of sentence structures after deformation by joining the given related nodes (step A4 in FIG. 8: feature structure extraction step).
  • the feature structure extraction means 24 outputs the extracted feature structure to the output device 3 (step A5 in FIG. 8).
  • the related node extraction means 22 extracts an antecedent antecedent and a pronoun or zero pronoun as related nodes, and the related node joint means 23 combines the related nodes into a single node to Perform structural deformation.
  • the texts S1 to S3 shown in FIG. 9 are part of a text set stored in the text DB 11 of FIG.
  • the language analysis means 21 performs language analysis on each text in FIG. 9 to obtain the sentence structure of each text (step Al in FIG. 8).
  • Figure 10 shows the sentence structure obtained as a result of analysis by the language analysis means 21.
  • the sentence structure of text S1 in Figure 9 is the structure Tl in Figure 10
  • the sentence structure of text S2 in Figure 9 is the structure in Figure 10 ⁇ 2— ⁇ and ⁇ 2— B
  • the sentence structure of text S3 in Figure 9 is the structure in Figure 10 T3—A and T3—B. Note that parallel processing by the language analysis means 21 is applied to the structure T1 in FIG. 10, and zero pronoun extraction processing by the language analysis means 21 is applied to the structure T2—B in FIG.
  • the related node extracting means 22 extracts nodes that are semantically related to the sentence structure shown in FIG. 10 (step A2 in FIG. 8).
  • Two sets of “car type A” of A and “that” “car type” of structure T3—B (corresponding to 1 node force ⁇ node) are extracted as related nodes.
  • Figure 11 shows the structure after deformation obtained by the related node joining means 23.
  • the related nodes “car type A” of structure T3—A and “that” “car type” of structure T3—B correspond to antecedents and pronouns in anaphoric relations. Since these are nodes, these nodes are connected to one node, and the structures T3-A and 3-B in Fig. 10 are joined to form the structure T3 'in Fig. 11.
  • the feature structure extraction means 24 extracts a feature structure from the transformed sentence structure set shown in FIG. 11 (step A4 in FIG. 8).
  • a partial structure that appears three or more times is used as a feature structure.
  • Extract as a structure.
  • the extracted frequent substructures are the frequent substructures PT1 and PT6 in FIG.
  • the extracted feature structure is displayed on the output device 3 (step A5 in FIG. 2).
  • the related node joining means 23 joins the related nodes, so that the contents of the text S1 to text S3 "car type A is cheap and high performance" have the same shape (Fig. 12). Therefore, mining can be done with the same view.
  • the related node extracting means 22 extracts nodes having the same surface layer, nodes having a user-specified synonym relationship, and nodes having a user-specified related word relationship as related nodes.
  • the related node joining means 23 performs structural transformation of the sentence structure by connecting related nodes with semantically related branches.
  • “light car” and “light” are specified as synonyms specified by the user
  • “car” and “car type C” and “car” and “light car” are specified as related words specified by the user, Shall be. Such designation is performed, for example, by creating a file defining synonyms and related terms in the storage device 11 in advance.
  • the language analysis means 21 performs language analysis on each text in FIG. 13 to obtain the sentence structure of each text (step Al in FIG. 8).
  • FIG. 14 shows a sentence structure obtained as a result of analysis by the language analysis means 21.
  • the sentence structure of text S4 in FIG. 13 is structure T4 in FIG.
  • the sentence structure of text S5 in Fig. 13 is the structure T5-A and T5-B in Fig. 14.
  • the sentence structure of text 6S in Fig. 13 is the structure T6-A and T6-B in Fig. 14.
  • the sentence structure of text S 7 in FIG. 13 is structure T 7 in FIG.
  • the sentence structure of text S8 in FIG. 13 is the structure T8—A and T8-B in FIG.
  • the sentence structure of text S9 in Figure 13 is the structure T9—A and T9-B in Figure 14.
  • the related node extracting means 22 extracts nodes that each sentence structure force shown in FIG. 14 is also semantically related (step A2 in FIG. 8).
  • Figure 15 shows the sentence structure after transformation obtained as a result of processing by the related node joint means 23.
  • the two “light cars” that are related nodes are nodes on the same surface layer, so these nodes are connected by semantically related branches (shown by dotted lines in FIG. 15).
  • the structure is T4 'in Fig. 15. In the feature structure extraction process, this semantically related branch is distinguished from the branch representing the dependency relationship in the sentence structure.
  • the “light vehicle” of the structure T5—A and the “light vehicle” of the structure T5—B are nodes on the same surface layer. Connected by semantically related branches, structures T5-A and T5-B in Fig. 14 are joined to form structure T5 'in Fig. 15.
  • the related nodes “light car” in structure T6—A and “light” in structure T6—B are nodes that have a user-specified synonym relationship. Are connected by semantically related branches, and the structures T6-A and T6-B in Fig. 14 are joined to form the structure T6 in Fig. 15.
  • the related nodes "car” and “car type C” are nodes in the relationship of user-specified related words, so these nodes are connected by semantic related branches, and the structure in Fig. 15 is connected. T7 '.
  • the related node "car” in structure T8-A and "car type C" in structure T8-B are nodes in the relationship of user-specified related words. These nodes are connected by semantically related branches, resulting in the structure T8 'in Fig. 15.
  • the related nodes “car” in the structure T9 A and “car type C” in the structure T9—B are nodes in the relationship of the related words specified by the user.
  • the points are connected by semantically related branches, resulting in the structure T9 'in Figure 15.
  • the feature structure extraction means 24 extracts a feature structure from the set of sentence structures after transformation shown in FIG. 15 (step A4 in FIG. 8).
  • the dependency branch is connected to another node from at least one of the two nodes connected by the semantically related branch introduced by the related node joining means 23. Since it is a structure that does not have, it is not extracted as a feature structure.
  • Figure 16 shows an example of such a structure.
  • one of the two "light car" nodes in contrast (left side in the figure) 1S Not connected to other nodes by a dependency branch, You can see that it has become meaningless and has become a structure.
  • the partial structures that appear three or more times are extracted as feature structures.
  • “light car” and “light” are treated as the same word by the user-specified synonyms, and referring to FIG. 15, the extracted frequent substructures are the frequent substructures PT7 to PT7 in FIG.
  • the partial structure looks like PT23.
  • the text S4, S5, and S6 in Fig. 13 describe the capabilities of a general light vehicle compared with a light vehicle of a certain company. Also, the texts S7, S8, and S9 compare a general car with a vehicle type C.
  • the contents described above are written using a plurality of semantically related words, so the conventional text mining method extracts these contents by dividing them into multiple substructures. That being said, the mining result was a powerful component.
  • the related node joining means 23 connects weakly related nodes with semantically related branches to transform the sentence structure into one partial structure.
  • the feature node collection means 24 extracts the feature partial structure from the sentence structure T4 'after deformation (Fig. 15), so that the feature partial structure that cannot be extracted by the conventional text mining device ⁇ 14 (Fig. 17) etc. can be extracted.
  • a structure such as ⁇ 27 in FIG. 18 generated by joining semantically related nodes existing in a sentence structure of another text is not extracted as a feature structure.
  • the node “light vehicle” of the frequent partial structure PT13 and the frequent partial structure of the feature structure shown in Fig. 17 ⁇ 2 1 The node “car” is connected by semantically related branches, and the structure ⁇ 27 in FIG. 18 is generated.
  • the general car represented by the structure ⁇ 27 is compared with the light car of the company Since the actual text is not present in the input text set shown in FIG. 13, it is desirable that this structure T27 is not extracted as a feature structure.
  • the text mining device 10 does not join semantically related nodes that exist in the sentence structure of another text. Therefore, do not extract such an incorrect feature structure.
  • the configuration and operation of the text mining device 30 according to the second embodiment of the present invention will be described with reference to the drawings. Since many parts of the text mining device 30 are common to the text mining device 10, the same parts as those of the text mining device 10 are denoted by the same reference numerals and description thereof is omitted.
  • FIG. 19 is a functional block diagram showing the configuration of the text mining device 30.
  • the text mining device 30 includes an input device 5 that is not included in the text mining device 10 of FIG. Further, the data processing device 4 is provided with related node joining means (related node joining means) 26 according to the degree of association instead of the related node joining means 23 of the data processing device 2 in FIG.
  • the semantic relevance calculation means 25 is provided.
  • the semantic relevance calculation means 25 receives information on the related nodes in each sentence structure from the related node extraction means 22 and calculates the semantic relevance between the nodes related to each other. Information on the semantic relevance of the related nodes is sent to the related node joining means 26 by relevance. Semantic relevance is a measure of the semantic relevance of related nodes.For example, the related nodes have the same content in the thesaurus of related nodes that are related to related words in the thesaurus. It is calculated by a combination of parameters such as distance and distance in the text of the clause corresponding to the related node.
  • node A and node C are also related nodes.
  • the semantic relevance between node A and node C can be determined based on the semantic relevance between node A and node B and the semantic relevance between node B and node C, for example.
  • the input device 5 receives from the user thresholds for classifying the related nodes according to the semantic relevance of the related nodes, for example, threshold A (second threshold) and threshold B (first threshold). Two, the input and Are received and sent to the related node joining means 26 according to the degree of relevance. Note that the value of threshold B is always required to be greater than or equal to the value of threshold A.
  • the related node joining means 26 by relevance level receives a set of sentence structures, information on related nodes, and information on the semantic level of related nodes from the semantic relevance calculation means 25, and further receives a threshold value from the input device 5. Receiving A and threshold B, and changing the structure of each sentence structure by joining the related nodes as follows according to the magnitude relation between the value of the semantic relevance of the nodes related to each other, threshold value A, and threshold B I do.
  • the related nodes are connected by semantic related branches.
  • the related-node related node joining means 26 determines the value of the semantic relatedness of the nodes related to each other.
  • the structure of each sentence structure is modified by joining related nodes according to the magnitude relationship with the threshold.
  • the related nodes are combined into one node.
  • two threshold values have been input, the same applies to the case where the values are the same.
  • FIG. 20 is a flowchart for explaining the operation of the text mining device 30.
  • step B3 is executed instead of step A3 in FIG. 8, and steps Bl and B2 are inserted between step A2 and step B3. Since the processes indicated by steps Al, A2, A4, and A5 in FIG. 20 are the same as the processes in the text mining device 10, the description thereof is omitted.
  • the related node joining means 23 is a predetermined joining method.
  • the related contacts are joined according to the semantic relevance calculated by the semantic relevance calculation means 25.
  • the semantic relevance calculating means 25 receives the information on the related nodes in each sentence structure from the related node extracting means 22, calculates the semantic relevance of the nodes related to each other, and calculates the meaning of the related nodes in each sentence structure.
  • the degree of relevance information is sent to the relevance-level related node joining means 26 (step Bl in FIG. 20).
  • the input device 5 receives as input two thresholds, threshold A and threshold B, for classifying the related nodes according to the semantic relevance of the related nodes, and sends them to the related node connecting means 26 according to the relevance (Fig. 20 steps B2). Note that the timing at which Step B2 is executed is not limited to the position shown in FIG. 20, but may be any position before Step A4!
  • the related node joining means 26 by relevance level receives a set of sentence structures, information on related nodes, and information on the semantic level of related nodes from the semantic relevance calculation means 25, and further receives a threshold value from the input device 5.
  • a and threshold B are received, and the structure of each sentence structure is transformed by joining related nodes according to the magnitude relationship between the value of the semantic relevance of the related nodes and threshold A and threshold B (Fig. 20). Step B3).
  • the related node in the sentence structure extracted by the related node extracting unit 22 is deformed by connecting the related node connecting unit 23, and then the feature structure extracting unit 24 is used.
  • the feature structure extracting unit 24 is used.
  • a single content with the same meaning is written using a single word in one text, and it is written using multiple words indicating the same content in one text.
  • text mining can be performed with the same view.
  • the content can be extracted into one structure.
  • the related node extracting means 22 extracts nodes having the same surface layer, nodes having synonyms specified by the user, and nodes having related terms specified by the user as related nodes. To do.
  • the language analysis means 21 performs language analysis on each text of the text set shown in FIG. 13 in the text DB 11 to obtain a sentence structure of each text (step Al in FIG. 20).
  • Figure 14 shows the sentence structure obtained here.
  • the related node extracting means 22 extracts nodes that each sentence structure force shown in FIG. 14 is also semantically related (step A2 in FIG. 20).
  • the semantic relevance calculating means 25 receives the information of the related nodes in each sentence structure from the related node extracting means 22 and calculates the semantic relevance of the related nodes, and the meaning of the related nodes in each sentence structure.
  • the degree of relevance information is sent to the relevance-level related node joining means 26 (step Bl in FIG. 20).
  • Semantic relevance of related nodes is, for example, that of nodes with the same surface layer is 4; that of user-specified synonyms is 3; that of user-specified related terms
  • the semantic relevance of the nodes at is 1.
  • Structure related to user-specified related terms T8—A “car” in A and “car type C” in structure T8-B 1 for structure T9 A related to related terms specified in user T “Car” and structure “T9 B” “Car type CJ” are calculated as 1 respectively.
  • the input device 5 receives as input two threshold values, threshold A and threshold B, for classifying the related nodes according to the semantic level of the related nodes, and sends them to the related node joining means 26 according to the related level (Fig. 20 steps B2).
  • threshold A and threshold B for classifying the related nodes according to the semantic level of the related nodes, and sends them to the related node joining means 26 according to the related level.
  • Fig. 20 steps B2 it is assumed that 2 is input as threshold A and 5 is input as threshold B.
  • the related node joining means 26 by relevance level receives a set of sentence structures, information on related nodes and information on the semantic level of related nodes from the semantic relevance calculation means 25, and further receives a threshold value from the input device 5 A and threshold B are received, and the structure of each sentence structure is transformed according to the magnitude relation between the value of the semantic relevance of the related node and threshold A and threshold B (step B3 in FIG. 20).
  • FIG. 21 shows a sentence structure after deformation obtained by the related node joining means 26.
  • the related nodes “minicar” and “minicar” have a semantic relevance of 4 and are greater than or equal to threshold A and less than threshold B. 2 (indicated by a dotted line in Fig. 1) to form the structure T4 "in Fig. 21.
  • this semantically related branch is a branch representing the dependency relationship in the sentence structure.
  • the semantic relevance between the “light car” of the structure T5—A and the “light car” of the structure T5—B is 4 Yes, since it is greater than or equal to threshold A and smaller than threshold B, these nodes are connected by semantically related branches, resulting in structure T5 "in FIG.
  • the semantic relationship between the related nodes "car” and “car type C” is 1, which is smaller than the threshold A, so no structural deformation is performed and the structure T7 "in Fig. 21 is obtained.
  • the structure T8—A and T8—B in Fig. 14 are related to the “car” and structure of the structure T8—A.
  • T8—B's “car type C” has a semantic relevance of 1 and is smaller than the threshold A, so no structural deformation is performed, and the structures T8 "-A and T8" -B in Fig. 21 are obtained.
  • the related node structure “car” in structure T9 A and the structure “car type C” in structure T9—B have a semantic relevance of 1, which is smaller than the threshold A. No deformation is performed, and the structure T9 "-A and T9" -B in Fig. 21 is obtained.
  • the feature structure extraction means 24 extracts the feature structure from the transformed sentence structure set shown in FIG. 21 (step A4 in FIG. 20). However, in the present invention, at least one of the nodes connected by the semantically related branch by the related node connecting means 26 by the degree of relevance is connected to the other node, and the structure has a meaning. It is not extracted as a feature structure because it is a structure. Here, excluding such structures, we extract partial structures that appear three or more times as feature structures. Note that “light car” and “light” are treated as the same word by user-specified synonyms, and referring to FIG. 21, the extracted frequent substructures are the frequent substructures PT7 to PT7 in FIG. Structure It looks like PT22.
  • the related node joining means 26 according to relevance level has a magnitude relationship between the semantic relevance of the related nodes calculated by the semantic relevance calculation means 25 and the threshold value input by the user. Therefore, the user can adjust the text mining by joining related nodes according to the depth of their semantic relations. I can do it.
  • FIG. 23 shows such an embodiment.
  • the 23 includes a storage device 1, an output device 3, an input device 5, and a CPU (Central Pr ocessing Unit) 6 and main memory 9.
  • the storage device 1 is a node disk device, for example, and stores a text database 11.
  • the main storage device 9 is composed of, for example, a RAM (Random Access Memory), and stores a text mining program 7.
  • the text mining program 7 is a program that causes the CPU 6 to execute the operation of the text mining apparatus 10 described above. The text mining program 7 is read into the CPU 6 and executed.
  • the CPU 6 can be operated as the language analysis means 21, the related contact extraction means 22, the related contact connection means 23, and the feature structure extraction means 24, and the computer 40 can be operated as the text mining device 10. .
  • CPU 6 is operated as language analysis means 21, related contact extraction means 22, semantic relevance calculation means 25, per-relevance related contact connection means 26, and feature structure extraction means 24, and computer 40 is text mined. It can also be operated as device 30.
  • the present invention can be used for text summarization, text search, text It can also be applied to data processing other than text mining, such as classification and structure mining using speech recognition results as input.
  • FIG. 1 is a block diagram showing a configuration of a text mining device according to a first embodiment of the present invention.
  • FIG. 2 is a diagram showing an example in which there are a plurality of pairs of related nodes to be connected to one node in the sentence structure, and a certain node is included in the plurality of sets of related nodes.
  • FIG. 3 is a diagram showing a sentence structure as a result of joining related nodes to the sentence structure of FIG.
  • FIG. 4 is a diagram showing a sentence structure as a result of joining related nodes to the sentence structure of FIG.
  • FIG. 5 is a diagram showing an example in which a plurality of pairs of related nodes to be connected by semantically related branches exist in a sentence structure, and a certain node is included in the plurality of sets of related nodes.
  • FIG. 6 is a diagram showing a sentence structure as a result of joining related nodes to the sentence structure of FIG.
  • FIG. 7 is a diagram showing a sentence structure as a result of joining related nodes to the sentence structure of FIG.
  • FIG. 8 is a flowchart showing the operation of the text mining device of FIG. [Figure 9] This is an example of a text set in a text DB.
  • FIG. 10 is a diagram showing a set of sentence structures obtained by linguistic analysis of the text set in FIG. 9 by language analysis means.
  • FIG. 11 is a diagram showing a deformed sentence structure set obtained by applying the deformation performed by the related node joining means to the sentence structure set shown in FIG.
  • FIG. 12 is a diagram showing the feature structure extracted from the set of sentence structures after transformation shown in FIG. 11 by the feature extraction means.
  • FIG. 13 Text An example showing a text set in DB11.
  • FIG. 14 is a diagram showing a set of sentence structures obtained by linguistic analysis of the text set of FIG. 13 by language analysis means.
  • FIG. 15 is a diagram showing a deformed sentence structure set obtained by applying the deformation performed by the related node joining means to the sentence structure set shown in FIG.
  • FIG. 16 is a diagram showing a partial structure that is not extracted as a feature structure because there is no node connected by a dependency branch at a node connected by a semantically related branch.
  • FIG. 17 A diagram showing a feature structure extracted from the set of sentence structures after transformation shown in FIG. 15. [18] Obtained by joining related nodes of the document structure shown in FIG. 14 with semantically related branches. However, it is a figure which shows the structure which is not actually extracted.
  • ⁇ 19 It is a block diagram showing a configuration of a text mining device according to a second embodiment of the present invention.
  • FIG. 20 is a flowchart showing the operation of the text mining device of FIG.
  • FIG. 15 is a diagram illustrating a set of post-deformation sentence structures obtained by applying the deformation performed by the related node joining means for each degree of association to the set of sentence structures shown in FIG.
  • FIG. 22 is a diagram showing a feature structure in which collective power of the sentence structure after transformation shown in FIG. 21 is also extracted.
  • FIG. 23 is a diagram for explaining the operation of the text mining program of the present invention.
  • FIG. 24 is a block diagram showing a configuration of a conventional text mining device.
  • FIG. 26 is a diagram showing an example of a feature structure that is preferably extracted from text in the example of FIG. 25.
  • FIG. 27 is a diagram showing an example of text that cannot be extracted by combining the contents into one structure in the conventional technique.
  • FIG. 28 is a diagram showing an example of a feature structure that is desirably extracted from two texts in the example of FIG. 27.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる、テキストマイニングなどのデータ処理を行う装置等を提供すること 【解決手段】テキストマイニング装置10の関連節点抽出手段22が、構文解析の結果得られたグラフから、意味的に関連する語を含む関連節点を抽出する。関連節点接合手段23は、関連節点の一部または全部を接合することによりグラフを変形する。特徴構造抽出手段24は、節点接合手段により変形されたグラフから、特徴構造を抽出する。    

Description

明 細 書
データ処理装置、データ処理方法、データ処理プログラム
技術分野
[0001] 本発明は、コンピュータ上に蓄積される電子化テキストなどの入力データを構文解 析などの手段により構造ィ匕して分析を行う、テキストマイニングやテキスト要約、テキス ト検索、テキスト分類などのデータ処理に関し、特に、構文解析などの手段により得ら れた入力データの構造を表すグラフを節点同士の関係に基づいて変形し、変形後 のグラフから特徴構造を抽出するデータ処理装置、データ処理方法、データ処理プ ログラムに関する。
背景技術
[0002] テキストマイニング装置の一例として、特許文献 1には、図 24に示すような構成が開 示されている。この従来のテキストマイニング装置は、基本辞書記憶部と、文書デー タ記憶部と、分野依存辞書記憶部と、言語特徴分析装置と、言語解析装置と、バタ ーン抽出装置と、頻出パターン表示装置とを備えている。
図 24のテキストマイニング装置は、おおまかには、次のように動作する。まず、言語 特徴分析装置が、基本辞書と文書データとから分野依存辞書を作成する。次に、言 語解析装置が基本辞書と分野依存辞書と文書データから 1文毎に構文木などの文 構造を作成する。ここで、文構造とは、テキストを構文解析することで得られるテキスト を表現するグラフ構造を指す。その次に、パターン抽出装置が、この文構造を用いて 特徴構造を抽出し、この特徴構造に合致する文書データ中の文書を頻出パターン適 合文書記憶部に記憶させると同時にこの特徴構造を出力する。ここで、特徴構造とは 、文構造の部分構造に対してテキストマイニング処理を適用して抽出される頻出バタ ーンなどのテキスト集合を特徴付ける部分構造を指す。
[0003] 特許文献 1 :特開 2001— 84250号公報
発明の開示
発明が解決しょうとする課題
[0004] 上記のような従来のマイニング装置は、テキストの中に同一の内容を指す複数の語 あるいは意味的に関連のある複数の語が含まれている場合に、特徴構造を正しく抽 出することができないという問題がある。ここで言う「同一の内容を指す語」とは、たと えば照応関係にある代名詞またはゼロ代名詞と先行詞である。
[0005] 従来のテキストマイニング装置は、たとえば、意味の同じ一つの内容について、 1テ キスト内で単一の語を用いて書かれている場合と、 1テキスト内で同一の内容を指す 複数の語 (テキスト中で省略されて 、るゼロ代名詞等を含む)を用いて書かれて!/、る 場合とを同一視してテキストマイニングを行うことができない。
これは、従来のテキストマイニング装置は、意味の同じ一つの内容について、 1テキ スト内で単一の語を用いて書かれている場合と、 1テキスト内で同一の内容を指す複 数の語を用いて書かれて 、る場合とを同一視する手段を備えて 、な 、ためである。
[0006] 図 25は、「車種 Aは安くて高性能だ。」(テキスト S 100)と「車種 Aは安い。し力も高 性能だ。」(テキスト S101)という二つのテキストを構文解析して得られる文構造と、そ の文構造に対して従来技術によるテキストマイニングを行った際にそれぞれの文構 造から抽出される特徴構造の例である。
テキスト S100を構文解析すると文構造 T100が得られ、これがそのまま特徴構造 P T101として抽出される(図 25 (a) )。テキスト S101を構文解析すると文構造 T101と 文構造 T102が得られ、特徴構造として特徴構造 PT101および PT102が抽出され る(図 25 (b) )。
[0007] テキスト S100は、「車種 A」という単一の語を用いて、テキスト S101は「車種 A」およ び「高性能だ」の前に省略されて!、る「ゼロ代名詞」と!、う二つの語を用いて、「車種 A は安く且つ高性能だ」という同一の内容について述べている。従って、この内容を表 現する図 26の部分構造 PT103が二つのテキストから特徴構造として抽出されること が望ましい。
し力し、この内容を「車種 A」と!、う単一の語で述べて 、るテキスト S 100の文構造 T 100と、この内容を先行詞「車種 A」と「ゼロ代名詞」を用 、て述べて!/、るテキスト S 10 1の文構造 T101および T102では、異なる構造となってしまっている。その結果、既 存のテキストマイニング手法では同じ意味内容を表す両者の文の構造を同一視でき ず、別々の特徴部分構造として抽出されてしまう。 [0008] また、従来のテキストマイニング装置は、たとえば、一つのテキスト中で、意味的に 関連のある複数の語を用いて一つの内容を述べて 、る場合に、その内容を一つの 構造にまとめて抽出することができない。
これは、従来のテキストマイニング装置は、一つのテキスト中で、意味的に関連のあ る複数の語を用いて一つの内容を述べて 、る場合に、その内容を一つの構造にまと めて抽出する手段を備えて 、な 、ためである。
「意味的に関連のある語」には、例えば、同表層の語、シソーラス中で同義語の関 係にある語、ユーザ指定の同義語、上位概念と下位概念などシソーラス中で相互に 関係を持つ語 (シソーラス中での関連語)、ユーザ指定の関連語などの意味的に関 連するが同じ内容を指さない語が挙げられる。なお、ユーザ指定の同義語とは、同一 の内容を指し得る複数の語としてユーザが指定する語で、頻出パターンなどの特徴 構造抽出時に同一の語として判定される。また、ユーザ指定の関連語とは、相互に 関連するが必ずしも同一の内容を指さない語としてユーザが指定する語である。
[0009] 図 27に、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容 を述べている場合に、従来技術では、その内容を一つの構造にまとめて抽出を行うこ とが出来ない例を示す。図 27は、「軽自動車は一般に安いが、 B社の軽自動車は高 い。」(テキスト S 102)と「軽自動車は安い。 B社の軽自動車は高いが。」(テキスト S1 03)という二つのテキストを構文解析して得られる文構造と、その文構造に対して従 来技術によるテキストマイニングを行った際にそれぞれの文構造力 抽出される構造 の例である。テキスト S102を構文解析すると、文構造 T103が得られ、部分構造 PT1 04および PT105が特徴部分構造として抽出される(図 27 (a) )。テキスト S103を構 文解析すると、文構造 T104および T105が得られ部分構造 PT106および PT107 が特徴部分構造として抽出される(図 27 (b) )。
[0010] どちらのテキストも一般の軽自動車と B社の軽自動車を比較して述べて 、る。従つ て、この比較を表現する図 28の PT108のような構造力 この二つのテキストから特徴 構造として抽出されることが望まし 、。
しかし、テキスト S102の文構造 T103では、一般の軽自動車と B社の軽自動車の意 味的な関係が文構造上で表現されて 、な 、ため、既存のテキストマイニング手法で はこの比較を表す構造を一つの構造にまとめて抽出を行うことができない。また、テ キスト S 103の文構造では、この比較を表す構造が文構造 T104および T105の 2つ に分割されてしまっているため、既存のテキストマイニング手法では一つの構造にま とめて抽出を行うことができない。
その結果として、二つのテキストには同表層の複数の語「軽自動車」を用いて書か れた関連する内容があるのに、一般の軽自動車につ!、て述べた内容の構造 (PT10 4および PT106)と B社の軽自動車につ 、て述べた内容の構造(PT105および PT1 07)が別々に抽出されてしまう。
[0011] そこで、本発明は、テキストなどの入力データの中に同一の内容を指す複数の語あ るいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽 出することができるデータ処理装置および方法並びにプログラムを提供することを目 的とする。
課題を解決するための手段
[0012] 本発明に係るデータ処理装置は、関連節点抽出手段を備え、構文解析などの結果 得られたグラフ力 意味的に関連する語を含む関連節点を抽出する。
関連節点接合手段は、関連節点の一部または全部を接合することによりグラフを変 形する。ここで、「接合」とは、複数の節点を一つの節点に結合すること、または、ダラ フ中のある節点と他の節点を新たな枝で接続することを意味する。
特徴構造抽出手段は、関連節点接合手段により変形されたグラフから、特徴構造 を抽出する(請求項 1)。
[0013] 上記データ処理装置によれば、関連節点接合手段が関連節点を接合することによ りグラフを変形する。この変形は、意味的に関連のある語を含む関連節点を結合した り、新たな枝で結ぶことにより行われるから、本来は同じ意味を表しているにもかかわ らず、構文解析で得られた最初のグラフでは、そのように認識できない複数の部分構 造を関連付けることができる。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連 のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。
[0014] 上記データ処理装置において、関連節点接合手段が、関連節点を意味的関連性 の強弱により強関連節点と弱関連節点に分類し、強関連節点を一つの節点に結合 するようにしても良 ヽ (請求項 2)。
このようにすれば、同一の内容を指す節点を一つの節点に結合するようにグラフを 変形することができる。すなわち、 1つの入力データ内で単一の語を用いて書かれて いる場合の構造と、 1つの入力データ内で同一の内容を指す複数の語を用いて書か れている場合の構造とを同一の形に変形することができる。
特徴構造抽出手段は、このように変形した後のグラフから特徴構造を抽出するから 、意味の同じ一つの内容について、 1つの入力データ内で単一の語を用いて書かれ ている場合と、 1つの入力データ内で同一の内容を指す複数の語 (たとえば、先行詞 とそれに照応する代名詞)を用いて書かれている場合とを、同一視して特徴構造を抽 出することができる。
[0015] 上記データ処理装置において、関連節点接合手段が、関連節点を意味的関連性 の強弱により強関連節点と弱関連節点に分類して、弱関連節点を意味的関連枝で 接続し、特徴構造抽出手段が、前記グラフの部分構造が、意味的関連枝で接続され た節点を含み、かつ、その中の少なくとも 1の節点が係り受け枝により他の節点と接続 されて!/、な!/、場合は特徴構造として抽出しな 、ようにしても良 ヽ (請求項 3)。なお、 特徴構造抽出処理の際には、この意味的関連枝はグラフ構造中の係り受け関係を 表す枝とは区別される。
[0016] このようにすれば、互いに意味的に関連する節点どうしを意味的関連枝により結ん で構造変形することで、一つの入力データが意味的に関連のある複数の語を用いて 一つの内容を述べている場合に、その語に対応する節点を意味的関連枝により結び 一つの部分構造にまとめるようにグラフを変形することができる。
特徴構造抽出手段は、このように変形したグラフカゝら特徴構造を抽出するから、一 つの入力データの中で、意味的に関連のある複数の語を用いて一つの内容を述べ ている場合に、その内容を一つの構造にまとめて抽出することができる。
[0017] 前記データ処理装置において、関連節点抽出手段が、代名詞またはゼロ代名詞と 照応関係にある先行詞を含む節点である照応節点を関連節点として抽出し、前記関 連節点接合手段が、照応節点を強関連節点として分類するようにしてもよい (請求項 4) 0
[0018] 前記データ処理装置において、関連節点抽出手段が、表層が同じである語を含む 節点である同表層節点を関連節点として抽出し、関連節点接合手段が、同表層節点 を弱関連節点として分類するようにしてもょ 、 (請求項 5)。
[0019] 前記データ処理装置において、関連節点抽出手段が、シソーラスで同義語とされ ている語を含む節点である同義語節点を関連節点として抽出し、関連節点接合手段 は、同義語節点を弱関連節点として分類するようにしてもょ ヽ (請求項 6)。
[0020] 前記データ処理装置において、関連節点抽出手段が、使用者が指定した同義語 を含む節点である指定同義語節点を関連節点として抽出し、関連節点接合手段が、 指定同義語節点を弱関連節点として分類するようにしてもょ 、 (請求項 7)。
[0021] 前記データ処理装置において、関連節点抽出手段が、シソーラスで関連語とされ ている語を含む節点である関連語節点を関連節点として抽出し、関連節点接合手段 力 関連語節点を弱関連節点として分類するようにしてもよ!ヽ (請求項 8)。
[0022] 前記データ処理装置において、関連節点抽出手段が、使用者が指定した関連語 を含む節点である指定関連語節点を関連節点として抽出し、関連節点接合手段が、 指定関連語節点を弱関連節点として分類するようにしてもょ 、 (請求項 9)。
[0023] 前記データ処理装置において、意味的関連度計算手段が関連節点に含まれる語 の意味的な関連性の強弱を示す意味的関連度を計算し、関連節点接合手段は、意 味的関連度に基づいて関連節点を強関連節点と弱関連節点に分類するようにしても よい (請求項 10)。
このようにすれば、強関連節点と弱関連節点の分類を、定量的な指標に基づいて 行うことができる。
[0024] 前記データ処理装置において、関連節点接合手段が、意味的関連度が第 1の閾 値より小さい関連節点を弱関連節点として分類し、意味的関連度が第 1の閾値以上 である関連節点は強関連節点として分類するようにしてもょ ヽ(請求項 11)。
さらに、意味的関連度が第 2の閾値 (第 1の閾値より小)よりも小さい関連節点に対し ては接合を行わな 、ようにしてもょ ヽ(請求項 12)。
このようにすれば、マイニングなどのデータ処理の目的や対象の入力データの性質 に応じて閾値を適切に定めて関連節点接合手段の動作を調整し、特徴構造抽出手 段により抽出される特徴構造を調整することができる。
[0025] 本発明に係る、データ処理方法では、文章の構造を表すグラフの節点から意味的 に関連する節点である関連節点を抽出し、関連節点の一部または全部を接合するこ とにより前記グラフを変形し、この変形されたグラフから特徴構造を抽出する(請求項 13)。
[0026] 上記データ処理方法によれば、関連節点を接合することによりグラフを変形する。こ の変形は、意味的に関連のある語を含む関連節点を結合したり、新たな枝で結ぶこ とにより行われるから、本来は同じ意味を表しているにもかかわらず、構文解析で得ら れた最初のグラフでは、そのように認識できない複数の部分構造を関連付けることが できる。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連 のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。
[0027] 本発明に係るデータ処理プログラムでは、コンピュータに、入力データの構造を表 すグラフの節点力 意味的に関連する節点である関連節点を抽出するステップと、関 連節点の一部または全部を接合することにより前記グラフを変形するステップと、この 変形されたグラフから特徴構造を抽出ステップとを実行させる(請求項 14)。
[0028] 上記データ処理プログラムによれば、コンピュータに、関連節点を接合することによ りグラフを変形するステップを実行させる。この変形は、意味的に関連のある語を含 む関連節点を結合したり、新たな枝で結ぶことにより行われるから、本来は同じ意味 を表しているにもかかわらず、構文解析で得られた最初のグラフでは、そのように認 識できない複数の部分構造を関連付けることができる。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連 のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。 発明の効果
[0029] 本発明のデータ処理装置等によれば、関連節点抽出手段が意味的に関連のある 節点を関連節点として抽出し、関連節点接合手段が関連節点を接合することにより マイニングなどのデータ処理の対象となる入力データを解析して得られたグラフを変 形する。特徴構造抽出手段は、変形後のグラフから特徴構造を抽出する。
そのため、データ処理の対象となる入力データの中に同一の内容を指す複数の語 あるいは意味的に関連のある複数の語が含まれて 、る場合にも、特徴構造を正しく 抽出することができる。
発明を実施するための最良の形態
[0030] 次に、図を参照しながら本発明の第 1の実施形態であるテキストマイニング装置 10 の構成と動作につ!、て説明する。
(テキストマイニング装置 10の構成)
図 1は、テキストマイニング装置 10の構成を示す機能ブロック図である。 テキストマイニング装置 10は、たとえばパーソナルコンピュータで構成され、情報を 記憶する記憶装置 1と、プログラム制御により動作するデータ処理装置 2と、検出され た部分構造を表示する出力装置 3とを備えている。記憶装置 1にはテキストデータべ ース(DB) 11が格納されている。テキスト DB11には、テキストマイニングの対象とな るテキストの集合が記憶されて 、る。
[0031] データ処理装置 2は、言語解析手段 21と、関連節点抽出手段 22と、関連節点接合 手段 23と、特徴構造抽出手段 24を備えている。
言語解析手段 21は、テキスト DB11からテキスト集合を読み込み、集合中の各テキ ストを解析して文構造を生成する。
関連節点抽出手段 22は、言語解析手段 21から送られてきた文構造の集合中の各 文構造から、互いに意味的に関連する節点(関連接点)の抽出を行う。意味的に関 連のある節点としては、例えば、照応関係にある代名詞またはゼロ代名詞と先行詞の 関係にある節点、表層が同じである節点、シソーラス中で同義語の関係にある節点、 ユーザ指定の同義語の関係にある節点、シソーラス中で関連語の関係にある節点、 ユーザ指定の関連語の関係にある節点などが挙げられる。
[0032] なお、関連節点の抽出には、例えば、照応解析、 2つの文節の表層のパターンマツ チング、ユーザ指定の同義語や関連語の表層と文節の表層とのパターンマッチング 、シソーラス中の語と文節の表層とのパターンマッチングなどの公知技術が用いられ る。 [0033] 関連節点接合手段 23は、関連節点抽出手段 22から文構造の集合と関連節点の 情報を受け取り、各文構造の変形を行う。
例えば、関連節点接合手段 23は、関連節点抽出手段 22から文構造の集合と関連 節点の情報を受け取り、各文構造中の互いに関連のある節点どうしを結合して一つ の節点として各文構造の変形を行う。
別の例としては、関連節点接合手段 23は、関連節点抽出手段 22から文構造の集 合と関連節点の情報を受け取り、各文構造中の意味的に互いに関連のある節点どう しを意味的関連枝で結ぶことで各文構造の変形を行う。
[0034] さらに別の例としては、関連節点接合手段 23は、関連節点抽出手段 22から文構造 の集合と関連節点の情報を受け取り、各文構造中の抽出された関連節点について、 節点間の関係を分類する。たとえば、関連節点として抽出された複数の節点が同一 の内容を指す場合 (強関連節点)と意味的に関連があるが必ずしも同一の内容を指 さな ヽ場合 (弱関連節点)の 2種類に分類する。
そして、強関連節点については、関連のある節点どうしを結合して一つの節点に結 合し、弱関連節点については、関連のある節点どうしを意味的関連枝で結ぶ。
[0035] 関連節点を強関連節点と弱関連節点に分類するには、たとえば次のようにする。
照応関係にある代名詞またはゼロ代名詞の節点と先行詞の節点を強関連節点とす る。
表層が同じである節点、シソーラス中で同義語の関係にある節点、ユーザ指定の同 義語の関係にある節点、シソーラス中で関連語の関係にある節点、ユーザ指定の関 連語の関係にある節点を弱関連節点とする。
[0036] また、ある文構造中の節点 A、 B、 Cについて、節点 Aと節点 Bが関連節点であり、 節点 Bと節点 Cも関連節点である場合に、節点 Aと節点 Cも関連節点としても良い。そ の場合の節点 Aと節点 Cの関係の分類は、例えば、節点 Aと節点 Bが強関連節点で 、かつ、節点 Bと節点 Cも強関連節点である場合は、節点 Aと節点 Cを強関連節点と し、その他の場合は、節点 Aと節点 Cを弱関連節点とすることにより行う。
[0037] 文構造から、一つの節点に結合するべき強関連節点の組が複数抽出され、且つあ る節点がその複数の強関連連節点の組に含まれる場合がある。そのような場合の例 として、図 2に「車種 Aは安い。これは速い。これは人気だ。」(テキスト S20)というテキ ストの文構造を示す。テキスト S20からは、構造 T20— A、 T20— B、 T320— Cが得 られる。なお、図 2中に 2つ存在する「これ」という節点を区別するために、テキスト S2 0中での出現順に A, Bの添え字を振っている。
関連節点接合手段 23により、照応関係にある代名詞またはゼロ代名詞の節点と先 行詞の節点が一つの節点に結合される場合、図 2中の「車種 A」と「これ」(添え字 A) 、「車種 A」と「これ」(添え字 B)がそれぞれ一つの節点に結合するべき関連節点の組 となり、「車種 A」はその両方に含まれることになる。
[0038] このような場合の節点接合は、たとえば、全ての関連節点を一つの節点に結合 (方 法 1)してもょ 、し、 1組の関連節点を結合した節点を関連節点の組の数だけ生成 (方 法 2)してちよい。
[0039] 図 2の文構造に方法 1を適用し関連節点の接合を行った結果の文構造 T21を図 3 に示す。構造 T21では、図 2の 3つの節点「車種 A」、「これ」(添え字 A)、「これ」(添 え字 B)がーつの節点に結合され、図 3の節点「車種 A」となっている。
図 2の文構造に方法 2を適用し、関連節点の接合を行った結果の文構造 T22を図 4に示す。構造 T22では、図 2の節点「車種 A」と「これ」(添え字 A)がーつの節点に 結合され、図 4の節点「車種 A」(添え字 A)となっている。また、図 2の節点「車種 A」と 「これ」(添え字 B)がーつの節点に結合され、図 4の節点「車種 A」(添え字 B)となって いる。
なお、図 4の各接点を結ぶ枝は、いずれも係り受けを示す通常の枝である。
[0040] また、文構造から、意味的関連枝で結ぶべき弱関連節点の組が複数抽出され、且 つある節点がその複数の弱関連連節点の組に含まれる場合が存在する。そのような 場合の例として図 5に「関東の車種と関西の車種と中部の車種の比較。」(テキスト S2 1) t 、うテキストの文構造 T23を示す。なお、 T23中に 3つ存在する「車種」と 、う節 点を区別するために、テキスト S21中での出現順に A、 B、 Cの添え字を振っている。 関連節点接合手段 23により、同表層の関係にある節点が意味的関連枝で結ばれる 場合、 T23中の節点「車種」(添え字 A)と「車種」(添え字 B)、「車種」(添え字 A)と「 車種」(添え字 C)、「車種」(添え字 B)と「車種」(添え字 C)がそれぞれ意味的関連枝 で結ばれるべき弱関連節点の組となり、「車種」(添え字 A)、「車種」(添え字 B)、「車 種」(添え字 C)はそれぞれ複数の弱関連節点の組に含まれることになる。
[0041] このような場合は、たとえば、全ての関連節点の組について、関連節点どうしを意味 的関連枝で結ぶ方法 (方法 3)がある。
また、複数の関連節点の組に含まれる各節点について、関連節点のうち最もテキス ト内での距離が近い文節に対応する節点と意味的関連枝で結んでもよい (方法 4)。 ただし、関連節点のうち最もテキスト内での距離が近い文節に対応する節点が複数 ある場合は、その全てに意味的関連枝を結ぶ。
[0042] 図 5の文構造 T23に方法 3を適用し関連節点の接合を行った結果の文構造 T24を
、図 6に示す。図 6の文構造 T24中の点線は、意味的関連枝を示す。図 5の関連節 点「車種」(添え字 A)と「車種」(添え字 B)、「車種」(添え字 A)と「車種」(添え字 C)、「 車種」(添え字 B)と「車種」(添え字 C)の 3組全てについて意味的関連枝が張られ、 文構造 T24となっている。
[0043] 図 5の文構造 T23に方法 4を適用し関連節点の接合を行った結果の文構造 T25を
、図 7に示す。図 7の文構造 T25中の点線は、意味的関連枝を示す。
図 7の節点「車種」(添え字 A)からは、二つある関連節点「車種」(添え字 B)、「車種
」(添え字 C)のうち、文内距離がより短い文節に対応する「車種」(添え字 B)に意味的 関連枝を結ぶ。
図 7の節点「車種」(添え字 B)からは、二つある関連節点「車種」(添え字 A)、「車種 」(添え字 C)が等距離にあるため、双方に意味的関連枝を結ぼうとするが、「車種」( 添え字 A)と「車種」(添え字 B)は既に意味的関連枝で結ばれているため、「車種」( 添え字 B)と「車種」(添え字 C)のみが意味的関連枝で結ばれる。
図 7の節点「車種」(添え字 C)からは、二つある関連節点「車種」(添え字 A)、「車種 」(添え字 B)のうち、文内距離がより短い文節に対応する「車種」(添え字 B)に意味的 関連枝を結ぼうとするが、「車種」(添え字 B)と「車種」(添え字 C)は既に意味的関連 枝で結ばれて 、るため何も行われな!/、。
このようにして、図 5の「車種」(添え字 A)と「車種」(添え字 B)、「車種」(添え字 B)と 「車種」(添え字 C)がそれぞれ意味的関連枝で結ばれ、図 7の文構造 T25となる。 [0044] 特徴構造抽出手段 24は、関連節点接合手段 23から送られた関連節点の接合によ り変形された文構造の集合から特徴的な部分構造を抽出し、出力装置 3へ送る。た だし、関連節点接合手段 23により意味的関連枝で結ばれた節点の少なくとも一方か ら、係り受けの枝が他の節点に結ばれていない構造を、特徴構造抽出手段 24は特 徴構造として抽出しない。
[0045] (テキストマイニング装置 10の動作)
図 8は、テキストマイニング装置 10の動作を説明するための流れ図である。 まず、言語解析手段 21が、テキスト DB11からテキスト集合を読み込む。言語解析 手段 21は、テキスト集合中の各テキストに対し解析を行い、解析結果として文構造を 生成し、関連節点抽出手段 22に送る(図 8のステップ Al)。
[0046] 関連節点抽出手段 22は、与えられた文構造の集合中の各文構造力も互いに関連 する節点の抽出を行い、文構造の集合と各文構造中の関連節点の情報を関連節点 接合手段 23に送る(図 8のステップ A2 :関連節点抽出ステップ)。
[0047] 関連節点接合手段 23は、与えられた文構造の集合と各文構造中の関連節点の情 報から、各文構造中の互いに関連のある節点の接合を行うことで、文構造の集合中 の各文構造の変形を行!ヽ、変形結果として得た構造の集合を特徴構造抽出手段 24 に送る(図 8のステップ A3:関連節点接合ステップ)。
[0048] 特徴構造抽出手段 24は、与えられた関連節点の接合による変形後の文構造の集 合から、特徴的な部分構造の抽出を行う(図 8のステップ A4 :特徴構造抽出ステップ
) o
最後に、特徴構造抽出手段 24は、抽出した特徴構造を出力装置 3に出力する(図 8のステップ A5)。
[0049] 次に、テキストマイニング装置 10の具体的な動作例について説明する。
この動作例においては、関連節点抽出手段 22は照応関係にある先行詞と代名詞 またはゼロ代名詞を関連節点として抽出し、関連節点接合手段 23は関連節点を一 つの節点に結合することで文構造の構造変形を行う。
[0050] 図 9に示したテキスト S1乃至テキスト S3は、図 1のテキスト DB11に記憶されている テキスト集合の一部である。 言語解析手段 21は、図 9の各テキストに対して言語解析を行い、各テキストの文構 造を得る(図 8のステップ Al)。図 10に、言語解析手段 21による解析の結果得られる 文構造を示す。図 9のテキスト S1の文構造が図 10の構造 Tl、図 9のテキスト S2の文 構造が図 10の構造 Τ2— Αおよび Τ2— B、図 9のテキスト S 3の文構造が図 10の構造 T3— Aおよび T3— Bである。なお、図 10の構造 T1については言語解析手段 21に よる並列処理が適用されており、図 10の構造 T2— Bについては言語解析手段 21に よるゼロ代名詞抽出処理が適用されて 、る。
[0051] 関連節点抽出手段 22は、図 10に示される各文構造力も意味的に関連する節点の 抽出を行う(図 8のステップ A2)。本実施例では、照応する先行詞と代名詞の関係に ある構造 T2— Aの「車種 A」と構造 T2— Bの「(ゼロ代名詞)」および照応する先行詞 と代名詞の関係にある構造 T3— Aの「車種 A」と構造 T3— Bの「その」「車種」(1節点 力^節点に照応する)の 2組が関連節点としてそれぞれ抽出される。
[0052] 関連節点接合手段 23は、図 10に示す文構造の集合中の各文構造に対して、関連 節点抽出手段 22が抽出した関連節点の情報を元に、関連節点の接合による文構造 の変形を行う(図 8のステップ A3)。図 11に、関連節点接合手段 23により得られる変 形後の構造を示す。
図 10の構造 T1には、関連節点が存在しな!、ので特に変形が行われず図 11の構 造 T1 'となる。
図 10の構造 T2— Aと T2— Bでは、関連節点である構造 T2— Aの「車種 A」と構造 T2— 「(ゼロ代名詞)」は照応関係にある先行詞とゼロ代名詞に対応する節点で あるので、これらの節点が一つの節点に結合され、図 10の構造 T2—Aと T2— Bは 接合されて図 11の構造 T2'となる。
図 10の構造 T3— Aと T3— Bでは、関連節点である構造 T3— Aの「車種 A」と構造 T3— Bの「その」「車種」は照応関係にある先行詞と代名詞に対応する節点であるの で、これらの節点が一つの節点に結合され、図 10の構造 T3— Aと 3— Bは接合され て図 11の構造 T3'となる。
[0053] 特徴構造抽出手段 24は、図 11に示される変形後の文構造の集合から特徴構造の 抽出を行う(図 8のステップ A4)。ここでは、 3回以上出現している部分構造を特徴構 造として抽出する。図 11を参照すると、抽出される頻出部分構造は図 12の頻出部分 構造 PT1な!、し PT6のようになる。
最後に、抽出された特徴構造を出力装置 3に表示する(図 2のステップ A5)。
[0054] このようにして照応関係にある代名詞.ゼロ代名詞と先行詞の節点を一つの節点に 結合する構造変形を行うことで、図 9のテキスト S2およびテキスト S3で、同一の内容 を指す複数の語を用いて書かれている一つの内容を一つの構造にまとめ、図 12の 頻出部分構造 PT6を抽出できるようになって ヽることが分かる。
「車種 Aは安く高性能だ」という一つの内容について単一の語「車種 A」を用いて述 ベている図 9のテキスト S1の文構造では、この内容が一つの部分構造 T1にまとまつ ている。これに対して、「車種 Aは安く高性能だ」という内容について同一の内容を指 す複数の語を用いて述べている図 9のテキスト S2およびテキスト S3では、この内容が 複数の部分構造に分割されてしまっているので、既存のマイニング装置では、同一 の構造と判定してマイニングを行うことができな力つた。
しかし、テキストマイニング装置 10によれば、関連節点接合手段 23が関連節点を 接合することによりテキスト S1乃至テキスト S3の「車種 Aは安く高性能だ」という内容 が同一の形の部分構造(図 12の頻出部分構造 6)になり、同一視してマイニングでき るようになっている。
[0055] 次に、テキストマイニング装置 10の第 2の具体的動作例について説明する。
この例においては、関連節点抽出手段 22は、表層が同じである節点、ユーザ指定 の同義語の関係にある節点およびユーザ指定の関連語の関係にある節点を関連節 点として抽出する。関連節点接合手段 23は関連節点を意味的関連枝で結合するこ とで文構造の構造変形を行う。
また、「軽自動車」と「軽」が、ユーザ指定の同義語として、「自動車」と「車種 C」およ び「自動車」と「軽自動車」が、ユーザ指定の関連語として指定されて 、るものとする。 このような指定は、たとえば、同義語と関連語を定義するファイルを記憶装置 11に予 め作成しておくことにより行う。
ユーザ指定の関連語を、必ずしも同一の内容を指さないが意味的に関連のある語 として扱うとする。 [0056] 図 13に示したテキスト S4乃至テキスト S9は、図 1のテキスト DB11に記憶されてい るテキスト集合の一部である。
言語解析手段 21は、図 13の各テキストに対して言語解析を行い、各テキストの文 構造を得る(図 8のステップ Al)。図 14に、言語解析手段 21による解析の結果得ら れる文構造を示す。図 13のテキスト S4の文構造が図 14の構造 T4である。図 13のテ キスト S5の文構造が図 14の構造 T5— Aおよび T5— Bである。図 13のテキスト 6Sの 文構造が図 14の構造 T6— Aおよび T6 - Bである。図 13のテキスト S 7の文構造が 図 14の構造 T7である。図 13のテキスト S8の文構造が図 14の構造 T8— Aおよび T8 - Bである。図 13のテキスト S9の文構造が図 14の構造 T9— Aおよび T9 - Bである
[0057] 関連節点抽出手段 22は、図 14に示される各文構造力も意味的に関連する節点の 抽出を行う(図 8のステップ A2)。
テキスト S4からは、同表層の関係にある構造 T4の二つの「軽自動車」が関連節点 として抽出される。
テキスト S5からは、同表層の関係にある構造 T5— Aの「軽自動車」と構造 T5 - Bの 「軽自動車」が関連節点として抽出される。
テキスト S6からは、ユーザ指定の同義語の関係にある構造 T6— Aの「軽自動車」と 構造 T6— Bの「軽」が関連節点として抽出される。
テキスト S7からは、ユーザ指定の関連語の関係にある構造 T7の「自動車」と「車種 CJが関連節点として抽出される。
テキスト S8からは、ユーザ指定の関連語の関係にある構造 T8— Aの「自動車」と構 造 T8— Bの「車種 C」が関連節点として抽出される。
テキスト S9からは、ユーザ指定の関連語の関係にある構造 T9— Aの「自動車」と構 造 T9— Bの「車種 C」が関連節点として抽出される。
[0058] 関連節点接合手段 23は、図 14に示す文構造の集合中の各文構造に対して、関連 節点抽出手段 22が抽出した関連節点の情報を元に、関連節点の接合による文構造 の変形を行う(図 8のステップ A3)。
図 15に、関連節点接合手段 23による処理の結果得られる変形後の文構造を示す 図 14の構造 T4では、関連節点である二つの「軽自動車」は同表層の節点であるの で、これらの節点が意味的関連枝(図 15では点線で示されている)で結ばれ、図 15 の構造 T4'となる。なお、特徴構造抽出処理の際には、この意味的関連枝は文構造 中の係り受け関係を表す枝とは区別される。
図 14の構造 Τ5— Αと Τ5— Bでは、関連節点である構造 T5— Aの「軽自動車」と構 造 T5— Bの「軽自動車」は同表層の節点であるので、これらの節点が意味的関連枝 で結ばれ、図 14の構造 T5— Aと T5— Bは接合されて図 15の構造 T5'となる。
図 14の構造 T6— Aと T6— Bでは、関連節点である構造 T6— Aの「軽自動車」と構 造 T6— Bの「軽」はユーザ指定の同義語の関係にある節点なので、これらの節点が 意味的関連枝で結ばれ、図 14の構造 T6— Aと T6— Bは接合されて図 15の構造 T6 ,となる。
図 14の構造 T7では、関連節点である「自動車」と「車種 C」はユーザ指定の関連語 の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図 15の構造 T7'となる。
図 14の構造 T8— Aと T8— Bでは、関連節点である構造 T8— Aの「自動車」と構造 T8— Bの「車種 C」はユーザ指定の関連語の関係にある節点であるので、これらの節 点が意味的関連枝で結ばれ、図 15の構造 T8'となる。
図 14の構造 T9 Aと T9 Bでは、関連節点である構造 T9 Aの「自動車」と構造 T9— Bの「車種 C」はユーザ指定の関連語の関係にある節点であるので、これらの節 点が意味的関連枝で結ばれ、図 15の構造 T9'となる。
特徴構造抽出手段 24は、図 15に示される変形後の文構造の集合から特徴構造の 抽出を行う(図 8のステップ A4)。ただし、この動作例においては、関連節点接合手 段 23が導入した意味的関連枝が結ぶ二つの節点の少なくとも一方から、係り受けの 枝が他の節点に結ばれて 、な 、構造は、意味を持たな 、構造であるので特徴構造 として抽出しない。
図 16に、このような構造の例を示す。図 16の T26では、対比関係にある二つの「軽 自動車」節点の片方(図では左側) 1S 他の節点と係り受けの枝で結ばれておらず、 意味を持たな 、構造となってしまって 、るのが分かる。
ここでは、そのような構造を除き、 3回以上出現している部分構造を特徴構造として 抽出する。ユーザ指定の同義語により「軽自動車」と「軽」が同一の語として扱われる ことに注意して、図 15を参照すると、抽出される頻出部分構造は図 17の頻出部分構 造 PT7乃至頻出部分構造 PT23のようになる。
最後に、そのようにして抽出された特徴構造を出力装置 3に出力する(図 2のステツ プ A5)。
[0060] このようにして同表層の節点やユーザ指定の同義語の関係にある節点の間に意味 的関連枝を張ることで、図 13のテキスト S4とテキスト S5とテキスト S6、および、テキス ト S7とテキスト S8とテキスト S9で、意味的に関連する複数の語を用いて分けて書か れている内容を一つの構造にまとめ、図 17の頻出部分構造 PT14、 15、 16、 23を抽 出できるようになって!/ヽることが分かる。
図 13のテキスト S4と S5と S6では、一般の軽自動車と Β社の軽自動車とを比較して 述べていた内容力 また、テキスト S7と S8と S9では、一般の自動車と車種 Cとを比較 して述べた内容が、意味的に関連のある複数の語を用いて書いているため、従来の テキストマイニング手法ではこれらの内容が複数の部分構造に分かれて抽出されて しま 、、両者を比較して述べて 、ることがマイニング結果からは分力もな力つた。 この動作例では、関連節点接合手段 23が弱関連節点を意味的関連枝により接続 して文構造を変形し一つの部分構造にまとめている。特徴節点集出手段 24は、この ような変形後の文構造 T4' (図 15)等力も特徴部分構造を抽出するので、従来のテ キストマイニング装置では抽出できな力つた特徴部分構造 ΡΤ14 (図 17)等を抽出す ることがでさる。
[0061] また本実施例では、別テキストの文構造に存在している意味的に関連する節点を 接合することで生成される図 18の Τ27のような構造は特徴構造として抽出されない。 特徴構造を抽出してカゝら意味的に関連する節点の接合を行った場合には、図 17〖こ 示す特徴構造のうち、頻出部分構造 PT13の節点「軽自動車」と頻出部分構造 ΡΤ2 1の節点「自動車」が意味的関連枝により結ばれ、図 18の構造 Τ27が生成される。 しかし、構造 Τ27が表す一般の自動車と Β社の軽自動車を比較して述べて 、るよう な内容を実際に述べて 、るテキストは、図 13に示す入力テキスト集合中に存在しな V、ため、この構造 T27は特徴構造として抽出されな 、ことが望ま 、。
テキストマイニング装置 10は、特徴構造を抽出して力も意味的に関連する節点の 接合を行う手法とは異なり、別テキストの文構造に存在している意味的に関連する節 点を接合しな 、ため、このような誤った特徴構造を抽出しな 、。
[0062] 次に、図を参照しながら本発明の第 2の実施形態であるテキストマイニング装置 30 の構成と動作について説明する。テキストマイニング装置 30は、多くの部分がテキス トマイニング装置 10と共通するので、テキストマイニング装置 10と同一の部分には同 一の符号を付し説明を省略する。
(テキストマイニング装置 30の構成)
図 19は、テキストマイニング装置 30の構成を示す機能ブロック図である。 テキストマイニング装置 30は、図 1のテキストマイニング装置 10は備えていない入 力装置 5を備えている。また、データ処理装置 4は、図 1のデータ処理装置 2の関連 節点接合手段 23の代わりに関連度別関連節点接合手段 (関連節点接合手段) 26を 備え、データ処理装置 2は備えて 、な 、意味的関連度計算手段 25を備えて 、る。
[0063] 意味的関連度計算手段 25は、関連節点抽出手段 22から各文構造中の関連節点 の情報を受け取り、互いに関連する節点どうしの意味的関連度の計算を行い、各文 構造中の関連節点の意味的関連度の情報を関連度別関連節点接合手段 26に送る 。意味的関連度とは関連節点の意味的な関連性の指標であり、例えば、関連節点が 同一の内容を指す力否力、シソーラス中で関連語の関係にある関連節点のシソーラ ス中での距離、関連節点に対応する文節のテキスト中での距離のようなパラメータの 組み合わせにより計算される。
[0064] また、ある文構造中の節点 A、 B、 Cについて、節点 Aと節点 Bが関連節点であり、 節点 Bと節点 Cも関連節点である場合に、節点 Aと節点 Cも関連節点とする場合は、 節点 Aと節点 Cの意味的関連度は、たとえば、節点 Aと節点 Bの意味的関連度と、節 点 Bと節点 Cの意味的関連度に基づいて求めることができる。
[0065] 入力装置 5は、ユーザから、関連節点の意味的関連度に応じて関連節点を分類す るための閾値、たとえば閾値 A (第 2の閾値)と閾値 B (第 1の閾値)の二つ、を入力と して受け付け、関連度別関連節点接合手段 26に送る。なお、閾値 Bの値は常に閾 値 Aの値以上であることが要求される。
[0066] 関連度別関連節点接合手段 26は、意味的関連度計算手段 25から文構造の集合 と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力 装置 5から閾値 Aと閾値 Bを受け取り、互いに関連する節点の意味的関連度の値と閾 値 A、閾値 Bとの大小関係に応じて次のように関連節点の接合をすることで各文構造 の構造変形を行う。
意味的関連度の値が閾値 Aより小さい場合は、関連節点について、何ら構造変形 を行わない。
意味的関連度の値が閾値 A以上で、閾値 Bより小さい場合は、関連節点を意味的 関連枝で結ぶ。
意味的関連度の値が閾値 B以上の場合は、関連節点を結合して一つの節点とする
[0067] また、入力装置 5から入力された閾値が 1個 (これを閾値 Cとする)の場合は、関連 度別関連節点接合手段 26は、互いに関連する節点の意味的関連度の値と閾値じと の大小関係に応じて次のように関連節点の接合をすることで各文構造の構造変形を 行う。
意味的関連度の値が閾値 Cより小さい場合は、関連節点について、何ら構造変形 を行わない。
意味的関連度の値が閾値以上の場合は、関連節点を結合して一つの節点とする。 2個の閾値が入力されたが、それらの値が同一である場合も上記と同様にする。
[0068] (テキストマイニング装置 30の動作)
図 20は、テキストマイニング装置 30の動作を説明するための流れ図である。
テキストマイニング装置 10と異なる点は、図 8のステップ A3のかわりにステップ B3 が実行され、さらにステップ A2とステップ B3の間にステップ Bl、 B2が挿入されること である。図 20のステップ Al、 A2、 A4、 A5で示される処理は、テキストマイニング装 置 10における処理と同一であるため、説明は省略する。
[0069] テキストマイニング装置 10では、関連節点接合手段 23は予め定められた接合方法 により関連節点の接合を行っていた力 テキストマイニング装置 30では、意味的関連 度計算手段 25が算出した意味的関連度に応じて関連接点の接合を行う。
意味的関連度計算手段 25は、関連節点抽出手段 22から各文構造中の関連節点 の情報を受け取り、互いに関連する節点の意味的関連度の計算を行い、各文構造 中の関連節点の意味的関連度の情報を関連度別関連節点接合手段 26に送る(図 2 0のステップ Bl)。
入力装置 5は、関連節点の意味的関連度に応じて関連節点を分類するための 2つ の閾値、閾値 Aと閾値 Bを入力として受け付け、関連度別関連節点接合手段 26に送 る(図 20のステップ B2)。なお、ステップ B2が実行されるタイミングは、図 20に示した 位置に限らず、ステップ A4の前であれば任意の位置でよ!、。
[0070] 関連度別関連節点接合手段 26は、意味的関連度計算手段 25から文構造の集合 と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力 装置 5から閾値 Aと閾値 Bを受け取り、関連節点の意味的関連度の値と閾値 A、閾値 Bとの大小関係に応じて、関連節点の接合をすることで各文構造の構造変形を行う ( 図 20のステップ B3)。
[0071] このように、テキストマイニング装置 10によれば、関連節点抽出手段 22が抽出した 文構造中の関連節点を関連節点接合手段 23が接合することで変形してから、特徴 構造抽出手段 24が特徴構造抽出を行うように構成されている。
このため、意味の同じ一つの内容について、 1テキスト内で単一の語を用いて書か れて 、る場合と、 1テキスト内で同一の内容を指す複数の語を用いて書かれて 、る場 合とを、同一視してテキストマイニングを行うことができる。さらに、一つのテキスト中で 、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容 を一つの構造にまとめて抽出することができる。
[0072] 次に、テキストマイニング装置 30の具体的な動作例について説明する。
なお、本実施例においては、関連節点抽出手段 22は、表層が同じである節点、ュ 一ザ指定の同義語の関係にある節点およびユーザ指定の関連語の関係にある節点 を関連節点として抽出する。
テキストマイニング装置 10の第 2の動作例と同様に、図 13に示したテキスト S4乃至 テキスト S9がテキスト DB11に記憶されて 、るとする。
[0073] 言語解析手段 21は、テキスト DB11中の図 13に示されるテキスト集合の各テキスト に対して言語解析を行い、各テキストの文構造を得る(図 20のステップ Al)。ここで 得られる文構造は、図 14のようになる。
[0074] 関連節点抽出手段 22は、図 14に示される各文構造力も意味的に関連する節点の 抽出を行う(図 20のステップ A2)。
テキスト S4からは、同表層の関係にある構造 T4の「軽自動車」と「軽自動車」が関 連節点として抽出される。
テキスト S5からは、同表層の関係にある構造 T5— Aの「軽自動車」と構造 T5 - Bの 「軽自動車」が関連節点として抽出される。
テキスト S6からは、ユーザ指定の同義語の関係にある構造 T6— Aの「軽自動車」と 構造 T6— Bの「軽」が関連節点として抽出される。
テキスト S7からは、ユーザ指定の関連語の関係にある構造 T7の「自動車」と「車種 CJが関連節点として抽出される。
テキスト S8からは、ユーザ指定の関連語の関係にある構造 T8— Aの「自動車」と構 造 T8— Bの「車種 C」が関連節点として抽出される。
テキスト S9からは、ユーザ指定の関連語の関係にある構造 T9— Aの「自動車」と構 造 T9— Bの「車種 C」が関連節点として抽出される。
ここまでの動作は、テキストマイニング装置 10の場合と同様である。
[0075] 意味的関連度計算手段 25は、関連節点抽出手段 22から各文構造中の関連節点 の情報を受け取り、その意味的関連度の計算を行い、各文構造中の関連節点の意 味的関連度の情報を関連度別関連節点接合手段 26に送る(図 20のステップ Bl)。 関連節点の意味的関連度は、たとえば、表層が同じである節点の意味的関連度は 4、ユーザ指定の同義語の関係にある節点の意味的関連度は 3、ユーザ指定の関連 語の関係にある節点の意味的関連度は 1とする。
図 14に示される各文構造中の関連節点の意味的関連度は、同表層の関係にある 構造 4の「軽自動車」と「軽自動車」につ 、ては 4、同表層の関係にある構造 T5— A の「軽自動車」と構造 T5— Bの「軽自動車」につ 、ては 4、ユーザ指定の同義語の関 係にある構造 T6— Aの「軽自動車」と構造 T6— Bの「軽」につ 、ては 3、ユーザ指定 の関連語の関係にある構造 T7の「自動車」と「車種 C」については 1、ユーザ指定の 関連語の関係にある構造 T8— Aの「自動車」と構造 T8 - Bの「車種 C」につ 、ては 1 、ユーザ指定の関連語の関係にある構造 T9 Aの「自動車」と構造 T9 Bの「車種 CJについては 1とそれぞれ計算される。
[0076] 入力装置 5は関連節点の意味的関連度に応じて関連節点を分類するための 2つの 閾値、閾値 Aと閾値 Bを入力として受け付け、関連度別関連節点接合手段 26に送る (図 20のステップ B2)。ここでは、閾値 Aとして 2が、閾値 Bとして 5が入力されたとする
[0077] 関連度別関連節点接合手段 26は、意味的関連度計算手段 25から文構造の集合 と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力 装置 5から閾値 Aと閾値 Bを受け取り、関連節点の意味的関連度の値と閾値 A、閾値 Bとの大小関係に応じて各文構造の構造変形を行う(図 20のステップ B3)。
[0078] 図 21に、関連節点接合手段 26により得られる変形後の文構造を示す。
図 14の構造 T4では、関連節点である「軽自動車」と「軽自動車」の意味的関連度 は 4であり、閾値 A以上で閾値 Bより小さいため、これらの節点が意味的関連枝(図 2 1では点線で示されている)で結ばれ、図 21の構造 T4"となる。なお特徴構造抽出処 理の際には、この意味的関連枝は文構造中の係り受け関係を表す枝とは区別される 図 14の構造 T5— Aと T5— Bでは、関連節点である構造 T5— Aの「軽自動車」と構 造 T5— Bの「軽自動車」の意味的関連度は 4であり、閾値 A以上で閾値 Bより小さ 、 ため、これらの節点が意味的関連枝で結ばれ、図 21の構造 T5"となる。
図 14の構造 T6— Aと T6— Bでは、関連節点である構造 T6— Aの「軽自動車」と構 造 T6— Bの「軽」の意味的関連度は 3であり、閾値 A以上で閾値 Bより小さいため、こ れらの節点が意味的関連枝で結ばれ、図 21の構造 T6"となる。
図 14の構造 T7では、関連節点である「自動車」と「車種 C」の意味的関連度は 1で あり、閾値 Aより小さいため、何ら構造変形は行われず、図 21の構造 T7"となる。 図 14の構造 T8— Aと T8— Bでは、関連節点である構造 T8— Aの「自動車」と構造 T8— Bの「車種 C」の意味的関連度は 1であり、閾値 Aより小さいため、何ら構造変形 は行われず、図 21の構造 T8 " - Aと T8"— Bとなる。
図 14の構造 T9 Aと T9 Bでは、関連節点である構造 T9 Aの「自動車」と構造 T9— Bの「車種 C」の意味的関連度は 1であり、閾値 Aより小さいため、何ら構造変形 は行われず、図 21の構造 T9 " - Aと T9"— Bとなる。
[0079] 特徴構造抽出手段 24は、図 21に示される変形後の文構造の集合から特徴構造の 抽出を行う(図 20のステップ A4)。ただし本発明においては、関連度別関連節点接 合手段 26により意味的関連枝で結ばれた双方の節点の少なくとも一方力 係り受け の枝が他の節点に結ばれて 、な 、構造は、意味を持たな 、構造であるので特徴構 造として抽出しない。ここでは、そのような構造を除き、 3回以上出現している部分構 造を特徴構造として抽出する。ユーザ指定の同義語により「軽自動車」と「軽」が同一 の語として扱われることに注意して、図 21を参照すると、抽出される頻出部分構造は 図 22の頻出部分構造 PT7乃至頻出部分構造 PT22のようになる。
最後に、そのようにして抽出された特徴構造を出力装置 3に出力する(図 20のステ ップ A5)。
[0080] 図 17に示すテキストマイニング装置 10の場合の特徴構造の集合と図 22に示すテ キストマイニング装置 30の場合の特徴構造の集合とを比較すると、テキストマイニン グ装置 10においては抽出されて 、た図 17の、ユーザ指定の関連語の関係にある関 連節点を意味的関連枝で結ぶことで得られる頻出部分構造 PT23が抽出されなくな つていることが分かる。
[0081] テキストマイニング装置 30によれば、関連度別関連節点接合手段 26が、意味的関 連度計算手段 25が計算した関連節点の意味的関連度とユーザが入力した閾値との 大小関係に応じて関連節点の接合による文構造の構造変形を行うため、ユーザが、 関連節点を、その意味的な関連の深さに応じて、どのように接合してテキストマイニン グを行うかを調整することが出来る。
[0082] 図 8に示したテキストマイニング装置 10の動作は、コンピュータとコンピュータプログ ラムにより実現することができる。図 23は、このような実施例を示す図である。
図 23のコンピュータ 40は、記憶装置 1と出力装置 3と入力装置 5と CPU(Central Pr ocessing Unit)6と主記憶装置 9を備えている。記憶装置 1は、例えばノヽードディスク装 置で、テキストデータベース 11を記憶している。主記憶装置 9は、たとえば RAM(Ran dom Access Memory)により構成され、テキストマイニング用プログラム 7を記憶してい る。テキストマイニング用プログラム 7は、上記に説明したテキストマイニング装置 10の 動作を CPU6に実行させるプログラムである。テキストマイニング用プログラム 7は、 C PU6に読み込まれ実行される。
このようにすれば、 CPU6を言語解析手段 21、関連接点抽出手段 22、関連接点結 合手段 23、特徴構造抽出手段 24として動作させ、コンピュータ 40をテキストマイニン グ装置 10として動作させることができる。
上記と同様に、 CPU6を言語解析手段 21、関連接点抽出手段 22、意味的関連度 計算手段 25、関連度別関連接点結合手段 26、特徴構造抽出手段 24として動作さ せ、コンピュータ 40をテキストマイニング装置 30として動作させることもできる。
[0083] ここまででは本発明の実施の形態および具体的な動作例として、テキスト集合を入 力データとしたテキストマイニング装置とその動作について説明した力 本発明は、テ キスト要約やテキスト検索、テキスト分類、音声認識結果を入力とした構造のマイニン グなどの、テキストマイニング以外のデータ処理にも応用することができる。
図面の簡単な説明
[0084] [図 1]本発明の第 1の実施形態であるテキストマイニング装置の構成を示すブロック図 である。
[図 2]文構造中に一つの節点に結合するべき関連節点の組が複数組存在し、且つあ る節点がその複数の関連連節点の組に含まれる例を示す図である。
[図 3]図 2の文構造に関連節点の接合を行った結果の文構造を示す図である。
[図 4]図 2の文構造に関連節点の接合を行った結果の文構造を示す図である。
[図 5]文構造中に意味的関連枝で結ぶべき関連節点の組が複数組存在し、且つある 節点がその複数の関連連節点の組に含まれる例を示す図である。
[図 6]図 5の文構造に関連節点の接合を行った結果の文構造を示す図である。
[図 7]図 5の文構造に関連節点の接合を行った結果の文構造を示す図である。
[図 8]図 1のテキストマイニング装置の動作を示す流れ図である。 [図 9]テキスト DB中のテキスト集合を示す例である。
圆 10]言語解析手段により、図 9のテキスト集合を言語解析して得られる文構造の集 合を示す図である。
圆 11]図 10に示す文構造の集合に対して関連節点接合手段が行う変形を適用して 得られる変形後の文構造の集合を示す図である。
[図 12]特徴抽出手段が、図 11に示す変形後の文構造の集合から抽出した特徴構造 を示す図である。
[図 13]テキスト DB11中のテキスト集合を示す例である。
圆 14]言語解析手段により、図 13のテキスト集合を言語解析して得られる文構造の 集合を示す図である。
圆 15]図 14に示す文構造の集合に対して関連節点接合手段が行う変形を適用して 得られる変形後の文構造の集合を示す図である。
[図 16]意味的関連枝で結ばれている節点に係り受けの枝で結ばれる節点がないた めに、特徴構造として抽出されな 、部分構造を示す図である。
[図 17]図 15に示す変形後の文構造の集合から抽出される特徴構造を示す図である 圆 18]図 14に示す文書構造の関連節点を意味的関連枝で接合することで得られる が、実際には抽出されない構造を示す図である。
圆 19]本発明の第 2の実施形態であるテキストマイニング装置の構成を示すブロック 図である。
[図 20]図 19のテキストマイニング装置の動作を示す流れ図である。
圆 21]図 14に示す文構造の集合に対して関連度別関連節点接合手段が行う変形を 適用して得られる変形後の文構造の集合を示す図である。
圆 22]図 21に示す変形後の文構造の集合力も抽出される特徴構造を示す図である
[図 23]本発明のテキストマイニングプログラムの動作を説明する図である。
[図 24]従来のテキストマイニング装置の構成を示すブロック図である。
圆 25]従来技法では正しく特徴構造を抽出できないテキストの例を示す図である。 [図 26]図 25の例において、テキストから抽出されることが望ましい特徴構造の例を示 す図である。
[図 27]従来技法ではその内容を一つの構造にまとめて抽出を行うことが出来ないテ キストの例を示す図である。
[図 28]図 27の例において、二つのテキストから抽出されることが望ましい特徴構造の 例を示す図である。
符号の説明
7 テキストマイニング用プログラム
10、 30 テキストマイニング装置
40 コンピュータ
11 テキスト DB
22 関連節点抽出手段
23 関連節点接合手段
24 特徴構造抽出手段
25 意味的関連度計算手段
26 関連度別関連節点接合手段 (関連節点接合手段)

Claims

請求の範囲
[1] 単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある 2個 の節点を接続する係り受け枝により入力データの構造を表すグラフを生成し、前記グ ラフから前記入力データを特徴付ける特徴構造を抽出するデータ処理装置において 前記節点の中から意味的に関連する節点である関連節点を抽出する関連節点抽 出手段と、
前記関連節点の一部または全部を接合することにより前記グラフを変形する関連節 点接合手段と、
前記関連節点接合手段により変形された後のグラフ力 前記特徴構造を抽出する 特徴構造抽出手段と、を
備えたことを特徴としたデータ処理装置。
[2] 前記関連節点接合手段は、前記関連節点を意味的関連性が強い強関連節点と意 味的関連性が弱い弱関連節点に分類する機能と、前記強関連節点を一つの節点に 結合する機能とを備えたことを特徴とした請求項 1に記載のデータ処理装置。
[3] 前記関連節点接合手段は、前記弱関連節点を意味的関連枝で接合する機能を備 え、
前記特徴構造抽出手段は、前記グラフの部分構造が、前記意味的関連枝で接続 された節点を含み、かつ、その中の少なくとも 1の節点が前記係り受け枝により他の 節点と接続されて 、な 、場合は前記特徴構造として抽出しな!/、否抽出機能を備えて いることを特徴とした請求項 2に記載のデータ処理装置。
[4] 前記関連節点抽出手段は、代名詞またはゼロ代名詞およびこれらと照応関係にあ る先行詞を含む節点である照応節点を前記関連節点として抽出する照応節点抽出 機能を備え、
前記関連節点接合手段は、前記照応節点を前記強関連節点として分類する節点 分類機能を備えたことを特徴とした請求項 3に記載のデータ処理装置。
[5] 前記関連節点抽出手段は、表層が同じである語を含む節点である同表層節点を 前記関連節点として抽出する同表層節点抽出機能を備え、 前記関連節点接合手段は、前記同表層節点を前記弱関連節点として分類する節 点分類機能を備えたことを特徴とした請求項 3または 4に記載のデータ処理装置。
[6] 前記関連節点抽出手段は、シソーラスで同義語とされている語を含む節点である 同義語節点を前記関連節点として抽出する同義節点抽出機能を備え、
前記関連節点接合手段は、前記同義語節点を前記弱関連節点として分類する節 点分類機能を備えたことを特徴とした請求項 3ないし請求項 5のいずれか一つに記 載のデータ処理装置。
[7] 前記関連節点抽出手段は、使用者が指定した同義語を含む節点である指定同義 語節点を前記関連節点として抽出する指定同義語節点抽出機能を備え、
前記関連節点接合手段は、前記指定同義語節点を前記弱関連節点として分類す る節点分類機能を備えたことを特徴とした請求項 3ないし請求項 6のいずれか一つに 記載のデータ処理装置。
[8] 前記関連節点抽出手段は、シソーラスで関連語とされている語を含む節点である 関連語節点を前記関連節点として抽出する関連後節点抽出機能を備え、
前記関連節点接合手段は、前記関連語節点を前記弱関連節点として分類する節 点分類機能を備えたことを特徴とした請求項 3ないし請求項 7のいずれか一つに記 載のデータ処理装置。
[9] 前記関連節点抽出手段は、使用者が指定した関連語を含む節点である指定関連 語節点を前記関連節点として抽出する指定関連語節点抽出機能を備え、
前記関連節点接合手段は、前記指定関連語節点を前記弱関連節点として分類す る節点分類機能を備えたことを特徴とした請求項 3ないし請求項 8のいずれか一つに 記載のデータ処理装置。
[10] 前記関連節点に含まれる語の意味的な関連性の強弱を示す意味的関連度を計算 する意味的関連度計算手段を有し、
前記関連節点接合手段は、前記意味的関連度に基づいて前記関連節点を前記強 関連節点と前記弱関連節点に分類することを特徴とした請求項 2または 3に記載の データ処理装置。
[11] 前記関連節点接合手段は、前記意味的関連度が第 1の閾値より小さい前記関連節 点を弱関連節点として分類し、前記意味的関連度が前記第 1の閾値以上である前記 関連節点は前記強関連節点として分類することを特徴とした請求項 10に記載のデ ータ処理装置。
[12] 前記関連節点接合手段は、前記意味的関連度が第 2の閾値より小さい前記関連節 点に対しては接合を行わな 、ことを特徴とした請求項 11に記載のデータ処理装置。
[13] 単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある 2個 の節点を接続する係り受け枝により入力データの構造を表すグラフを生成し、前記グ ラフから前記入力データを特徴付ける特徴構造を抽出するデータ処理方法において 、 前記節点の中から意味的に関連する節点である関連節点を抽出する関連節点 抽出ステップと、
前記関連節点の一部または全部を接合することにより前記グラフを変形する関連節 点接合ステップと、
前記変形された後のグラフから前記特徴構造を抽出する特徴構造抽出ステップと を
備えたことを特徴としたデータ処理方法。
[14] 単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある 2個 の節点を接続する係り受け枝により入力データの構造を表すグラフを生成する機能と 前記グラフから前記入力データを特徴付ける特徴構造を抽出する機能と、 前記節点の中から意味的に関連する節点である関連節点を抽出する関連節点抽 出機能と、
前記関連節点の一部または全部を接合することにより前記グラフを変形する関連節 点接合機能と、
前記変形された後のグラフから前記特徴構造を抽出する特徴構造抽出機能とを、 コンピュータに実行させることを特徴としたデータ処理プログラム。
[15] 文章内の単語間の力かり受けの関係を第 1の種類の枝で表現し、
意味的に類似する単語間の関係を第 2の種類の枝で表現し、
前記第 1の種類と前記第 2の種類の区別をしながら、前記第 1の種類の枝と前記第 2 の種類の枝で構成されるグラフ構造を分析することにより文章の特徴部分を決定する ことを特徴とするデータ処理装置。
文章内の単語間の力かり受けの関係を分析することにより、文章の特徴部分を決定 するデータ処理装置であって、
意味的に類似する複数の単語がある場合に前記類似する複数の単語に対するかか り受けを前記複数の単語のいずれかに統合して、文章の特徴部分を決定する、 ことを特徴とするデータ処理方法。
PCT/JP2006/315274 2005-08-04 2006-08-02 データ処理装置、データ処理方法、データ処理プログラム WO2007015505A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/996,484 US8775158B2 (en) 2005-08-04 2006-08-02 Data processing device, data processing method, and data processing program
JP2007529503A JP4992715B2 (ja) 2005-08-04 2006-08-02 データ処理装置、データ処理方法、データ処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005227283 2005-08-04
JP2005-227283 2005-08-04

Publications (1)

Publication Number Publication Date
WO2007015505A1 true WO2007015505A1 (ja) 2007-02-08

Family

ID=37708785

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/315274 WO2007015505A1 (ja) 2005-08-04 2006-08-02 データ処理装置、データ処理方法、データ処理プログラム

Country Status (3)

Country Link
US (1) US8775158B2 (ja)
JP (1) JP4992715B2 (ja)
WO (1) WO2007015505A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022091536A1 (ja) * 2020-10-27 2022-05-05 株式会社日立製作所 意味表現解析システム及び意味表現解析方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361367B2 (en) * 2008-07-30 2016-06-07 Nec Corporation Data classifier system, data classifier method and data classifier program
WO2010013472A1 (ja) 2008-07-30 2010-02-04 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
US8484201B2 (en) * 2010-06-08 2013-07-09 Microsoft Corporation Comparative entity mining
US8977538B2 (en) * 2010-09-13 2015-03-10 Richard Salisbury Constructing and analyzing a word graph
US9292492B2 (en) 2013-02-04 2016-03-22 Microsoft Technology Licensing, Llc Scaling statistical language understanding systems across domains and intents
JP6614152B2 (ja) * 2014-09-05 2019-12-04 日本電気株式会社 テキスト処理システム、テキスト処理方法、及び、コンピュータ・プログラム
CN105988990B (zh) * 2015-02-26 2021-06-01 索尼公司 汉语零指代消解装置和方法、模型训练方法和存储介质
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
US20180173805A1 (en) * 2016-12-16 2018-06-21 Sap Se Application programming interface for detection and extraction of data changes
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
CN110781305B (zh) * 2019-10-30 2023-06-06 北京小米智能科技有限公司 基于分类模型的文本分类方法及装置,以及模型训练方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134575A (ja) * 1999-10-29 2001-05-18 Internatl Business Mach Corp <Ibm> 頻出パターン検出方法およびシステム
JP2005011215A (ja) * 2003-06-20 2005-01-13 Fuji Xerox Co Ltd 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03129469A (ja) * 1989-10-14 1991-06-03 Canon Inc 自然言語処理装置
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP2606541B2 (ja) 1993-01-22 1997-05-07 日本電気株式会社 知識獲得方式
US5721938A (en) * 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5774833A (en) * 1995-12-08 1998-06-30 Motorola, Inc. Method for syntactic and semantic analysis of patent text and drawings
US5878385A (en) * 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
JP3135235B2 (ja) * 1999-02-26 2001-02-13 株式会社エイ・ティ・アール音声翻訳通信研究所 照応解析装置
JP3353829B2 (ja) 1999-08-26 2002-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 膨大な文書データからの知識抽出方法、その装置及び媒体
US7099855B1 (en) * 2000-01-13 2006-08-29 International Business Machines Corporation System and method for electronic communication management
US20020174147A1 (en) * 2000-05-19 2002-11-21 Zhi Wang System and method for transcoding information for an audio or limited display user interface
US7027974B1 (en) * 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
US6728679B1 (en) * 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
US7050964B2 (en) * 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7093001B2 (en) * 2001-11-26 2006-08-15 Microsoft Corporation Methods and systems for adaptive delivery of multimedia contents
US7124073B2 (en) * 2002-02-12 2006-10-17 Sunflare Co., Ltd Computer-assisted memory translation scheme based on template automaton and latent semantic index principle
JP3870112B2 (ja) * 2002-03-13 2007-01-17 インターナショナル・ビジネス・マシーンズ・コーポレーション コンパイル方法、コンパイル装置、及びコンパイル用プログラム
CA2495586C (en) * 2002-08-15 2014-05-06 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Health Method and system for aggregating and disseminating time-sensitive information
AU2002951244A0 (en) * 2002-09-06 2002-09-19 Telstra New Wave Pty Ltd A development system for a dialog system
JP2005284723A (ja) * 2004-03-30 2005-10-13 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
US20050240393A1 (en) * 2004-04-26 2005-10-27 Glosson John F Method, system, and software for embedding metadata objects concomitantly wit linguistic content
US7610191B2 (en) * 2004-10-06 2009-10-27 Nuance Communications, Inc. Method for fast semi-automatic semantic annotation
US7702500B2 (en) * 2004-11-24 2010-04-20 Blaedow Karen R Method and apparatus for determining the meaning of natural language
US7827029B2 (en) * 2004-11-30 2010-11-02 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive note-taking
US7693705B1 (en) * 2005-02-16 2010-04-06 Patrick William Jamieson Process for improving the quality of documents using semantic analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134575A (ja) * 1999-10-29 2001-05-18 Internatl Business Mach Corp <Ibm> 頻出パターン検出方法およびシステム
JP2005011215A (ja) * 2003-06-20 2005-01-13 Fuji Xerox Co Ltd 情報処理装置、情報処理方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ITAO Y. ET AL.: "Tokuchoteki na Imi Naiyo o Chushutsu suru Mokuzo Mining no Tameno Nihongo Shori Shuho", THE ASSOCIATION FOR NATURAL LANGUAGE PROCESS DAI 11 KAI NENJI TAIKAI HAPPYO RONBUNSHU, 15 March 2005 (2005-03-15), pages 73 - 76, XP003007850 *
MORINAGA S. ET AL.: "Kobun Graph Shugo o Mochiita Key Semantics Mining", FIT2004 DAI 3 KAI FORUM ON INFORMATION TECHNOLOGY IPPAN KOEN RONBUNSHU, vol. 2, 20 August 2004 (2004-08-20), pages 125 - 126, XP003007851 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022091536A1 (ja) * 2020-10-27 2022-05-05 株式会社日立製作所 意味表現解析システム及び意味表現解析方法

Also Published As

Publication number Publication date
US8775158B2 (en) 2014-07-08
JP4992715B2 (ja) 2012-08-08
US20100063795A1 (en) 2010-03-11
JPWO2007015505A1 (ja) 2009-02-19

Similar Documents

Publication Publication Date Title
WO2007015505A1 (ja) データ処理装置、データ処理方法、データ処理プログラム
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
Sidorov et al. Syntactic dependency-based n-grams as classification features
JP6909832B2 (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
WO2020258502A1 (zh) 文本分析方法、装置、计算机装置及存储介质
JP2013544397A5 (ja)
KR101627428B1 (ko) 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
Gokul et al. Sentence similarity detection in Malayalam language using cosine similarity
WO2007097208A1 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
Gómez-Adorno et al. A graph based authorship identification approach
Chen et al. Neural maximum subgraph parsing for cross-domain semantic dependency analysis
US20120096028A1 (en) Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded
Aliwy Tokenization as preprocessing for Arabic tagging system
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Roark et al. Finite-state chart constraints for reduced complexity context-free parsing pipelines
Zarembo et al. Assessment of name based algorithms for land administration ontology matching
Malandrakis et al. Affective language model adaptation via corpus selection
JP4033011B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Jurcicek et al. Extension of HVS semantic parser by allowing left-right branching
JP4940251B2 (ja) 文書処理プログラム及び文書処理装置
JP2009163565A (ja) 文整形装置及び文整形プログラム
JP6145011B2 (ja) 文正規化システム、文正規化方法及び文正規化プログラム
Henderson et al. Data-driven methods for spoken language understanding
JP5872516B2 (ja) 文末表現抽出装置、文末表現変換装置、方法、及びプログラム

Legal Events

Date Code Title Description
DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11996484

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2007529503

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06782143

Country of ref document: EP

Kind code of ref document: A1