WO2013128984A1 - 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム - Google Patents

述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム Download PDF

Info

Publication number
WO2013128984A1
WO2013128984A1 PCT/JP2013/051326 JP2013051326W WO2013128984A1 WO 2013128984 A1 WO2013128984 A1 WO 2013128984A1 JP 2013051326 W JP2013051326 W JP 2013051326W WO 2013128984 A1 WO2013128984 A1 WO 2013128984A1
Authority
WO
WIPO (PCT)
Prior art keywords
template
pair
predicate
noun
phrase
Prior art date
Application number
PCT/JP2013/051326
Other languages
English (en)
French (fr)
Inventor
力 橋本
健太郎 鳥澤
ステイン デサーガ
鍾勲 呉
淳一 風間
Original Assignee
独立行政法人情報通信研究機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 独立行政法人情報通信研究機構 filed Critical 独立行政法人情報通信研究機構
Priority to EP13754814.5A priority Critical patent/EP2821923B1/en
Priority to KR1020147023682A priority patent/KR101972408B1/ko
Priority to US14/377,988 priority patent/US9582487B2/en
Priority to CN201380011077.2A priority patent/CN104137097B/zh
Publication of WO2013128984A1 publication Critical patent/WO2013128984A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to a technique for recognizing relationships between natural language sentences or phrases, and more particularly to a technique for automatically recognizing and collecting expressions relating to causal relations, contradictions, etc. between sentences or phrases. About.
  • Non-Patent Documents 1 to 7 There are those described in Non-Patent Documents 1 to 7 below as conventional techniques related to the components of such a technique.
  • Non-Patent Document 1 As a technology for acquiring a new causal relationship by machine learning from a large amount of causal relationship examples prepared manually, there is a technology described in Non-Patent Document 1. As an example in Japanese, there is one that automatically recognizes the relationship between phrases based on the appearance of a conjunction in the text such as “for” and “no” that explicitly indicate the causal relationship (Non-patent Document 2).
  • Non-Patent Document 6 Hypothesis Generation Method Using Language
  • the object of the present invention is to automatically recognize the logical relationships between phrases, such as causal relationships, contradictory relationships, etc. It is to provide a predicate template collection device that can be recognized with high accuracy.
  • Another object of the present invention is to provide an apparatus capable of automatically and efficiently recognizing a phrase pair having a specific relationship such as a causal relationship or a contradiction relationship.
  • the predicate template collection device is a predicate template collection device for collecting predicate templates from a set of predetermined sentences.
  • the predicate template is a phrase that is combined with a noun.
  • the predicate template can be assigned an activity value indicating the direction and magnitude of the activity according to the classification of activity, inactivity, and neutrality.
  • Activity refers to describing an event in a direction in which the function or effect of the target pointed to by the noun linked to the predicate template is exhibited.
  • “Inactive” indicates that an event in a direction in which the function or effect of the target indicated by the noun linked to the predicate template is not exhibited is described.
  • Neutral indicates a predicate template that is neither active nor inactive.
  • the distinction between active and inactive for a predicate template is called the predicate template polarity.
  • the predicate template collection device includes a conjunction storage unit that stores conjunctions classified as forward or reverse, and a seed template storage unit that stores a seed template serving as a starting point for constructing a predicate template network. Each seed template is given a polarity and an activity value. Therefore, it can be said that the polarity of the predicate template indicates the sign of the activation value of the predicate template.
  • the apparatus further includes noun pair collecting means for collecting noun pairs satisfying a certain relationship from a predetermined corpus and classifying the polarity of the relationship between nouns constituting each noun pair as positive or negative.
  • the polarity of the relationship between nouns constituting a noun pair is defined as positive when the object indicated by one of the noun pairs promotes the appearance of the object indicated by the other, and negative when suppressed.
  • the apparatus further collects predicate template pairs co-occurring with the noun pairs collected by the noun pair collecting means from a predetermined corpus, and for each collected predicate template pair, the noun pair co-occurs with the predicate template pair.
  • Predicate template pair collection means and predicate template pair collection means for determining whether the activity / inactivity of the predicate template pair is the same or opposite based on the polarity of the relationship between the predicate template pair and the conjunction connecting the predicate template pair
  • the predicate template pairs A link with the relationship between predicate templates that make up Based on the construction means for constructing the plate network and the activity value assigned in advance to the node corresponding to the seed template in the template network, the relation between the nodes in the template network is used to assign to each node.
  • Active value calculating means for calculating a power value and adding the calculated activity value to a predicate template corresponding to each node and outputting the result.
  • the noun pair collecting means collects a noun pair co-occurring with the predicate template pair from a predetermined corpus using a conjunction stored in the conjunction storage unit and a seed template stored in the seed template storage unit. And means for classifying the polarity of the relationship between the nouns constituting each noun pair as positive or negative.
  • the means for classifying is a noun pair co-occurring with the predicate template pair using a conjunction stored in the conjunction storage and a seed template stored in the seed template storage, Are collected from the corpus, and the polarity of the relationship between the nouns constituting each noun pair is classified as positive or negative.
  • the collecting means uses the conjunction stored in the conjunction storage unit and the seed template stored in the seed template storage unit at a frequency equal to or higher than a predetermined frequency in the predicate template pair and the corpus. Includes means for collecting co-occurring noun pairs from the corpus.
  • the polarity determining means includes, for each noun pair collected by the collecting means, the polarity of the predicate template pair of the predicate template co-occurring with the noun pair, and the noun pair and the predicate template. And a means for determining the polarity of the relationship between nouns constituting each of the noun pairs, and a means for determining each of the noun pairs based on the types of conjunctions connecting the phrase pairs. And a means for counting the polarities between the nouns for each type of noun pair and determining the polarity between them for each type of noun pair by majority vote.
  • the predicate template collection device further determines whether an end condition for the process of calculating the activity value of the predicate template is satisfied in response to completion of the output of the predicate template by the activity value calculation means. And the absolute value of the activity value of the predicate template calculated by the activity value calculation unit is greater than or equal to the threshold value in response to the determination unit determining that the end condition is not satisfied by the determination unit.
  • a new seed template consisting of a predicate template is selected, and the update means for updating the stored contents of the seed template storage unit with the newly selected seed template, and responding to the update by the update means.
  • the constructing unit is a unit for adding a node corresponding to the predicate template when a node corresponding to the predicate template forming the predicate template pair collected by the predicate template pair collecting unit does not exist in the template network.
  • link means for generating a link between the predicate templates forming the predicate template pair collected by the predicate template pair collecting means.
  • the link means assigns an attribute indicating activity match or mismatch to each link according to whether the activity of the predicate templates connected by each link is the same.
  • the constructing means further includes weight assigning means for assigning a weight that is a function of the number of links with other nodes to each link generated by the link means. The sign of the weight assigned by the weight assigning unit is different depending on whether the attribute of the link is a value indicating a match or a value indicating a mismatch.
  • Activity value calculation means is a function of the weight of each link in the template network and the activity value assigned to each node.
  • Means may be included for estimating the activity value assigned to each node in the template network by optimizing the value of the function defined by. However, among the seed templates, those having active polarity are given a positive polarity and activity value, and those having inactivity are given a negative polarity and activity value.
  • the computer program executable by the computer according to the second aspect of the present invention causes the computer to function as any of the predicate template collection devices described above.
  • the specific phrase pair collection device includes any one of the above predicate template collection device, a predicate template storage unit for storing the predicate template collected by the predicate template collection device, and a predicate Phrase for collecting a phrase pair including a predicate template pair consisting of a combination of specific active / inactive predicate templates and a specific type of conjunction among predicate templates stored in the template storage means from a predetermined corpus Extract a pair collection means, a noun pair co-occurring with a predicate template in the phrase pair collected by the phrase pair collection means, and a specific combination of the polarities of the predicate template in the phrase pair To select phrase pairs that express a given relationship And a phrase selection means.
  • the specific phrase pair collection device further includes, for each phrase pair selected by the phrase selecting unit, an activity value of a predicate template constituting each phrase pair and a noun pair included in the phrase pair in the corpus.
  • the score calculation means for calculating a score representing the strength of the predetermined relationship
  • the phrase pair selected by the phrase selection means in the order of the scores calculated by the score calculation means Means for aligning.
  • a causal relationship in which one phrase causes the other phrase an inconsistent relationship indicating content in which one phrase and the other phrase contradict each other, or a causal relationship in the corpus
  • a causal hypothesis As the predetermined relationship, a causal relationship in which one phrase causes the other phrase, an inconsistent relationship indicating content in which one phrase and the other phrase contradict each other, or a causal relationship in the corpus
  • FIG. 1 It is a block diagram of the contradiction expression collection system which concerns on the 1st Embodiment of this invention. It is a more detailed block diagram of the template DB construction apparatus shown in FIG. It is a figure which shows the structure of a template network typically. It is a flowchart which shows the control structure of the program which implement
  • FIG. 8 is a flowchart showing a control structure of a program part for realizing a process of selecting a contradictory phrase pair in the program showing the control structure in FIG. 7. It is a flowchart which shows the control structure of the program which ranks the contradictory phrase pair among the programs which show a control structure in FIG. It is a flowchart which shows the control structure of the program for implement
  • FIG. 16 is a block diagram illustrating a hardware configuration of the computer illustrated in FIG. 15.
  • phrase in which a noun and a verb (or a predicate such as an adjective or an adjective verb) are connected through a particle is called a “phrase”.
  • phrase template a combination of a particle and a predicate in a phrase (for example, ⁇ , eat>) is called a “predicate template”.
  • template As already described, one noun and one verb, an adjective or an adjective verb connected through a particle is called a “predicate template”. In the present embodiment, the predicate template is classified as active, inactive, or neutral.
  • predicate templates appearing in text that is input to the entire system are classified into three types shown in Table 1 below.
  • the above classification is automatically calculated from the text. At that time, a positive activity value is assigned to the active template, and a negative activity value is assigned to the inactive template. A specific method for calculating the activity value will be described later.
  • a neutral verb means an absolute value of an activity value obtained as a result of calculation that is below a certain threshold value.
  • both of the above-mentioned classification relating to “activity”, “inactivity”, and “neutral” and the activity value assigned to each template are collectively referred to as “polarity” of the predicate template. An example is given in Table 2 below.
  • the following table 5 shows examples of these relationships.
  • the noun pair ⁇ earthquake, tsunami> has a positive causal relationship
  • ⁇ anticancer drug, cancer> has a negative causal relationship.
  • both ⁇ prescribe (vaccine) '' and ⁇ inject (vaccine) '' are positive in polarity
  • both ⁇ (earthquake) occurs '' and ⁇ (earthquake) occur '' are both polarities Is positive.
  • the activity values are not necessarily the same.
  • a large amount of expressions such as the above-described text, that is, two predicate templates each connected to a noun and connected to each other by a conjunctive or paradoxical conjunction from the Internet. collect.
  • a network of predicate templates is created by establishing links between predicate templates connected by these conjunctions and between predicate template pairs having synonym / entailment relationships. As described above, information on whether the polarities of the predicate templates are the same is given to the link as an attribute.
  • An activity value of +1 or ⁇ 1 is manually assigned to a small number of predicate templates on this network in advance. On the network, it is possible to define energy similar to the energy of electron spin in quantum mechanics, as will be described later.
  • Non-Patent Document 8 for the calculation method of the activity value.
  • activity value assignment algorithm described below is merely an example, and there may be other methods for obtaining a specific activity value based on an energy function considering the linguistic constraints.
  • ⁇ te does not necessarily represent a causal relationship.
  • the causal relationship between phrases can be obtained with high accuracy.
  • a causal relationship for example, it can be predicted that there is a possibility of being hit by a tsunami from information that “an earthquake has occurred”.
  • the causal relationship acquired in this way is a big factor for a very important technique of automatically acquiring a semantic relationship between phrases.
  • predicate template pairs Removing common nouns from these phrase pairs leaves a predicate template pair. They are also likely to contradict each other. If such a predicate template is made into a database, it can be used as a useful dictionary about anomaly. In the above example, it can be collected as predicate template pairs that have opposite meanings such as “suck ...” and “stop”.
  • material relations can be automatically obtained by acquiring semantic relations between nouns based on patterns (existing technology can be used for this) from the base text. That is, the relationship between the product B and the material A can be automatically acquired by a pattern such as “Make B with A”. As a result of this automatic acquisition, it is assumed that information that the material of the product “carbide tool” is “tungsten” can be acquired.
  • a predicate template that frequently co-occurs with a pair of nouns that have been found to have this material relationship that is, a pair of nouns consisting of “carbide tool” and “tungsten”, and the activity values of each other. Is selected so that the product of is positive and the absolute value of the activity value is large.
  • Each selected predicate template is aligned with a pair of nouns. Then, for example, between a verb phrase consisting of a predicate (verb) and a noun, such as “import tungsten (active value positive) and manufacture a cemented carbide tool (active value positive)”. ) Causal relationship can be acquired. The causal relationship here is that "importing tungsten” is for “manufacturing carbide tools”.
  • each of the predicate templates is inconsistent with the predicate template for the causal relationship between the predicate and the noun phrase including those acquired as described above.
  • the hypothesis generation as described above starts only from information described in a simple and frequent pattern such as “making a carbide tool from tungsten” at the beginning.
  • information on the activity / inactivity of the predicate template is extracted from a text having no relationship with the carbide tool or tungsten.
  • a causal hypothesis is generated.
  • the only reference to the cemented carbide tool and tungsten in the input text is the expression “make the cemented carbide tool from tungsten”, it is possible to generate a hypothesis as described above.
  • this technology has a wide range of applications and becomes a core technology for advanced use of information.
  • the first embodiment relates to a system that automatically collects contradictory expressions, which is one of the logical relationships between phrases, using the phrase pair extraction technique described above.
  • the second embodiment relates to a system that applies the phrase pair extraction technique described above to acquisition of a causal relationship, which is another example of a logical relationship between phrases.
  • the third and fourth embodiments relate to a system for generating a causal relationship hypothesis.
  • the contradiction expression collection system 30 includes a template (this is referred to as a “seed template”) among the predicate templates described above, which is a core for building a template network.
  • the contradiction expression collection device 36 and the contradiction expression collected by the contradiction expression collection device 36 are stored. And a conflict representation memory 38 in order.
  • the contradiction expression collection device 36 is connected to the seed template storage device 32, the conjunction storage unit 34, and the Internet 40, collects a large number of phrase pairs from a virtual corpus on the Internet 40, and extracts a large amount of predicate templates from them.
  • the templates stored in the seed template storage device 32 are given positive or negative activation values in advance according to the activation / deactivation of the templates. At the beginning of the process described below, these values are +1 and ⁇ 1, respectively.
  • template DB construction device 60 is connected to seed template storage device 32 and conjunction storage unit 34, and stores all templates stored in seed template storage device 32 and conjunction storage unit 34.
  • a template pair storage unit for storing the template pairs generated by the template pair generation unit 90.
  • the template pair generation unit 90 generates all combinations in which two templates are connected by a conjunction. 92.
  • An example of the shape of the template pair generated by the template pair generation unit 90 is as follows.
  • the template DB construction device 60 further includes, for each template pair stored in the template pair storage unit 92, a noun pair collection unit 94 for collecting noun pairs co-occurring with the template pair from the Internet 40, and a noun pair.
  • a noun pair storage unit 96 for storing the noun pairs collected by the collection unit 94 and a noun pair connected to the noun pair storage unit 96 and included in each of the noun pairs stored in the noun pair storage unit 96
  • a noun pair polarity determination unit 98 In order to determine the relationship based on the polarity of the predicate template co-occurring with those nouns and the type of the conjunction stored in the conjunction storage unit 34, and to add a tag indicating the relationship to each noun pair.
  • the noun pair polarity determination unit 98 determines the relationship between nouns constituting the noun pair according to the method shown in Table 9 below.
  • the two predicate templates have the same polarity, and they are connected by a conjunctive connective, the relationship between the noun pairs co-occurring with them is positive.
  • the two predicate templates have the same polarity. When these are connected by reverse conjuncts, the relationship between the noun pairs co-occurring with them is negative.
  • the two predicate templates are opposite in polarity, and they are connected by the conjunctive connective.
  • the two predicate templates are opposite in polarity and are connected by a conjunctive conjunction, they are co-occurring noun pairs.
  • the template DB construction device 60 is connected to the noun pair storage unit 96, and for each of the noun pairs to which the relation tag is attached by the noun pair polarity determination unit 98, the template pair co-occurring with them is interned.
  • a template pair collection unit 100 for collecting from the net 40
  • a template pair storage unit 102 for storing the template pairs collected by the template pair collection unit 100 in association with noun pairs co-occurring with them, and a template pair
  • the relationship between the noun pairs that co-occur with the template pair as to whether or not the templates constituting the template pair have the same activity / inactivity (whether they match) (Positive / negative) and a template activity match determination unit 104 for making a determination based on whether the conjunction connecting the templates is forward or reverse, and assigning the result as a tag to each template pair.
  • Whether the template pair is active / inactive can be determined by the method shown below. As shown in Table 9, the relationship of the noun pair ⁇ earthquake, tsunami> is positive, the relationship of the noun pair ⁇ salivation, dry mouth> is negative, and the relationship of the noun pair ⁇ acetaldehyde, liver disorder> is positive.
  • the activity of a template pair that co-occurs with a positive noun pair and connected by a forward conjunction is the same
  • Co-occurs with a positive noun pair and connected by a reverse conjunctive The activity of the template pair is opposite (3) co-occurs with a noun pair whose relationship is negative, and the activity of the template pair connected by the forward conjunctive is opposite (4) It co-occurs with a noun pair whose relationship is negative
  • the activity of the template pair connected by the reverse connection connector is the same.
  • the template DB construction device 60 further constructs a network between the templates based on the template pair stored in the template pair storage unit 102 and its match determination result.
  • the template network 140 includes a plurality of nodes each corresponding to one template and links defined between the nodes.
  • the link is established between nodes corresponding to the template for which the match determination shown by the table 9 is performed.
  • Each link is assigned the attribute of the same polarity or opposite polarity according to the result of match determination between the templates of the nodes at both ends (table 9).
  • links to which the same polarity is assigned are indicated by solid lines, and links to which the opposite polarity is assigned are indicated by dotted lines.
  • the activity value of each template is calculated using this link.
  • the seed templates stored in the seed template storage device 32 for example, “cause”, “generate”, and “suppress”) in FIG. For
  • a value of +1 or ⁇ 1 is manually given in advance.
  • the active value of each node (template) is calculated using these values, the link between the nodes, and the attribute of the link. Specific contents of the calculation method will be described later.
  • template DB construction device 60 is further connected to template network construction unit 106, and template network storage unit 110 for storing template network 140 constructed by template network construction unit 106, template For each node of the template network 140 stored in the network storage unit 110, the activation value of each node (template) is calculated based on the activation value of +1 or ⁇ 1 previously attached to the seed template. Of the nodes (templates) of the template network 140 stored in the template network storage unit 110 and the template activity value calculation unit 112 for assigning these activity values to the nodes (templates), the template activity value is calculated.
  • a high activity template extraction unit 114 for extracting only those having a large absolute value of the activity value calculated by the value calculation unit 112 and constructing the template DB 62 from the extracted template, and predetermined for the template DB construction
  • the template stored in the template DB 62 is displayed.
  • the seed template storage device 32 is updated as a new seed template, and a seed template update unit 118 for causing the template DB construction device 60 to execute template DB construction processing again is included.
  • the end determination unit 116 determines that the end condition is satisfied, the operation of the template DB construction device 60 ends, and the contradiction expression acquisition unit 64 is activated.
  • each unit of the contradiction expression collection device 36 is realized by computer hardware and a computer program executed by the computer hardware.
  • the template pair generation unit 90 generates a template pair by simply combining all combinations of seed templates stored in the seed template storage device 32 and all conjunctions stored in the conjunction storage unit 34. belongs to. Typical examples of template pairs are “cause (noun 1)” “so” “generate (noun 2)”.
  • the noun pair collection unit 94 performs the following processing.
  • a combination of the above template pair + conjunction can be considered as a noun pair that co-occurs in one sentence.
  • Such noun pairs are classified into those having a positive relationship with each other and those having a negative relationship with each other as exemplified below.
  • Positive / negative of a noun pair is determined by a combination of activity / inactivity of a template pair co-occurring with the noun pair and a conjunction.
  • the template pair collection unit 100 performs the following processing. Consider a noun pair determined by the noun pair polarity determination unit 98 to appear on the Internet 40 only as a positive relationship. Among them, the template pair collection unit 100 leaves only noun pairs whose appearance frequency is a predetermined number of times or more as positive relational noun pairs. Similarly, regarding noun pairs that appear on the Internet 40 only as a negative relationship, only noun pairs whose number of appearances is equal to or greater than the predetermined number are left as negative related noun pairs.
  • the predetermined number of times as the threshold value may be different or the same when selecting a positive relational noun pair and when selecting a negative relational noun pair.
  • the template activity match determination unit 104 determines whether a template pair that co-occurs in a sentence with a remaining positive / negative noun pair + connective in accordance with a determination method based on Table 12 below, Classify into the same (match) and the opposite (opposite). At this time, some template pairs appear on the Internet 40 with the same template activity or appear in the opposite activity. For these, the number of appearances of the matching and the opposite are compared and determined by majority vote.
  • template pairs are stored in template pair storage unit 102, and activity matching for each template pair is performed by template activity match determination unit 104. Fires when the determination is complete.
  • This program secures a predetermined storage area on the memory, assigns an initial value to an area for a predetermined variable among the storage areas, and constructs an initial empty template network 140.
  • step 152 for executing processing 154 on all template pairs stored in the template pair storage unit 102.
  • a process 154 is for performing a process of adding a template constituting the template pair and a link therebetween to the template network 140.
  • step 150 it is assumed that an empty network is constructed in advance as the template network 140.
  • the process 154 determines, for each template included in the template pair to be processed, whether or not the corresponding node exists in the template network 140, that is, whether or not the node should be added to the template network 140; Step 182 is executed when the determination in step 180 is affirmative, and processing for adding a node (one or two) determined to be added to the template network 140 to the template network 140; and steps 180 and 182 Is executed after the step 184 for determining whether or not there is already a link between nodes corresponding to the template pair to be processed, and when the determination in the step 184 is negative, the link is added to the template network 140. Process And a step 186 to end the sounding processing 154. If the determination in step 184 is affirmative, execution of process 154 for this template pair ends.
  • the program that implements the template network construction unit 106 further adds a link to the constructed template network 140 by referring to the synonym / entailment relation dictionary 108 after the completion of the processing in step 152, and In the template network 140 obtained as a result, a step 166 of deleting a node whose number of links with other nodes is equal to or less than a predetermined threshold value, and the number of nodes to which each node is linked is determined. And a step 168 of calculating a weight (a calculation method will be described later) and assigning it to each link to end the processing.
  • the program part (routine) executed in step 164 of the link addition process of FIG. 4 is performed for all the pairs of nodes that do not have a link among the nodes in template network 140. It includes step 200 for performing the following process 202.
  • the process 202 determines whether or not there is a specific relationship between the node pairs to be processed, and “identical” between the node pairs to be processed when the determination in step 210 is affirmative. And the step 212 of ending the process 202 by adding a link having the attribute ".” If the determination in step 210 is negative, the process 202 is also terminated.
  • the grammatical information of the verb and the synonym / entailment relationship of the words stored in the synonym / entailment relationship dictionary 108 shown in FIG. 2 are used. .
  • step 168 the weight of each link is calculated.
  • w ij be the weight given to the link between template i and template j.
  • the weight w ij is calculated by the following equation (1).
  • d (i) indicates the number of templates linked to the template i.
  • SAME (i, j) indicates that the “match” attribute is attached to the link between the template i and the template j.
  • OPPOSITE (i, j) indicates that the “opposite” attribute is attached to the link between template i and template j. That is, if the matching attribute is assigned to the template i and the template j, the weight is a positive value, and if the opposite attribute is assigned, the sign of the weight is reversed and becomes negative.
  • the template activity value calculation unit 112 shown in FIG. 2 calculates the activity value of each node for each node of the template network 140 stored in the template network storage unit 110 by the method described below.
  • the computer program that realizes template activity value calculation unit 112 starts executing in response to template network 140 being stored in template network storage unit 110 and each link being weighted. To do.
  • This program uses the activation values (+1 for the active seed template and -1 for the inactive seed template) previously assigned to the nodes corresponding to the seed template among the nodes in the template network 140. ), And a predetermined initial value is set in other nodes.
  • the value E (x, W) defined by the following equation is optimized (here, minimized) ) To estimate the activity value of each node.
  • x i and x j are the activation values with the signs of templates i and j
  • x is a vector composed of these activation values
  • W is a matrix composed of link weights w ij , respectively.
  • This value E is similar to the calculation formula of the electron spin energy in quantum mechanics, and can be performed in the same manner as the calculation of energy minimization in quantum mechanics.
  • the value of x i x j tends to be a positive value when the polarities of x i and x j are the same, and a negative value when they are different, after the energy minimization calculation. is there.
  • Equation (2) since there is a coefficient “ ⁇ 1/2” before sigma, the value of E (x, W) is minimized by maximizing the sigma.
  • the contradiction expression acquisition unit 64 of FIG. 1 is also realized by a computer program.
  • the computer program for realizing contradiction expression acquisition unit 64 conflicts with each other (steps 280 for generating a phrase group and contradictions among the phrase groups generated at step 280 (having conflicting meanings).
  • the contradictory pair here refers to a phrase pair that satisfies the following conditions.
  • Both phrases consist of one noun and one active or inactive template. For example, “I have (cold)” and “Prevent (cold)”.
  • Two nouns included in both phrases are synonymous (or identical) to each other. For example, a combination such as ⁇ cold, cold> or ⁇ cold, cold>.
  • One of the two templates included in both phrases is active and the other is inactive. For example, a pair of “being affected” (active) and “preventing” (inactive).
  • the two templates share many nouns that co-occur on the Internet (connecting dependency relationships). That is, these two templates have a high distribution similarity.
  • the common nouns that co-occur with “cold” may be cold, cold, pneumonia, etc.
  • the nouns that co-occur with “prevent” include cold, cold, pneumonia, fire, disaster, etc.
  • the distribution similarity between the two is high.
  • Each phrase has an appearance frequency on the Internet that is equal to or higher than a predetermined threshold. That is, the noun of each phrase and the template form a dependency relationship with a frequency equal to or higher than the threshold value. For example, the occurrence frequency of “(cold)” ⁇ threshold value and the occurrence frequency of “(prevent) (cold)” ⁇ threshold value must both hold.
  • the processing for extracting the contradictory pair by executing the above processing is executed in step 280 of FIG.
  • the program portion 280 includes a step 320 for acquiring nouns from the Internet 40 and a step 322 for executing the following processing 324 for all the acquired nouns.
  • the process 324 includes a step 360 of executing the following process 362 for all templates stored in the template DB 62 for the noun that is the processing target.
  • the process 362 associates a template to be processed with a noun to be processed, thereby generating a step 400 and determining whether or not the frequency of appearance of the phrase on the Internet 40 is equal to or higher than the above threshold. Step 402, and when the determination at step 402 is affirmative, add step 404 to the phrase group and end step 362. If the determination in step 402 is negative, the phrase is not added to the phrase group.
  • a large number of active phrases and inactive phrases are generated by executing the program shown in FIG. For example, there are “cause” and “being affected” as active templates, and “inhibit” and “prevent” as inactive templates. If there are “earthquake”, “tsunami”, “cold”, “cold” etc. as examples of nouns obtained from the Internet 40, the following are generated as active phrases and inactive phrases with high appearance frequency. Will. These are added to the phrase group and input to step 282 in FIG.
  • the program part that implements step 282 in FIG. 7 has a control structure as shown in FIG. Referring to FIG. 9, this program part clears an area reserved in the storage device as an area for storing contradictory phrase pairs in advance, and all of the phrase groups obtained in step 280. And step 442 for performing the following processing 444 on the active phrase.
  • Process 444 includes a step 470 of executing the following process 472 for all inactive phrases.
  • the process 472 determines whether or not the nouns included in the active phrase and the inactive phrase to be processed are the same, and the noun included in the active phrase when the determination in step 490 is negative. For example, step 498 is searched from a dictionary of the same kind as the synonym / entailment dictionary 108 shown in FIG. 2 and whether any of the words searched in step 498 matches the noun of the inactive phrase. Determining 500. If the determination in step 500 is negative, execution of process 472 ends.
  • Step 492 determines whether or not the distribution similarity between the active phrase and the inactive phrase to be processed is greater than a threshold value. If the determination in step 492 is affirmative, control proceeds to step 494. In step 494, it is determined whether the frequency of appearance of each phrase on the Internet 40 is equal to or higher than a predetermined threshold value. If the determination is affirmative, the active phrase / inactive phrase pair to be processed is added to the contradictory phrase pair group (step 496), otherwise the pair is discarded.
  • the program part that realizes the ranking executed in step 284 of FIG. 7 has a control structure as shown in FIG. 10 in this embodiment.
  • the program executes step 530 for calculating a score indicating the degree of contradiction of the contradictory phrase pair for all the contradictory phrase pairs selected in step 282 of FIG.
  • the process includes step 534 for sorting and outputting all the contradictory phrase pairs in descending order of score, and ending the process.
  • the score calculated in step 532 is a score C t (p 1 , p 2 ) calculated by the following equation.
  • p 1 and p 2 each represent a phrase constituting an inconsistent pair
  • t 1 and t 2 are templates included in p 1 and p 2
  • s 1 and s 2 are templates t 1 and t, respectively.
  • represents the absolute value of the activity value s 1
  • sim (t 1 , t 2 ) represents the distribution similarity between the templates t 1 and t 2 .
  • the contradiction expression collection system 30 operates as follows. Referring to FIG. 1, a small number of seed templates are stored in advance in seed template storage device 32. Whether each seed template is active is also determined in advance, and the tag is attached to each template. On the other hand, the conjunction storage unit 34 stores Japanese forward and reverse conjunctions. Also for these, information indicating whether the connection is forward or reverse is provided in advance.
  • the template DB construction device 60 operates as follows to construct the template DB 62.
  • template pair generation unit 90 generates all possible combinations of all combinations of all seed templates stored in seed template storage device 32 and conjunctions stored in conjunction storage unit 34. These are all stored in the template pair storage unit 92 as template pairs.
  • the noun pair collection unit 94 collects the noun pairs that co-occur with the template pair from the Internet 40 and stores them in the noun pair storage unit 96.
  • the noun pair polarity determination unit 98 determines whether the noun pair corresponds to the activity / inactivity of the template in the template pair co-occurring with the noun pair and the type of the conjunction that binds the template pair. Determine whether the relationship is positive or negative, and add a tag to each noun pair.
  • the template pair collection unit 100 collects, for each noun pair, a template pair that co-occurs with the noun pair from the Internet 40 and stores it in the template pair storage unit 102.
  • the template activity match determination unit 104 activates / inactivates the templates constituting the template pair according to the positive / negative of the co-occurring noun pair and the type of conjunction (forward tangent, reverse tangent). Determine whether they are the same or opposite.
  • the template activity match determination unit 104 assigns a tag indicating whether each activity / inactivity is the same or opposite to each template pair stored in the template pair storage unit 102.
  • the template network construction unit 106 constructs a template network 140 based on the template pairs stored in the template pair storage unit 102.
  • the template network construction unit 106 adds a node corresponding to two templates constituting a template pair to the network if it is not in the network, and adds a node if there is no link. By executing this process for all template pairs, a template of the template network 140 is constructed.
  • the template network construction unit 106 further refers to the synonym / implication relation dictionary 108 for all pairs of nodes that are not linked to each other in the network, and has a specific relationship as shown in the table 13 between the templates corresponding to the nodes.
  • the template network construction unit 106 assigns a weight calculated by the equation (1) to each link of the network constructed in this way.
  • the template network 140 to which the link is added in this way is stored in the template network storage unit 110.
  • the template activity value calculation unit 112 executes the process shown in FIG. That is, first, an activation value of +1 or ⁇ 1 is given to the seed template according to its activation / deactivation (step 240). Further, by executing a process for minimizing the value E (x, W) defined as an amount similar to the energy of electron spin (step 242), the activity value of each template is estimated, and the activity value of each template is estimated. Assign a value. Some of these activity values are negative and some are positive.
  • the high activity level template extraction unit 114 selects templates whose activity values are estimated in this way and whose activity value is larger than a predetermined threshold value, and uses those templates to determine the template DB 62. To construct. In this case, the order may be set according to the magnitude of the value of the activation value, instead of selecting the threshold value.
  • the end determination unit 116 shown in FIG. 2 determines whether or not a predetermined end condition is satisfied when the template DB 62 is constructed.
  • a termination condition for example, a condition such that the number of repetitions exceeds a predetermined number or the number of templates exceeds a predetermined number can be assumed. If the termination condition is satisfied, it is assumed that the template DB 62 is completed. If the termination condition is not satisfied, the seed template updating unit 118 updates the seed template storage device 32 by using the template included in the template DB 62 as a seed template. Since these seed templates are given the activity values calculated by the above processing, the same processing as described above is executed using these activity values in the subsequent processing.
  • the contradiction expression acquisition unit 64 uses the template DB 62 to execute processing for acquiring the contradiction expression from the Internet 40.
  • the contradiction expression acquisition unit 64 generates a phrase group as shown in FIG. That is, as shown in FIG. 8, a noun is acquired from the Internet 40 (step 320), and for each combination of each noun and each template in the template DB 62 (step 322, process 324, step 360), the noun And a template including the template are generated (step 400). If the frequency of appearance of the phrase on the Internet 40 is equal to or higher than a predetermined value, the phrase is added to the phrase group used in the following processing, otherwise the phrase is discarded. By executing the above processing for all combinations of nouns and all templates, a phrase that appears on the Internet 40 at a certain frequency can be obtained.
  • the contradictory expression acquisition unit 64 selects a contradictory phrase pair from the phrase group thus generated as follows. That is, first, the storage area for the contradictory phrase pair is cleared (step 440 in FIG. 9), and all combinations of all active phrases and all inactive phrases included in the phrase group (steps 442 and 444). Step 470), whether the nouns included in both are the same or synonymous (steps 490, 498, 500). If both nouns are the same or synonymous, it is further checked whether the distribution similarity of the template pair included in the phrase pair is greater than a threshold value. If the judgment is negative, the phrase pair is discarded.
  • step 494 it is next checked in step 494 whether the frequency of appearance of the phrase pair on the Internet 40 is greater than or equal to a threshold value. If the judgment is negative, the phrase pair is discarded. If the determination is affirmative, the phrase pair is added to the contradictory phrase pair group (step 496).
  • the contradiction expression acquisition unit 64 repeats the above processing for a phrase pair composed of combinations of all active phrases and inactive phrases. As a result, a large number of contradictory phrase pair groups can be obtained automatically.
  • a score of the degree of contradiction is calculated as indicated by step 532 in FIG. Using this score, contradictory phrase pairs are sorted and output in descending order of score.
  • the template DB 62 can be obtained by the template DB construction device 60.
  • This template DB 62 can be used not only for acquiring contradiction expressions as in the first embodiment but also for various processes.
  • the second embodiment is an example in which the template DB 62 is used for acquiring a causal relationship.
  • This second embodiment can be realized by employing a processing unit for acquiring a causal relationship expression from the Internet 40 instead of the contradiction expression acquiring unit 64 of FIG.
  • a processing unit can be realized by a computer program.
  • the causal relationship acquisition process can be performed as follows. First, in step 570, a phrase pair co-occurring in a virtual corpus on the Internet 40 in a sentence connected to each other with a tangent conjunction, and a noun pair composed of nouns in the phrase pair are converted to the Internet 40. Collect from.
  • step 572 it is determined whether or not the relationship between the noun pairs in the phrase pair to be processed is a positive relationship. If the determination is positive, it is further determined whether the activity / inactivity of the template pair is the same or opposite (step 592). If the determination in step 592 is negative, the noun pair is discarded. If the determination in step 592 is affirmative, the phrase pair is added to the causal relationship pair group (step 594).
  • step 590 determines whether the activity / inactivity of the template pair is opposite to each other. If the judgment is negative, discard this phrase pair. If the determination is positive, the phrase pair is added to the causal relationship pair group.
  • step 578 is executed for all the causal relationship phrase pairs in the causal relationship pair group obtained as a result (step 576).
  • the processing performed for each causal relationship phrase pair in step 578 is processing for calculating the causal relationship strength score C s (p 1 , p 2 ) by the following equation.
  • p 1 and p 2 are phrases constituting the causal relationship pair
  • s 1 and s 2 are activation values of templates constituting the phrases p 1 and p 2 , respectively, and a symbol
  • Absolute values, n 1 and n 2 are nouns included in the phrases p 1 and p 2
  • npfreq (n 1 and n 2 ) are n 1 and n 2 are active if n 1 and n 2 are positive / If the inactive template pair co-occurs in one sentence, if n 1 and n 2 are negative, n 1 and n 2 co-occur in a sentence with different active / inactive template pairs. , Respectively.
  • the causal relationship phrase pairs are sorted and output in descending order of the scores.
  • the method of acquiring the causal relationship is not limited to this.
  • a phrase pair that satisfies all of the following conditions may be acquired as a causal relationship pair.
  • Both phrases consist of one noun and one active / inactive phrase. For example, it is a phrase pair such as “(earthquake)” and “(tsunami) occurs”.
  • a template pair that co-occurs in one sentence together with a forward conjunction and a noun pair that co-occurs in that sentence are acquired. These are considered to be prototypes of causal pairs.
  • a causal relationship strength score is calculated by the following equation (5). All the causal relationship phrase pairs are sorted and output in descending order of the causal relationship strength score.
  • the equation (5) may be used for the score calculation in the above-described second embodiment.
  • causal relationships that are considered to describe causal relationships are extracted from descriptions existing on the Internet 40.
  • only those that are actually described as sentences on the Internet 40, that is, those that can be regarded as being grounded by human expression activities are extracted. ing.
  • even a single causal relationship can be expressed in a wide variety of languages. For example, limited to Japanese, the causal relationship that exists around a certain causal relationship “Obtain US beef ⁇ make beef bowl” can be expressed in various forms as shown below.
  • causal relation DB 632 there is a database (causal relation DB 632) describing the causal relation, and the inference system 630 is set to output a hypothesis that can be inferred from the input using the causal relation DB 632. It shall be.
  • This causal relationship DB 632 has a causal relationship 634 of “obtain US beef ⁇ make beef bowl”, and only the causal relationship regarding US beef is included in the causal relationship DB 632.
  • the causal relationship DB 672 includes not only the causal relationship 634 but also other causal relationship groups 674 shown in the table 15 above. Then, it is assumed that the inference system 670 uses this causal relation DB 672 to infer an answer to the question. Then, when the same question as in the case of FIG. 12A is given, the inference system 670 causes the causal relation “causal relation in the causal relation DB 672 to be prohibited from importing US beef ⁇ beef can not be eaten. , An output 676 of “I can no longer eat beef bowl” can be obtained. It is clear that such a system is much more useful compared to the inference system 630 shown in FIG.
  • the problem is how to obtain the causal relationship group 674 and the like when only the causal relationship 634 is obtained from the Internet 40.
  • it is useful to use the template DB 62 described in the first embodiment.
  • a system for outputting a causal relationship hypothesis that does not exist directly on the Internet 40 from a causal relationship that can be found on the Internet 40 using the template DB 62 is a computer hardware and a program executed by the computer hardware. And can be realized. This system is used together with the template DB 62 shown in FIG.
  • a program for realizing such a function includes a pair of nouns in a causal relationship (causal relationship noun pair), and a pair of nouns in which one corresponds to the other material ( A material related noun pair), and a step 710 of acquiring a noun pair (suppression related noun pair) in which one suppresses the other.
  • Any of these noun pairs can be obtained from an expression that matches a predetermined pattern using existing techniques. For example, in the case of a causal noun pair, an expression that matches a pattern such as “A causes B” is selected, and the nouns A and B are acquired as a causal noun pair.
  • the nouns A and B are acquired from an expression that matches a pattern such as “Make B with A”.
  • the nouns A and B are acquired from an expression that matches the pattern such as “A prevents B”. Examples of these are shown in Table 16 below. Note that the noun pairs acquired in this step 710 to generate a causal relationship hypothesis are not limited to the above-mentioned three types of relationship noun pairs, and various other relationships can be considered.
  • the program further includes a step 712 that executes the following program portion 714 for all noun pairs obtained in step 710.
  • the program portion 714 determines, for each noun in the noun pair to be processed, step 740 for identifying a template that frequently has a dependency relationship with that noun, and determines whether the noun pairs are in a positive relationship with each other.
  • Step 742 for branching the control flow and step 742 is executed when the determination in step 742 is affirmative, and is frequently shared on the Internet 40 together with the tangent conjunction among the combinations of the templates identified in step 740.
  • Step 746 which frequently co-occurs with conjunctions and selects opposites of each other's activity / inactivity. “Frequently” in step 744 and step 746 refers to a case where the appearance frequency on the Internet 40 is greater than a predetermined value in the present embodiment.
  • the program portion 714 further includes a step 748 that is executed subsequent to steps 744 and 746 and that executes the program portion 750 described below for all template pairs selected in step 744 or step 746.
  • the program part 750 generates a causal relationship hypothesis by adding a template pair to be processed to a noun pair to be processed, and adds the causal relationship hypothesis generated in step 770 to the causal relationship hypothesis group for processing. And step 772 for ending.
  • a large number of causal relationship hypotheses that do not exist on the Internet 40 can be generated based on the noun pairs collected from the Internet 40 using the template DB 62.
  • the causal relationship obtained from the Internet 40 but much more causal relationship hypotheses can be obtained. Therefore, it is possible to cover a wide range of causal relationships as the basis of the inference system, and the inference system can find answers to a wide range of questions.
  • the method according to the fourth embodiment is a causal relationship pair acquired directly from the Internet 40 (a pair of phrases in a causal relationship) or a causal relationship hypothesis acquired by the method according to the third embodiment.
  • a causal relationship hypothesis is generated from (a kind of causal relationship pair) and the contradictory expression (a pair consisting of mutually contradictory phrases) obtained in the first embodiment. Specifically, it is as follows.
  • a new causal relationship hypothesis is automatically obtained by replacing each acquired phrase of the causal relationship or the causal relationship hypothesis with an inconsistent phrase.
  • a program for realizing this embodiment by computer hardware is based on the premise that a causal relationship pair has already been obtained. Step 810 is performed.
  • the program part 812 includes a step 840 of executing the following program part 842 for all contradictory phrases for the left-side phrase (phrase representing the cause) in the causal relationship pair to be processed.
  • the program part 842 replaces the left phrase of the causal relationship pair being processed with a phrase inconsistent with the phrase (the contradictory phrase selected as the processing target in step 840), and the causal relationship pair being processed. Step 872 of executing the following program portion 874 for all phrases that contradict the right phrase.
  • the program part 874 replaces the right phrase of the causal relationship pair being processed with a phrase that contradicts the phrase, and the phrase pair newly obtained by completing the processing of step 910 as a new causal relationship hypothesis. Adding to the causal relationship hypothesis group and ending the program portion 874.
  • the left phrase is replaced with a phrase that contradicts the left phrase
  • the right phrase is replaced with a phrase that contradicts the right phrase.
  • the first example is to use a template pair to improve accuracy when acquiring synonyms and implications.
  • synonyms and implications are obtained from text using the similarity (distribution similarity) of their appearance contexts. For example, the following examples can be considered.
  • the appearance context of “import” is “noun 1”, and the appearance context of “import” is “noun 2”.
  • noun 1 and noun 2 often coincide or are synonymous words. This is because the meanings of these two phrases are similar (synonymous).
  • the appearance context of “No import” is “noun 3”, and the appearance context of “become difficult to obtain” is “noun 4”.
  • the set formed by the noun 3 tends to be a subset of the set formed by the noun 4. Therefore, in the case of the synonymous relationship and the implication relationship, the appearance contexts of both templates are similar and the distribution similarity is high. Synonyms and implications are obtained using these relationships.
  • the distribution similarity is not only a case where there are synonyms and implications between two templates, but is often a contradictory (opposite) relationship. For example, “importing (noun 1)” and “(noun 2) are prohibited from importing” are contradictory. However, the noun 1 and the noun 2 often contain the same noun, resulting in a high distribution similarity. Therefore, in the synonym / implication expression, there is a problem that templates that originally have contradictory meanings are selected as the synonym or implication expression.
  • Such problems can be solved by using the template DB 62. That is, it is checked whether or not the activity / inactivity of both templates matches for a linguistic expression pair that is extracted by a conventional method and is a candidate for synonym / implication expression. If the activity / inactivity of both is the same, the templates are considered to have the same meaning or implication, while if the activity / inactivity of the two is not the same, it can be determined that these templates are in a contradictory relationship.
  • causal noun pairs across sentence boundaries Most of the conventional techniques for acquiring causal noun pairs are to extract noun pairs that co-occur in a sentence with a certain pattern. However, with such a technique, only causal relationship pairs described in one sentence can be obtained. On the other hand, in reality, there may be expressions of causality other than expressions co-occurring in a sentence. In particular, many pairs of expressions that are close to each other in a text represent a causal relationship. For example, an expression such as “An earthquake occurred in Tohoku. Many people were hit by a tsunami after that.”
  • the causal relation noun pair that appears across sentences as described above can be obtained as follows using the template DB 62.
  • causal relationship or causal relationship hypothesis both phrase pairs + form of tangent conjunction
  • the method described in Embodiment 2 or 3 may be used.
  • template pairs that appear frequently are extracted. For example, it is possible to obtain template pairs such as “attack ⁇ attack” and “cause ⁇ attack”.
  • Phrase pairs and noun pairs with a large amount of causality can be obtained regardless of whether they are written in text or not.
  • the most practical use is considered to be the application of the present invention to a question answering system or the like that gives a clever, straightforward and accurate answer to a question written in an arbitrary language.
  • the present invention is combined with a speech recognition technology to be used in a system that issues a question to a computer and obtains an answer thereof, or a system that maintains a database storing past cases in a call center or the like. High compatibility.
  • a database of causal relations covering a very wide range can be maintained by the system of the embodiment as described above.
  • questions related to causal relationships that is, “WHY-type questions” that have been weak in conventional question answering techniques.
  • such a response can be easily acquired by using the causal relation database obtained by the embodiment described above.
  • the hypothesis generation technique described above makes it possible to present information that does not exist on the Internet 40 as a hypothesis.
  • conventional question answering systems have not been able to answer the consequences or causes of unknown events.
  • the embodiments described above enable such a technique. For example, if the technique of the embodiment described above is used, before the price of the cemented carbide tool actually rises, a question such as "What can be the cause if the price of the cemented carbide tool rises?" Will be able to answer the hypothesis that if China bans the export of tungsten, the price of cemented carbide tools may rise. Once this is possible, the questioner can also take steps to hedge the risk.
  • a case can be considered in which a complaint about a trouble that contradicts the past case of a certain product is sent from the customer to the call center.
  • a call center retrieves information from a database using keywords and obtains an appropriate answer.
  • the system can recognize that at least a new claim is a case inconsistent with a past case, and can notify the operator to that effect. From the result, for example, the operator can respond much more accurately than when there is no information. For example, since a new claim is inconsistent with a past case, it can be shown to the customer that the customer has misrecognized the trouble or that this trouble may be an unknown trouble. As a result, the problem can be solved more smoothly than before.
  • the causal relationship can be automatically recognized without using a clue expression such as “for” or “no”.
  • Information equivalent to a dictionary can also be acquired automatically. Therefore, its application range is dramatically widened.
  • verbs are classified into three types: active / inactive / neutral.
  • active / inactive / neutral Such a classification method has not been considered in the past. Of these, no corresponding classification has been proposed for inactive predicates.
  • the active / inactive combination of predicates (template) is an important factor, and both are useful together. Therefore, the conventional technology which does not have such a classification of activity / inactivity and further, a classification of activity / inactivity / neutral gives effects as in the above embodiment in automatic recognition of causality and recognition of contradiction. I can't.
  • the causal relationship between words is not only acquired, such as the causal relationship between “cholesterol” and “cerebral infarction” that has been handled by the conventional technology.
  • the semantic relationship between words according to the above embodiment, it is possible to acquire what cannot be acquired by the conventional method.
  • the above embodiment makes the hypothesis generation technique regarding the semantic relationship between words more powerful than the conventional technique.
  • verbs such as “cause” and “prevent” are classified into different labels (active / inactive) in advance. And it imposes the restriction that verbs classified into different labels are not recognized as synonymous. By imposing such restrictions, it can be prevented that antonyms are recognized as synonyms and implications because of the high distribution similarity. Therefore, the above embodiment can improve the accuracy of recognizing synonyms and implications.
  • FIG. 15 shows the external appearance of the computer system 930
  • FIG. 16 shows the internal configuration of the computer system 930.
  • this computer system 930 includes a computer 940 having a memory port 952 and a DVD (Digital Versatile Disc) drive 950, a keyboard 946, a mouse 948, and a monitor 942.
  • a computer 940 having a memory port 952 and a DVD (Digital Versatile Disc) drive 950, a keyboard 946, a mouse 948, and a monitor 942.
  • DVD Digital Versatile Disc
  • the computer 940 boots up a CPU (central processing unit) 956, a bus 966 connected to the CPU 956, the memory port 952, and the DVD drive 950.
  • a read only memory (ROM) 958 that stores programs and the like, and a random access memory (RAM) 960 that is connected to the bus 966 and stores program instructions, system programs, work data, and the like are included.
  • the computer system 930 further includes a network interface (I / F) 944 that provides a connection to a network that enables communication with other terminals.
  • I / F network interface
  • a computer program for causing the computer system 930 to function as each functional unit of the system according to each of the above-described embodiments is stored in the DVD 962 or the removable memory 964 attached to the DVD drive 950 or the memory port 952, and further transferred to the hard disk 954. Is done.
  • the program may be transmitted to the computer 940 through a network (not shown) and stored in the hard disk 954.
  • the program is loaded into the RAM 960 when executed.
  • the program may be loaded directly into the RAM 960 from the DVD 962, from the removable memory 964, or via a network.
  • This program includes a plurality of instructions for causing the computer 940 to function as each functional unit of the system according to the above embodiment. Some of the basic functions required to perform this operation are provided by operating system (OS) or third party programs running on the computer 940, or modules of various programming toolkits installed on the computer 940. The Therefore, this program does not necessarily include all functions necessary for realizing the system and method of this embodiment.
  • This program includes only instructions that realize the functions of the system described above by calling appropriate functions or appropriate program tools in a programming tool kit in a controlled manner so as to obtain a desired result. Should be included.
  • the operation of computer system 930 is well known. Therefore, it does not repeat here.
  • the present invention can be used in a method and apparatus that uses natural language processing, and in particular, a predicate template collection apparatus that can automatically and accurately recognize a predicate template that constitutes a phrase and a phrase pair in a specific relationship. It can be used in the industry that manufactures, uses, and rents.
  • Contradiction Representation Collection System 32 Seed Template Storage Device 34 Conjunction Storage Unit 36 Contradiction Representation Collection Device 38 Contradiction Representation Storage Device 40 Internet 60 Template DB Construction Device 62 Template DB 64 Contradiction expression acquisition unit 90 Template pair generation unit 92 Template pair storage unit 94 Noun pair collection unit 96 Noun pair storage unit 98 Noun pair polarity determination unit 100 Template pair collection unit 102 Template pair storage unit 104 Template activity match determination unit 106 Template network Construction unit 108 Synonym / Implication relation dictionary 110 Template network storage unit 112 Template activity value calculation unit 114 High activity template extraction unit 116 Termination determination unit 118 Seed template update unit 140 Template networks 630 and 670 Inference system 632 and 672 Causal relationship DB 634 Causality 674 Causality

Abstract

 述語テンプレートを効率よく自動的に認識できる述語テンプレート収集装置を提供するために、述語テンプレート収集装置は、接続詞及びシードテンプレートを用いて、述語テンプレートペアと共起する名詞ペアを収集し、名詞の関係の極性を判定する名詞ペア収集部94及び名詞ペア極性判定部98と、名詞ペアと共起するテンプレートペアを収集し、述語テンプレートペアと共起する名詞ペアの関係と述語テンプレートペア間の接続詞とに基づき、述語テンプレートペアの活性の極性が同一か否かを判定するテンプレートペア収集部100と、述語テンプレートペアとその活性の一致/不一致とにより述語テンプレート間を関係付けたテンプレートネットワークを構築するテンプレートネットワーク構築部106と、ネットワーク内のシードテンプレートの活性値とノード間の関係とを用い各ノードに付与する活性値を算出するテンプレート活性値算出部112とを含むようにする。

Description

述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム
 この発明は、自然言語の文又はフレーズの間の関係を認識するための技術に関し、特に、文又はフレーズ等の間の因果関係、矛盾等に関する表現を自動的に認識して収集するための技術に関する。
 いわゆるインターネットの検索エンジン等の利用が普及するとともに言語処理技術が進歩し、「書いてある情報」を見つける事に関してはかなりレベルの高いサービスが開始されつつある。それと対照的に、「書いていないが、しかし有用である情報」を仮説として推論する技術についてはまだ十分なものが得られていない。こうした技術は、「システムが考える技術」ということができ、次世代情報サービスの重要なコア技術となるものと思われる。こうした技術については、いわゆる「人工知能」として、民間、公的機関を問わず長らく研究が行なわれている。にもかかわらず、未だ実用化、商用化のレベルには至っていない。
 こうした言語処理技術において基本的なものとして、いわゆる文又はフレーズがある。(本明細書では、日本語を処理対象とすることを想定し、「フレーズ」とは、ある名詞と述語とが助詞で連結されたものを指す。ただし、日本語以外の言語を想定する場合には、日本語における「フレーズ」と同等の単位を処理対象とする)これらは、あるまとまりを持った出来事及び行為を自然言語で記述するものである。これら文又はフレーズの間には、ある因果関係が見出される場合がある。例えば、「煙草を吸う」というフレーズの表すことが、「肺がんに罹る」というフレーズの表すことの原因になるというような関係がある。文又はフレーズ間には、意味的な矛盾の関係が見出される場合もある。例えば「製品を使用する」と「製品を破棄する」との間の関係等である。
 文又はフレーズの間のこのような関係は、人間には容易に認識できる。しかし、言語処理を自動的に行なおうとする場合、こうした処理は難題である。例えば、言語に関する情報サービス、情報分析技術、言語処理技術を一段高いレベルに到達させ、推論等のより高次な機能に結び付けるためには、文又はフレーズ間の上記した関係を高精度で認識できるようにすることが必須の技術と考えられている。しかし、現在までのところ、広い範囲の言語表現から上記したような関係を高精度で見出すことができるような技術は存在していない。
 こうした技術の構成要素に関連する従来技術として、後掲の非特許文献1~7に記載されたものがある。
 (A) フレーズ間の因果関係の自動認識手法
 人手で用意した大量の因果関係事例から機械学習によって新たな因果関係を取得する技術として、非特許文献1に記載された技術がある。日本語での例として、因果関係を明示的に示す「ため」「ので」といった接続詞のテキスト中での出現を手がかりにフレーズ間の関係を自動認識するものが存在する(非特許文献2)。
 (B) フレーズ間の矛盾関係の自動認識手法
 WordNet等の人手で構築された辞書を利用するものが存在する(非特許文献3)。
 (C) 動詞の分類方法
 名詞と動詞との組合せからなる単位について、動詞が例えば名詞の指す対象の持つ機能、効果等を発揮させる、増大させる方向の出来事を記述するようなものか否かに基づいて動詞を分類したり、そうした性質を持つ動詞を自動的に獲得したりする研究が存在する(例えば非特許文献4及び非特許文献5)。
 (D) 言語による仮説生成手法
 単語間の特定の意味的関係、例えば、因果関係に関して、仮説を生成する技術が存在する(非特許文献6)。例えば、「コレステロール」と「動脈硬化」の間には因果関係があり、「動脈硬化」と「脳梗塞」の間に因果関係があることをデータベースに保持していたとすると、それらの因果関係を組合せて、新たな仮説「コレステロール」は「脳梗塞」の原因となることを推論する。
 (E) フレーズ間の同義、含意の自動認識手法
 従来、動詞等の語又は「AがBを引き起こす」のようなパターンの間の同義性、含意の認識において、その語の周辺に出現する他の語又はパターン中においてA、Bといった変数の占める位置に出現する語の確率分布を求め、それらの間の統計的類似度(これを「分布類似度」と呼ぶ)を用いる技術が存在する(非特許文献7)。例えば、「AがBを引き起こす」というパターンと「AがBの原因となる」というパターンとはほぼ同義と認められるが、このことを、A、Bの位置にくる一連の名詞、例えば「ダイオキシン」「ガン」のようなものの出現確率を求め、それらの出現確率の間の類似度によってそうした同義を認識する技術である。
Roxana Girju. Automatic Detection of Causal Relations for Question Answering. In Proceedings of ACL Workshop on Multilingual Summarization and Question Answering. 2003.(人手で用意した大量の因果関係事例から機械学習によって新たな因果関係を取得する技術) 乾孝司、乾健太郎、松本裕治. 接続助詞「ため」を含む複文から因果関係知識を獲得する. 情報処理学会 自然言語処理研究会(NL-150-25), pp.171--178, 2002.(フレーズ間の因果関係の自動認識。「ため」等の特定の接続詞を手がかりとして因果関係を取得する技術) Saif Mohammad, Bonnie Dorr and Graeme Hirst. Computing Word Pair Antonymy. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pp.982-991, Honolulu, October 2008.(矛盾関係の自動認識。人手で構築した辞書に基づく技術) James Pustejovsky, The Generative Lexicon, MIT Press, 1995.(動詞の分類方法) 鳥澤健太郎. 対象の用途と準備を表す表現の自動獲得. 自然言語処理, vol.13(2), pp. 125-144, 2006.(動詞の分類の自動獲得手法) Masaaki Tsuchida, Kentaro Torisawa, Stijn De Saeger, Jong Hoon Oh, Jun'ichi Kazama, Chikara Hashimoto and Hayato Ohwada. Toward Finding Semantic Relations not Written in a Single Sentence: An Inference Method using Auto-Discovered Rules. In Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP 2011), pp.902-910, Chiang Mai, Thailand, November, 2011.(言語による仮説生成) Dekang Lin and Patrick Pantel. Discovery of inference rules for question answering. Natural Language Engineering, 7(4):343-360. 2001.(フレーズ間の同義、含意の自動認識手法) Hiroya Takamura, Takashi Inui, and Manabu Okumura. Extracting Semantic Orientations of Words using Spin Model. In Proceedings of the 43rd Annual Meeting of the ACL, pp. 133-140. 2005.(極性値の自動算出手法)
 [問題の所在]
 以下、(A)フレーズ間の因果関係の自動認識手法、(B)フレーズ間の矛盾関係の自動認識手法、(C)述語テンプレート(助詞と動詞の対、例:<を、食べる>)の自動分類方法、(D)言語による自動仮説生成手法、及び(E)フレーズ間の同義、含意の自動認識手法、の5点に関して従来技術の課題を整理する。
 (A) フレーズ間の因果関係の自動認識手法
 フレーズ間の論理的関係の1つとして、因果関係がある。先行技術は、因果関係を明示的に示す「ため」「ので」といった接続詞、又は、人手で構築した辞書をその情報源として因果関係を認識する。しかし、「ため」のような接続詞は通常テキスト中で出現頻度がそれほど多くないこと、及び、人手で作成された辞書はカバーする語が少なく、獲得できる因果関係が多くないという問題がある。したがって、適用範囲を広くすることが望ましい。
 (B) フレーズ間の矛盾関係の自動認識手法
 フレーズ間の論理的関係の他の例として、フレーズ間の矛盾関係がある。ここでいう矛盾関係とは、両者の意味するところが反対であることをいう。この点に関する先行技術は、人手で構築された辞書に依存している。そうした辞書に記載されている語は多くなく、広範な表現に対応できないという問題がある。
 (C) 述語テンプレートの自動分類方法
 先行技術では、動詞が例えば名詞の指す対象の持つ機能、効果等を発揮させる、増大させる方向の出来事を記述するようなもののみに着目している。しかし、単に動詞のこのような性質に着目するのみでは、矛盾・因果関係の認識が十分に行なえないという問題がある。
 (D) 言語による自動仮説生成手法
 先行技術に開示された技術では、単語間の因果関係を抽出することは可能だが、より広い単位で因果関係を抽出したり、因果関係に関する仮説を生成したりすることができないという問題がある。
 (E) フレーズ間の同義、含意の自動認識手法
 先行技術では、単語、フレーズ、パターンの周辺に出現する他の単語の確率分布を求める。さらにそれらの確率分布の間の類似度を計算する。こうして得られた情報によって、単語、フレーズ、及びパターンの間の同義又は含意関係を認識している。しかし、これらの技術には、「反義」の表現も同義と認識してしまう可能性が高いという欠点がある。例えば、パターン「AがBを引き起こす」とパターン「AがBを防ぐ」というパターンとを比較するとわかりやすい。両者において、「引き起こす」と「防ぐ」とは全く反対の意味を持つ。ところが、周辺に出現する他の単語の確率分布の類似度を求めると、これらが高い類似度を示すためである。例えば、「食事が成人病を引き起こす」「食事が病気を防ぐ」のように曖昧な語が、両者のパターンに頻出することが多いということに起因する。こうしたパターンが頻出するために、「引き起こす」、及び「防ぐ」という語を含むパターンに出現する名詞の確率分布が類似してしまう。したがって、同義、含意についてもより精度高く認識できるようにする必要がある。
 それ故に本発明の目的は、因果関係、矛盾関係等の、フレーズ間の論理的関係を自動的に認識することを可能にするために、それらを構成する述語テンプレートを効率よく自動的に、かつ精度高く認識できる述語テンプレート収集装置を提供することである。
 本発明の他の目的は、因果関係、矛盾関係等、特定の関係にあるフレーズペアを自動的に、効率的に、かつ精度高く認識できる装置を提供することである。
 本発明の第1の局面に係る述語テンプレート収集装置は、述語テンプレートを、所定の文の集合から収集するための述語テンプレート収集装置である。述語テンプレートは、名詞と結び付いてフレーズを構成するものである。かつ、述語テンプレートには、活性、不活性、及び中立という分類に従って活性の向き及びその大きさを表す活性値を付与することが可能である。活性とは、当該述語テンプレートに結び付けられた名詞の指す対象の機能又は効果を発揮させる方向の出来事を記述することを示す。不活性とは、当該述語テンプレートに結び付けられた名詞の指す対象の機能又は効果を発揮させない方向の出来事を記述することを示す。中立とは、活性でも不活性でもない述語テンプレートであることを示す。述語テンプレートに関する活性及び不活性の区別を述語テンプレートの極性と呼ぶ。述語テンプレート収集装置は、順接又は逆接に分類された接続詞を記憶する接続詞記憶部と、述語テンプレートネットワークを構築するための起点となるシードテンプレートを記憶するためのシードテンプレート記憶部とを含む。シードテンプレートの各々には、極性と活性値とが付される。したがって、述語テンプレートの極性は、述語テンプレートの活性値の符号を示すものであるということもできる。
 この装置はさらに、ある関係を充足する名詞ペアを所定のコーパスから収集し、各名詞ペアを構成する名詞同士の関係の極性を正か負に分類するための名詞ペア収集手段を含む。名詞ペアを構成する名詞同士の関係の極性は、当該名詞ペアの一方の示す対象が、他方の示す対象の出現を促進するときには正、抑制するときには負として定義される。この装置はさらに、名詞ペア収集手段により収集された名詞ペアとそれぞれ共起する述語テンプレートペアを所定のコーパスから収集し、収集された各述語テンプレートペアについて、当該述語テンプレートペアと共起する名詞ペアの関係の極性と、当該述語テンプレートペアを結ぶ接続詞とに基づいて、当該述語テンプレートペアの活性/不活性が同一か、反対かを判定するための述語テンプレートペア収集手段と、述語テンプレートペア収集手段により収集された述語テンプレートペアと、各述語テンプレートペアについての活性/不活性が同一か否かの判定結果とを用いて述語テンプレート間を関係付けることにより、各述語テンプレートをノードとし、述語テンプレートペアを構成する述語テンプレートの間の関係をリンクとするテンプレートネットワークを構築するための構築手段と、テンプレートネットワーク内のシードテンプレートに対応するノードに予め付与されている活性値をもとにし、テンプレートネットワーク内のノード間の関係を用い、各ノードに付与すべき活性値を算出し、各ノードに対応する述語テンプレートに、算出された活性値を付与して出力するための活性値算出手段とを含む。
 好ましくは、名詞ペア収集手段は、接続詞記憶部に記憶された接続詞と、シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアと共起する名詞ペアを所定のコーパスから収集し、各名詞ペアを構成する名詞同士の関係の極性を正又は負に分類するための手段を含む。
 より好ましくは、分類するための手段は、接続詞記憶部に記憶された接続詞と、シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアと共起する名詞ペアであって、コーパスに所定の頻度以上出現するものをコーパスから収集し、各名詞ペアを構成する名詞同士の関係の極性を正又は負に分類するための手段を含む。
 分類するための手段は、接続詞記憶部に記憶された接続詞と、シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアと共起する名詞ペアをコーパスから収集するための手段と、収集するための手段により収集された名詞ペアの組合せの各々について、各名詞ペアと共起する述語テンプレートペアの極性と、当該名詞ペアおよび述語テンプレートにより構成されるフレーズ対を結び付けている接続詞の種類とに基づいて、当該名詞ペアの組合せを構成する名詞の間の関係の極性を決定するための極性決定手段とを含んでもよい。
 より好ましくは、収集するための手段は、接続詞記憶部に記憶された接続詞と、シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアとコーパス内で所定の頻度以上の頻度で共起する名詞ペアをコーパスから収集するための手段を含む。
 さらに好ましくは、極性決定手段は、収集するための手段により収集された名詞ペアの各々について、当該名詞ペアと共起する述語テンプレートの述語テンプレートペアの極性と、当該名詞ペアおよび述語テンプレートにより構成されるフレーズ対を結び付けている接続詞の種類とに基づいて、当該名詞ペアの各々を構成する名詞の間の関係の極性を決定するための手段と、決定するための手段により名詞ペアの各々について決定された名詞間の極性を、名詞ペアの種類毎に集計し、多数決により、名詞ペアの種類ごとにその間の極性を決定するための手段とを含んでもよい。
 好ましくは、述語テンプレート収集装置はさらに、活性値算出手段による述語テンプレートの出力が完了したことに応答して、述語テンプレートの活性値を算出する処理の終了条件が成立しているか否かを判定するための判定手段と、判定手段により終了条件が成立していないと判定されたことに応答して、活性値算出手段により算出された述語テンプレートの内、活性値の絶対値がしきい値以上の述語テンプレートからなる新たなシードテンプレートを選択し、当該新たに選択されたシードテンプレートにより、シードテンプレート記憶部の記憶内容を更新するための更新手段と、更新手段による更新が行なわれたことに応答して、述語テンプレートペア収集手段、名詞ペア収集手段、述語テンプレートペア収集手段、構築手段、及び活性値算出手段による処理を再実行させるための手段とを含む。
 さらに好ましくは、構築手段は、述語テンプレートペア収集手段により収集された述語テンプレートペアをなす述語テンプレートに対応するノードがテンプレートネットワーク内に存在しないときには、当該述語テンプレートに対応するノードを追加するための手段と、述語テンプレートペア収集手段により収集された述語テンプレートペアをなす述語テンプレートの間にリンクを生成するためのリンク手段とを含む。リンク手段は、各リンクにより接続される述語テンプレートの活性が同じか否かにしたがって、各リンクに活性の一致又は不一致を示す属性を付与する。構築手段はさらに、リンク手段により生成される各リンクに、他のノードとのリンクの数の関数である重みを付与するための重み付与手段を含む。重み付与手段が付与する重みは、当該リンクの属性が一致を示す値のときと、不一致を示す値のときとで符号が異なる。
 活性値算出手段は、テンプレートネットワーク内の各リンクの重みと、各ノードに割当てられる活性値との関数であって、以下の式
Figure JPOXMLDOC01-appb-M000002
により定義される関数の値を最適化することにより、テンプレートネットワーク内の各ノードに割当てられる活性値を推定するための手段を含んでもよい。ただし、シードテンプレートのうち、極性が活性のものにはプラスの極性と活性値が、不活性のものにはマイナスの極性と活性値が、それぞれ付与される。
 本発明の第2の局面に係る、コンピュータが実行可能なコンピュータプログラムは、当該コンピュータを、上記したいずれかの述語テンプレート収集装置として機能させる。
 本発明の第3の局面に係る、特定フレーズペア収集装置は、上記したいずれかの述語テンプレート収集装置と、述語テンプレート収集装置により収集された述語テンプレートを記憶するための述語テンプレート記憶手段と、述語テンプレート記憶手段に記憶された述語テンプレートのうち、特定の活性/不活性の述語テンプレートの組合せと、特定の種類の接続詞とからなる述語テンプレートペアを含むフレーズペアを所定のコーパスから収集するためのフレーズペア収集手段と、フレーズペア収集手段により収集されたフレーズペア内で述語テンプレートと共起している名詞ペアと、当該フレーズペア内の述語テンプレートの極性とが特定の組合せになっているものを抽出することで、所定の関係を表現するフレーズペアを選択するためのフレーズ選択手段とを含む。
 好ましくは、特定フレーズペア収集装置は、さらに、フレーズ選択手段により選択されたフレーズペアの各々について、各フレーズペアを構成する述語テンプレートの活性値と、当該フレーズペアに含まれる名詞ペアの、コーパス内での共起関係との関数として、所定の関係の強さを表すスコアを算出するためのスコア算出手段と、スコア算出手段により算出されたスコアの順番でフレーズ選択手段により選択されたフレーズペアを整列させるための手段とを含む。
 所定の関係としては、一方のフレーズが他方のフレーズの原因となる因果関係、一方のフレーズと他方のフレーズとが互いに矛盾する内容を指す矛盾関係、又は、因果関係であって前記コーパスの中には存在していない、仮説としての因果関係仮説、がある。
本発明の第1の実施の形態に係る矛盾表現収集システムのブロック図である。 図1に示すテンプレートDB構築装置のより詳細なブロック図である。 テンプレートネットワークの構成を模式的に示す図である。 テンプレートネットワーク構築部を実現するプログラムの制御構造を示すフローチャートである。 テンプレートネットワークの構築において、リンクを追加する処理を実現するプログラムの制御構造を示すフローチャートである。 各テンプレートの活性値の算出処理を実現するプログラムの制御構造を示すフローチャートである。 矛盾表現獲得処理を実現するプログラムの制御構造を示すフローチャートである。 図7に制御構造を示すプログラムのうち、フレーズ群の生成処理を実現するプログラム部分の制御構造を示すフローチャートである。 図7に制御構造を示すプログラムの内、矛盾フレーズペアを選択する処理を実現するプログラム部分の制御構造を示すフローチャートである。 図7に制御構造を示すプログラムのうち、矛盾フレーズペアのランキングを行なうプログラムの制御構造を示すフローチャートである。 本発明の第2の実施の形態において、因果関係を獲得する機能を実現するためのプログラムの制御構造を示すフローチャートである。 因果関係データベースの内容により推論システムの結論が異なる例を説明するための模式図である。 本発明の第3の実施の形態において、種々の名詞ペアから因果関係仮説を生成する機能を実現するプログラムの制御構造を示すフローチャートである。 本発明の第3の実施の形態において、因果関係ペアと矛盾ペアとに基づいて新たな因果関係仮説を生成する機能を実現するプログラムの制御構造を示すフローチャートである。 本発明の実施の形態に係る質問応答システムを実現するためのコンピュータの外観を示す模式図である。 図15に示すコンピュータのハードウェア構成を説明するブロック図である。
 以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の記載では、名詞と動詞(又は形容詞、形容動詞等の述語)とが助詞を介して結び付いたものを「フレーズ」と呼ぶ。さらに、フレーズ内の助詞と述語との組合せ(例:<を、食べる>)を「述語テンプレート」と呼ぶ。
 以下の説明では、最初に本実施の形態で使用される基本概念を示す。さらに、それらを用いてどのようにして矛盾表現又は因果関係表現を認識できるかを述べる。最後に、具体的な実施の形態について説明する。
 [基本概念]
 《テンプレート》
 既に述べたとおり、1つの名詞と、1つの動詞、形容詞又は形容動詞とを助詞を介して結び付けたものを「述語テンプレート」と呼ぶ。本実施の形態では、述語テンプレートは、活性、不活性、中立のいずれかに分類される。
 《分類ラベル》
 以下では、述語テンプレートの分類ラベルについて説明する。次に、その分類が持つ言語学的性質を説明する。さらに、分類の自動獲得手法について述べる。最後に、分類された述語テンプレートのアプリケーションについて述べる。
 (1) 述語テンプレートの分類/極性
 本実施の形態では、全体のシステムの入力となるテキストに現れる述語テンプレートを以下のテーブル1に示す3種に分類する。
Figure JPOXMLDOC01-appb-T000003
 本実施の形態では、以上の分類はテキストから自動的に計算される。その際、活性テンプレートには正の活性値を、不活性テンプレートには負の活性値を、それぞれ割当てる。活性値の具体的な計算法については後述する。中立動詞とは、計算の結果得られた活性値の絶対値があるしきい値以下のもののことをいう。本明細書では、上述の「活性」、「不活性」及び「中立」に関する分類と、各テンプレートに付された活性値との両者を総称して述語テンプレートの「極性」と呼ぶ。以下のテーブル2に例を挙げる。
Figure JPOXMLDOC01-appb-T000004
 
 否定の助動詞「ない」等が述語に続く場合には、述語と否定の助動詞を併せたものを1つの述語と考え、その活性値として、元の述語の活性値の正負を逆転させたものを用いる。以下のテーブル3に例を挙げる。
Figure JPOXMLDOC01-appb-T000005
 
 (2)述語テンプレートへの極性の割当
 述語テンプレートへの極性の割当は自動的に計算される。まず、極性割当の手がかりとして以下のような言語学的性質、制約を考える。まず、名詞の対を考え、対を成す名詞の間の因果関係という概念を導入する。
 因果関係を持つ名詞の対には以下のテーブル4に示す2種類の関係がある
Figure JPOXMLDOC01-appb-T000006
 これら名詞の対と、述語テンプレートの活性値の積の極性(符号)との間には以下のような関係がある。すなわち、(1)順接の接続詞(~ので、~ため、~て、等)で結ばれた2つの述語テンプレートの活性値の積の極性は、正の因果関係を持つ名詞句が2つの述語テンプレートと係り受けを持つ場合には、正になる。(2)逆に、順接の接続詞で結ばれた2つの述語テンプレートと、負の因果関係を持つ名詞句が係り受けを持っている場合には述語テンプレートの活性値の積の極性は負になる。(3)逆説の接続詞(~が、~にもかかわらず等)で2つの動詞が結ばれている場合には2つの述語テンプレートの活性値の積の極性は(1)(2)と逆になる。
 これらの関係について例を挙げると以下のテーブル5のとおり。なお、名詞の対<地震、津波>は正の因果関係、<抗がん剤、ガン>は負の因果関係を、それぞれ持つ。
Figure JPOXMLDOC01-appb-T000007
 
 なお、同義/含意の関係を持つ述語テンプレートの組は同じ極性を持つ。例えば「(ワクチン)を処方する」と「(ワクチン)を注射する」とは両方とも極性は正であり、「(地震)が発生する」と「(地震)が起きる」についても極性は両方とも正である。ただし、活性値が同一であるとは限らない。
 具体的な活性値の計算においては、以上に例示したようなテキスト、つまり、各々名詞と結び付き、かつ互いに順接又は逆説の接続詞で連結された2つの述語テンプレートからなる表現をインターネット上から大量に収集する。それら接続詞で繋がれた述語テンプレート間、及び同義/含意関係を持つ述語テンプレートの対の間でリンクをはることにより、述語テンプレートのネットワークを作る。リンクには上で述べたような、述語テンプレートの極性が同一かどうかの情報を属性として付与する。このネットワーク上の少数の述語テンプレートには、あらかじめ、人手で+1又は-1の活性値を付与する。そのネットワーク上で、後述するように量子力学での電子スピンのエネルギーに類似したエネルギーを定義する事が可能である。そのエネルギーを最適化(ここでは最小化)する計算を行ない、一種の制約解消をすることで、述語テンプレートの極性及び名詞対の因果関係の極性をブートストラップ的かつ大局的に決定及び計算できる。この活性値の算出手法については非特許文献8を参照されたい。
 なお、後述の活性値の割当てアルゴリズムはあくまで一例であり、上記言語学的制約を考慮したエネルギー関数に基づいて具体的な活性値を求める手法は他にも存在する可能性がある。
 (3) こうした分類極性を使う事で以下のようなアプリケーションが可能となる。
 (A)フレーズ間の因果関係の自動認識手法
 活性値の積が正で、活性値の絶対値が大きい述語テンプレートの対が正の因果関係を持つ名詞と共起し、順接の接続詞で結ばれた場合には因果関係を表している可能性が高くなる。活性値の積が負で、活性値の絶対値が大きい述語テンプレートの対が負の因果関係を持つ名詞と共起し、順接の接続詞で結ばれた場合にも因果関係を表している可能性が高い。この性質を利用して、因果関係を表す、2つの述語テンプレート及び正負の因果関係を持つ名詞対を含む表現をテキスト中で自動的に認識し、取得できる。
Figure JPOXMLDOC01-appb-T000008
 
 接続詞「~て」は、因果関係を表すとは限らない。「~て」が因果関係以外を表す表現は無数に存在する。例えば、「風呂に入って、食事をする」の場合、風呂と食事との間には、因果関係は通常認められない。本実施の形態により、このような、因果関係ではないフレーズペアをうまく除外し、因果関係のみを精度高く取得できる。
 このような表現の集合の中から、上記制約を考慮することで、フレーズ間の因果関係を高精度に獲得することが可能となる。因果関係が得られると、例えば、「地震が起きた」という情報から、「津波に襲われる可能性がある」という予測ができる。こうして取得された因果関係は、フレーズ間の意味的関係の自動獲得という非常に重要な技術にとって大きなファクターとなる。
 (B)情報の矛盾の自動認識
 極性が反対の述語テンプレートは、仮に両者が同種の名詞に付随して出現する場合、互いに矛盾している可能性が高い。この性質を利用して、矛盾するフレーズ対を自動的に取得できる。具体的には、共通の名詞と共に出現する確率が高く、極性が反対の述語テンプレートの対に、共通の名詞を埋め込んだフレーズ対を収集する。これらフレーズ対は、互いに矛盾するフレーズ対として自動的に取得できる。以下に、矛盾する表現の例を挙げる。
Figure JPOXMLDOC01-appb-T000009
 これらのフレーズ対から共通の名詞を取り除くと、述語テンプレートの対が残る。それらもやはり互いに矛盾する可能性が高い。そうした述語テンプレートをデータベース化すると、反義に関する有用な辞書として活用できる。上の例でいえば、「…を吸う」と「…を止める」のように互いに反する意味を持つ述語テンプレート対として収集できる。
 (C)フレーズ間の因果関係と矛盾とを組合せた仮説生成
 上記(A)フレーズ間の因果関係の自動認識と(B)情報の矛盾の自動認識の技術を併せ用いる事で、元となるテキストに陽に記載されていない因果関係を自動取得する事が可能となる。その手法の概略は以下のとおりである。
 まず、基となるテキストから、パターンによる名詞間の意味的関係の獲得(これには既存技術を利用できる)によって、例えば材料関係を自動的に獲得できる。すなわち、製品Bと材料Aとの間の関係が「AでBを作る」というようなパターンによって自動獲得できる。この自動獲得の結果、製品「超硬工具」の材料が「タングステン」であるという情報が取得出来たとする。次いで、この材料関係という意味的関係を持つことが分かった名詞の対、すなわち「超硬工具」と「タングステン」とからなる名詞の対とそれぞれ頻繁に共起する述語テンプレートで、互いの活性値の積が正であり、かつその活性値の絶対値が大きいものを選ぶ。選ばれた述語テンプレートを、それぞれ対となる名詞と並べる。すると、例えば、「タングステンを輸入して(活性値正)、超硬工具を製造する(活性値正)」というような、述語(動詞)と名詞とからなる動詞句の間の(広い意味での)因果関係が獲得できる。ここでの因果関係とは、「タングステンを輸入する」のは「超硬工具を製造する」ためである、というものである。
 このようにして獲得された因果関係自体が、テキスト中に陽に書かれていない場合もある。そのような場合には、上記した方法で因果関係に関する仮説が生成されたことになる。なお、この際、「輸入する」「製造する」といった動詞単体がよく一文内で共に出現する等の制約を用いてもよい。
 次いで、上述のように取得されたものも含めた述語及び名詞からなるフレーズの間の因果関係に対して、述語テンプレートの各々を、その述語テンプレートと矛盾する、(B)の、情報の矛盾の自動認識で取得された述語テンプレートで置換える。例えば、「タングステンを輸入して、超硬工具を製造する」、という因果関係を考える。この因果関係を構成する述語テンプレートのうち、「を輸入する」と「が輸入禁止される」とが矛盾し、「を製造する」と「を販売中止する」とが矛盾していると、いずれも上記(B)技術で認識されたものとする。このように元の因果関係に含まれる述語テンプレートとそれぞれ矛盾するとされた述語テンプレートで、元の因果関係に含まれる述語テンプレートを置換える。この手続きによって、「タングステンが輸入禁止されたため、超硬工具を販売中止する」という、新たな因果関係の仮説を生成できる。
 以上のような方法で大量の因果関係及びその仮説を取得し、データベースにしておくことによって、実際に新たな情報が来た際に、その後の可能な状況を推論することが可能となる。例えば、「タングステンが輸入禁止されたため、超硬工具を販売中止される」という因果関係の仮説がデータベース化されていたとする。そこに、「タングステンが輸入禁止」というニュース記事が出現したとする。すると、上記したデータベースを検索することにより、「タングステンが輸入禁止された」ことの帰結として、「超硬工具が販売中止される」可能性があるという推論を行なえる。すなわち、その分野に関する詳しい知識を持たない人間にとっては未知の仮説が自動的に生成できる。
 以上のような仮説生成は、当初の「超硬工具をタングステンで作る」といった単純で頻出するパターンで記載された情報のみから始まるものである。一方で、超硬工具ともタングステンとも関係を持たないテキストから述語テンプレートの活性/不活性に関する情報抽出する。これらを組合せることにより、因果関係の仮説が生成される。すなわち、入力されるテキスト中に、超硬工具及びタングステンに関する言及が「超硬工具をタングステンで作る」という表現のみしかなかったとしても、上に述べたような仮説の生成が可能になる。その結果、非常に乏しい情報量から、「超硬工具が製造禁止になる可能性がある」という非常に高度な仮説を得ることができる。したがってこの技術は、広い適用範囲があるとともに、情報の高度な活用のためのコア技術となる。
 (D)同義、含意関係を持つ表現の自動獲得の精度向上
 従来の同義、含意関係の自動獲得技術では、注目している表現の周辺に出現する語の出現確率の分布の類似により、同義、含意を認識している。しかし既に述べたように、往々にして、ある単語Aに対する反義の単語Bが、単語Aと同義又は含意という関係を持つと誤認識されるケースがあった。これは、反義語の出現するコンテキストが類似することが多いことに起因する。これに対して本実施の形態によれば、例えば、「を引き起こす」の活性値が正、「を防ぐ」の活性値が負であることを自動的に計算できる。これらの情報を用いると、従来技術を用いることで抽出された同義表現の候補の中で、述語テンプレートの極性が異なっているか否かにより同義か否かを見分けることができる。この結果、本実施の形態の技術を用いて、単語の同義及び含意の自動獲得の精度が向上する。
 (E)文をまたがった因果関係の自動獲得
 上記した(A)及び(C)の技術によって多数の因果関係を取得できる。それら多数の因果関係をデータベース化すると、それら因果関係の表現中に頻出する述語テンプレートの対が獲得できる。例えば、「が起きた」と「に襲われた」という述語テンプレートの対が、データベース中の因果関係に多数出現するものとする。そうした述語テンプレートは、テキスト中で文をまたがって(別の文の中で)出現した場合でも、互いの間の文数、単語数又は文字数等、「距離」が近い場合には因果関係を表す可能性が高い。例えば、「昨日、地震が起きた。津波に襲われたとの報告が寄せられている。」といったように、「地震が起きた」という表現と「津波に襲われた」という表現とが2文に分かれて出現した場合を考える。この場合でも、「地震が起きた」と「津波に襲われた」との2つのフレーズで記述される出来事の間には因果関係がある。また、そこに出現している名詞の対、すなわち「地震」と「津波」の間にも因果関係がある。こうした性質を利用し、複数文にまたがって記載されている因果関係を、フレーズ間及び単語間の双方について、自動的に取得できる。
 以下、上記した考え方に基づく本実施の形態のシステムの構成及び動作について説明する。以下に説明する実施の形態の内、第1の実施の形態は、上記したフレーズ対の抽出技術を用いて、フレーズ間の論理的関係の1つである矛盾表現を自動的に収集するシステムに関する。第2の実施の形態は、上記したフレーズ対の抽出技術を、フレーズ間の論理的関係の他の例である因果関係の獲得に適用するシステムに関する。第3及び第4の実施の形態は、因果関係の仮説を生成するシステムに関する。
 <第1の実施の形態>
 [構成]
 図1を参照して、この発明の第1の実施の形態に係る矛盾表現収集システム30は、前述した述語テンプレートのうち、テンプレートネットワーク構築の際の核となるテンプレート(これを「シードテンプレート」と呼ぶ)を記憶するためのシードテンプレート記憶装置32と、述語テンプレートの間を連結する、順接及び逆説の接続詞を記憶する接続詞記憶部34と、シードテンプレート記憶装置32、接続詞記憶部34、及びインターネット40上のコーパスから、接続詞記憶部34に記憶された接続詞により結び付けられた2つのフレーズからなるフレーズ対を大量に収集し、それらの中から互いに矛盾した表現(相反する表現)を獲得するための矛盾表現収集装置36と、矛盾表現収集装置36により収集された矛盾表現を記憶するための矛盾表現記憶装置38とを含む。
 矛盾表現収集装置36は、シードテンプレート記憶装置32、接続詞記憶部34及びインターネット40に接続され、インターネット40上の仮想コーパスから大量のフレーズ対を収集し、それらの中から大量の述語テンプレートを取り出してテンプレートデータベース(DB)62を構築するためのテンプレートDB構築装置60と、テンプレートDB構築装置60により構築されたテンプレートDB62を用い、インターネット40上の仮想コーパスから矛盾表現を獲得するための矛盾表現獲得部64とを含む。なお、シードテンプレート記憶装置32に記憶されたテンプレートには、それらテンプレートの活性・不活性にしたがって予め正又は負の活性値が与えられている。以下に述べる処理の最初には、これらの値はそれぞれ+1及び-1である。
 図2を参照して、テンプレートDB構築装置60は、シードテンプレート記憶装置32と接続詞記憶部34とに接続され、シードテンプレート記憶装置32に記憶された全てのテンプレートと、接続詞記憶部34に記憶された全ての接続詞とを用い、2つのテンプレートが接続詞で結び付けられた組合せの全てを生成するテンプレートペア生成部90と、テンプレートペア生成部90により生成されたテンプレートペアを記憶するためのテンプレートペア記憶部92とを含む。テンプレートペア生成部90により生成されるテンプレートペアの形の例は以下のようなものである。
Figure JPOXMLDOC01-appb-T000010
 テンプレートDB構築装置60はさらに、テンプレートペア記憶部92に記憶されたテンプレートペアの各々について、そのテンプレートペアと共起する名詞ペアをインターネット40上から収集するための名詞ペア収集部94と、名詞ペア収集部94により収集された名詞ペアを記憶するための名詞ペア記憶部96と、名詞ペア記憶部96に接続され、名詞ペア記憶部96に記憶された名詞ペアの各々に含まれる名詞の間の関係を、それら名詞と共起している述語テンプレートの極性、及び接続詞記憶部34に記憶されている接続詞の種別に基づいて判定し、各名詞ペアにその関係を示すタグを付す処理を行なうための名詞ペア極性判定部98とを含む。
 ここでは、名詞ペア極性判定部98は、以下のテーブル9に示す方法にしたがって名詞ペアを構成する名詞の間の関係を判定する。
Figure JPOXMLDOC01-appb-T000011
 すなわち、2つの述語テンプレートと共起している名詞ペアの関係は、次のようにして判定できる。
 (1)2つの述語テンプレートの極性が同じで、これらが順接の接続詞で接続されていると、これらと共起している名詞ペアの関係は正
 (2)2つの述語テンプレートの極性が同じで、これらが逆接の接続詞で接続されていると、これらと共起している名詞ペアの関係は負
 (3)2つの述語テンプレートの極性が反対で、これらが順接の接続詞で接続されていると、これらと共起している名詞ペアの間の負
 (4)2つの述語テンプレートの極性が反対で、これらが逆接の接続詞で接続されていると、これらと共起している名詞ペアの間の正
 テンプレートDB構築装置60はさらに、名詞ペア記憶部96に接続され、名詞ペア極性判定部98により関係タグが付された名詞ペアの各々について、それらと共起するテンプレートペアをインターネット40から収集するためのテンプレートペア収集部100と、テンプレートペア収集部100が収集したテンプレートペアを、それらと共起した名詞ペアと関係付けて記憶するためのテンプレートペア記憶部102と、テンプレートペア記憶部102に記憶されたテンプレートペアの各々について、そのテンプレートペアを構成するテンプレートの活性/不活性が同じか否か(マッチするか否か)を、そのテンプレートペアと共起する名詞ペアの関係(正/負)と、テンプレートを連結している接続詞が順接か逆接かに基づいて判定し、各テンプレートペアにその結果をタグとして付与するためのテンプレート活性マッチ判定部104とを含む。
 テンプレートペアの活性/不活性が同じか否かは以下に例を示す方法により判定できる。なお、テーブル9に示すように、名詞ペア<地震、津波>の関係は正、名詞ペア<唾液分泌、口渇>の関係は負、名詞ペア<アセトアルデヒド、肝障害>の関係は正である。
Figure JPOXMLDOC01-appb-T000012
 すなわち、以下のような条件でテンプレートペアの活性/不活性が同じか反対かを判定できる。
 (1)関係が正である名詞ペアと共起し、順接の接続詞により接続されるテンプレートペアの活性は同じ
 (2)関係が正である名詞ペアと共起し、逆接の接続詞により接続されるテンプレートペアの活性は反対
 (3)関係が負である名詞ペアと共起し、順接の接続詞により接続されるテンプレートペアの活性は反対
 (4)関係が負である名詞ペアと共起し、逆接の接続子により接続されるテンプレートペアの活性は同じ
 テンプレートDB構築装置60はさらに、テンプレートペア記憶部102に記憶されたテンプレートペアとそのマッチ判定結果とに基づいて、テンプレート間にネットワークを構築するためのテンプレートネットワーク構築部106と、テンプレートネットワーク構築部106が、ネットワークの構築時にテンプレート間のリンクを追加するために使用する同義・含意関係辞書108とを含む。このネットワークを本明細書では「テンプレートネットワーク」と呼ぶ。
 図3を参照して、例えばテンプレートネットワーク140は、各々が1つのテンプレートに対応する複数個のノードと、それらノード間に定義されるリンクとを含む。リンクは、テーブル9により示されるマッチ判定が行なわれたテンプレートに対応するノード間に張られる。各リンクには、その両端のノードのテンプレート間に対するマッチ判定の結果(テーブル9)に応じ、同一極性又は反対極性という属性が割当てられる。図3において、同一極性が割当てられたリンクは実線で示し、反対極性が割当てられたリンクは点線で示してある。後述するように、このリンクを用いて各テンプレートの活性値が算出される。活性値の算出のため、テンプレートネットワーク140のノードのうち、シードテンプレート記憶装置32に記憶されたシードテンプレート(例えば図3の「を引き起こす」、「を発生させる」、「を抑制する」等のノード)については、予め+1又は-1の値が手作業により与えられている。これらの値と、ノード間のリンク及びそのリンクの属性とを用いて、各ノード(テンプレート)の活性値が計算される。計算方法の具体的内容については後述する。
 再び図2を参照して、テンプレートDB構築装置60はさらに、テンプレートネットワーク構築部106に接続され、テンプレートネットワーク構築部106により構築されたテンプレートネットワーク140を記憶するためのテンプレートネットワーク記憶部110と、テンプレートネットワーク記憶部110に記憶されたテンプレートネットワーク140の各ノードについて、シードテンプレートに予め付されていた+1又は-1の活性値をもとにして、各ノード(テンプレート)の活性値を算出し、各ノード(テンプレート)にそれら活性値を付すためのテンプレート活性値算出部112と、テンプレートネットワーク記憶部110に記憶されたテンプレートネットワーク140の各ノード(テンプレート)のうち、テンプレート活性値算出部112により算出された活性値の絶対値が大きなもののみを抽出し、抽出したテンプレートによりテンプレートDB62を構築するための高活性度テンプレート抽出部114と、テンプレートDB構築のために予め決められた終了条件が成立したか否かを判定するための終了判定部116と、終了判定部116により終了条件が成立していないと判定されたことに応答して、テンプレートDB62に記憶されたテンプレートを新たなシードテンプレートとしてシードテンプレート記憶装置32を更新し、再度、テンプレートDB構築装置60によるテンプレートDB構築の処理を実行させるためのシードテンプレート更新部118とを含む。終了判定部116により終了条件が成立したと判定されたときには、テンプレートDB構築装置60の動作は終了し、矛盾表現獲得部64が起動する。
 後述するように、矛盾表現収集装置36の各部は、コンピュータハードウェアと、当該コンピュータハードウェアにより実行されるコンピュータプログラムとにより実現される。
 テンプレートペア生成部90は、単純にシードテンプレート記憶装置32に記憶されたシードテンプレートの全ての組合せと、接続詞記憶部34に記憶された全ての接続詞とを組合せることにより、テンプレートペアを生成するためのものである。テンプレートペアの典型例は、「(名詞1)を引き起こす」「ので」「(名詞2)を発生させる」のようなものである。
 名詞ペア収集部94は、以下のような処理を行なう。上記したテンプレートペア+接続詞の組合せと一文中で共起する名詞ペアを考えることができる。そのような名詞ペアは、以下に例示するように互いに正の関係にあるものと互いに負の関係にあるものとに分けられる。名詞ペアの正/負は、その名詞ペアと共起するテンプレートペアの活性/不活性と接続詞との組合せによって決まる。
Figure JPOXMLDOC01-appb-T000013
 テンプレートペア収集部100は以下のような処理を行なう。上記名詞ペア極性判定部98により正の関係としてのみインターネット40上に出現していると判定された名詞ペアを考える。テンプレートペア収集部100は、それらのうち、出現頻度が所定回数以上の名詞ペアだけを正の関係名詞ペアとして残す。同様に、負の関係としてのみインターネット40上に出現している名詞ペアについても、出現回数が所定回数以上の名詞ペアだけを負の関係名詞ペアとして残す。ここでのしきい値としての所定回数は、正の関係名詞ペアを選択するときと負の関係名詞ペアを選択するときとで異なっていても一致していてもよい。
 テンプレート活性マッチ判定部104は、残された正/負の関係の名詞ペア+接続詞と一文中で共起するテンプレートペアを、以下のテーブル12に基づく判定方法にしたがい、テンプレートの活性/不活性が同じもの(一致)と反対のもの(反対)とに分類する。このとき、あるテンプレートペアについて、インターネット40上でテンプレートの活性が一致して出現したり、反対の活性で出現していたりするものがある。これらについては、一致しているものと反対のものとの出現回数を比較し、多数決で決定する。
Figure JPOXMLDOC01-appb-T000014
 図4を参照して、図2に示すテンプレートネットワーク構築部106を実現するためのプログラムは、テンプレートペア記憶部102にテンプレートペアが記憶され、テンプレート活性マッチ判定部104により各テンプレートペアについての活性マッチ判定が終了すると起動される。このプログラムは、メモリ上に所定の記憶領域を確保したり、それら記憶領域のうち、所定の変数のための領域に初期値を代入したり、初期の空のテンプレートネットワーク140を構築したりする初期化を行なうステップ150と、テンプレートペア記憶部102に記憶された全てのテンプレートペアに対し、処理154を実行するステップ152とを含む。処理154は、当該テンプレートペアを構成するテンプレートとその間のリンクとをテンプレートネットワーク140に追加する処理を行なうためのものである。なお、ステップ150では、テンプレートネットワーク140として空のネットワークが予め構築されているものとする。
 処理154は、処理対象のテンプレートペアに含まれるテンプレートの各々について、対応するノードがテンプレートネットワーク140にあるか否か、すなわちそのノードをテンプレートネットワーク140に追加すべきか否かを判定するステップ180と、ステップ180の判定が肯定的のときに実行され、テンプレートネットワーク140に追加すべきと判定されたノード(1個又は2個)をテンプレートネットワーク140に追加する処理を行なうステップ182と、ステップ180及び182の後に実行され、処理対象のテンプレートペアに対応するノード間に既にリンクがあるか否かを判定するステップ184と、ステップ184の判定が否定的であるときに、当該リンクをテンプレートネットワーク140に追加する処理を行なって処理154を終了するステップ186とを含む。ステップ184の判定が肯定的であるときには、このテンプレートペアに対する処理154の実行は終了する。
 テンプレートネットワーク構築部106を実現するプログラムはさらに、ステップ152による処理の完了後、構築されたテンプレートネットワーク140に、同義・含意関係辞書108を参照することによってリンクを追加するステップ164と、ステップ164の結果得られたテンプレートネットワーク140において、他のノードとの間のリンク数が所定のしきい値以下のノードを削除するステップ166と、各ノードがリンクしているノードの数に基づいて各リンクの重みを算出し(計算方法については後述する)、各リンクに付与して処理を終了するステップ168とを含む。
 図5を参照して、図4のリンクの追加処理のステップ164で実行されるプログラム部分(ルーチン)は、テンプレートネットワーク140内のノードのうち、互いにリンクを持たないノードの対の全てに対して以下の処理202を実行するステップ200を含む。
 処理202は、処理対象のノード対の間に、特定の関係があるか否かを判定するステップ210と、ステップ210の判定が肯定的であるときに、処理対象のノード対の間に「同一」という属性を持つリンクを追加して処理202を終了するステップ212とを含む。ステップ210の判定が否定的である場合にも処理202を終了する。ここでいう特定の関係の有無の判定においては、以下に示すように、動詞の文法的情報、及び図2に示す同義・含意関係辞書108に格納された単語の同義・含意関係が使用される。
Figure JPOXMLDOC01-appb-T000015
 ステップ168では、各リンクの重みが算出される。テンプレートiとテンプレートjとの間のリンクに付与される重みをwijとする。重みwijは以下の式(1)により算出される。
Figure JPOXMLDOC01-appb-M000016
ただし、d(i)はテンプレートiとリンクされているテンプレートの数を示す。SAME(i,j)は、テンプレートiとテンプレートjとの間のリンクに「一致」属性が付されていることを示す。OPPOSITE(i,j)は、テンプレートiとテンプレートjとの間のリンクに「反対」属性が付されていることを示す。すなわち、テンプレートiとテンプレートjとに一致属性が付与されていれば、重みは正の値となり、反対属性が付与されていれば、重みの符号は逆転し、負となる。
 図2に示すテンプレート活性値算出部112は、テンプレートネットワーク記憶部110に記憶されたテンプレートネットワーク140の各ノードについて、以下に述べるような方法で各ノードの活性値を算出する。図6を参照して、テンプレート活性値算出部112を実現するコンピュータプログラムは、テンプレートネットワーク記憶部110にテンプレートネットワーク140が記憶され、各リンクにそれぞれ重みが付されたことに応答して実行を開始する。このプログラムは、テンプレートネットワーク140内のノードのうち、シードテンプレートに対応するノードに、それらシードテンプレートに対して予め付与されていた活性値(活性シードテンプレートには+1、不活性シードテンプレートには-1)を設定し、他のノードには所定の初期値を設定するステップ240と、ステップ240の後、以下の式により定義される値E(x,W)の値を最適化(ここでは極小化)することにより各ノードの活性値を推定するステップ242とを含む。
Figure JPOXMLDOC01-appb-M000017
ただしx及びxはそれぞれテンプレートi、jの符号付の活性値、xはそれら活性値からなるベクトル、Wはリンクの重みwijからなる行列を、それぞれ表す。この値Eは、ちょうど量子力学における電子のスピンのエネルギーの計算式に類似しており、量子力学におけるエネルギーの最小化の計算と同様に行なうことができる。この式のシグマの中の各項のうち、xの値は、エネルギー最小化計算の後、x及びxの極性が同じときには正の値、異なるときには負の値となる傾向がある。重みwijの符号は、既に述べたように、x及びxの極性が同じときには正の値、異なるときには負の値となる。したがってシグマの中の各項の値は必ず正の値となる傾向があり、これを最大化することで一種の制約解消が行なわれる。なお、式(2)において、シグマの前に係数「-1/2」があることから、シグマの中を最大化することによりE(x,W)の値が極小化される。
 一方、図1の矛盾表現獲得部64もコンピュータプログラムにより実現される。図7を参照して、矛盾表現獲得部64を実現するためのコンピュータプログラムは、フレーズ群を生成するステップ280と、ステップ280で生成されたフレーズ群の中から、互いに矛盾する(相反する意味を持つ)表現と考えられる2つのフレーズからなる矛盾フレーズペアを選択するステップ282と、ステップ282で選択された矛盾フレーズペアについて、所定のスコアを用いてランキングして出力するステップ284とを含む。
 ここでいう矛盾ペアとは、以下の条件を充足するフレーズペアのことをいう。
 (1)両フレーズとも、1つの名詞と1つの活性又は不活性テンプレートからなる。例えば「(風邪)に罹る」と「(風邪)を予防する」のようなものである。
 (2)両フレーズに含まれる2つの名詞は、互いに同義(又は同一)である。例えば<風邪、感冒>又は<風邪、風邪>のような組合せである。
 (3)両フレーズに含まれる2つのテンプレートは、一方が活性で他方が不活性である。例えば「に罹る」(活性)と「を予防する」(不活性)というペアである。
 (4)2つのテンプレートは、インターネット上で共起する(係り受け関係を結ぶ)名詞を多く共有する。すなわち、これら2つのテンプレートは、分布類似度が高い。例えば、「に罹る」と共起する名詞として風邪、感冒、肺炎、…等が考えられるのに対し、「を予防する」と共起する名詞としては、風邪、感冒、肺炎、火事、災害等が考えられ、両者の間の分布類似度は高い。
 (5)各フレーズは、インターネット上で所定のしきい値以上の出現頻度を持つ。すなわち、各フレーズの名詞とテンプレートとは、このしきい値以上の頻度でもって係り受け関係を結ぶ。例えば、「(風邪)に罹る」の出現頻度≧しきい値、及び「(風邪)を予防する」の出現頻度≧しきい値がともに成立する必要がある。
 以上の処理を実行して矛盾ペアを抽出するための処理は、図7のステップ280で実行される。図8を参照して、このプログラム部分280は、インターネット40から名詞を取得するステップ320と、取得された名詞の全てに対し、以下の処理324を実行するステップ322とを含む。処理324は、処理対象となっている名詞について、以下の処理362をテンプレートDB62に記憶されている全てのテンプレートに対して実行するステップ360を含む。
 処理362は、処理対象の名詞に、処理対象のテンプレートを結び付けることで、あるフレーズを生成するステップ400と、そのフレーズのインターネット40上での出現頻度が上記したしきい値以上か否かを判定するステップ402と、ステップ402の判定が肯定的であるときに、そのフレーズをフレーズ群に追加して処理362を終了するステップ404とを含む。ステップ402の判定が否定的な場合には、そのフレーズはフレーズ群には追加しない。
 図8に示すプログラムを実行することにより、活性フレーズ及び不活性フレーズが多数生成される。例えば活性テンプレートとして「を引き起こす」及び「に罹る」があり、不活性テンプレートして「を防ぐ」及び「を予防する」があるものとする。インターネット40から得た名詞の例として「地震」、「津波」、「風邪」、「感冒」等があったとすると、出現頻度の高い活性フレーズ及び不活性フレーズとして以下のようなものが生成されるであろう。これらがフレーズ群に追加され、図7のステップ282への入力となる。
Figure JPOXMLDOC01-appb-T000018
 図7のステップ282を実現するプログラム部分は、図9に示すような制御構造を持つ。図9を参照して、このプログラム部分は、予め矛盾フレーズペアを格納する領域として記憶装置内に確保していた領域をクリアするステップ440と、ステップ280で得られたフレーズ群のうち、全ての活性フレーズについて以下の処理444を行なうステップ442とを含む。
 処理444は、全ての不活性フレーズに対し、以下の処理472を実行するステップ470を含む。
 処理472は、処理対象の活性フレーズ及び不活性フレーズについて、両者に含まれる名詞が同一か否かを判定するステップ490と、ステップ490の判定が否定的であるときに、活性フレーズに含まれる名詞と同義である単語を例えば図2に示す同義・含意関係辞書108と同種の辞書から検索するステップ498と、ステップ498で検索された単語のいずれかが不活性フレーズの名詞と一致しているか否かを判定するステップ500とを含む。ステップ500の判定が否定的であるときには、処理472の実行は終了する。
 ステップ490の判定が肯定的であるとき、及びステップ500の判定が肯定的であるときには、制御はステップ492に進む。ステップ492は、処理対象となっている活性フレーズと不活性フレーズとの分布類似度がしきい値より大きいか否かを判定する。ステップ492の判定が肯定的であれば制御はステップ494に進む。ステップ494では、各フレーズのインターネット40上での出現頻度が所定のしきい値以上か否かを判定する。判定が肯定的であれば処理対象の活性フレーズと不活性フレーズとのペアを矛盾フレーズペア群に追加し(ステップ496)、さもなければこのペアは捨てる。
 図7のステップ284で実行されるランキングを実現するプログラム部分は、本実施の形態では図10に示すような制御構造を持つ。図10を参照して、このプログラムは、図7のステップ282により選択された全ての矛盾フレーズペアに対して、その矛盾フレーズペアの矛盾度合いを示すスコアを算出するステップ532を行なうステップ530と、ステップ530の処理が全ての矛盾フレーズペアに対して完了した後、全ての矛盾フレーズペアをスコアの降順でソートして出力し、処理を終了するステップ534とを含む。
 ステップ532で計算されるスコアは、本実施の形態では以下の式で算出されるスコアC(p,p)である。
Figure JPOXMLDOC01-appb-M000019
ただし、p及びpはそれぞれ、矛盾ペアを構成するフレーズを表し、t及びtはそれぞれ、p及びpに含まれるテンプレート、s及びsはそれぞれ、テンプレートt及びtの活性値、記号|s|は活性値sの絶対値、sim(t,t)は、テンプレートtとtとの分布類似度を、それぞれ示す。
 [動作]
 この第1の実施の形態に係る矛盾表現収集システム30は、以下のように動作する。図1を参照して、シードテンプレート記憶装置32には予め少数のシードテンプレートが格納される。各シードテンプレートが活性か否かについても予め判断されており、各テンプレートにそのタグが付されている。一方、接続詞記憶部34には、日本語の順接接続詞及び逆接接続詞が格納されている。これらについても、予め順接か逆接かを示す情報を付与しておく。
 テンプレートDB構築装置60は以下のように動作してテンプレートDB62を構築する。図2を参照して、テンプレートペア生成部90は、シードテンプレート記憶装置32に記憶された全てのシードテンプレートの全ての組合せと、接続詞記憶部34に記憶された接続詞との可能な組合せを全て生成し、これらを全てテンプレートペアとしてテンプレートペア記憶部92に記憶させる。名詞ペア収集部94は、テンプレートペア記憶部92に記憶されたテンプレートペアの各々について、そのテンプレートペアと共起する名詞ペアをインターネット40から収集し、名詞ペア記憶部96に記憶させる。名詞ペア極性判定部98は、これら名詞ペアの各々について、その名詞ペアと共起するテンプレートペア内のテンプレートの活性/不活性と、テンプレートペアを結び付ける接続詞の種類とに応じて、その名詞ペアが正の関係か負の関係かを判定し、各名詞ペアにタグを付与する。
 続いて、テンプレートペア収集部100が、各名詞ペアについて、インターネット40からその名詞ペアと共起するテンプレートペアを収集し、テンプレートペア記憶部102に格納する。これらテンプレートペアの各々について、テンプレート活性マッチ判定部104が、共起する名詞ペアの正/負と、接続詞の種類(順接、逆接)とに応じ、テンプレートペアを構成するテンプレートの活性/不活性が互いに同じか、反対かを決定する。このとき、あるテンプレートペアについて、それらの活性が同じとなるものと反対となるものとが存在する場合には、同じものと反対のものとを出現回数を比較し、多数決により一致するか反対かを決定する。テンプレート活性マッチ判定部104は、テンプレートペア記憶部102に記憶されたテンプレートペアの各々について、それらの活性/不活性が同じか反対かを示すタグを付与する。
 テンプレートネットワーク構築部106は、テンプレートペア記憶部102に記憶されたテンプレートペアに基づいて、テンプレートネットワーク140を構築する。テンプレートネットワーク構築部106は、テンプレートペアを構成する2つのテンプレートに対応するノードがもしネットワークになければネットワークに追加し、そのリンクももしなければ追加する。この処理を全てのテンプレートペアについて実行することで、テンプレートネットワーク140の原型を構築する。テンプレートネットワーク構築部106はさらに、ネットワーク内で互いにリンクのないノードの対全てについて、同義・含意関係辞書108を参照して、それらノードに対応するテンプレートの間にテーブル13に示すような特定の関係があるか否かを判定し、あれば互いの間に「同一」というリンクを張る。さらにテンプレートネットワーク構築部106は、このようにして構築されたネットワークの各リンクに対し、式(1)によって算出される重みを付与する。このようにしてリンクが追加されたテンプレートネットワーク140はテンプレートネットワーク記憶部110に記憶される。
 テンプレート活性値算出部112は、図6に示す処理を実行する。すなわち、最初にシードテンプレートに、その活性/不活性に応じて+1又は-1の活性値を付与する(ステップ240)。さらに、電子スピンのエネルギーに類似した量として定義された値E(x,W)を最小化する処理を実行することにより(ステップ242)、各テンプレートの活性値を推定し、各テンプレートにその活性値を付与する。これら活性値の値には、負のものもあるし正のものもある。高活性度テンプレート抽出部114は、このようにして活性値が推定されたテンプレートの内、活性値の絶対値が所定のしきい値よりも大きなものを選択し、それらテンプレートを用いてテンプレートDB62を構築する。なお、ここでは、しきい値により選択するのではなく、活性値の値の大きさにしたがって順位をつけるようにしてもよい。
 図2に示す終了判定部116は、テンプレートDB62が構築された時点で、所定の終了条件が充足されたか否かを判定する。終了条件としては、例えば繰返し数が所定数を超えた、又は、テンプレート数が所定数を超えた、というような条件を想定できる。もしも終了条件が成立していれば、テンプレートDB62が完成したものとされる。もしも終了条件が成立していなければ、シードテンプレート更新部118は、テンプレートDB62に含まれるテンプレートをシードテンプレートして、シードテンプレート記憶装置32を更新する。これらシードテンプレートには、以上の処理により計算された活性値が付与されているので、以後の処理ではこれらの活性値を使用してこれまで記載したのと同様の処理を実行する。
 以上の処理を繰返し、終了条件が充足されたところでテンプレートDB62が完成したことになる。以後、矛盾表現獲得部64がこのテンプレートDB62を使用して、インターネット40から矛盾表現を獲得する処理を実行する。
 具体的には矛盾表現獲得部64は、図7に示すように、フレーズ群の生成を行なう。すなわち、図8に示すように、インターネット40から名詞を取得し(ステップ320)、各名詞とテンプレートDB62内の各テンプレートとの組合せの全てに対し(ステップ322,処理324,ステップ360)、その名詞とそのテンプレートとからなるフレーズを生成する(ステップ400)。そのフレーズのインターネット40上における出現頻度が予め定められた値以上であれば、そのフレーズを以下の処理で使用するフレーズ群に追加し、さもなければそのフレーズを捨てる。以上の処理を全ての名詞と全てのテンプレートとの組合せに対して実行することで、インターネット40上である頻度で出現するフレーズを得ることができる。
 次に矛盾表現獲得部64は、このようにして生成されたフレーズ群の中から以下のようにして矛盾フレーズペアを選択する。すなわち、最初に矛盾フレーズペアの格納領域をクリアし(図9のステップ440),フレーズ群に含まれる全ての活性フレーズと全ての不活性フレーズとの全ての組合せに対し(ステップ442,処理444,ステップ470),両者に含まれる名詞が同一又は同義か(ステップ490、498,500)を調べる。両者の名詞が同一又は同義の場合、さらにそのフレーズ対に含まれるテンプレートの対の分布類似度がしきい値より大きいか否かを調べる。判定が否定的であればそのフレーズペアは捨てる。判定が肯定的なら、次にステップ494でそのフレーズ対のインターネット40上での出現頻度が、いずれもしきい値以上か否かを調べる。判定が否定的ならそのフレーズペアは捨てる。判定が肯定的ならこのフレーズペアを矛盾フレーズペア群に追加する(ステップ496)。
 矛盾表現獲得部64は、以上の処理を全ての活性フレーズと不活性フレーズとの組合せからなるフレーズペアについて繰返し行なう。その結果、大量の矛盾フレーズペア群を自動的に得ることができる。
 さらに、このようにして得られた矛盾フレーズペアの全てについて、図10のステップ532により示されるように矛盾度合いのスコアを算出する。このスコアを用い、矛盾フレーズペアをスコアの降順でソートして出力する。
 以上の処理により、大量の矛盾フレーズペアを自動的に得ることができる。人手は、最初のシードテンプレートを設定し、それらの活性を判断して活性値を設定する程度でよい。それ以外のリソースはいずれも既存のものを使用できる。さらに、最終的に矛盾フレーズペアをスコアの降順でソートすることにより、矛盾表現として信頼性が高いものから順番に矛盾表現を選択できる。
 <第2の実施の形態>
 上記した第1の実施の形態の矛盾表現収集システム30のうち、テンプレートDB構築装置60によってテンプレートDB62を得ることができる。このテンプレートDB62は、第1の実施の形態のような矛盾表現の獲得だけではなく、様々な処理に使用できる。第2の実施の形態は、テンプレートDB62を因果関係の取得に使用する例である。この第2の実施の形態は、図1の矛盾表現獲得部64に代えて、インターネット40から因果関係表現を獲得するための処理部を採用することで実現できる。そうした処理部は、コンピュータプログラムで実現できる。
 図11を参照して、因果関係の獲得処理は、以下のようにして行なえる。まず、ステップ570において、一文中で互いに順接接続詞で接続された形でインターネット40上の仮想コーパス内で共起しているフレーズペアと、そのフレーズペア中の名詞からなる名詞ペアとをインターネット40から収集する。
 続いて、このようにして得られた全てのフレーズペアに対して、以下の処理574を実行する(ステップ572)。すなわち、処理574では、処理対象のフレーズペア内の名詞ペアの関係が正の関係か否かを判定する。判定が肯定的な場合には、さらに、テンプレートペアの活性/不活性が同じか反対かを判定する(ステップ592)。ステップ592の判定が否定的ならこの名詞のペアは捨てる。ステップ592の判定が肯定的ならこのフレーズペアを因果関係ペア群に追加する(ステップ594)。
 一方、ステップ590の判定が否定的なら、ステップ596でテンプレートペアの活性/不活性が互いに反対か否かを判定する。判定が否定的ならこのフレーズペアは捨てる。判定が肯定的ならこのフレーズペアを因果関係ペア群に追加する。
 以上の処理が全てのフレーズペアに対して終了すると、結果として得られた因果関係ペア群内の全ての因果関係フレーズペアに対してステップ578の処理を実行する(ステップ576)。ステップ578で各因果関係フレーズペアに対して行なわれる処理は、因果関係強度のスコアC(p,p)を以下の式により算出する処理である。
Figure JPOXMLDOC01-appb-M000020
ただしp,pはそれぞれ、因果関係ペアを構成するフレーズ、s及びsはそれぞれ、フレーズp,pを構成するテンプレートの活性値、記号|s|は活性値sの絶対値、n,nはそれぞれ、フレーズp,pに含まれる名詞、npfreq(n,n)は、n,nが正の関係なら、n,nが活性/不活性の同じテンプレートペアと一文中で共起する頻度、n,nが負の関係なら、n,nが活性/不活性の異なるテンプレートペアと一文中で共起する頻度を、それぞれ表す。
 このようにして全ての因果関係フレーズペアに対し因果関係強度のスコアを算出した後、ステップ580で因果関係フレーズペアをスコアの降順でソートし、出力する。
 このような処理を実行することにより、因果関係を表すフレーズのペアを大量に、かつ自動的にインターネット40から収集できる。
 なお、因果関係取得の方法はこれには限定されない。例えば、次の条件を全て満たすフレーズペアを因果関係ペアとして獲得するようにしてもよい。
 (1)両フレーズとも、1つの名詞と1つの活性/不活性フレーズとからなる。例えば、「(地震)を起こす」と「(津波)が発生する」のようなフレーズペアである。
 (2)両フレーズは、順接接続詞、例えば「~て」で結ばれる形で、一文中に共起している。例えば、「断層が地震を起こして、津波が発生した。」のようなペア。
 具体的には、インターネット40から、順接接続詞とともに一文で共起しているテンプレートペアと、その一文で共起している名詞ペアとを取得する。これらが因果関係ペアの原型と考えられる。
 こうして得られた因果関係フレーズペアについて、例えば以下の式(5)により因果関係強度スコアを算出する。そして全ての因果関係フレーズペアを、因果関係強度スコアの降順にソートして出力する。
Figure JPOXMLDOC01-appb-M000021
上記した第2の実施の形態におけるスコア算出に、式(4)ではなくこの式(5)を用いるようにしても良い。
 <第3の実施の形態>
 第2の実施の形態では、インターネット40上に存在する記載について、因果関係を記載していると思われる因果関係を抽出している。しかし、世の中には、因果関係と見なせるものは無数に存在している。第2の実施の形態の方法では、それらの中で、実際にインターネット40上に文として記載されたもの、すなわち人間の表現活動により根拠が与えられているとみなすことのできるもののみが抽出されている。しかも、1つの因果関係であっても、多種多様な言語で表現できる。例えば、日本語に限定して、ある因果関係「米国産牛肉を入手する→牛丼を作る」の周辺に存在する因果関係は、以下に例を示すように多様な形で表現できる。
Figure JPOXMLDOC01-appb-T000022
 このように、インターネット40上に直接表現はされていないが、手持ちの表現から、実際に存在すると思われる因果関係の表現を生成できると便利である。例えば、多様な表現言語で表される無数の因果関係に対するカバー率を向上させることが期待でき、自然言語を用いた様々な言語処理及び推論等の精度を高めることができる。
 第1の実施の形態で述べたテンプレートDB62があれば、インターネット40上に実際に存在していることが確認はできないが、因果関係として妥当と思われるフレーズペアを因果関係の仮説として生成できる。以下、そのような機能を実現する実施の形態について説明する。
 図12(A)を参照して、因果関係を記述したデータベース(因果関係DB632)があり、推論システム630がこの因果関係DB632を使用して、入力から推論できる仮説を出力するように設定されているものとする。この因果関係DB632に、「米国産牛肉を入手する→牛丼を作る」という因果関係634があり、米国産牛肉に関してはこの因果関係のみが因果関係DB632に含まれているものとする。
 こうした状況で、仮に新聞に「米国産牛肉、輸入禁止に」という記事636があったという情報が得られ、その結果、どのような影響が生じるだろうか、という問が推論システム630に与えられたものとする。推論システム630が利用できる因果関係は因果関係634のみである。推論システム630には、米国産牛肉と輸入禁止とに関する因果関係についての記述はない。その結果、推論システム630の出力638は得られないであろう。
 一方、図12(B)を参照して、米国牛肉に関する別の因果関係DB672を考える。因果関係DB672は、因果関係634だけでなく、上のテーブル15に示したその他の因果関係群674も含む。そして、推論システム670がこの因果関係DB672を用いて、問に対する回答を推論するものとする。すると、図12(A)の場合と同様の問が与えられたときに、推論システム670は、因果関係DB672の中の因果関係「米国産牛肉の輸入が禁止される→牛丼が食べられない」に基づいて、「牛丼が食べられなくなりますよ」という出力676を得ることができる。こうしたシステムが、図12(A)に示す推論システム630と比較してはるかに有用であることは明らかである。
 問題は、インターネット40からは因果関係634しか得られないときに、どうすれば因果関係群674等が得られるか、ということになる。ここで、第1の実施の形態で説明したテンプレートDB62を用いることが有用である。
 テンプレートDB62を用い、インターネット40上に見出せる因果関係から、インターネット40上に直接は存在していない因果関係の仮説を出力するためのシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムとにより実現可能である。このシステムは、図1に示すテンプレートDB62とともに用いられる。
 図13を参照して、本実施の形態に係る、そのような機能を実現するためのプログラムは、因果関係にある名詞のペア(因果関係名詞ペア)、一方が他方の材料にあたる名詞のペア(材料関係名詞ペア)、一方が他方を抑制する関係にある名詞ペア(抑制関係名詞ペア)を取得するステップ710を含む。これらの名詞ペアはいずれも、既存の技術を用いて、所定のパターンにマッチする表現から取得できる。例えば、因果関係名詞ペアの場合には、「AがBを引き起こす」のようなパターンにマッチする表現を選び、その名詞A及びBを因果関係名詞ペアとして取得する。材料関係名詞ペアの場合には、「AでBを作る。」のようなパターンにマッチする表現から名詞A及びBを取得する。抑制関係パターンの場合には、「AがBを防ぐ」のようなパターンにマッチする表現から名詞A及びBを取得する。これらの例を以下のテーブル16に示す。なお、因果関係の仮説を生成するためにこのステップ710で取得する名詞ペアは、上記した3種の関係の名詞ペアには限定されず、この他にも様々な関係が考えられる。
Figure JPOXMLDOC01-appb-T000023
 このプログラムはさらに、ステップ710で取得した全ての名詞ペアに対し、以下のプログラム部分714を実行するステップ712を含む。
 プログラム部分714は、処理対象の名詞ペア内の名詞の各々について、その名詞と頻繁に係り受け関係を結ぶテンプレートを同定するステップ740と、名詞ペアが互いに正の関係にあるか否かを判定して制御の流れを分岐させるステップ742と、ステップ742の判定が肯定的であるときに実行され、ステップ740で同定されたテンプレートを組合せたペアのうち、順接接続詞とともに頻繁にインターネット40上に共起し、かつ互いの活性/不活性が同じものを選択するステップ744と、ステップ742の判定が否定的であるときに実行され、ステップ740で同定されたテンプレートを組合せたペアのうち、順接接続詞とともに頻繁に共起し、かつ、互いの活性/不活性が反対のものを選択するステップ746とを含む。ステップ744及びステップ746で「頻繁に」というときは、本実施の形態では、インターネット40上での出現頻度が予め定められた値よりも大きい場合のことをいう。
 プログラム部分714はさらに、ステップ744及び746に引き続いて実行され、ステップ744又はステップ746で選択された全てのテンプレートペアに対して、以下に説明するプログラム部分750を実行するステップ748を含む。
 プログラム部分750は、処理対象の名詞ペアに、処理対象のテンプレートペアを添えることによって因果関係仮説を生成するステップ770と、ステップ770で生成された因果関係仮説を因果関係仮説群に追加して処理を終了するステップ772とを含む。
 この図13に示される制御構造を持つプログラムを、インターネット40に接続されたコンピュータで実行することにより、インターネット40上に存在しない表現であって、かつ何らかの因果関係を表す表現(名詞+テンプレートのペア)である因果関係仮説を大量に得ることができる。
 例えば以下のような状況があり得る。材料関係名詞ペア<牛肉、牛丼>(正の関係にあると見なせる)及び抑制関係名詞ペア<抗癌剤、癌>(負の関係と見なせる)と、次のテーブル17に示すような活性/不活性テンプレートとが前提として与えられたものとする。
Figure JPOXMLDOC01-appb-T000024
 ステップ740の処理により、次のようなテンプレートが同定される。
Figure JPOXMLDOC01-appb-T000025
 さらに、これらのテンプレートについて、ステップ742~746の処理をしてテンプレートペアを選択し、各テンプレートペアについてプログラム部分750を実行することにより、次のような因果関係仮説が得られる。
Figure JPOXMLDOC01-appb-T000026
 以上のように、本実施の形態に係るシステムによれば、テンプレートDB62を用い、インターネット40から収集した名詞ペアに基づいて、インターネット40上には存在しない多数の因果関係仮説を生成できる。その結果、インターネット40上から得られる因果関係だけでなく、はるかに多くの因果関係仮説を得ることができる。したがって、推論システムのベースとなる因果関係として幅広い範囲をカバーすることができ、幅広い質問に対し、推論システムが回答を見出すことが可能になる。
 <第4の実施の形態>
 因果関係仮説の生成手法としては、第3の実施の形態に係るもの以外にも種々考えられる。この第4の実施の形態に係る手法は、インターネット40から直接的に獲得した因果関係ペア(因果関係にあるフレーズのペア)、又は、第3の実施の形態に係る手法により獲得した因果関係仮説(因果関係ペアの一種)と、第1の実施の形態で求めた矛盾表現(互いに矛盾するフレーズからなるペア)とから、因果関係仮説を生成する、というものである。具体的には、以下のようにする。なお、以下の処理の前提として、フレーズ「牛肉を輸入する」に対してフレーズ「牛肉が輸入禁止になる」という矛盾表現が予め得られており、フレーズ「牛丼を食べる」に対して「牛丼が食べられない」という矛盾表現が予め得られているものとする。
 (1)因果関係を選ぶ。例えば「牛肉を輸入する→牛丼を食べる」を選ぶ。
 (2)因果関係を構成する2つのフレーズの各々について、そのフレーズを、そのフレーズと矛盾する(反対の意味の)フレーズで置換する。例えば「牛肉を輸入する」を「牛肉が輸入禁止になる」で置換し、「牛丼を食べる」を「牛丼が食べられない」で置換する。
 (3)新たな因果関係仮説「牛肉が輸入禁止になる→牛丼が食べられない」が得られる。
 この処理の結果、獲得済の因果関係又は因果関係仮説の各フレーズを、それぞれ矛盾するフレーズで置換することにより、新たな因果関係仮説が自動的に得られることになる。 図14を参照して、この実施の形態をコンピュータハードウェアにより実現するためのプログラムは、既に因果関係ペアが得られていることを前提として、各因果関係ペアに対して以下のプログラム部分812を実行するステップ810を含む。
 プログラム部分812は、処理対象の因果関係ペアのうち、左側フレーズ(原因を表すフレーズ)に対する矛盾フレーズの全てに対して、以下のプログラム部分842を実行するステップ840を含む。
 プログラム部分842は、処理中の因果関係ペアの左側フレーズを、そのフレーズと矛盾するフレーズ(ステップ840で処理対象に選択されている矛盾フレーズ)と置換するステップ870と、処理中の因果関係ペアの右側フレーズと矛盾するフレーズの全てに対して、以下のプログラム部分874を実行するステップ872とを含む。
 プログラム部分874は、処理中の因果関係ペアの右側フレーズを、そのフレーズと矛盾するフレーズで置換するステップ910と、ステップ910の処理の完了により新たに得られたフレーズペアを新たな因果関係仮説として因果関係仮説群に追加してプログラム部分874を終了するステップ912とを含む。
 以上の制御構造を持つプログラムによれば、処理対象となる全ての因果関係ペアについて、それらの左側フレーズをその左側フレーズと矛盾するフレーズで、右側フレーズをその右側フレーズと矛盾するフレーズで、それぞれ置換することで新たな因果関係仮説を得ることができる。左側フレーズ、右側フレーズがそれぞれ複数の矛盾ペアを持つ場合、生成される因果関係仮説の数は乗算的に増加する。しかもこの処理には、人手を必要としない。したがって、非常に広い範囲をカバーする因果関係仮説を、自動的に生成できる。
 <他の応用>
 《同義・含意表現の精度の向上》
 上記実施の形態は、いずれも最終的には何らかの形のフレーズペアを得る。しかし、本発明により得られるテンプレートペアは、そのような実施の形態で利用可能なだけではない。他にも種々の利用を考えることができる。
 その第1の例は、同義・含意表現の獲得時の精度の向上のためにテンプレートペアを用いる、というものである。一般的に、同義・含意表現は、両者の出現文脈の類似性(分布類似度)を手がかりに、テキスト中から獲得される。例えば、以下のような例が考えられる。
Figure JPOXMLDOC01-appb-T000027
 この例のうち、同義関係において、「を輸入する」の出現文脈が「名詞1」、「をインポートする」の出現文脈が「名詞2」であると考える。すると、名詞1と名詞2とが一致するか同義の単語であることが多い。これは、これら2つのフレーズの意味が類似している(同義)ためである。同様に、「が輸入禁止になる」の出現文脈が「名詞3」、「が入手困難になる」の出現文脈が「名詞4」であると考える。すると、名詞3の形成する集合が、名詞4が形成する集合の部分集合となる傾向が強い。したがって、同義関係の場合も、含意関係の場合も、両者のテンプレートの出現文脈は類似し、分布類似度は高くなる。同義・含意関係は、こうした関係を用いて獲得する。
 ところが、分布類似度は、2つのテンプレートの同義・含意関係がある場合だけではなく、互いに矛盾する(反対の)関係であることも多い。例えば、「(名詞1)を輸入する」と「(名詞2)が輸入禁止になる」とは、矛盾する関係にある。しかし、名詞1と名詞2には、同じ名詞が入ることが多く、結果として分布類似度は高くなってしまう。したがって、同義・含意表現において、本来は矛盾する意味であるテンプレート同士が同義又は含意表現として選択されてしまうという問題がある。
 テンプレートDB62を用いることにより、そうした問題を解決できる。すなわち、従来の方法で抽出された、同義・含意表現の候補となる言語表現ペアについて、両者のテンプレートの活性/不活性が一致するか否かを調べる。両者の活性/不活性が一致すれば、それらテンプレートは同義又は含意関係にあると考えられる一方、両者の活性/不活性が一致していなければ、これらテンプレート同士は矛盾関係にあると判定できる。
 ただし、この判定は、名詞のように活性/不活性という属性が該当しない言語表現には適用できない。
 《文境界をまたぐ因果関係名詞ペアの獲得》
 従来の因果関係名詞ペアを獲得する手法の大部分は、あるパターンで一文内に共起している名詞のペアを抽出する、というものである。しかし、そうした手法では、一文中に記述されている因果関係ペアしか獲得できない。一方、現実には、一文中に共起している表現以外でも、因果関係の表現があり得る。特に、テキスト中で互いに近い位置に存在している表現のペアの中に、因果関係を表しているものも多い。例えば、「東北で地震が起きた。その後、大勢の人が津波に襲われた」というような表現である。
 このように文をまたいで出現する因果関係名詞ペアについて、テンプレートDB62を用いて以下のようにして獲得できる。
 まず、因果関係又は因果関係仮説(いずれもフレーズのペア+順接接続詞の形)を何らかの手法で準備する。実施の形態2又は3に記載の手法を用いても良い。これらの中で頻出するテンプレートペアを抽出する。例えば「が起きる→に襲われる」、「を引き起こす→が発症する」等のテンプレートペアを得ることができる。
 次に、上の手続きにより得られたテンプレートペアの各々について、インターネット40上で、近接する、異なる2文で共起しているものを検出する。検出されたテンプレートペアについて、それらテンプレートと共起している名詞ペアを抽出する。このようにして得られた名詞ペアは、もともと因果関係を構成していたテンプレートペアと共起しているので、やはり因果関係にある名詞ペアである可能性が高い。しかもこれら名詞ペアと、その名詞ペアと共起するテンプレートペアとが一文内で共起してはいない。したがって、既存の手法で得られる因果関係名詞ペアと比較して、より広い範囲の因果関係名詞ペアを獲得できる。
 <実施の形態の作用・効果>
 以上のように本発明の実施の形態によれば、以下のような効果が得られる。
 テキストに書かれている、書かれていないを問わず、大量の因果関係を持つ、フレーズの対及び名詞の対が獲得できる。特に、その内の一部はテキストに書かれていない新規な仮説を含むことが論理的に可能である。つまり、インターネット40上の仮想的なコーパス等に存在する大量のテキストから、インターネット40上に記載がない新規な知識に関する仮説を生成できる。
 さらに、以上の実施の形態によれば、テキスト中のフレーズ間の意味的な矛盾を正確に認識できる。この結果、矛盾だけでなく、同義・含意関係の認識の精度も向上する。
 これらの効果により、テキストを検索するだけではなく、テキストの内容に基づいて推論を行なったり、互いに矛盾する情報又はそうした情報の間の因果関係をユーザに提供したりできる。その結果、情報の信頼性を検証するための手段、及び、将来生じ得る事態を事前に予測するための手段を提供できる。
 最も実用に近いと考えられるのは、任意の言語で書かれた質問に対して、賢く、端的に、的確な回答を与える質問応答システム等に対する本発明の適用である。本発明は、音声認識技術と組合せることにより、コンピュータに対して何か質問を発してその回答を得たりするシステム又はコールセンター等で過去の事例を蓄積したデータベースを維持しているシステムにおける利用に特に適合性が高い。
 例えば、上に述べたような実施の形態のシステムによって、非常に広い範囲をカバーする因果関係のデータベースを整備できる。そうしたデータベースがあれば、従来の質問応答技術が苦手としてきた、因果関係に関する質問、つまり「WHY型の質問」に対し、適切に回答できるようになる。例えば、「なぜ、超硬工具の価格が上昇しているのか?」といった質問に対して「中国がタングステンを輸出禁止にしているからである」といった回答を与える事は、従来技術では困難であった。しかし上に述べた実施の形態により得られる因果関係データベースを用いると、そうした回答を容易に取得できるようになる。
 さらには、上に述べた仮説生成技術によって、インターネット40上に存在していない情報も仮説として提示できるようになる。例えば、これまでの質問応答システムでは、未知の出来事の帰結又は原因を答える事は不可能であった。しかし、上に述べた実施の形態はそのような技術を可能とする。例えば、上に述べた実施の形態の技術を用いると、超硬工具の値段が実際に上昇する以前に、「仮に超硬工具の価格が上昇するならば原因は何がありえるか?」といった質問が与えられたときに、「中国がタングステンを輸出禁止にすれば、超硬工具の価格が上昇する可能性がある」といった仮説を回答として返す事ができるようになる。こうしたことが可能になれば、質問者がリスクをヘッジする方策を取ることも可能となる。「仮に中国がタングステンを輸出禁止にするとすれば、その原因はなにか?」「超硬工具の価格が上昇すれば、株価が下落する企業はどこか」といった、仮想的で既存テキストに記載されていない状況に関する質問に対しても、人手を介することなくシステムが適切な回答を自動生成できる。さらに、質問を受ける前に、そうした条件とその帰結とを先回りして発見し、提示することも可能になる。すなわち、仮想的な将来シナリオをシステムが列挙できることになる。その結果、ビジネスのみならず、政治、経済、科学技術等も含め、意思決定の際の強力なツールになるものと想定される。そのようなシステムが実現されれば、情報サービス技術としては他にない高度なものであり、ビジネス上の価値も高いと考えられる。
 他の例として、ある商品に関して過去の事例と矛盾するようなトラブルに関するクレームが顧客からコールセンターに寄せられるケースを考えることができる。通常、コールセンターでは、キーワードによりデータベースから情報を検索して適切な回答を得ている。しかし、過去の事例と矛盾するようなトラブルの場合、情報を検索しても適切なものは得られない。したがって、従来の手法はこうしたトラブルに対処する上では無力であった。しかし、上記実施の形態による矛盾の自動認識という技術を適用すれば、少なくとも新たなクレームが過去の事例と矛盾する事例であることをシステムが認識し、オペレータにその旨を提示できる。その結果から、例えばオペレータは何ら情報がない場合と比較してはるかに的確に対応できる。例えば、新たなクレームが過去の事例と矛盾していることから、顧客がトラブルを誤認識しているか、又は、このトラブルが未知のトラブルである可能性があること等を顧客に提示できる。その結果、従来と比較してよりスムースな問題解決を行なえる。
 なお、上記実施の形態によると、「ため」「ので」のような手がかりとなる表現を利用せずに因果関係の自動認識が行なえる。辞書に相当する情報も自動取得できる。したがってその適用範囲は劇的に広くなる。
 さらに、上記実施の形態では、動詞を活性/不活性/中立の3種に分類する。このような分類の仕方は従来考えられていなかった。このうち、不活性な述語に関しては対応する分類が提案されたことはない。矛盾又は因果関係の認識においては、述語(テンプレート)の活性/不活性の組合せが重要なファクターであり、両者がそろって有用となる。したがって、このような活性/不活性という分類、さらには活性/不活性/中立という分類を持たない従来技術は、因果関係の自動認識、矛盾の認識において上記実施の形態のような効果を与えることはできない。
 上記実施の形態では、さらに、従来技術が取り扱ってきた「コレステロール」「脳梗塞」の間の因果関係のように、単語間の因果関係が取得できるだけではない。例えば、「コレステロールを摂取する」ことが「脳梗塞に襲われる」ことの原因である、といったような、フレーズ単位の仮説も生成できる。単語間の意味的関係に関しても、上記実施の形態によれば、従来法では取得できないものを取得可能になる。その結果、上記実施の形態は、単語間の意味的関係に関する仮説生成の技術を従来と比較してより強力にするといえる。
 さらに、同義・含意関係の認識において、上記実施の形態では、「引き起こす」「防ぐ」等の動詞を異なるラベル(活性/不活性)に分類する事を前もって行なう。そして、異なるラベルに分類された動詞は同義と認識しない、という制約を課す。こうした制約を課すことにより、反義語でも分布類似度が高いために同義・含意として認識されることが防止できる。したがって、上記実施の形態は、同義・含意関係の認識の精度を高めることができる。
 [コンピュータによる実現]
 上記実施の形態に係るシステムは、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図15はこのコンピュータシステム930の外観を示し、図16はコンピュータシステム930の内部構成を示す。
 図15を参照して、このコンピュータシステム930は、メモリポート952及びDVD(Digital Versatile Disc)ドライブ950を有するコンピュータ940と、キーボード946と、マウス948と、モニタ942とを含む。
 図16を参照して、コンピュータ940は、メモリポート952及びDVDドライブ950に加えて、CPU(中央処理装置)956と、CPU956、メモリポート952及びDVDドライブ950に接続されたバス966と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)958と、バス966に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)960とを含む。コンピュータシステム930はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)944を含む。
 コンピュータシステム930を上記した各実施の形態のシステムの各機能部として機能させるためのコンピュータプログラムは、DVDドライブ950又はメモリポート952に装着されるDVD962又はリムーバブルメモリ964に記憶され、さらにハードディスク954に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ940に送信されハードディスク954に記憶されてもよい。プログラムは実行の際にRAM960にロードされる。DVD962から、リムーバブルメモリ964から、又はネットワークを介して、直接にRAM960にプログラムをロードしてもよい。
 このプログラムは、コンピュータ940を、上記実施の形態に係るシステムの各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ940上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又は、コンピュータ940にインストールされる各種プログラミングツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。コンピュータシステム930の動作は周知である。したがってここでは繰返さない。
 今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
 この発明は、自然言語処理を利用する方法及び装置に利用でき、特に、フレーズを構成する述語テンプレート及び特定の関係にあるフレーズペアを効率よく自動的に、かつ精度高く認識できる述語テンプレート収集装置等の製造、利用及び貸出等を行なう産業において利用することができる。
30 矛盾表現収集システム
32 シードテンプレート記憶装置
34 接続詞記憶部
36 矛盾表現収集装置
38 矛盾表現記憶装置
40 インターネット
60 テンプレートDB構築装置
62 テンプレートDB
64 矛盾表現獲得部
90 テンプレートペア生成部
92 テンプレートペア記憶部
94 名詞ペア収集部
96 名詞ペア記憶部
98 名詞ペア極性判定部
100 テンプレートペア収集部
102 テンプレートペア記憶部
104 テンプレート活性マッチ判定部
106 テンプレートネットワーク構築部
108 同義・含意関係辞書
110 テンプレートネットワーク記憶部
112 テンプレート活性値算出部
114 高活性度テンプレート抽出部
116 終了判定部
118 シードテンプレート更新部
140 テンプレートネットワーク
630,670 推論システム
632,672 因果関係DB
634 因果関係
674 因果関係群

Claims (12)

  1.  述語テンプレートを、所定の文の集合から収集するための述語テンプレート収集装置であって、
     述語テンプレートは、名詞と結びついてフレーズを構成するものであり、
     かつ述語テンプレートには、活性、不活性、及び中立という分類に従って活性の向き及びその大きさとを表す活性値を付与することが可能であり、
     活性とは、当該述語テンプレートに結び付けられた名詞の指す対象の機能又は効果を発揮させる方向の出来事を記述することを示し、
     不活性とは、当該述語テンプレートに結び付けられた名詞の指す対象の機能又は効果を発揮させない方向の出来事を記述することを示し、
     中立とは、活性でも不活性でもない述語テンプレートであることを示し、
     述語テンプレートに関する活性及び不活性の区別を極性と呼び、
     前記述語テンプレート収集装置は、
     順接又は逆接に分類された接続詞を記憶する接続詞記憶部と、
     テンプレートネットワークを構築するための起点となるシードテンプレートを記憶するためのシードテンプレート記憶部とを含み、
     前記シードテンプレートの各々には、極性と活性値とが付され、
     前記述語テンプレート収集装置はさらに、ある関係を充足する名詞ペアを所定のコーパスから収集し、各名詞ペアを構成する名詞同士の関係の極性を正か負に分類するための名詞ペア収集手段を含み、
     名詞ペアを構成する名詞同士の関係の極性は、当該名詞ペアの一方の示す対象が、他方の示す対象の出現を促進するときには正、抑制するときには負として定義され、
     前記述語テンプレート収集装置はさらに、
     前記名詞ペア収集手段により収集された名詞ペアとそれぞれ共起する述語テンプレートペアを所定のコーパスから収集し、収集された各述語テンプレートペアについて、当該述語テンプレートペアと共起する名詞ペアの関係の極性と、当該述語テンプレートペアを結ぶ接続詞とに基づいて、当該述語テンプレートペアの活性/不活性が同一か、反対かを判定するための述語テンプレートペア収集手段と、
     前記述語テンプレートペア収集手段により収集された述語テンプレートペアと、各述語テンプレートペアについての活性/不活性が同一か否かの判定結果とを用いて述語テンプレート間を関係付けることにより、各述語テンプレートをノードとし、述語テンプレートペアを構成する述語テンプレートの間の関係をリンクとするテンプレートネットワークを構築するための構築手段と、
     前記テンプレートネットワーク内のシードテンプレートに対応するノードに予め付与されている前記活性値をもとにし、前記テンプレートネットワーク内のノード間の関係を用い、各ノードに付与すべき活性値を算出し、各ノードに対応する述語テンプレートに、算出された活性値を付与して出力するための活性値算出手段とを含む、述語テンプレート収集装置。
  2.  前記名詞ペア収集手段は、前記接続詞記憶部に記憶された接続詞と、前記シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアと共起する名詞ペアを所定のコーパスから収集し、各名詞ペアを構成する名詞同士の関係の極性を正又は負に分類するための手段を含む、請求項1に記載の述語テンプレート収集装置。
  3.  前記分類するための手段は、前記接続詞記憶部に記憶された接続詞と、前記シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアと共起する名詞ペアであって、前記コーパスに所定の頻度以上出現するものを前記コーパスから収集し、各名詞ペアを構成する名詞同士の関係の極性を正又は負に分類するための手段を含む、請求項2に記載の述語テンプレート収集装置。
  4.  前記分類するための手段は、
     前記接続詞記憶部に記憶された接続詞と、前記シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアと共起する名詞ペアを前記コーパスから収集するための手段と、
     前記収集するための手段により収集された名詞ペアの組合せの各々について、各名詞ペアと共起する述語テンプレートペアの極性と、当該名詞ペアおよび述語テンプレートにより構成されるフレーズ対を結び付けている接続詞の種類とに基づいて、当該名詞ペアの組合せを構成する名詞の間の関係の極性を決定するための極性決定手段とを含む、請求項2に記載の述語テンプレート収集装置。
  5.  前記収集するための手段は、前記接続詞記憶部に記憶された接続詞と、前記シードテンプレート記憶部に記憶されたシードテンプレートとを用いて、述語テンプレートペアと前記コーパス内で所定の頻度以上の頻度で共起する名詞ペアを前記コーパスから収集するための手段を含む、請求項4に記載の述語テンプレート収集装置。
  6.  前記極性決定手段は、前記収集するための手段により収集された名詞ペアの各々について、当該名詞ペアと共起する述語テンプレートの述語テンプレートペアの極性と、当該名詞ペアおよび述語テンプレートにより構成されるフレーズ対を結び付けている接続詞の種類とに基づいて、当該名詞ペアの各々を構成する名詞の間の関係の極性を決定するための手段と、
     前記決定するための手段により前記名詞ペアの各々について決定された極性を、前記名詞ペアの種類毎に集計し、多数決により、名詞ペアの種類ごとに極性を決定するための手段とを含む、請求項4に記載の述語テンプレート収集装置。
  7.  さらに、前記活性値算出手段による述語テンプレートの出力が完了したことに応答して、述語テンプレートの活性値を算出する処理の終了条件が成立しているかを判定するための判定手段と、
     前記判定手段により前記終了条件が成立していないと判定されたことに応答して、前記活性値算出手段により算出された述語テンプレートの内、活性値の絶対値がしきい値以上の述語テンプレートからなる新たなシードテンプレートを選択し、当該新たに選択されたシードテンプレートにより、前記シードテンプレート記憶部の記憶内容を更新するための更新手段と、
     前記更新手段による更新が行われたことに応答して、前記述語テンプレートペア収集手段、前記名詞ペア収集手段、前記述語テンプレートペア収集手段、前記構築手段、及び前記活性値算出手段による処理を再実行させるための手段とを含む、請求項1又は請求項2
    に記載の述語テンプレート収集装置。
  8.  前記構築手段は、
     前記述語テンプレートペア収集手段により収集された述語テンプレートペアをなす述語テンプレートに対応するノードが前記テンプレートネットワーク内に存在しないときには、当該述語テンプレートに対応するノードを追加するための手段と、
     前記述語テンプレートペア収集手段により収集された述語テンプレートペアをなす述語テンプレートの間にリンクを生成するためのリンク手段とを含み、
     前記リンク手段は、各リンクにより接続される述語テンプレートの活性が同じか否かにしたがって、各リンクに活性の一致又は不一致を示す属性を付与し、
     前記構築手段はさらに、前記リンク手段により生成される各リンクに、他のノードとのリンクの数の関数である重みを付与するための重み付与手段を含み、
     前記重み付与手段が付与する重みは、当該リンクの前記属性が前記一致を示す値のときと、前記不一致を示す値のときとで符号が異なる、請求項7に記載の述語テンプレート収集装置。
  9.  前記活性値算出手段は、前記テンプレートネットワーク内の各リンクの重みと、各ノードに割当てられる活性値との関数であって、以下の式
    Figure JPOXMLDOC01-appb-M000001
    により定義される関数の値を最適化することにより、前記テンプレートネットワーク内の各ノードに割当てられる活性値を推定するための手段を含み、
     ただし、前記シードテンプレートのうち、極性が活性のものにはプラスの極性及び活性値が、不活性のものにはマイナスの極性及び活性値が、それぞれ付与される、請求項8に記載の述語テンプレート収集装置。
  10.  請求項1~請求項9のいずれかに記載された述語テンプレート収集装置と、
     前記述語テンプレート収集装置により収集された述語テンプレートを記憶するための述語テンプレート記憶手段と、
     前記述語テンプレート記憶手段に記憶された述語テンプレートのうち、特定の活性/不活性の述語テンプレートの組合せと、特定の種類の接続詞とからなる述語テンプレートペアを含むフレーズペアを所定のコーパスから収集するためのフレーズペア収集手段と、
     前記フレーズペア収集手段により収集されたフレーズペア内で述語テンプレートと共起している名詞ペアと、当該フレーズペア内の述語テンプレートの極性とが特定の組合せになっているものを抽出することで、所定の関係を表現するフレーズペアを選択するためのフレーズ選択手段とを含む、特定フレーズペア収集装置。
  11.  さらに、前記フレーズ選択手段により選択されたフレーズペアの各々について、前記各フレーズペアを構成する述語テンプレートの活性値と、当該フレーズペアに含まれる名詞ペアの、前記コーパス内での共起関係との関数として、前記所定の関係の強さを表すスコアを算出するためのスコア算出手段と、
     前記スコア算出手段により算出されたスコアの順番で前記フレーズ選択手段により選択されたフレーズペアを整列させるための手段とを含む、請求項11に記載の特定フレーズペア収集装置。
  12.  コンピュータが実行可能なコンピュータプログラムであって、当該コンピュータに、請求項1~請求項11のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。
PCT/JP2013/051326 2012-02-27 2013-01-23 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム WO2013128984A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP13754814.5A EP2821923B1 (en) 2012-02-27 2013-01-23 Predicate template gathering device, specified phrase pair gathering device and computer program for said devices
KR1020147023682A KR101972408B1 (ko) 2012-02-27 2013-01-23 술어 템플릿 수집 장치, 특정 프레이즈 페어 수집 장치, 및 이들을 위한 컴퓨터 프로그램
US14/377,988 US9582487B2 (en) 2012-02-27 2013-01-23 Predicate template collecting device, specific phrase pair collecting device and computer program therefor
CN201380011077.2A CN104137097B (zh) 2012-02-27 2013-01-23 谓语模板收集装置以及特定短语对收集装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-039966 2012-02-27
JP2012039966A JP5924666B2 (ja) 2012-02-27 2012-02-27 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2013128984A1 true WO2013128984A1 (ja) 2013-09-06

Family

ID=49082189

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/051326 WO2013128984A1 (ja) 2012-02-27 2013-01-23 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム

Country Status (6)

Country Link
US (1) US9582487B2 (ja)
EP (1) EP2821923B1 (ja)
JP (1) JP5924666B2 (ja)
KR (1) KR101972408B1 (ja)
CN (1) CN104137097B (ja)
WO (1) WO2013128984A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3086239A4 (en) * 2013-12-20 2017-12-06 National Institute of Information and Communications Technology Scenario generation device and computer program therefor

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP6150291B2 (ja) * 2013-10-08 2017-06-21 国立研究開発法人情報通信研究機構 矛盾表現収集装置及びそのためのコンピュータプログラム
JP5907393B2 (ja) * 2013-12-20 2016-04-26 国立研究開発法人情報通信研究機構 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
JP6403382B2 (ja) * 2013-12-20 2018-10-10 国立研究開発法人情報通信研究機構 フレーズペア収集装置、及びそのためのコンピュータプログラム
JP6551968B2 (ja) * 2015-03-06 2019-07-31 国立研究開発法人情報通信研究機構 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
JP6347519B2 (ja) * 2015-05-15 2018-06-27 日本電信電話株式会社 推移矛盾収集装置、方法、及びプログラム
JP6618735B2 (ja) 2015-08-31 2019-12-11 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム
JPWO2017104571A1 (ja) * 2015-12-14 2018-10-04 日本電気株式会社 情報処理装置、情報処理方法、及び、コンピュータ・プログラム
US10706044B2 (en) 2016-04-06 2020-07-07 International Business Machines Corporation Natural language processing based on textual polarity
US20170293621A1 (en) * 2016-04-06 2017-10-12 International Business Machines Corporation Natural language processing based on textual polarity
US20170293620A1 (en) * 2016-04-06 2017-10-12 International Business Machines Corporation Natural language processing based on textual polarity
JP6721179B2 (ja) 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム
JP6929539B2 (ja) * 2016-10-07 2021-09-01 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
US20190065583A1 (en) * 2017-08-28 2019-02-28 International Business Machines Corporation Compound q&a system
US10915707B2 (en) * 2017-10-20 2021-02-09 MachineVantage, Inc. Word replaceability through word vectors
KR102111609B1 (ko) * 2018-04-26 2020-05-15 대한민국 재난속성정보 추출 시스템 및 방법
US20230020080A1 (en) * 2021-04-12 2023-01-19 Adishesh Kishore Relationship builder to relate data across multiple entities/nodes

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008075524A1 (ja) * 2006-12-18 2008-06-26 Nec Corporation 極性推定システム、情報配信システム、極性推定方法及び、極性推定用プログラム、及び評価極性推定用プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100918338B1 (ko) 2001-08-10 2009-09-22 도쿠리쯔교세이호진 죠호쯔신겡큐기코 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체
WO2003027894A1 (en) * 2001-09-26 2003-04-03 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries
US8155946B2 (en) * 2002-12-23 2012-04-10 Definiens Ag Computerized method and system for searching for text passages in text documents
JP2005031979A (ja) 2003-07-11 2005-02-03 National Institute Of Advanced Industrial & Technology 情報処理方法、情報処理プログラム、情報処理装置およびリモートコントローラ
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US7899666B2 (en) * 2007-05-04 2011-03-01 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
US20090048823A1 (en) * 2007-08-16 2009-02-19 The Board Of Trustees Of The University Of Illinois System and methods for opinion mining
CN101377770B (zh) 2007-08-27 2017-03-01 微软技术许可有限责任公司 中文组块分析的方法及系统
JP5536518B2 (ja) 2009-04-23 2014-07-02 インターナショナル・ビジネス・マシーンズ・コーポレーション システムの自然言語仕様から当該システム用のシステム・モデル化メタモデル言語モデルを自動的に抽出するための方法、装置及びコンピュータ・
US8532981B2 (en) * 2011-03-21 2013-09-10 Xerox Corporation Corpus-based system and method for acquiring polar adjectives
US8650023B2 (en) * 2011-03-21 2014-02-11 Xerox Corporation Customer review authoring assistant
WO2012132388A1 (ja) * 2011-03-28 2012-10-04 日本電気株式会社 テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008075524A1 (ja) * 2006-12-18 2008-06-26 Nec Corporation 極性推定システム、情報配信システム、極性推定方法及び、極性推定用プログラム、及び評価極性推定用プログラム

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
DEKANG LIN; PATRICK PANTEL.: "Discovery of inference rules for question answering", NATURAL LANGUAGE ENGINEERING, vol. 7, no. 4, 2001, pages 343 - 360
HIROYA TAKAMURA; TAKASHI INUI; MANABU OKUMURA: "Extracting Semantic Orientations of Words using Spin Model", PROCEEDINGS OF THE 43RD ANNUAL MEETING OF THE ACL, 2005, pages 133 - 140, XP055222238
INUI TAKASHI; INUI KENTARO; YUJI MATSUMOTO: "Extracting Causal Knowledge from Text, The Case of Resultative Connectives 'tame", INFORMATION PROCESSING SOCIETY OF JAPAN, SPECIAL INTEREST GROUP OF NATURAL LANGUAGE PROCESSING (NL-150-25, 2002, pages 171 - 178
JAMES PUSTEJOVSKY: "The Generative Lexicon", 1995, MIT PRESS
KENTARO TORISAWA: "Automatically Acquiring Natural Language Expressions Representing Preparation and Utilization of an Object", NATURAL LANGUAGE PROCESSING, vol. 13, no. 2, 2006, pages 125 - 144
MASAAKI TSUCHIDA; KENTARO TORISAWA; STIJN DE SAEGER; JONG HOON OH; JUN'ICHI KAZAMA; CHIKARA HASHIMOTO; HAYATO OHWADA: "Toward Finding Semantic Relations not Written in a Single Sentence: An Inference Method using Auto-Discovered Rules", PROCEEDINGS OF THE 5TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING (IJCNLP 2011, November 2011 (2011-11-01), pages 902 - 910
ROXANA GIRJU.: "Automatic Detection of Causal Relations for Question Answering", PROCEEDINGS OF ACL WORKSHOP ON MULTILINGUAL SUMMARIZATION AND QUESTION ANSWERING, 2003
SAIFMOHAMMAD; BONNIE DORR; GRAEME HIRST: "Computing Word Pair Antonymy", PROCEEDINGS OF THE 2008 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, October 2008 (2008-10-01), pages 982 - 991
See also references of EP2821923A4
TETSUYA NASUKAWA ET AL.: "Acquisition of Sentiment Lexicon by Using Context Coherence", IPSJ SIG NOTES, vol. 2004, no. 73, 15 July 2004 (2004-07-15), pages 109 - 116, XP008174372 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3086239A4 (en) * 2013-12-20 2017-12-06 National Institute of Information and Communications Technology Scenario generation device and computer program therefor

Also Published As

Publication number Publication date
EP2821923B1 (en) 2016-09-07
CN104137097A (zh) 2014-11-05
EP2821923A4 (en) 2015-12-02
CN104137097B (zh) 2017-02-22
EP2821923A1 (en) 2015-01-07
KR20140129053A (ko) 2014-11-06
KR101972408B1 (ko) 2019-04-25
US20150039296A1 (en) 2015-02-05
JP2013175097A (ja) 2013-09-05
JP5924666B2 (ja) 2016-05-25
US9582487B2 (en) 2017-02-28

Similar Documents

Publication Publication Date Title
JP5924666B2 (ja) 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム
Ghenai et al. Catching Zika fever: Application of crowdsourcing and machine learning for tracking health misinformation on Twitter
US20200184275A1 (en) Method and system for generating and correcting classification models
Kotov et al. Modeling and analysis of cross-session search tasks
Dehkharghani et al. Sentimental causal rule discovery from Twitter
US9524291B2 (en) Visual display of semantic information
US9110985B2 (en) Generating a conceptual association graph from large-scale loosely-grouped content
US9183285B1 (en) Data clustering system and methods
AU2015203818B2 (en) Providing contextual information associated with a source document using information from external reference documents
US20070016863A1 (en) Method and apparatus for extracting and structuring domain terms
WO2015093540A1 (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
CN102089805A (zh) 用于概念映射的系统和方法
WO2015093539A1 (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
Afroz et al. Sentiment analysis of COVID-19 nationwide lockdown effect in India
CN109284389A (zh) 一种文本数据的信息处理方法、装置
Jedrzejewski et al. Opinion mining and social networks: A promising match
JP2016042364A (ja) コンピュータによる自然言語処理のためのコンピュータ読取可能な辞書及びそれを記憶した記憶媒体
Kulkarni et al. Sortinghat: A framework for deep matching between classes of entities
Sagae et al. Image retrieval with textual label similarity features
Suzuki et al. What is your tweet worldview? Mapping the topic structure of tweets on the Wikipedia
Kotov et al. Modeling and Analyses of Multi-Session Search Tasks
Khazaei et al. Computational Analysis of Collective Intelligence in Conversational Text
Eklou et al. How can the Web help Wikipedia? a study of information complementation of Wikipedia by the Web
CN113505889A (zh) 图谱化知识库的处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13754814

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14377988

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2013754814

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2013754814

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20147023682

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE