WO2019171490A1 - ナレッジ拡充システム、方法およびプログラム - Google Patents

ナレッジ拡充システム、方法およびプログラム Download PDF

Info

Publication number
WO2019171490A1
WO2019171490A1 PCT/JP2018/008759 JP2018008759W WO2019171490A1 WO 2019171490 A1 WO2019171490 A1 WO 2019171490A1 JP 2018008759 W JP2018008759 W JP 2018008759W WO 2019171490 A1 WO2019171490 A1 WO 2019171490A1
Authority
WO
WIPO (PCT)
Prior art keywords
graph
document structure
subgraph
knowledge
rule
Prior art date
Application number
PCT/JP2018/008759
Other languages
English (en)
French (fr)
Inventor
昌史 小山田
諒 花房
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US16/977,917 priority Critical patent/US11874873B2/en
Priority to JP2020504549A priority patent/JP7014288B2/ja
Priority to PCT/JP2018/008759 priority patent/WO2019171490A1/ja
Publication of WO2019171490A1 publication Critical patent/WO2019171490A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to a knowledge expansion system, a knowledge expansion method, and a knowledge expansion program for expanding knowledge included in inter-word relationship information indicating a relationship between words.
  • the inter-word relationship information is information indicating a word as a node and a relationship between the words as knowledge.
  • the inter-word relationship information indicates a knowledge base or a concept dictionary.
  • FIG. 34 is a schematic diagram illustrating an example of inter-word relationship information. As shown in FIG. 34, the inter-word relationship information is represented as a graph. A node included in the inter-word relationship information illustrated in FIG. 34 represents a word. Moreover, the words which have a relationship are connected by a link, and the type of the relationship is given to the link. In the example shown in FIG. 34, the type “is-a” is assigned to all links. That is, each link indicates that the relationship between two words connected by the link is an is-a relationship.
  • the relationship between the words indicated by the link is not limited to the is-a relationship.
  • knowledge indicating that the relationship between words is “synonym” may be included in the inter-word relationship information.
  • the is-a relationship represents a hierarchy of elements (words in this example), and in the link, an arrow head is added to the higher hierarchy side, and no arrow head is added to the lower hierarchy side.
  • “Oyamada”, “Hanafusa”, “Takeoka”, and “Fukata” illustrated in FIG. 34 are personal names.
  • Non-Patent Document 1 describes a technique for extracting a relationship related to meaning.
  • Patent Document 1 describes an apparatus that extracts an is-a relationship based on a hierarchical relationship of document headings.
  • Non-Patent Document 2 describes a technique for finding subgraphs that appear frequently from a large graph database.
  • the inter-word relationship information does not always include the knowledge desired by the person who intends to use the inter-word relationship information. Therefore, it is preferable to expand the knowledge indicated by the inter-word relationship information by adding a new node or link to the inter-word relationship information.
  • the inventor of the present invention assumed the following general technique as a method for expanding the knowledge indicated by the inter-word relationship information.
  • a sentence including known knowledge is extracted from a given document.
  • the first sentence and the second sentence are extracted from the document shown in FIG. That is, two sentences shown in FIG. 37 are extracted.
  • a common character pattern is extracted from each extracted sentence.
  • the word indicated by the known knowledge is replaced with a code.
  • a word (word indicated by known knowledge) included in the extracted sentence is a word in a lower hierarchy
  • the word is replaced with a code “XXX”.
  • a word (word indicated by a known knowledge) included in the extracted sentence is a word in an upper hierarchy
  • the word is replaced with the code “YYY”.
  • a character pattern “XXX is a YYY” is extracted from each sentence shown in FIG. 37 as a common character pattern.
  • This character pattern is a rule for extracting new knowledge from a given document (see FIG. 35).
  • the above rule is applied to a given document (see FIG. 35) to extract a sentence representing a new knowledge. That is, a sentence that matches the above rule is extracted from a given document. At this time, sentences including known knowledge need not be extracted. In this example, two sentences shown in FIG. 38 are extracted according to the rule. In this example, “a” and “an” are regarded as the same character.
  • the knowledge indicated by the sentence extracted based on the rule is added to the given inter-word relationship information.
  • the inter-word relationship information shown in FIG. 39 is obtained.
  • the added nodes and links are indicated by broken lines.
  • the knowledge indicated by the inter-word relationship information is expanded.
  • a document can have a document structure such as bullets, headings, and tables.
  • a sentence including known knowledge is extracted from a document described in text. Therefore, it is not possible to appropriately extract a sentence including known knowledge from a document having a document structure but not described as a sentence.
  • a bulleted document illustrated in FIG. 40 is given.
  • the sentences other than the second line shown in FIG. 40 are not sentences. If one word is regarded as one sentence in the second and subsequent lines shown in FIG. 40, the document shown in FIG. 40 is represented as shown in FIG. However, even if one word is regarded as one sentence, a sentence including known knowledge cannot be extracted. Therefore, when a document having a document structure such as an itemized list is given, the knowledge indicated by the inter-word relationship information cannot be expanded.
  • a document having a document structure represents, for example, a relationship between an upper layer and a lower layer, and therefore, it is preferable that the document can be used to obtain new knowledge.
  • the inter-word relationship information cannot be expanded based on a document having a document structure.
  • the present invention provides a knowledge expansion system, a knowledge expansion method, and a knowledge expansion program capable of expanding the knowledge included in the inter-word relationship information based on the document structure graph indicating the document structure and the inter-word relationship information.
  • the purpose is to provide.
  • the knowledge expansion system is a partial graph extraction unit that extracts a partial graph that is a part of a document structure graph from a document structure graph that indicates the document structure, based on inter-word relationship information that indicates the relationship between words.
  • a rule creation means for creating a rule for extracting a subgraph having the same structure as the subgraph from the document structure graph, and extracting the subgraph from the document structure graph according to the rule, and indicating the information indicated by the subgraph as a word
  • knowledge adding means for adding to the relationship information.
  • the knowledge expansion method extracts a partial graph that is a part of a document structure graph from a document structure graph that indicates a document structure based on inter-word relationship information that indicates the relationship between words. Create a rule for extracting a subgraph with the same structure as the subgraph from the structure graph, extract the subgraph from the document structure graph according to the rule, and add the information indicated by the subgraph to the inter-word relationship information It is characterized by.
  • the knowledge expansion program extracts a partial graph that is a part of a document structure graph from a document structure graph that indicates the document structure based on inter-word relationship information that indicates the relationship between words.
  • Subgraph extraction processing rule creation processing for creating a rule for extracting a subgraph having the same structure as the subgraph from the document structure graph, and extraction of the subgraph from the document structure graph according to the rule.
  • a knowledge adding process for adding the information indicated by is added to the inter-word relation information.
  • the knowledge included in the inter-word relationship information can be expanded based on the document structure graph indicating the document structure and the inter-word relationship information.
  • a general technique it is a schematic diagram which shows the example of the document given. In a general technique, it is a schematic diagram which shows the example of the relationship information between words given. In a general technique, it is a schematic diagram which shows the example of the sentence extracted from the document. In a general technique, it is a schematic diagram which shows the example of the sentence extracted based on the rule. In a general technique, it is a schematic diagram which shows the example of the relationship information between words to which the new knowledge was added. It is a schematic diagram which shows the example of the itemized document. It is a schematic diagram which shows the example at the time of considering one word in an itemized list as one sentence.
  • FIG. 1 is a block diagram illustrating a configuration example of a knowledge expansion system according to the first embodiment of this invention.
  • the knowledge expansion system 1 of the first embodiment includes a document structure graph storage unit 2, an inter-word relationship information storage unit 3, a data reading unit 4, a partial graph extraction unit 5, a partial graph storage unit 6, and a partial A graph count unit 7, a rule creation unit 8, a rule storage unit 9, and a knowledge addition unit 10 are provided.
  • the document structure graph storage unit 2 is a storage device that stores a document structure graph.
  • the document structure graph is a graph showing the document structure.
  • FIG. 2 is a schematic diagram illustrating an example of a document structure graph.
  • a document represented as a document structure graph illustrated in FIG. 2 is viewed as a document illustrated in FIG. 3 when viewed by a human as a normal document. That is, the document structure graph shown in FIG. 2 shows the document structure of the document shown in FIG.
  • the document structure graph includes a plurality of nodes.
  • the portions indicated by squares correspond to nodes.
  • Each node includes at least node type information indicating the type of the node.
  • the node type information is described as being represented by a tag.
  • “ ⁇ Document>” shown in FIG. 2 means a document.
  • “ ⁇ Paragraph>” means a paragraph.
  • “ ⁇ UL>” means an unordered list (Unordered List).
  • ⁇ Item>” means a phrase.
  • the node type information is not limited to each tag shown in FIG. Tags according to the document structure may be used at nodes in the document structure graph.
  • each node may contain text in addition to the node type information.
  • a node having ⁇ Item> tag as node type information and a node having ⁇ Paragraph> tag as node type information include text.
  • the document structure graph storage unit 2 stores a document structure graph in advance by an administrator of the knowledge expansion system 1 (hereinafter simply referred to as an administrator).
  • a graph corresponding to a part of the document structure graph is referred to as a partial graph.
  • the inter-word relationship information storage unit 3 is a storage device that stores inter-word relationship information.
  • the inter-word relationship information is information indicating a word as a node and a relationship between the word and the word as knowledge, and is represented as a graph.
  • a node included in the inter-word relationship information represents a word.
  • the words which have a relationship are connected by a link, and the type of the relationship is given to the link. Further, in the link, an arrow head is added to the upper layer side, and no arrow head is added to the lower layer side.
  • inter-word relationship information is stored in advance by an administrator.
  • the inter-word relationship information stored in the inter-word relationship information storage unit 3 may be publicly disclosed inter-word relationship information, or may be inter-word relationship information created by an administrator.
  • inter-word relationship information illustrated in FIG. 4 is stored in the inter-word relationship information storage unit 3 as an example.
  • the data reading unit 4 reads the document structure graph from the document structure graph storage unit 2 and reads the word relationship information from the word relationship information storage unit 3.
  • the partial graph extraction unit 5 extracts a pair of two words having a relationship from the inter-word relationship information. For example, the subgraph extraction unit 5 determines from the inter-word relationship information shown in FIG. 4 a pair of two words “Oyamada” and “Researcher” having an is-a relationship and two words “Hanafusa” having an is-a relationship. ”And“ Researcher ”pairs are extracted.
  • subgraph extraction unit 5 generates a minimum subgraph having both ends of a node including one of two words having a relationship in the text and a node including the other of the two words in the text. Extract from document structure graph.
  • the subgraph extraction unit 5 when focusing on a pair of two words “Oyamada” and “Researcher” having an is-a relationship, the subgraph extraction unit 5 includes a node including “Oyamada” in the text and a node including “Researcher” in the text. Are extracted from the document structure graph. Similarly, when focusing on a pair of two words “Hanafusa” and “Researcher” having an is-a relationship, the subgraph extraction unit 5 includes a node including “Hanafusa” in the text and “Researcher” in the text. The smallest subgraph having both ends of the node is extracted from the document structure graph.
  • FIG. 5 is a schematic diagram showing a partial graph obtained in this way.
  • the partial graph extracted by the partial graph extraction unit 5 is not limited to the structure illustrated in FIG.
  • the document structure graph includes the graph shown in FIG.
  • “ ⁇ Header1>” shown in FIG. 6 means a major heading
  • “ ⁇ Header2>” means a minor heading
  • “Title” means a title.
  • “...” Indicates that illustration of specific text is omitted.
  • the subgraph extraction unit 5 further includes a node including “Oyamada” in the text and a node including “Researcher” in the text as minimums.
  • the partial graph illustrated in FIG. 7 is also extracted as the partial graph.
  • the document structure graph includes the graph shown in FIG.
  • the graph shown in FIG. 8 corresponds to the table shown in FIG. That the document structure graph includes the graph shown in FIG. 8 means that the document includes the table shown in FIG.
  • “ ⁇ Table>” shown in FIG. 8 means a table name
  • “ ⁇ Column>” means a column name in the table.
  • “ ⁇ Cell>” means a cell in the table.
  • the subgraph extraction unit 5 also extracts the minimum subgraph having both ends of a node including “Oyamada” in the text and a node including “Researcher” in the text from the graph illustrated in FIG.
  • the subgraph extraction unit 5 also extracts the minimum subgraph having both ends of the node including “Hanafusa” in the text and the node including “Researcher” in the text from the graph illustrated in FIG. 8. As a result, the partial graph shown in FIG. 10 is obtained.
  • each subgraph has text that includes one of the two related words at one of the end nodes and two related words at the other end of the node. Has text that includes the other.
  • the partial graph extraction unit 5 stores the partial graph extracted from the document structure graph in the partial graph storage unit 6.
  • the partial graph storage unit 6 is a storage device that stores the partial graph extracted from the document structure graph by the partial graph extraction unit 5.
  • the partial graph counting unit 7 reads each partial graph from the partial graph storage unit 6. Then, the subgraph counting unit 7 counts the number of subgraphs for each subgraph structure.
  • a node having an ⁇ Item> tag and a text including a word in a higher hierarchy in the inter-word relationship information is connected to a node having a ⁇ UL> tag by a link in a predetermined direction. Further, the node is connected to a node having an ⁇ Item> tag and a text including a word in a lower hierarchy in the inter-word relationship information by a link in a predetermined direction.
  • the partial graph counting unit 7 counts the number of partial graphs having this structure among the partial graphs read from the partial graph storage unit 6.
  • a node having a ⁇ Header1> ⁇ tag and a text including a word in a higher hierarchy in the inter-word relationship information is linked to a ⁇ Header2> ⁇ tag and a word by a link in a predetermined direction. It is structured to be connected to a node having a text including a word in a lower hierarchy in the inter-relationship information.
  • the partial graph counting unit 7 counts the number of partial graphs having this structure among the partial graphs read from the partial graph storage unit 6.
  • a node having a ⁇ Table> ⁇ tag and a text including a word in a higher hierarchy in the inter-word relationship information is linked to a ⁇ Column> tag and a text “ A structure that is connected to a node having “Name”, and further connected to a node having a ⁇ Cell> tag and a text including a word in a lower hierarchy in the inter-word relationship information by a link in a predetermined direction It has become.
  • the partial graph counting unit 7 counts the number of partial graphs having this structure among the partial graphs read from the partial graph storage unit 6.
  • the subgraph counting unit 7 counts the number of subgraphs extracted by the subgraph extracting unit 5 for each subgraph structure.
  • the subgraph count unit 7 selects the structure of the subgraph whose count result is equal to or greater than the threshold value.
  • the threshold value may be determined as a constant in advance.
  • the subgraph counting unit 7 will be described by taking the structure shown in FIG. 5 and the structure shown in FIG. 10 as examples.
  • the rule creation unit 8 creates a rule for extracting a partial graph having the same structure as the partial graph from the document structure graph.
  • the rule creating unit 8 is a rule for extracting a subgraph of the structure from the document structure graph based on the subgraph corresponding to the structure.
  • the structure shown in FIG. 5 and the structure shown in FIG. 10 are selected by the partial graph counting unit 7 as the structure of the partial graph.
  • the rule creating unit 8 creates a rule for extracting from the document structure graph a partial graph having the same structure as that shown in FIG. At this time, the rule creating unit 8 takes out one subgraph corresponding to the structure shown in FIG. Regardless of which subgraph is extracted, the result of the replacement process described below is the same. Therefore, the rule creation unit 8 may extract one subgraph arbitrarily from the subgraphs corresponding to the structure shown in FIG. In the subgraph, the rule creating unit 8 replaces the text including the word in the lower hierarchy in the inter-word relationship information with the first predetermined code (in this example, “XXX”).
  • the first predetermined code in this example, “XXX”.
  • the rule creating unit 8 replaces the text including the word in the upper hierarchy in the inter-word relationship information with a predetermined code (in this example, “YYY”) in the subgraph.
  • a predetermined code in this example, “YYY”
  • the result of this replacement processing is a rule for extracting a subgraph having the same structure as that shown in FIG. 5 from the document structure graph.
  • the rule creation unit 8 creates the rules shown in FIG. 11 by the above replacement process.
  • the rule creation unit 8 creates a rule for extracting a partial graph having the same structure as that shown in FIG. 10 from the document structure graph. At this time, the rule creating unit 8 takes out one subgraph corresponding to the structure shown in FIG. Regardless of which subgraph is extracted, the result of the replacement process as described above is the same. Therefore, the rule creation unit 8 may extract one subgraph arbitrarily from the subgraphs corresponding to the structure shown in FIG. In the subgraph, the rule creating unit 8 replaces the text including the word in the lower hierarchy in the inter-word relationship information with the first predetermined code (in this example, “XXX”).
  • the first predetermined code in this example, “XXX”.
  • the rule creating unit 8 replaces the text including the word in the upper hierarchy in the inter-word relationship information with a predetermined code (in this example, “YYY”) in the subgraph.
  • a predetermined code in this example, “YYY”
  • the result of this replacement processing is a rule for extracting a subgraph having the same structure as that shown in FIG. 10 from the document structure graph.
  • the rule creation unit 8 creates the rules shown in FIG. 12 by the above replacement process.
  • the rule creation unit 8 stores the created rules in the rule storage unit 9.
  • the rule storage unit 9 is a storage device that stores the rules created by the rule creation unit 8.
  • the knowledge adding unit 10 reads each rule created by the rule creating unit 8 from the rule storage unit 9. And the knowledge addition part 10 extracts a partial graph from a document structure graph according to a rule for every rule. At this time, the knowledge adding unit 10 extracts a partial graph that matches the rule from the document structure graph, assuming that a portion corresponding to “XXX” and “YYY” in the rule is an arbitrary text. This is the same regardless of which rule is used. However, the partial graph extracted by the partial graph extraction unit 5 based on the inter-word relationship information may not be extracted even if it matches the rule.
  • the rule shown in FIG. 11 will be described as an example.
  • the rule shown in FIG. 11 is that a node having an ⁇ Item> tag and arbitrary text is connected to a node having a ⁇ UL> tag by a link in a predetermined direction.
  • the knowledge adding unit 10 extracts a subgraph that satisfies the above conditions according to the rules shown in FIG.
  • the partial graph extracted by the partial graph extraction unit 5 based on the inter-word relationship information may be excluded from extraction.
  • the knowledge adding unit 10 can obtain three partial graphs illustrated in FIG. 13 from the document structure graph illustrated in FIG. 2 according to the rules illustrated in FIG.
  • the knowledge adding unit 10 also extracts a partial graph from the document structure graph according to the rules for other rules.
  • the knowledge adding unit 10 extracts a new knowledge from the subgraph extracted according to the rule.
  • the knowledge adding unit 10 extracts knowledge that the text corresponding to YYY and the text corresponding to XXX have a relationship in the extracted subgraph.
  • the subgraph extracting unit 5 extracts a subgraph based on the knowledge indicating the is-a relationship
  • the knowledge adding unit 10 extracts the subgraph according to a rule created based on the subgraph. . Therefore, the knowledge adding unit 10 has an is-a relationship between the text corresponding to YYY and the text corresponding to XXX in the extracted subgraph, and the text corresponding to YYY corresponds to the upper hierarchy, and XXX Extract knowledge that the corresponding text corresponds to the lower hierarchy.
  • the text corresponding to XXX and the text corresponding to YYYY are included in nodes at both ends of the subgraph extracted according to the rule.
  • the knowledge adding unit 10 has an is-a relationship between “Researcher” and “Takeoka” from the first subgraph shown in FIG. 13, “Researcher” corresponds to the upper hierarchy, and “Takeoka” Extract new knowledge that falls under the lower hierarchy. This knowledge can be expressed as shown in FIG. 13
  • the knowledge adding unit 10 has an is-a relationship between “Engineer” and “Fukata” from the second subgraph shown in FIG. 13, “Engineer” corresponds to the upper hierarchy, and “Fukata” New knowledge is extracted that "" corresponds to the lower hierarchy. This knowledge can be expressed as shown in FIG.
  • the knowledge adding unit 10 has an is-a relationship between “Engineer” and “Koiwa ⁇ ” from the third subgraph shown in FIG. 13, “Engineer” corresponds to the upper hierarchy, and “Koiwa” New knowledge is extracted that "" corresponds to the lower hierarchy. This knowledge can be expressed as shown in FIG.
  • the knowledge adding unit 10 adds the new knowledge extracted from the partial graph in this way to the inter-word relationship information stored in the inter-word relationship information storage unit 3.
  • FIG. 17 shows the inter-word relationship information after adding new knowledge to the inter-word relationship information shown in FIG. In FIG. 17, nodes and links corresponding to the added knowledge are indicated by broken lines for convenience.
  • the data reading unit 4, the partial graph extracting unit 5, the partial graph counting unit 7, the rule creating unit 8 and the knowledge adding unit 10 are, for example, a computer processor (for example, a CPU (Central Processing Unit)), a GPU that operates according to a knowledge expansion program (Graphics Processing Unit), FPGA (Field-Programmable Gate Array)).
  • the CPU reads a knowledge expansion program from a program recording medium such as a program storage device, and in accordance with the knowledge expansion program, the data reading unit 4, the partial graph extraction unit 5, the partial graph count unit 7, the rule creation unit 8, and the knowledge What is necessary is just to operate
  • a computer processor for example, a CPU (Central Processing Unit)
  • a GPU that operates according to a knowledge expansion program (Graphics Processing Unit), FPGA (Field-Programmable Gate Array)
  • the CPU reads a knowledge expansion program from a program recording medium such as a program storage device, and in accordance with the knowledge expansion program, the data reading unit 4, the partial graph extraction unit
  • 18 and 19 are flowcharts showing an example of processing progress of the knowledge expansion system 1 according to the first embodiment of this invention. In the following description, description of items already described will be omitted as appropriate.
  • the document structure graph is stored in advance in the document structure graph storage unit 2 and the inter-word relationship information is stored in the inter-word relationship information storage unit 3 by the administrator.
  • the data reading unit 4 reads the document structure graph from the document structure graph storage unit 2, and reads the word relationship information from the word relationship information storage unit 3 (step S1).
  • the partial graph extraction unit 5 extracts a pair of two words having a relationship from the inter-word relationship information (step S2).
  • the subgraph extraction unit 5 generates a minimum subgraph having both ends of a node including one of two words having a relationship in the text and a node including the other of the two words in the text.
  • the document structure graph is extracted (step S3).
  • the partial graph extraction unit 5 extracts all of the plurality of partial graphs from the document structure graph.
  • the subgraph extraction unit 5 executes the process of step S3 for each set of words extracted in step S2. Further, the partial graph extraction unit 5 stores each partial graph obtained in step S3 in the partial graph storage unit 6.
  • the subgraph count unit 7 reads each subgraph from the subgraph storage unit 6 and counts the number of subgraphs for each subgraph structure (step S4).
  • the subgraph counting unit 7 selects the structure of the subgraph whose count result in step S4 is equal to or greater than the threshold (step S5).
  • the rule creation unit 8 creates a rule for extracting the partial graph of the structure from the document structure graph based on the partial graph corresponding to the structure for each structure selected in Step S5 (Step S5). S6).
  • the rule creation unit 8 stores the created rules in the rule storage unit 9.
  • the knowledge adding unit 10 reads each rule from the rule storage unit 9, and extracts a subgraph from the document structure graph according to the rule for each rule (step S7).
  • the knowledge adding unit 10 extracts a new knowledge from the partial graph extracted in step S7, and adds the knowledge to the inter-word relationship information stored in the inter-word relationship information storage unit 3 (step S8). .
  • the partial graph extraction unit 5 extracts a partial graph from the document structure graph based on the knowledge indicated by the given inter-word relationship information.
  • the rule creation unit 8 creates a rule for extracting a partial graph having the same structure as the partial graph from the document structure graph.
  • the knowledge adding unit 10 extracts a new subgraph from the document structure graph according to the rule, and adds the knowledge obtained by the subgraph to the given inter-word relationship information. Therefore, the knowledge expansion system 1 can expand the knowledge included in the given inter-word relationship information.
  • the partial graph extracted by the partial graph extraction unit 5 based on the inter-word relation information has a small number of extracted partial graphs having the same structure, the partial graph is obtained from two words. It may not be related to the relationship. In other words, when the number of extracted subgraphs of the same structure is small, the subgraph simply contains two words as text and does not represent the relationship between the two words. There may be no possibility. Even if the rule creation unit 8 creates a rule based on such a subgraph, a rule for deriving appropriate knowledge is not always obtained. In the above embodiment, the subgraph counting unit 7 calculates the number of subgraphs stored in the subgraph storage unit 6 (in other words, the number of subgraphs extracted by the subgraph extracting unit 5).
  • Counting is performed for each structure, and the structure of the subgraph whose count result is equal to or greater than the threshold value is selected. Then, the rule creation unit 8 creates a rule for extracting a partial graph of the structure from the document structure graph for each selected structure. Therefore, a rule for deriving appropriate knowledge can be obtained.
  • the knowledge adding unit 10 extracts a partial graph that matches the rule from the document structure graph, assuming that the portion corresponding to “XXX” and “YYY” in the rule is arbitrary text. . And the knowledge addition part 10 extracts the knowledge that the text applicable to YYY and the text applicable to XXX have a relationship in the extracted partial graph.
  • the text corresponding to YYY or the text corresponding to XXX may be a sentence, for example. In such a case, for example, the knowledge that the text corresponding to YYY and the text corresponding to XXX have an is-a relationship may become unnatural.
  • FIG. 20 and FIG. 21 are schematic diagrams illustrating an example where unnatural knowledge is obtained.
  • the document structure graph shown in FIG. This document structure graph has a node including a sentence “The researchers of this project are as follows.”. Assume that the inter-word relationship information shown in FIG. 4 is given. In this case, the partial graph extraction unit 5 extracts the partial graph shown in FIG. And the rule which the rule preparation part 8 produces based on the partial graph becomes a rule shown to Fig.21 (a).
  • the partial graph extracted from the document structure graph (see FIG. 20A) by the knowledge adding unit 10 according to this rule is the partial graph shown in FIG. From the partial graph shown in FIG. 21B, the knowledge shown in FIG. 21C is obtained.
  • FIG. 21 (c) shows that the word “Takeoka ⁇ ” and the sentence “The researchers of this project are as follows. ⁇ ⁇ ⁇ ⁇ ” are nodes, and that there is an is-a relationship between the two nodes. . It is unnatural that a sentence is included in two nodes having an is-a relationship.
  • the knowledge expansion system according to the second embodiment of the present invention prevents such unnatural knowledge from being obtained.
  • FIG. 22 is a block diagram illustrating a configuration example of the knowledge expansion system according to the second embodiment of this invention.
  • the same elements as those shown in FIG. 1 are denoted by the same reference numerals as those in FIG. 1, and description thereof will be omitted as appropriate.
  • the knowledge expansion system 1 of the second embodiment includes a document structure graph storage unit 2, an inter-word relation information storage unit 3, a data reading unit 4, a partial graph extraction unit 5, a partial graph storage unit 6, a partial graph count unit 7,
  • a preprocessing execution unit 11 is further provided.
  • the preprocessing execution unit 11 performs preprocessing for converting the given document structure graph before the partial graph extraction unit 5 extracts the partial graph from the document structure graph.
  • the preprocessing execution unit 11 when a node in a given document structure graph includes a text having a dependency relationship, the preprocessing execution unit 11 performs dependency analysis on the text, thereby performing the analysis. Divide a node into multiple nodes. Then, the preprocessing execution unit 11 assigns information indicating the type of text element obtained by dependency analysis to each of a plurality of nodes obtained by dividing the nodes as node type information. When the divided node has text, the preprocessing execution unit 11 divides the node into a plurality of nodes so that the text becomes a word.
  • the pre-processing execution unit 11 does not execute the process of dividing into a plurality of nodes for nodes including text that does not have a dependency relationship or nodes that do not include text.
  • FIG. 23 is a schematic diagram illustrating an example of a given document structure graph (that is, a document structure graph before conversion by the preprocessing execution unit 11).
  • the document structure graph shown in FIG. 23 corresponds to the document shown in FIG. That is, the document structure graph shown in FIG. 23 shows the document structure of the document shown in FIG.
  • the preprocessing execution unit 11 does not execute processing for dividing these nodes into a plurality of nodes.
  • the preprocessing execution unit 11 divides the node 31 into a plurality of nodes.
  • FIG. 25 is a schematic diagram showing an example of a document structure graph after the node 31 is divided into a plurality of nodes.
  • a plurality of nodes surrounded by broken lines are a plurality of nodes separated from the node 31 (see FIG. 23).
  • the preprocessing execution unit 11 performs dependency analysis on the text of the node 31, divides the text into individual words, generates nodes including individual words, and connects the nodes including the words. Nodes that do not contain text are also generated, and links that connect the nodes are generated. Then, the preprocessing execution unit 11 assigns information indicating the type of text element obtained by dependency analysis to each generated node as node type information.
  • node type information is described as being represented by a tag.
  • ⁇ Root> tag means the root of a plurality of nodes separated from the node 31.
  • the ⁇ S> tag means the subject.
  • the ⁇ NP> tag means a noun phrase.
  • the ⁇ DT> tag means a determiner.
  • the ⁇ NN> tag means a noun.
  • the ⁇ PP> tag means a particle phrase.
  • the ⁇ IN> tag means a preposition.
  • the ⁇ VP> tag means a verb phrase.
  • the ⁇ VBP> tag means a verb.
  • the ⁇ ADJP> tag means an adjective phrase.
  • the ⁇ RB> tag means an adverb.
  • the ⁇ JJ> tag means an adjective. Note that the node type information given to a plurality of nodes separated from one node is not limited to the example shown in FIG.
  • the preprocessing execution unit 11 is realized by a CPU of a computer that operates according to a knowledge expansion program, for example. Is done.
  • the partial graph extraction unit 5 extracts a partial graph from the pre-processed document structure graph (see FIG. 25) based on the inter-word relationship information shown in FIG. This partial graph is the partial graph shown in FIG.
  • the partial graph counting unit 7 selects the structure of the partial graph shown in FIG.
  • the rule creation unit 8 creates the rules shown in FIG.
  • the knowledge adding unit 10 extracts three partial graphs shown in FIG. 28 from the document structure graph shown in FIG. 25 according to the rule.
  • the knowledge adding unit 10 extracts a new knowledge shown in FIG. 29 from the three partial graphs.
  • the knowledge adding unit 10 may correct it to the singular.
  • the knowledge adding unit 10 corrects “researchers” shown in FIG. 28 to a singular “researcher”.
  • the knowledge adding unit 10 adds the new knowledge shown in FIG. 29 to the given inter-word relationship information (see FIG. 4). As a result, the inter-word relationship information shown in FIG. 30 is obtained.
  • the same effect as the first embodiment can be obtained. Furthermore, in the second embodiment, when the node in the given document structure graph includes text having a dependency relationship, the preprocessing execution unit 11 performs dependency analysis on the text. The node is divided into a plurality of nodes. In addition, the preprocessing execution unit 11 assigns information indicating the type of text element obtained by dependency analysis to each of a plurality of nodes obtained by dividing the nodes as node type information. Therefore, there are no nodes including text having a dependency relationship from the document structure graph. Therefore, according to the second embodiment, it is possible to prevent an unnatural knowledge as illustrated in FIG. 21C from being derived as a new knowledge. According to the second embodiment, appropriate knowledge as illustrated in FIG. 29 can be obtained as new knowledge.
  • FIG. 3 The knowledge expansion system according to the third embodiment of the present invention prevents unnatural knowledge as illustrated in FIG. This point is the same as in the second embodiment.
  • Document structure graph storage unit 2 word relationship information storage unit 3, data reading unit 4, partial graph extraction unit 5, partial graph storage unit 6, partial graph count unit 7, rule creation unit 8 and rules in the third embodiment
  • the storage unit 9 is the same as those elements in the first embodiment.
  • the knowledge adding unit 10 in the third embodiment extracts a partial graph from the document structure graph for each rule according to the rule. At this time, the knowledge adding unit 10 extracts a partial graph that matches the rule from the document structure graph, assuming that a portion corresponding to “XXX” and “YYY” in the rule is an arbitrary text. This is also the same as in the first embodiment. Note that the text corresponding to XXX and the text corresponding to YYY are included in nodes at both ends of the subgraph extracted according to the rule.
  • the text corresponding to XXX or the text corresponding to YYY may have a dependency relationship.
  • the partial graph extracted by the knowledge adding unit 10 according to the rule may be the partial graph illustrated in FIG.
  • the knowledge adding unit 10 extracts nouns from the text corresponding to XXX and the text corresponding to YYY in the subgraph extracted according to the rule. At this time, when the text corresponding to XXX and the text corresponding to YYY include particle particles, the knowledge adding unit 10 extracts nouns not included in the particle phrases from the text. Then, the knowledge adding unit 10 extracts a knowledge that the noun extracted from the text corresponding to YYY and the text corresponding to XX have a relationship as a new knowledge, and adds the new knowledge to the inter-word relationship information. To do.
  • the knowledge adding unit 10 extracts the noun extracted from the text corresponding to YYY and the text corresponding to XXX. What is necessary is just to extract the knowledge that a noun has an is-a relationship as a new knowledge. At this time, the knowledge adding unit 10 determines that the noun extracted from the text corresponding to YYY corresponds to the upper hierarchy in the is-a relationship, and the noun extracted from the text corresponding to XXX corresponds to the lower hierarchy in the is-a relationship. judge.
  • the given inter-word relationship information is assumed to be inter-word relationship information shown in FIG. It is assumed that the knowledge adding unit 10 extracts a partial graph illustrated in FIG. In this case, the text corresponding to XXX in the rule is “Takeoka”, and the text corresponding to YYY is a sentence “The researchers of this project are as follows.”. The knowledge adding unit 10 extracts the noun “Takeoka” from the text “Takeoka” corresponding to XXX. The knowledge adding unit 10 also extracts nouns from the text “The researchers of this project are as follows.” Corresponding to YYY.
  • the knowledge adding unit 10 extracts a noun “researchers” that is not included in the particle phrase. When the extracted noun is plural, the knowledge adding unit 10 may correct it to the singular. In this example, the knowledge adding unit 10 extracts “researchers” and corrects it to the singular “researcher”.
  • the knowledge adding unit 10 has an is-a relationship between the noun “researcher” extracted from the text corresponding to YYY and the noun “Takeoka” extracted from the text corresponding to XXX, and the text corresponding to YYY.
  • a new knowledge is extracted that the noun “researcher” extracted from the above corresponds to the upper hierarchy and the noun “Takeoka” extracted from the text corresponding to XXX corresponds to the lower hierarchy.
  • This knowledge can be expressed as shown in FIG.
  • the knowledge adding unit 10 adds this new knowledge to the given inter-word relationship information (see FIG. 4). As a result, the inter-word relationship information is as shown in FIG.
  • the knowledge addition part 10 extracts a noun from the text applicable to XXX and the text applicable to YYY from the partial graph extracted according to the rule. Then, the knowledge adding unit 10 obtains a new knowledge that the nouns have a relationship. Therefore, it is possible to prevent unnatural knowledge as illustrated in FIG. 21C from being derived as new knowledge.
  • FIG. 32 is a schematic block diagram showing a configuration example of a computer according to each embodiment of the present invention.
  • the computer 1000 includes a CPU 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.
  • the knowledge expansion system 1 according to each embodiment of the present invention is implemented in a computer 1000.
  • the operation of the knowledge expansion system 1 is stored in the auxiliary storage device 1003 in the form of a knowledge expansion program.
  • the CPU 1001 reads the knowledge expansion program from the auxiliary storage device 1003 and expands it in the main storage device 1002, and executes the processes described in the above embodiments according to the knowledge expansion program.
  • the auxiliary storage device 1003 is an example of a tangible medium that is not temporary.
  • Other examples of non-temporary tangible media include magnetic disks, magneto-optical disks, CD-ROMs (Compact Disk Read Only Memory), DVD-ROMs (Digital Versatile Disk Read Only Memory) connected via the interface 1004, Semiconductor memory etc. are mentioned.
  • the computer 1000 that has received the distribution may develop the program in the main storage device 1002 and execute the above processing.
  • the program may be for realizing a part of the above-described processing.
  • the program may be a differential program that realizes the above-described processing in combination with another program already stored in the auxiliary storage device 1003.
  • circuitry IV circuitry IV
  • processors or combinations thereof. These may be configured by a single chip or may be configured by a plurality of chips connected via a bus. Part or all of each component may be realized by a combination of the above-described circuit and the like and a program.
  • the plurality of information processing devices and circuits may be centrally arranged or distributedly arranged.
  • the information processing apparatus, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client and server system and a cloud computing system.
  • FIG. 33 is a block diagram showing an outline of the knowledge expansion system of the present invention.
  • the knowledge expansion system of the present invention includes a partial graph extraction unit 71, a rule creation unit 72, and a knowledge addition unit 73.
  • the partial graph extracting means 71 (for example, the partial graph extracting unit 5) is a part that is a part of the document structure graph from the document structure graph indicating the document structure based on the inter-word relationship information indicating the relationship between words. Extract the graph.
  • the rule creation means 72 (for example, the rule creation unit 8) creates a rule for extracting a partial graph having the same structure as the partial graph from the document structure graph.
  • Knowledge adding means 73 extracts a partial graph from the document structure graph according to the rule, and adds information indicated by the partial graph to the inter-word relationship information.
  • the knowledge included in the inter-word relationship information can be expanded based on the document structure graph indicating the document structure and the inter-word relationship information.
  • the number of subgraphs extracted by the subgraph extracting unit 71 is counted for each subgraph structure, and a subgraph counting unit (for example, a partial graph) that selects a subgraph structure whose count result is equal to or greater than a threshold value. It may be configured to include a graph counting unit 7), and the rule creation means 72 creates a rule for extracting a partial graph of the structure from the document structure graph based on the partial graph of the selected structure.
  • a subgraph counting unit for example, a partial graph
  • the document structure graph includes a node having node type information indicating the type of the node
  • the node in the given document structure graph includes text having a dependency relationship
  • the text By performing dependency analysis, the node is divided into a plurality of nodes, and information indicating the type of text element obtained by dependency analysis is assigned to each of the plurality of nodes as node type information.
  • Preprocessing execution means for example, the preprocessing execution unit 11
  • the partial graph extraction means 71 has two relations based on the inter-word relationship information from the document structure graph after the preprocessing.
  • a node in the document structure graph containing one of the words in the text and a document structure graph containing the other of the two words in the text And the node may be configured to extract a subgraph to both ends.
  • a partial graph having both ends of the node in the structure graph and the node in the document structure graph including the other of the two words in the text is extracted, and the knowledge adding unit 73 extracts the partial graph from the document structure graph according to the rule.
  • the configuration may be such that nouns in the text included in the nodes at both ends of the subgraph are extracted, and information that the nouns obtained from the nodes at both ends have a relationship is added to the inter-word relationship information.
  • the present invention can be suitably applied to a knowledge expansion system that expands the knowledge included in the inter-word relationship information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

部分グラフ抽出手段71は、単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、文書構造グラフの一部である部分グラフを抽出する。ルール作成手段72は、文書構造グラフから、部分グラフと同じ構造の部分グラフを抽出するためのルールを作成する。ナレッジ追加手段73は、ルールに従って、文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を単語間関係情報に追加する。

Description

ナレッジ拡充システム、方法およびプログラム
 本発明は、単語と単語との関係を示す単語間関係情報に含まれるナレッジを拡充するナレッジ拡充システム、ナレッジ拡充方法およびナレッジ拡充プログラムに関する。
 単語間関係情報は、単語をノードとし、単語と単語との関係をナレッジとして示す情報である。例えば、単語間関係情報は、知識ベースや概念辞書を指している。図34は、単語間関係情報の例を示す模式図である。図34に示すように、単語間関係情報はグラフとして表される。図34に例示する単語間関係情報に含まれているノードは、単語を表す。また、関係を有する単語同士はリンクで接続され、そのリンクには、その関係の種別が付与される。図34に示す例では、全てのリンクに「is-a」という種別が付与されている。すなわち、各リンクは、リンクによって接続されている2つの単語の関係がis-a関係であることを示している。ただし、リンクが示す単語間の関係は、is-a関係に限定されない。例えば、単語間の関係が「synonym 」であることを示すナレッジが単語間関係情報に含まれていてもよい。また、is-a関係は、要素(本例では、単語)の階層を表し、リンクにおいて、上位階層側にはアローヘッドが付加され、下位階層側にはアローヘッドは付加されない。なお、図34に例示する“Oyamada ”,“Hanafusa”,“Takeoka ”,“Fukata”は、人名である。
 また、非特許文献1には、意味に関する関係性を抽出する技術が記載されている。
 また、特許文献1には、文書の見出しの階層関係によりis-a関係を抽出する装置が記載されている。
 また、非特許文献2には、大きなグラフのデータベースから、頻出するサブグラフを見つける技術が記載されている。
特開2009-140056号公報
Patrick Pantel, Marco Pennacchiotti, "Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relation", Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 113-120, July 2006. Michihiro Kuramochi, George Karypis, "Frequent Subgraph Discovery", IEEE, 2001
 単語間関係情報には、その単語間関係情報を利用しようとする者の所望のナレッジが含まれているとは限らない。そのため、新たなノードやリンクを単語間関係情報に追加することによって、単語間関係情報が示すナレッジを拡充することが好ましい。
 本発明の発明者は、単語間関係情報が示すナレッジを拡充する方法として、以下に示す一般的な技術を想定した。
 この一般的な技術では、文章で記載された文書と、単語間関係情報とが与えられる。与えられた単語間関係情報が示すナレッジを「既知のナレッジ」と記す。ここでは、図35に示す文書が与えられた場合を例にして説明する。また、図36に示す単語間関係情報が与えられた場合を例にして説明する。
 この一般的な技術では、まず、与えられた文書から、既知のナレッジを含むセンテンスを抽出する。本例では、図35に示す文書から、第1センテンスおよび第2センテンスを抽出する。すなわち、図37に示す2つのセンテンスを抽出する。
 さらに、抽出された各センテンスから、共通の文字パターンを抽出する。このとき、文字パターンにおいて、既知のナレッジが示す単語は符号に置き換える。ここでは、抽出されたセンテンスに含まれる単語(既知のナレッジが示す単語)が、下位階層の単語であれば、その単語を符号“XXX”に置き換えるものとする。同様に、抽出されたセンテンスに含まれる単語(既知のナレッジが示す単語)が、上位階層の単語であれば、その単語を符号“YYY”に置き換えるものとする。
 本例では、図37に示す各センテンスから共通の文字パターンとして、“XXX is a YYY.”という文字パターンを抽出する。この文字パターンは、与えられた文書(図35参照)から新たなナレッジを抽出するためのルールである。
 次に、上記のルールを、与えられた文書(図35参照)に適用して、新たなナレッジを表すセンテンスを抽出する。すなわち、上記のルールに合致するセンテンスを、与えられた文書から抽出する。このとき、既知のナレッジを含むセンテンスは、抽出しなくてよい。本例では、ルールに従って、図38に示す2つのセンテンスが抽出される。なお、本例では、“a ”と“an”を同一の文字と見なしている。
 次に、ルールに基づいて抽出されたセンテンスが示すナレッジを、与えられた単語間関係情報に追加する。この結果、図39に示す単語間関係情報が得られる。図39では、追加されたノードおよびリンクを破線で示している。この結果、単語間関係情報が示すナレッジが拡充される。
 しかし、文書は、例えば、箇条書き、見出し、表等の文書構造を持ち得る。上記の一般的な技術では、文章で記載された文書から既知のナレッジを含むセンテンスを抽出する。そのため、文書構造を有しているが、センテンスとして記述されていない文書からは、既知のナレッジを含むセンテンスを適切に抽出することができない。例えば、図40に例示する箇条書きの文書が与えられたとする。図40に示す2行目以外はセンテンスになっていない。図40に示す2行目以降において、1つの単語を1つのセンテンスと見なすと、図40に示す文書は、図41のように表される。しかし、1つの単語を1つのセンテンスと見なしたとしても、既知のナレッジを含むセンテンスを抽出することはできない。そのため、箇条書きのような文書構造を有する文書が与えられた場合には、単語間関係情報が示すナレッジを拡充することはできない。
 本来、文書構造を有する文書は、例えば、上位階層と下位階層の関係等を表しているので、新たなナレッジを得るために利用できることが好ましい。しかし、上記の一般的な技術では、文書構造を有する文書に基づいて単語間関係情報を拡充することはできない。
 そこで、本発明は、文書構造を示す文書構造グラフと、単語間関係情報とに基づいて、その単語間関係情報に含まれるナレッジを拡充することができるナレッジ拡充システム、ナレッジ拡充方法およびナレッジ拡充プログラムを提供することを目的とする。
 本発明によるナレッジ拡充システムは、単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、文書構造グラフの一部である部分グラフを抽出する部分グラフ抽出手段と、文書構造グラフから、部分グラフと同じ構造の部分グラフを抽出するためのルールを作成するルール作成手段と、ルールに従って、文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を単語間関係情報に追加するナレッジ追加手段とを備えることを特徴とする。
 また、本発明によるナレッジ拡充方法は、単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、文書構造グラフの一部である部分グラフを抽出し、文書構造グラフから、部分グラフと同じ構造の部分グラフを抽出するためのルールを作成し、ルールに従って、文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を単語間関係情報に追加することを特徴とする。
 また、本発明によるナレッジ拡充プログラムは、コンピュータに、単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、文書構造グラフの一部である部分グラフを抽出する部分グラフ抽出処理、文書構造グラフから、部分グラフと同じ構造の部分グラフを抽出するためのルールを作成するルール作成処理、および、ルールに従って、文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を単語間関係情報に追加するナレッジ追加処理を実行させることを特徴とする。
 本発明によれば、文書構造を示す文書構造グラフと、単語間関係情報とに基づいて、その単語間関係情報に含まれるナレッジを拡充することができる。
本発明の第1の実施形態のナレッジ拡充システムの構成例を示すブロック図である。 文書構造グラフの例を示す模式図である。 図2に示す文書構造グラフに対応する文書を示す模式図である。 単語間関係情報の例を示す模式図である。 文書構造グラフから抽出される部分グラフの例を示す模式図である。 文書構造グラフに包含されているグラフの一例を示す模式図である。 図6に示すグラフから抽出される部分グラフの例を示す模式図である。 文書構造グラフに包含されているグラフの一例を示す模式図である。 図8に示すグラフに対応する、文書内の表を示す模式図である。 図8に示すグラフから抽出される部分グラフの例を示す模式図である。 ルールの例を示す模式図である。 ルールの例を示す模式図である。 ルールに従って抽出される部分グラフの例を示す模式図である。 図13に示す1番目の部分グラフから得られる新たなナレッジを示す模式図である。 図13に示す2番目の部分グラフから得られる新たなナレッジを示す模式図である。 図13に示す3番目の部分グラフから得られる新たなナレッジを示す模式図である。 新たなナレッジを追加した後の単語間関係情報の例を示す模式図である。 本発明の第1の実施形態のナレッジ拡充システムの処理経過の例を示すフローチャートである。 本発明の第1の実施形態のナレッジ拡充システムの処理経過の例を示すフローチャートである。 不自然なナレッジが得られる場合の例を示す模式図である。 不自然なナレッジが得られる場合の例を示す模式図である。 本発明の第2の実施形態のナレッジ拡充システムの構成例を示すブロック図である。 変換前の文書構造グラフの例を示す模式図である。 図23に示す文書構造グラフに対応する文書を示す模式図である。 変換後の文書構造グラフの例を示す模式図である。 図25に示すグラフから抽出される部分グラフの例を示す模式図である。 ルールの例を示す模式図である。 ルールに従って抽出される部分グラフの例を示す模式図である。 図28に示す部分グラフから得られる新たなナレッジを示す模式図である。 新たなナレッジを追加した後の単語間関係情報の例を示す模式図である。 新たなナレッジを追加した後の単語間関係情報の例を示す模式図である。 本発明の各実施形態に係るコンピュータの構成例を示す概略ブロック図である。 本発明のナレッジ拡充システムの概要を示すブロック図である。 単語間関係情報の例を示す模式図である。 一般的な技術において、与えられる文書の例を示す模式図である。 一般的な技術において、与えられる単語間関係情報の例を示す模式図である。 一般的な技術において、文書から抽出されたセンテンスの例を示す模式図である。 一般的な技術において、ルールに基づいて抽出されたセンテンスの例を示す模式図である。 一般的な技術において、新たなナレッジが追加された単語間関係情報の例を示す模式図である。 箇条書きの文書の例を示す模式図である。 箇条書きにおける1つの単語を1つのセンテンスと見なした場合の例を示す模式図である。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 図1は、本発明の第1の実施形態のナレッジ拡充システムの構成例を示すブロック図である。第1の実施形態のナレッジ拡充システム1は、文書構造グラフ記憶部2と、単語間関係情報記憶部3と、データ読み込み部4と、部分グラフ抽出部5と、部分グラフ記憶部6と、部分グラフカウント部7と、ルール作成部8と、ルール記憶部9と、ナレッジ追加部10とを備える。
 文書構造グラフ記憶部2は、文書構造グラフを記憶する記憶装置である。文書構造グラフは、文書構造を示すグラフである。図2は、文書構造グラフの例を示す模式図である。図2に例示する文書構造グラフとして表される文書は、通常の文書として人間に閲覧される場合には、図3に例示する文書として閲覧される。すなわち、図2に示す文書構造グラフは、図3に示す文書の文書構造を示している。
 文書構造グラフは、複数のノードを含んでいる。図2において四角形で示した部分がそれぞれノードに該当する。個々のノードは、少なくとも、ノードの種類を示すノード種類情報を含んでいる。各実施形態では、ノード種類情報はタグで表されるものとして説明する。図2に示す“<Document>”は、文書を意味する。“<Paragraph> ”は、段落を意味する。“<UL>”は、順序付けされていないリスト(Unordered List)を意味する。“<Item>”は、語句を意味する。なお、ノード種類情報は、図2に示す各タグに限定されない。文書構造に応じたタグが、文書構造グラフ内のノードで用いられてよい。
 また、個々のノードが、ノード種類情報に加えて、さらに、テキストを含む場合もある。図2に示す例では、ノード種類情報として<Item>タグを有するノード、および、ノード種類情報として<Paragraph> タグを有するノードがテキストを含んでいる。
 また、関連するノードは、リンクによって接続される(図2参照)。
 文書構造グラフ記憶部2には、予め、ナレッジ拡充システム1の管理者(以下、単に管理者と記す。)によって、文書構造グラフが記憶される。
 また、文書構造グラフの一部分に該当するグラフを部分グラフと記す。
 単語間関係情報記憶部3は、単語間関係情報を記憶する記憶装置である。既に説明したように、単語間関係情報は、単語をノードとし、単語と単語との関係をナレッジとして示す情報であり、グラフとして表される。単語間関係情報に含まれているノードは単語を表す。また、関係を有する単語同士はリンクで接続され、そのリンクには、その関係の種別が付与される。また、リンクにおいて、上位階層側にはアローヘッドが付加され、下位階層側にはアローヘッドは付加されない。単語間関係情報記憶部3には、予め、管理者によって単語間関係情報が記憶される。単語間関係情報記憶部3が記憶する単語間関係情報は、一般に公開されている単語間関係情報であっても、あるいは、管理者が作成した単語間関係情報であってもよい。
 ここでは、説明を簡単にするため、図4に例示する単語間関係情報が単語間関係情報記憶部3に記憶されている場合を例にして説明する。
 データ読み込み部4は、文書構造グラフ記憶部2から文書構造グラフを読み込み、単語間関係情報記憶部3から単語間関係情報を読み込む。
 部分グラフ抽出部5は、単語間関係情報から、関係を有する2つの単語の組をそれぞれ抽出する。例えば、部分グラフ抽出部5は、図4に示す単語間関係情報から、is-a関係を有する2つの単語“Oyamada ”および“Researcher”の組と、is-a関係を有する2つの単語“Hanafusa”および“Researcher”の組をそれぞれ抽出する。
 さらに、部分グラフ抽出部5は、関係を有する2つの単語のうちの一方をテキストに含むノードと、その2つの単語のうちのもう一方をテキストに含むノードとを両端とする最小の部分グラフを、文書構造グラフから抽出する。
 例えば、is-a関係を有する2つの単語“Oyamada ”および“Researcher”の組に着目した場合、部分グラフ抽出部5は、“Oyamada ”をテキストに含むノードと、“Researcher”をテキストに含むノードとを両端とする最小の部分グラフを、文書構造グラフから抽出する。同様に、is-a関係を有する2つの単語“Hanafusa”および“Researcher”の組に着目した場合、部分グラフ抽出部5は、“Hanafusa”をテキストに含むノードと、“Researcher”をテキストに含むノードとを両端とする最小の部分グラフを、文書構造グラフから抽出する。図5は、このようにして得られた部分グラフを示す模式図である。
 部分グラフ抽出部5が抽出する部分グラフは、図5に例示する構造に限定されない。
 例えば、文書構造グラフが、図6に示すグラフを包含しているとする。なお、図6に示す“<Header1>”は、大見出しを意味し、“<Header2>”は、小見出しを意味する。また、“Title”は、タイトルを意味する。図6において、“・・・”は、具体的なテキストの図示を省略していることを表している。文書構造グラフが、図6に示すグラフを包含している場合、部分グラフ抽出部5は、さらに、“Oyamada ”をテキストに含むノードと、“Researcher”をテキストに含むノードとを両端とする最小の部分グラフとして、図7に例示する部分グラフも抽出する。
 また、例えば、文書構造グラフが、図8に示すグラフを包含しているとする。なお、図8に示すグラフは、図9に示す表に対応する。文書構造グラフが図8に示すグラフを包含しているということは、文書が図9に示す表を包含しているということを意味する。また、図8に示す“<Table> ”は、表の名を意味し、“<Column> ”は、表内の列名を意味する。また、“<Cell>”は、表内のセルを意味する。この場合、部分グラフ抽出部5は、“Oyamada ”をテキストに含むノードと、“Researcher”をテキストに含むノードとを両端とする最小の部分グラフを、図8に示すグラフからも抽出する。また、部分グラフ抽出部5は、“Hanafusa”をテキストに含むノードと、“Researcher”をテキストに含むノードとを両端とする最小の部分グラフを、図8に示すグラフからも抽出する。この結果、図10に示す部分グラフが得られる。
 図5に示す部分グラフ、図7に示す部分グラフ、および、図10に示す部分グラフは、それぞれ、部分グラフの構造が異なる。ただし、いずれの構造においても、それぞれの部分グラフは、両端のノードの一方に、関係を有する2つの単語の一方を含むテキストを有し、両端のノードのもう一方に、関係を有する2つの単語のもう一方を含むテキストを有している。
 以下の説明では、部分グラフ抽出部5が、図5に示す部分グラフ、図7に示す部分グラフ、および、図10に示す部分グラフをそれぞれ抽出した場合を例にして説明する。部分グラフ抽出部5は、文書構造グラフから抽出した部分グラフを部分グラフ記憶部6に記憶させる。部分グラフ記憶部6は、部分グラフ抽出部5が文書構造グラフから抽出した部分グラフを記憶する記憶装置である。
 部分グラフカウント部7は、部分グラフ記憶部6からそれぞれの部分グラフを読み込む。そして、部分グラフカウント部7は、部分グラフの構造毎に、部分グラフの数をカウントする。
 例えば、図5に示す部分グラフは、<Item>タグと、単語間関係情報における上位階層の単語を含むテキストとを有するノードが、所定の向きのリンクによって、<UL>タグを有するノードに接続され、さらに、そのノードが、所定の向きのリンクによって、<Item>タグと、単語間関係情報における下位階層の単語を含むテキストとを有するノードに接続されるという構造になっている。部分グラフカウント部7は、部分グラフ記憶部6から読み込んだ部分グラフのうち、この構造の部分グラフの数をカウントする。
 また、例えば、図7に示す部分グラフは、<Header1> タグと、単語間関係情報における上位階層の単語を含むテキストとを有するノードが、所定の向きのリンクによって、<Header2> タグと、単語間関係情報における下位階層の単語を含むテキストとを有するノードに接続されるという構造になっている。部分グラフカウント部7は、部分グラフ記憶部6から読み込んだ部分グラフのうち、この構造の部分グラフの数をカウントする。
 また、例えば、図10に示す部分グラフは、<Table> タグと、単語間関係情報における上位階層の単語を含むテキストとを有するノードが、所定の向きのリンクによって、<Column>タグおよびテキスト“Name”を有するノードに接続され、さらに、そのノードが、所定の向きのリンクによって、<Cell>タグと、単語間関係情報における下位階層の単語を含むテキストとを有するノードに接続されるという構造になっている。部分グラフカウント部7は、部分グラフ記憶部6から読み込んだ部分グラフのうち、この構造の部分グラフの数をカウントする。
 このように、部分グラフカウント部7は、部分グラフ抽出部5が抽出した部分グラフの数を、部分グラフの構造毎にカウントする。
 そして、部分グラフカウント部7は、カウント結果が閾値以上となっている部分グラフの構造を選択する。閾値は、予め定数として定めておけばよい。本例では、部分グラフカウント部7は、図5に示す構造、および、図10に示す構造を選択した場合を例にして説明する。
 ルール作成部8は、部分グラフと同じ構造の部分グラフを、文書構造グラフから抽出するためのルールを作成する。本実施形態では、ルール作成部8は、部分グラフカウント部7によって選択された構造毎に、その構造に該当する部分グラフに基づいて、その構造の部分グラフを文書構造グラフから抽出するためのルールを作成する。
 本例では、部分グラフの構造として、図5に示す構造、および、図10に示す構造が、部分グラフカウント部7によって選択されている。
 この場合、ルール作成部8は、図5に示す構造と同じ構造の部分グラフを文書構造グラフから抽出するためのルールを作成する。このとき、ルール作成部8は、図5に示す構造に該当する部分グラフを1つ取り出す。どの部分グラフを取り出しても、次に説明する置き換え処理の結果は、同じになる。従って、ルール作成部8は、図5に示す構造に該当する部分グラフの中から任意に1つの部分グラフを取り出せばよい。ルール作成部8は、その部分グラフにおいて、単語間関係情報における下位階層の単語を含むテキストを、第1の所定の符号(本例では、“XXX”とする。)に置き換える。また、ルール作成部8は、その部分グラフにおいて、単語間関係情報における上位階層の単語を含むテキストを、所定の符号(本例では、“YYY”とする。)に置き換える。この置き換え処理の結果が、図5に示す構造と同じ構造の部分グラフを文書構造グラフから抽出するためのルールとなる。本例では、ルール作成部8は、上記の置き換え処理によって、図11に示すルールを作成する。
 同様に、ルール作成部8は、図10に示す構造と同じ構造の部分グラフを文書構造グラフから抽出するためのルールを作成する。このとき、ルール作成部8は、図10に示す構造に該当する部分グラフを1つ取り出す。どの部分グラフを取り出しても、上述のような置き換え処理の結果は、同じになる。従って、ルール作成部8は、図10に示す構造に該当する部分グラフの中から任意に1つの部分グラフを取り出せばよい。ルール作成部8は、その部分グラフにおいて、単語間関係情報における下位階層の単語を含むテキストを、第1の所定の符号(本例では、“XXX”とする。)に置き換える。また、ルール作成部8は、その部分グラフにおいて、単語間関係情報における上位階層の単語を含むテキストを、所定の符号(本例では、“YYY”とする。)に置き換える。この置き換え処理の結果が、図10に示す構造と同じ構造の部分グラフを文書構造グラフから抽出するためのルールとなる。本例では、ルール作成部8は、上記の置き換え処理によって、図12に示すルールを作成する。
 ルール作成部8は、作成した各ルールをルール記憶部9に記憶させる。ルール記憶部9は、ルール作成部8によって作成されたルールを記憶する記憶装置である。
 ナレッジ追加部10は、ルール作成部8によって作成された各ルールを、ルール記憶部9から読み込む。そして、ナレッジ追加部10は、ルール毎に、ルールに従って、文書構造グラフから部分グラフを抽出する。このとき、ナレッジ追加部10は、ルール内の“XXX”,“YYY”に相当する箇所が任意のテキストであるものとして、ルールに合致する部分グラフを、文書構造グラフから抽出する。この点は、どのルールを用いる場合においても、同様である。ただし、部分グラフ抽出部5が単語間関係情報に基づいて抽出した部分グラフは、ルールに合致していても、抽出しなくてよい。
 ここでは、図11に示すルールを例にして説明する。図11に示すルールは、「<Item>タグと任意のテキストとを有するノードが、所定の向きのリンクによって、<UL>タグを有するノードに接続され、さらに、そのノードが、所定の向きのリンクによって、<Item>タグと任意のテキストとを有するノードに接続されている」という条件を満たす部分グラフを抽出することを表している。ナレッジ追加部10は、図11に示すルールに従って、上記の条件を満たす部分グラフを抽出する。ただし、前述のように、部分グラフ抽出部5が単語間関係情報に基づいて抽出した部分グラフに関しては、抽出の対象外としてよい。
 図11に示すルールに従って、ナレッジ追加部10は、図2に例示する文書構造グラフから、図13に示す3つの部分グラフを得ることができる。
 ナレッジ追加部10は、他のルールに関しても、ルールに従って、文書構造グラフから部分グラフを抽出する。
 さらに、ナレッジ追加部10は、ルールに従って抽出した部分グラフから、新たなナレッジを抽出する。ナレッジ追加部10は、抽出した部分グラフにおいて、YYYに該当するテキストと、XXXに該当するテキストとが関係を有するというナレッジを抽出する。本例では、is-a関係を示すナレッジに基づいて部分グラフ抽出部5が部分グラフを抽出し、その部分グラフに基づいて作成されたルールに従って、ナレッジ追加部10が部分グラフを抽出している。従って、ナレッジ追加部10は、抽出した部分グラフにおいて、YYYに該当するテキストと、XXXに該当するテキストとがis-a関係を有し、YYYに相当するテキストが上位階層に該当し、XXXに該当するテキストが下位階層に該当するというナレッジを抽出する。なお、XXXに該当するテキストやYYYに該当するテキストは、ルールに従って抽出した部分グラフにおける両端のノードに含まれている。
 例えば、ナレッジ追加部10は、図13に示す1番目の部分グラフから、“Researcher”と“Takeoka”とがis-a関係を有し、“Researcher”が上位階層に該当し、“Takeoka”が下位階層に該当するという、新たなナレッジを抽出する。このナレッジは、図14に示すように表すことができる。
 また、例えば、ナレッジ追加部10は、図13に示す2番目の部分グラフから、“Engineer”と“Fukata”とがis-a関係を有し、“Engineer”が上位階層に該当し、“Fukata”が下位階層に該当するという、新たなナレッジを抽出する。このナレッジは、図15に示すように表すことができる。
 また、例えば、ナレッジ追加部10は、図13に示す3番目の部分グラフから、“Engineer”と“Koiwa ”とがis-a関係を有し、“Engineer”が上位階層に該当し、“Koiwa ”が下位階層に該当するという、新たなナレッジを抽出する。このナレッジは、図16に示すように表すことができる。
 ナレッジ追加部10は、このようにして部分グラフから抽出した新たなナレッジを、単語間関係情報記憶部3に記憶されている単語間関係情報に追加する。図4に示す単語間関係情報に新たなナレッジを追加した後の単語間関係情報を、図17に示す。図17では、追加されたナレッジに該当するノードおよびリンクを、便宜的に破線で示している。
 データ読み込み部4、部分グラフ抽出部5、部分グラフカウント部7、ルール作成部8およびナレッジ追加部10は、例えば、ナレッジ拡充プログラムに従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array ))によって実現される。この場合、CPUが、プログラム記憶装置等のプログラム記録媒体からナレッジ拡充プログラムを読み込み、そのナレッジ拡充プログラムに従って、データ読み込み部4、部分グラフ抽出部5、部分グラフカウント部7、ルール作成部8およびナレッジ追加部10として動作すればよい。
 次に、第1の実施形態の処理経過について説明する。図18および図19は、本発明の第1の実施形態のナレッジ拡充システム1の処理経過の例を示すフローチャートである。以下の説明では、既に説明した事項については、適宜、説明を省略する。
 なお、予め、管理者によって、文書構造グラフが文書構造グラフ記憶部2に記憶され、単語間関係情報が単語間関係情報記憶部3に記憶されているものとする。
 まず、データ読み込み部4が、文書構造グラフ記憶部2から文書構造グラフを読み込み、単語間関係情報記憶部3から単語間関係情報を読み込む(ステップS1)。
 次に、部分グラフ抽出部5が、その単語間関係情報から、関係を有する2つの単語の組をそれぞれ抽出する(ステップS2)。
 さらに、部分グラフ抽出部5が、関係を有する2つの単語のうちの一方をテキストに含むノードと、その2つの単語のうちのもう一方をテキストに含むノードとを両端とする最小の部分グラフを、文書構造グラフから抽出する(ステップS3)。部分グラフ抽出部5は、抽出すべき部分グラフが複数存在する場合には、その複数の部分グラフを全て文書構造グラフから抽出する。また、部分グラフ抽出部5は、ステップS3の処理を、ステップS2で抽出された単語の組毎に実行する。また、部分グラフ抽出部5は、ステップS3で得た各部分グラフを、部分グラフ記憶部6に記憶させる。
 次に、部分グラフカウント部7が、部分グラフ記憶部6からそれぞれの部分グラフを読み込み、部分グラフの構造毎に、部分グラフの数をカウントする(ステップS4)。
 さらに、部分グラフカウント部7が、ステップS4におけるカウント結果が閾値以上となっている部分グラフの構造を選択する(ステップS5)。
 次に、ルール作成部8が、ステップS5で選択された構造毎に、その構造に該当する部分グラフに基づいて、その構造の部分グラフを文書構造グラフから抽出するためのルールを作成する(ステップS6)。ルール作成部8は、作成した各ルールを、ルール記憶部9に記憶させる。
 次に、ナレッジ追加部10が、各ルールをルール記憶部9から読み込み、ルール毎に、ルールに従って、文書構造グラフから部分グラフを抽出する(ステップS7)。
 そして、ナレッジ追加部10が、ステップS7で抽出した部分グラフから新たなナレッジを抽出し、そのナレッジを、単語間関係情報記憶部3に記憶されている単語間関係情報に追加する(ステップS8)。
 本実施形態によれば、部分グラフ抽出部5が、与えられた単語間関係情報が示すナレッジに基づいて、文書構造グラフから部分グラフを抽出する。そして、ルール作成部8が、部分グラフと同じ構造の部分グラフを文書構造グラフから抽出するためのルールを作成する。さらに、ナレッジ追加部10が、そのルールに従って文書構造グラフから新たな部分グラフを抽出し、その部分グラフによって得られるナレッジを、与えられた単語間関係情報に追加する。従って、ナレッジ拡充システム1は、与えられた単語間関係情報に含まれるナレッジを拡充することができる。
 また、単語間関係情報に基づいて部分グラフ抽出部5によって抽出された部分グラフであっても、抽出された同一構造の部分グラフの数が少ない場合には、その部分グラフは、2つの単語の関係とは関連していない可能性がある。すなわち、抽出された同一構造の部分グラフの数が少ない場合には、その部分グラフは、単に、2つの単語をテキストとして含んでいるだけであって、2つの単語の関係を表しているわけではない可能性があると考えられる。このような部分グラフに基づいて、ルール作成部8がルールを作成したとしても、適切なナレッジを導出するためのルールが得られるとは限らない。上記の実施形態では、部分グラフカウント部7は、部分グラフ記憶部6に記憶された部分グラフの数(換言すれば、部分グラフ抽出部5によって抽出された部分グラフの数)を、部分グラフの構造毎にカウントし、カウント結果が閾値以上となっている部分グラフの構造を選択する。そして、ルール作成部8は、選択された構造毎に、その構造の部分グラフを文書構造グラフから抽出するためのルールを作成する。従って、適切なナレッジを導出するためのルールを得ることができる。
実施形態2.
 第1の実施形態では、ナレッジ追加部10は、ルール内の“XXX”,“YYY”に相当する箇所が任意のテキストであるものとして、ルールに合致する部分グラフを、文書構造グラフから抽出する。そして、ナレッジ追加部10は、抽出した部分グラフにおいて、YYYに該当するテキストと、XXXに該当するテキストとが関係を有するというナレッジを抽出する。このとき、YYYに該当するテキストや、XXXに該当するテキストが、例えば、センテンス等である場合がある。そのような場合、例えば、YYYに該当するテキストと、XXXに該当するテキストとがis-a関係を有するというナレッジが不自然になる場合がある。図20および図21は、不自然なナレッジが得られる場合の例を示す模式図である。
 図20(a)に示す文書構造グラフが与えられたとする。この文書構造グラフは、“The researchers of this project are as follows. ”というセンテンスを含むノードを有する。また、図4に示す単語間関係情報が与えられたとする。この場合、部分グラフ抽出部5は、図20(b)に示す部分グラフを抽出する。そして、ルール作成部8が、その部分グラフに基づいて作成するルールは、図21(a)に示すルールとなる。ナレッジ追加部10がこのルールに従って文書構造グラフ(図20(a)参照)から抽出する部分グラフは、図21(b)に示す部分グラフとなる。図21(b)に示す部分グラフからは、図21(c)に示すナレッジが得られる。しかし。図21(c)では、“Takeoka ”という単語と、“The researchers of this project are as follows. ”というセンテンスとをそれぞれノードとし、2つのノードの間にis-a関係があることを示している。is-a関係を有する2つのノードにおいて、センテンスが含まれることは不自然である。
 本発明の第2の実施形態のナレッジ拡充システムは、上記のような不自然なナレッジを得ることを防止する。
 図22は、本発明の第2の実施形態のナレッジ拡充システムの構成例を示すブロック図である。図1に示す要素と同様の要素には、図1と同一の符号を付し、適宜、説明を省略する。第2の実施形態のナレッジ拡充システム1は、文書構造グラフ記憶部2、単語間関係情報記憶部3、データ読み込み部4、部分グラフ抽出部5、部分グラフ記憶部6、部分グラフカウント部7、ルール作成部8、ルール記憶部9およびナレッジ追加部10に加え、さらに、前処理実行部11を備える。
 前処理実行部11は、部分グラフ抽出部5が文書構造グラフから部分グラフを抽出する前に、与えられた文書構造グラフを変換する前処理を行う。
 具体的には、前処理実行部11は、与えられた文書構造グラフ内のノードが、係り受け関係を有するテキストを含んでいる場合に、そのテキストに対して係り受け解析を行うことによって、そのノードを複数のノードに分ける。そして、前処理実行部11は、ノードを分けたことによって得られる複数のノードに対してそれぞれ、ノード種類情報として、係り受け解析によって得られたテキストの要素の種類を示す情報を付与する。前処理実行部11は、分けられたノードがテキストを有する場合に、そのテキストが単語となるように、ノードを複数のノードに分ける。
 係り受け関係を有していないテキストを含むノードや、テキストを含まないノードに関しては、前処理実行部11は、複数のノードに分ける処理を実行しない。
 前処理実行部11が文書構造グラフを変換する例を、具体的に示す。図23は、与えられた文書構造グラフ(すなわち、前処理実行部11による変換前の文書構造グラフ)の例を示す模式図である。図23に示す文書構造グラフは、図24に示す文書に対応している。すなわち、図23に示す文書構造グラフは、図24に示す文書の文書構造を示している。
 図23に示すノードのうち、<Document>タグを含むノード、および、<UL>タグを含むノードは、テキストを含んでいない。また、<Item>タグを含む各ノードは、いずれも、単語をテキストとして有していて、テキストは、係り受け関係を有していない。従って、前処理実行部11は、これらのノードに関しては、複数のノードに分ける処理を実行しない。
 一方、図23に示すノードのうち、<Paragraph> タグを含むノード31は、“The researchers of this project are as follows. ”というテキストを有する。このテキストは、係り受け関係を有している。従って、前処理実行部11は、ノード31を複数のノードに分ける。
 図25は、ノード31を複数のノードに分けた後の文書構造グラフの例を示す模式図である。図25において、破線で囲んだ複数のノードが、ノード31(図23参照)から分けられた複数のノードである。前処理実行部11は、ノード31のテキストに対して、係り受け解析を行い、そのテキストを個々の単語に分け、個々の単語を含むノードを生成し、また、単語を含むノードを繋げるための、テキストを含まないノードも生成し、ノード同士を繋げるリンクを生成する。そして、前処理実行部11は、生成した各ノードに対して、ノード種類情報として、係り受け解析によって得られたテキストの要素の種類を示す情報を付与する。1つのノードから分けられた複数のノードの中には、ノード種類情報を有しているが、テキストを有していないノードが存在していてもよい。既に説明したように、ノード種類情報はタグで表されるものとして説明する。
 ノード31から分けられた複数のノードに付与されるノード種類情報の例について、図25を参照して説明する。
 <Root>タグは、ノード31から分けられた複数のノードのルートであることを意味する。<S> タグは、主語を意味する。<NP>タグは、名詞句を意味する。<DT>タグは、限定詞を意味する。<NN>タグは、名詞を意味する。<PP>タグは、助詞句を意味する。<IN>タグは、前置詞を意味する。<VP>タグは、動詞句を意味する。<VBP> タグは、動詞を意味する。<ADJP>タグは、形容詞句を意味する。<RB>タグは、副詞を意味する。<JJ>タグは、形容詞を意味する。なお、1つのノードから分けられた複数のノードに付与されるノード種類情報は、図25に示す例に限定されない。
 前処理実行部11が、前述の前処理を行うことによって、係り受け関係を有するテキストを有するノードは、存在しなくなる(例えば、図25を参照)。
 前処理実行部11が文書構造グラフに対して前処理を行った後の、部分グラフ抽出部5、部分グラフカウント部7、ルール作成部8およびナレッジ追加部10の動作は、第1の実施形態におけるそれらの動作と同様である。
 データ読み込み部4、部分グラフ抽出部5、部分グラフカウント部7、ルール作成部8およびナレッジ追加部10と同様に、前処理実行部11は、例えば、ナレッジ拡充プログラムに従って動作するコンピュータのCPUによって実現される。
 以下、文書構造グラフが図25に示すように変換された場合における、部分グラフ等について具体的に示す。なお、以下に示す例では、データ読み込み部4が単語間関係情報記憶部3から読み込んだ単語間関係情報は、図4に示す単語間関係情報であったものとする。部分グラフ抽出部5は、図4に示す単語間関係情報に基づいて、前処理後の文書構造グラフ(図25参照)から、部分グラフを抽出する。この部分グラフは、図26に示す部分グラフとなる。
 また、部分グラフカウント部7が、図26に示す部分グラフの構造を選択したとする。この場合、ルール作成部8は、図27に示すルールを作成する。すると、ナレッジ追加部10は、そのルールに従って、図25に示す文書構造グラフから、図28に示す3つの部分グラフを抽出する。さらに、ナレッジ追加部10は、その3つの部分グラフから、図29に示す新たなナレッジを抽出する。なお、このとき、ナレッジ追加部10は、部分グラフ内で、YYYに該当するテキストやXXXに該当するテキストが複数形である場合には、単数形に補正してよい。本例では、図29に示すナレッジを抽出する際に、ナレッジ追加部10は、図28に示す“researchers ”を単数形の“researcher”に補正しているものとする。
 ナレッジ追加部10は、図29に示す新たなナレッジを、与えられた単語間関係情報(図4参照)に追加する。この結果、図30に示す単語間関係情報が得られる。
 第2の実施形態によれば、第1の実施形態と同様の効果が得られる。さらに、第2の実施形態では、前処理実行部11が、与えられた文書構造グラフ内のノードが、係り受け関係を有するテキストを含んでいる場合に、そのテキストに対して係り受け解析を行うことによって、そのノードを複数のノードに分ける。また、前処理実行部11は、ノードを分けたことによって得られる複数のノードに対してそれぞれ、ノード種類情報として、係り受け解析によって得られたテキストの要素の種類を示す情報を付与する。従って、文書構造グラフから、係り受け関係を有するテキストを含むノードが無くなる。よって、第2の実施形態によれば、新たなナレッジとして、図21(c)に例示するような不自然なナレッジが導出されることを防止することができる。第2の実施形態によれば、新たなナレッジとして、図29に例示するような適切なナレッジを得ることができる。
実施形態3.
 本発明の第3の実施形態のナレッジ拡充システムは、図21(c)に例示するような不自然なナレッジを得ることを防止する。この点は、第2の実施形態と同様である。
 本発明の第3の実施形態のナレッジ拡充システムは、第1の実施形態のナレッジ拡充システムと同様に、図1に示すブロック図で表すことができるので、図1を用いて第3の実施形態を説明する。
 第3の実施形態における文書構造グラフ記憶部2、単語間関係情報記憶部3、データ読み込み部4、部分グラフ抽出部5、部分グラフ記憶部6、部分グラフカウント部7、ルール作成部8およびルール記憶部9は、第1の実施形態におけるそれらの各要素と同様である。
 第3の実施形態におけるナレッジ追加部10は、ルール毎に、ルールに従って、文書構造グラフから部分グラフを抽出する。このとき、ナレッジ追加部10は、ルール内の“XXX”,“YYY”に相当する箇所が任意のテキストであるものとして、ルールに合致する部分グラフを、文書構造グラフから抽出する。この点も、第1の実施形態と同様である。なお、XXXに該当するテキストやYYYに該当するテキストは、ルールに従って抽出した部分グラフにおける両端のノードに含まれている。
 従って、第3の実施形態では、ナレッジ追加部10がルールに従って抽出した部分グラフにおいて、XXXに該当するテキストやYYYに該当するテキストが、係り受け関係を有している場合がある。例えば、ナレッジ追加部10がルールに従って抽出した部分グラフが、図21(b)に例示する部分グラフである場合がある。
 ナレッジ追加部10は、ルールに従って抽出した部分グラフにおけるXXXに該当するテキストおよびYYYに該当するテキストから名詞を抽出する。このとき、XXXに該当するテキストおよびYYYに該当するテキストが助詞句を含んでいる場合、ナレッジ追加部10は、テキストの中から助詞句に含まれていない名詞を抽出する。そして、ナレッジ追加部10は、YYYに該当するテキストから抽出した名詞と、XXXに該当するテキストとが関係を有するというナレッジを新たなナレッジとして抽出し、その新たなナレッジを単語間関係情報に追加する。例えば、与えられた単語間関係情報が単語同士のis-a関係を示している場合には、ナレッジ追加部10は、YYYに該当するテキストから抽出した名詞と、XXXに該当するテキストから抽出した名詞とがis-a関係を有するというナレッジを新たなナレッジとして抽出すればよい。このとき、ナレッジ追加部10は、YYYに該当するテキストから抽出した名詞がis-a関係における上位階層に該当し、XXXに該当するテキストから抽出した名詞がis-a関係における下位階層に該当すると判定する。
 以下、図21(b)を参照して、より具体的に説明する。なお、与えられた単語間関係情報は、図4に示す単語間関係情報であるものとする。ナレッジ追加部10は、ルールに従って、図21(b)に例示する部分グラフを抽出したとする。この場合、ルールにおけるXXXに該当するテキストは、“Takeoka ”であり、YYYに該当するテキストは、“The researchers of this project are as follows. ”というセンテンスである。ナレッジ追加部10は、XXXに該当するテキスト“Takeoka ”から、“Takeoka ”という名詞を抽出する。ナレッジ追加部10は、YYYに該当するテキスト“The researchers of this project are as follows. ”からも名詞を抽出する。“The researchers of this project are as follows. ”というセンテンスには、2つの名詞(“researchers ”,“project ”)が存在する。しかし、“project ”は、“of this project ”という助詞句に含まれる名詞である。そのため、ナレッジ追加部10は、助詞句に含まれていない名詞“researchers ”を抽出する。ナレッジ追加部10は、抽出した名詞が複数形である場合には、単数形に補正してよい。本例では、ナレッジ追加部10は、“researchers ”を抽出し、単数形の“researcher”に補正するものとする。
 この場合、ナレッジ追加部10は、YYYに該当するテキストから抽出した名詞“researcher”と、XXXに該当するテキストから抽出した名詞“Takeoka ”とがis-a関係を有し、YYYに該当するテキストから抽出した名詞“researcher”が上位階層に該当し、XXXに該当するテキストから抽出した名詞“Takeoka ”が下位階層に該当するという、新たなナレッジを抽出する。このナレッジは、図14のように表すことができる。ナレッジ追加部10は、この新たなナレッジを、与えられた単語間関係情報(図4参照)に追加する。この結果、単語間関係情報は、図31に示すようになる。
 第3の実施形態によれば、第1の実施形態と同様の効果が得られる。さらに、第3の実施形態では、ナレッジ追加部10が、ルールに従って抽出した部分グラフから、XXXに該当するテキストおよびYYYに該当するテキストから名詞を抽出する。そして、ナレッジ追加部10は、その名詞同士が関係を有するという新たなナレッジを得る。従って、新たなナレッジとして、図21(c)に例示するような不自然なナレッジが導出されることを防止することができる。
 図32は、本発明の各実施形態に係るコンピュータの構成例を示す概略ブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004とを備える。
 本発明の各実施形態のナレッジ拡充システム1は、コンピュータ1000に実装される。ナレッジ拡充システム1の動作は、ナレッジ拡充プログラムの形式で補助記憶装置1003に記憶されている。CPU1001は、そのナレッジ拡充プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、そのナレッジ拡充プログラムに従って、上記の各実施形態で説明した処理を実行する。
 補助記憶装置1003は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disk Read Only Memory )、DVD-ROM(Digital Versatile Disk Read Only Memory )、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000がそのプログラムを主記憶装置1002に展開し、上記の処理を実行してもよい。
 また、プログラムは、前述の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで前述の処理を実現する差分プログラムであってもよい。
 また、各構成要素の一部または全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
 各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本発明の概要について説明する。図33は、本発明のナレッジ拡充システムの概要を示すブロック図である。本発明のナレッジ拡充システムは、部分グラフ抽出手段71と、ルール作成手段72と、ナレッジ追加手段73とを備える。
 部分グラフ抽出手段71(例えば、部分グラフ抽出部5)は、単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、文書構造グラフの一部である部分グラフを抽出する。
 ルール作成手段72(例えば、ルール作成部8)は、文書構造グラフから、部分グラフと同じ構造の部分グラフを抽出するためのルールを作成する。
 ナレッジ追加手段73(例えば、ナレッジ追加部10)は、ルールに従って、文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を単語間関係情報に追加する。
 そのような構成により、文書構造を示す文書構造グラフと、単語間関係情報とに基づいて、その単語間関係情報に含まれるナレッジを拡充することができる。
 また、部分グラフ抽出手段71によって抽出された部分グラフの数を、部分グラフの構造毎にカウントし、カウント結果が閾値以上となっている部分グラフの構造を選択する部分グラフカウント手段(例えば、部分グラフカウント部7)を備え、ルール作成手段72が、選択された構造の部分グラフに基づいて、文書構造グラフからその構造の部分グラフを抽出するためのルールを作成する構成であってもよい。
 また、文書構造グラフが、ノードの種類を示すノード種類情報を有するノードを含み、与えられた文書構造グラフ内のノードが、係り受け関係を有するテキストを含んでいる場合に、そのテキストに対して係り受け解析を行うことによって、そのノードを複数のノードに分けるとともに、その複数のノードに対してそれぞれ、ノード種類情報として、係り受け解析によって得られたテキストの要素の種類を示す情報を付与する前処理を実行する前処理実行手段(例えば、前処理実行部11)を備え、部分グラフ抽出手段71が、前処理後の文書構造グラフから、単語間関係情報に基づいて、関係を有する2つの単語のうちの一方をテキストに含む文書構造グラフ内のノードと、2つの単語のうちのもう一方をテキストに含む文書構造グラフ内のノードとを両端とする部分グラフを抽出する構成であってもよい。
 また、部分グラフ抽出手段71が、ノードの種類を示すノード種類情報を有するノードを含む文書構造グラフから、単語間関係情報に基づいて、関係を有する2つの単語のうちの一方をテキストに含む文書構造グラフ内のノードと、2つの単語のうちのもう一方をテキストに含む文書構造グラフ内のノードとを両端とする部分グラフを抽出し、ナレッジ追加手段73が、ルールに従って文書構造グラフから抽出した部分グラフの両端のノードに含まれるテキスト内の名詞を抽出し、両端のノードから得られた名詞同士が関係を有するという情報を単語間関係情報に追加する構成であってもよい。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
産業上の利用の可能性
 本発明は、単語間関係情報に含まれるナレッジを拡充するナレッジ拡充システムに好適に適用可能である。
 1 ナレッジ拡充システム
 2 文書構造グラフ記憶部
 3 単語間関係情報記憶部
 4 データ読み込み部
 5 部分グラフ抽出部
 6 部分グラフ記憶部
 7 部分グラフカウント部
 8 ルール作成部
 9 ルール記憶部
 10 ナレッジ追加部
 11 前処理実行部

Claims (6)

  1.  単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、前記文書構造グラフの一部である部分グラフを抽出する部分グラフ抽出手段と、
     前記文書構造グラフから、前記部分グラフと同じ構造の部分グラフを抽出するためのルールを作成するルール作成手段と、
     前記ルールに従って、前記文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を前記単語間関係情報に追加するナレッジ追加手段とを備える
     ことを特徴とするナレッジ拡充システム。
  2.  部分グラフ抽出手段によって抽出された部分グラフの数を、部分グラフの構造毎にカウントし、カウント結果が閾値以上となっている部分グラフの構造を選択する部分グラフカウント手段を備え、
     ルール作成手段は、
     選択された構造の部分グラフに基づいて、文書構造グラフから前記構造の部分グラフを抽出するためのルールを作成する
     請求項1に記載のナレッジ拡充システム。
  3.  文書構造グラフは、ノードの種類を示すノード種類情報を有するノードを含み、
     与えられた文書構造グラフ内のノードが、係り受け関係を有するテキストを含んでいる場合に、前記テキストに対して係り受け解析を行うことによって、前記ノードを複数のノードに分けるとともに、前記複数のノードに対してそれぞれ、ノード種類情報として、係り受け解析によって得られた前記テキストの要素の種類を示す情報を付与する前処理を実行する前処理実行手段を備え、
     部分グラフ抽出手段は、前記前処理後の文書構造グラフから、単語間関係情報に基づいて、関係を有する2つの単語のうちの一方をテキストに含む前記文書構造グラフ内のノードと、前記2つの単語のうちのもう一方をテキストに含む前記文書構造グラフ内のノードとを両端とする部分グラフを抽出する
     請求項1または請求項2に記載のナレッジ拡充システム。
  4.  部分グラフ抽出手段は、ノードの種類を示すノード種類情報を有するノードを含む文書構造グラフから、単語間関係情報に基づいて、関係を有する2つの単語のうちの一方をテキストに含む前記文書構造グラフ内のノードと、前記2つの単語のうちのもう一方をテキストに含む前記文書構造グラフ内のノードとを両端とする部分グラフを抽出し、
     ナレッジ追加手段は、ルールに従って文書構造グラフから抽出した部分グラフの両端のノードに含まれるテキスト内の名詞を抽出し、前記両端のノードから得られた名詞同士が関係を有するという情報を単語間関係情報に追加する
     請求項1または請求項2に記載のナレッジ拡充システム。
  5.  単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、前記文書構造グラフの一部である部分グラフを抽出し、
     前記文書構造グラフから、前記部分グラフと同じ構造の部分グラフを抽出するためのルールを作成し、
     前記ルールに従って、前記文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を前記単語間関係情報に追加する
     ことを特徴とするナレッジ拡充方法。
  6.  コンピュータに、
     単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、前記文書構造グラフの一部である部分グラフを抽出する部分グラフ抽出処理、
     前記文書構造グラフから、前記部分グラフと同じ構造の部分グラフを抽出するためのルールを作成するルール作成処理、および、
     前記ルールに従って、前記文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を前記単語間関係情報に追加するナレッジ追加処理
     を実行させるためのナレッジ拡充プログラム。
PCT/JP2018/008759 2018-03-07 2018-03-07 ナレッジ拡充システム、方法およびプログラム WO2019171490A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/977,917 US11874873B2 (en) 2018-03-07 2018-03-07 Knowledge expansion system, method, and program
JP2020504549A JP7014288B2 (ja) 2018-03-07 2018-03-07 ナレッジ拡充システム、方法およびプログラム
PCT/JP2018/008759 WO2019171490A1 (ja) 2018-03-07 2018-03-07 ナレッジ拡充システム、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/008759 WO2019171490A1 (ja) 2018-03-07 2018-03-07 ナレッジ拡充システム、方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2019171490A1 true WO2019171490A1 (ja) 2019-09-12

Family

ID=67846956

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/008759 WO2019171490A1 (ja) 2018-03-07 2018-03-07 ナレッジ拡充システム、方法およびプログラム

Country Status (3)

Country Link
US (1) US11874873B2 (ja)
JP (1) JP7014288B2 (ja)
WO (1) WO2019171490A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094775A (ja) * 2005-09-29 2007-04-12 Toshiba Corp 意味解析装置、意味解析方法および意味解析プログラム
JP2009140056A (ja) * 2007-12-04 2009-06-25 Mitsubishi Electric Corp 言語知識獲得装置および言語知識獲得プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5040925B2 (ja) * 2007-01-29 2012-10-03 日本電気株式会社 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094775A (ja) * 2005-09-29 2007-04-12 Toshiba Corp 意味解析装置、意味解析方法および意味解析プログラム
JP2009140056A (ja) * 2007-12-04 2009-06-25 Mitsubishi Electric Corp 言語知識獲得装置および言語知識獲得プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KOBAYASHI, AKIO: "A Method for Automatic Ontology Construction Using Wikipedia", THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. 12, 1 December 2010 (2010-12-01), pages 5297 - 2609 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JPWO2019171490A1 (ja) 2021-02-12
US20200410168A1 (en) 2020-12-31
JP7014288B2 (ja) 2022-02-01
US11874873B2 (en) 2024-01-16

Similar Documents

Publication Publication Date Title
Martin et al. More efficient topic modelling through a noun only approach
Vala et al. Mr. bennet, his coachman, and the archbishop walk into a bar but only one of them gets recognized: On the difficulty of detecting characters in literary texts
US7269544B2 (en) System and method for identifying special word usage in a document
Isozaki Japanese named entity recognition based on a simple rule generator and decision tree learning
CN110134942B (zh) 文本热点提取方法及装置
Jain et al. Context sensitive text summarization using k means clustering algorithm
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP5564705B2 (ja) 文構造解析装置、文構造解析方法および文構造解析プログラム
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
JP2007219620A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
JP7014288B2 (ja) ナレッジ拡充システム、方法およびプログラム
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
CN107203509A (zh) 标题生成方法和装置
US20230140938A1 (en) Sentence data analysis information generation device using ontology, sentence data analysis information generation method, and sentence data analysis information generation program
Lee et al. Syllable-based Malay word stemmer
JP2018077604A (ja) 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
Luong et al. Word graph-based multi-sentence compression: Re-ranking candidates using frequent words
JP4845575B2 (ja) 類似性評価装置及びプログラム
JP6667875B2 (ja) 要約文作成モデル学習装置、要約文作成装置、要約文作成モデル学習方法、要約文作成方法、及びプログラム
Raj et al. Malayalam text summarization: Minimum spanning tree based graph reduction approach
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
KR102661819B1 (ko) 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법
JP2018073298A (ja) 人工知能装置による手段・方法の自動抽出・作成方法
JP2019200488A (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム
EP4273738A1 (en) Semantic representation generation method, semantic representation generation device, and semantic representation generation program

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020504549

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18908688

Country of ref document: EP

Kind code of ref document: A1