WO2016147624A1 - 検索システム、検索方法および検索プログラム - Google Patents

検索システム、検索方法および検索プログラム Download PDF

Info

Publication number
WO2016147624A1
WO2016147624A1 PCT/JP2016/001341 JP2016001341W WO2016147624A1 WO 2016147624 A1 WO2016147624 A1 WO 2016147624A1 JP 2016001341 W JP2016001341 W JP 2016001341W WO 2016147624 A1 WO2016147624 A1 WO 2016147624A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
article
search
implication
difference
Prior art date
Application number
PCT/JP2016/001341
Other languages
English (en)
French (fr)
Inventor
康高 山本
隆夫 注連
弘紀 水口
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2017506080A priority Critical patent/JP6747427B2/ja
Priority to US15/558,112 priority patent/US10909154B2/en
Publication of WO2016147624A1 publication Critical patent/WO2016147624A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to a search system, a search method, and a search program for searching for articles.
  • Implication recognition is one of the processes for determining the similarity of meaning of sentences.
  • An example of implication recognition is described in Non-Patent Document 1. Further, Patent Document 1 describes an example of grouping texts based on implication recognition.
  • Implication recognition is based on the assumption that “A” and “B” are sentences or sentence equivalent units (hereinafter referred to as “sentence” as expressions including both), and “A implies B ( This is a process for determining whether or not there is a relationship “entailment)”. In addition, determining the presence or absence of such a relationship may be referred to as implication determination.
  • A implies B
  • B is also true.
  • A implies B
  • a relationship in which the first sentence implies another sentence may be referred to as an implication relationship.
  • search systems that can specify sentences as search queries.
  • Such a search system performs morphological analysis on a sentence specified as a search query, extracts words included in the specified sentence, and searches for sentences and articles using the extracted words as a search query.
  • Readers may want to read other articles that contain new content not found in the article that they are currently reading about that aspect when they want more information about that aspect. Readers may also want to read more articles written about matters related to that viewpoint (eg, matters surrounding the matter, such as matters that are often discussed with the matter).
  • the search system using morphological analysis has a problem that it is not possible to efficiently collect information related to the content (that is, the viewpoint) that is a part of the article and the reader is interested in.
  • an object of the present invention is to provide a search system, a search method, and a search program that enable a user to efficiently collect information that is a part of an article and is related to a specific viewpoint.
  • the search system includes a reception unit that accepts designation of a specific sentence in an article, and a semantic sentence (connotations) of the first sentence using a first sentence that is the designated sentence as a search query.
  • the search method accepts designation of a specific sentence in an article, uses the first sentence that is the designated sentence as a search query, and has a content similar to the semantic content of the first sentence.
  • an article including a sentence is searched, and the searched article is displayed as a related article for the first sentence, information on the article is displayed, and when there are a plurality of related articles, the first sentence is displayed.
  • An article having a larger difference from the first article, which is an included article, is preferentially displayed.
  • the retrieval program according to the present invention is a process for accepting designation of a specific sentence in an article to a computer, and uses the first sentence that is the designated sentence as a retrieval query, and the semantic content of the first sentence.
  • an article having a larger difference from the first article that is an article including the first sentence is preferentially displayed.
  • a user can efficiently collect information related to a specific viewpoint, which is a part of content in an article.
  • FIG. 4 is an explanatory diagram illustrating an example of articles stored in an article storage unit 100.
  • FIG. It is explanatory drawing which shows the example of the implication relationship in sentence set U1.
  • 4 is a flowchart illustrating an operation example of the article management system 1.
  • 4 is a flowchart illustrating an operation example of the article management system 1.
  • 4 is a flowchart illustrating an operation example of the article management system 1.
  • It is a block diagram which shows the example of the related article determination apparatus of 2nd Embodiment.
  • 5 is a flowchart illustrating an operation example of a related article determination apparatus 200.
  • It is a block diagram which shows the example of the information search system of 3rd Embodiment.
  • 5 is a flowchart illustrating an operation example of the information search system 3.
  • It is a block diagram which shows the example of the information collection system of 4th Embodiment.
  • FIG. 5 is a flowchart illustrating an operation example of the information collection system 4. It is explanatory drawing which shows the other example of a sentence set. It is a schematic block diagram which shows the structural example of the computer concerning each embodiment of this invention. It is a block diagram which shows the minimum structure of the search system by this invention.
  • an “article” represents a sentence for conveying a specific content.
  • the article may be read as a file in which at least sentences are recorded.
  • the article may include information other than text such as a figure.
  • “sentence” generally represents a character string up to a punctuation mark.
  • “sentence” is a predetermined character string such as a series of character strings that do not end with a punctuation mark such as a title, or “a is b but c is d”.
  • a character string corresponding to a sentence after decomposition in a character string that is connected by a conjunction or the like and can be decomposed into two or more sentences can be included.
  • the “sentence” in each embodiment includes not only a character string corresponding to the sentence as described above but also a character that forms a unit in a certain sentence expression that can be read a specific meaning when read by a person such as a clause. Columns can be included.
  • the sentence itself such as the explicit meaning of the sentence, that is, the meaning of words contained in the sentence and the matters obtained by purely interpreting grammatical usage. Represents the matter that is expressing.
  • connotations not only what is expressed by the sentence itself but also what is expressed by a part of the sentence and what the meaning of the sentence is. Includes all meanings that humans can recognize from the sentence. That is, the meaning content corresponds to a part or all of the range including the explicit meaning and the meaning of the sentence.
  • the “meaning” of the sentence is one of the “meaning contents” of the sentence.
  • FIG. FIG. 1 is a block diagram illustrating an example of an article management system according to the first embodiment of this invention.
  • the article management system 1 includes an article storage unit 100, an implication sentence specifying unit 110, a difference specifying unit 120, and a visualization unit 130.
  • the article storage unit 100 stores articles.
  • a sentence in an article is associated with an article having information related to the sentence.
  • the article storage unit 100 stores two or more articles to be associated with each other.
  • each article is assigned an article ID, which is an identifier for identifying the article, and each sentence in each article has an identifier for identifying the sentence.
  • a sentence ID is assigned.
  • FIG. 2 is an explanatory diagram illustrating an example of articles stored in the article storage unit 100.
  • the article storage unit 100 stores a sentence set obtained by decomposing each article to be matched into sentence units instead of storing the article set to be matched. You may remember.
  • Such a sentence set is obtained, for example, by performing sentence cutting (processing for cutting out sentences) for each article to be matched.
  • each sentence is accompanied by an identifier of an article including the sentence as one piece of information for identifying the sentence.
  • each sentence constituting an article to be associated corresponds to an article ID for identifying an article including the sentence and a sentence ID for identifying the sentence in the article. Attached and remembered.
  • the article storage unit 100 may store a set of articles to be matched, and may store a set of sentences obtained by disassembling each article to be matched into sentences.
  • the implication sentence specifying unit 110 specifies, for each sentence included in the first sentence set that is a set of sentences stored in the article storage unit 100, other sentences having an implication relationship based on the implication recognition. Thus, another sentence having a similar meaning to any of the semantic contents of each sentence is specified.
  • similarity is a concept including the same. It should be noted that other sentences (for example, sentence B) that have an implication relationship with sentence A include not only sentence B when sentence B has a relation that implies sentence A, but also a relation that sentence A implies sentence B.
  • sentence B in the case of
  • the implication sentence specifying unit 110 may, for example, (1) when the sentence B has a relationship that implies the sentence A, the meaning of the sentence B may be similar to any of the semantic contents of the sentence A. At this time, more specifically, the implication sentence specifying unit 110 may make the meaning of the sentence B similar to any of the semantic contents of the sentence A. In addition, for example, the implication sentence specifying unit 110 may be similar to any of the semantic contents of the sentence A when the sentence A has a relation that implies the sentence B. At this time, the implication sentence specifying unit 110 more specifically, the sentence A has all the semantic contents of the sentence B, and the meaning of the sentence B is a part of the semantic contents of the sentence A (the meaning common to the sentence B). Content only).
  • sentence of sentence is similar means that the sentence has the same meaning as any of the semantic contents of the other sentence, or some limitation on the semantic contents of the other sentence. It means having a meaning.
  • (1) corresponds to a case where the meaning of the other party's sentence has some meaning
  • (2) corresponds to any of the meaning contents of the other party's sentence. It corresponds to the case where it has the same meaning.
  • the implication sentence specifying unit 110 may sequentially read the sentences from the first sentence set, compare the read sentences with each of the other sentences in the first sentence set, and perform the implication determination. At this time, the implication sentence specifying unit 110 may not perform the implication determination when the comparison targets are sentences in the same article.
  • the implication sentence specifying unit 110 may perform clustering based on implication recognition (hereinafter referred to as implication clustering) for the first sentence set, for example.
  • implication clustering implication recognition
  • the implication sentence specifying unit 110 may treat the sentences in the same article as having no implication relationship in the same cluster. For example, even if sentence A and sentence B belong to the same cluster, if sentence A and sentence B are included in the same article, there is no implication between sentence A and sentence B. Also good.
  • the implication clustering method is not particularly limited.
  • the method described in Patent Document 1 may be used.
  • each sentence included in a sentence set made up of sentences constituting all the articles to be targeted is represented as a representative sentence, and the representative sentence and other sentences having a relationship implying the representative sentence are included. It may be a method of making members in the same cluster. In this case, the same number of clusters as the number of sentences is generated.
  • a method of implication clustering it is also possible to use a method of performing multi-stage clustering, in which clusters are further integrated based on the degree of overlapping of elements between clusters obtained as a result of single-stage clustering as described above. It is.
  • FIG. 3 and 4 are explanatory diagrams illustrating examples of information output from the implication sentence specifying unit 110.
  • FIG. FIG. 3 is an example of information indicating the result of implication determination by the implication sentence specifying unit 110.
  • the target sentence indicates a sentence that is a target for determining whether there is an implication relationship with another sentence.
  • the implication sentence indicates a sentence determined to imply the target sentence. According to FIG. 3, for example, it can be seen that the sentence 1-1 is determined to imply the sentence 2-2.
  • FIG. 4 is an example of information indicating the result of implication clustering by the implication sentence specifying unit 110.
  • the cluster ID indicates the identifier of the cluster classified by implication clustering.
  • the pair of article ID and sentence ID indicates a pair of article ID and sentence ID of sentences belonging to the cluster.
  • the representative sentence flag indicates whether or not the representative sentence of the cluster.
  • a sentence having the most implication relationship with other sentences included in the cluster to which the representative sentence belongs is selected.
  • an example of an implication relationship between a representative sentence and another sentence in the same cluster is a relation in which all other sentences in the same cluster imply a representative sentence. This does not deny the relationship in which the representative sentence implies another sentence in the same cluster.
  • the relationship in which all the other sentences in the same cluster imply the representative sentence does not necessarily hold.
  • the relationship in which all the other sentences in the same cluster imply the representative sentence does not necessarily hold.
  • all of the sentences other than the representative sentence do not imply the representative sentence.
  • there is another sentence that does not have an implication relationship it can be said that there is some relationship such as a co-occurrence relationship between the representative sentence and the other sentence.
  • there is a co-occurrence relationship when clusters are integrated based on the overlapping degree of elements in the cluster.
  • the co-occurrence relationship means a relationship that is likely to appear simultaneously in one sentence. For example, if there are many other sentences C that statistically represent the meaning of sentence A and the meaning of sentence B in the same sentence, there is a co-occurrence relationship between sentence A and sentence B. Also good.
  • sentence T2 implies the sentence T1.
  • sentence T2 implies the sentence T3.
  • sentence T4 implies the sentence T1.
  • sentence T5 implies sentences T1, T2, and T4. Note that sentences T2, T4, and T5 each imply sentence T1. Also, sentences T2 and T5 each imply sentence T3. Moreover, sentence T5 implies sentence T4.
  • FIG. 5 is an explanatory diagram showing an example of an implication relationship in the sentence set U1.
  • a circular symbol in FIG. 5 indicates one sentence.
  • the arrow indicates that the original sentence of the arrow implies the sentence at the end of the arrow.
  • FIG. 6 is an explanatory diagram illustrating an example of a processing result when implication clustering is performed on the sentence set U1.
  • a sentence implying the sentence T1 is classified into a cluster A having the sentence T1 as a representative sentence.
  • sentences implying the sentence T3 are classified into the cluster B having the sentence T3 as a representative sentence.
  • a sentence implying the sentence T4 is classified into a class C having the sentence T4 as a representative sentence.
  • the cluster A includes sentences T2, T4, and T5 as elements in addition to the sentence T1 that is a representative sentence.
  • the cluster B includes sentences T2 and T5 as elements in addition to the sentence T3 which is a representative sentence.
  • the cluster C includes a sentence T5 as an element in addition to the sentence T4 that is a representative sentence.
  • one sentence may belong to a plurality of clusters.
  • FIG. 6A there is no direct implication relationship between the sentence T2 and the sentence T4, but it can be said that the implication relation is formed through the representative sentence T1. This is because both the sentences T2 and T4 include the meaning of the sentence T1 as meaning contents.
  • sentences other than the representative sentences belonging to the same cluster imply (in a narrow sense) an implication relation in at least one common semantic content of the common representative sentences that are included in the common sentence. It can be paraphrased as a relationship in which sentences have meanings similar to the semantic content of the representative sentences.
  • cluster A all elements of cluster C are included in cluster A.
  • the cluster A and the cluster C are integrated into a cluster D as shown in FIG.
  • cluster D more than half of the elements of cluster B are included in cluster D.
  • the cluster B and the cluster D are integrated into a cluster E as shown in FIG.
  • the sentence T1 that is the representative sentence of the cluster D having the larger number of elements may be selected as the representative sentence of the cluster E.
  • an implication relationship may not be established between the sentence T1 which is a representative sentence and the sentence T3 which is another sentence.
  • the verbs are “sell” and “buy”, and as it is clear from the expression “sale”, these meanings are expressed together. Often done.
  • the difference specifying unit 120 specifies the presence / absence of a difference between articles including a sentence having an implication relationship, a difference amount, or a portion based on the result of processing by the implication sentence specifying unit 110.
  • the difference specifying unit 120 receives information output from the implication sentence specifying unit 110 as input, specifies a set of sentences having an implication relationship for each article, and whether or not there is a difference between articles including the sentence and / or its difference
  • the amount may be specified.
  • the difference specifying unit 120 may obtain only the difference amount between the targeted articles, or may determine that there is a difference if the obtained difference amount is equal to or greater than a predetermined threshold.
  • the difference specifying unit 120 may determine the presence / absence and / or the amount of difference between the first article including the first sentence and the second article including the second sentence. At this time, the difference specifying unit 120 may compare a sentence other than the first sentence included in the first article with all sentences included in the second article, and specify a sentence that becomes a difference. .
  • the part made into difference is not restricted to a sentence, For example, a specific part of speech, a clause, a chart, etc. may be sufficient.
  • Whether or not there is a difference between articles or sentences and / or the amount of difference can be determined using how many words are included in one article or sentence, that is, using the degree of duplication, etc. At this time, similarity may be obtained in consideration of synonyms and broader terms of words.
  • the difference specifying unit 120 stores the obtained result. For example, the difference specifying unit 120 associates a sentence ID, which is identification information of the first sentence, with another article that is determined to have a difference with the first article including the first sentence. You may memorize
  • a sentence ID of the sentence that becomes a difference or a calculated difference amount may be recorded in addition to the above correspondence.
  • the difference specifying unit 120 may obtain the presence / absence of the difference between the articles and the difference amount only for the first half of each article, for example.
  • the visualization unit 130 displays a screen suitable for the user to collect information based on the determination result of the implication relationship between sentences by the implication sentence specifying unit 110 and the specification result of the difference between articles by the difference specifying unit 120. Generate and display.
  • the visualization unit 130 when displaying an article stored in the article storage unit 100, the visualization unit 130 includes, for each sentence in the article, a sentence having an implication relation with the sentence, and between the articles If there is another article with a difference, link information with the other article as a link destination may be attached to display the article. At this time, if link information to multiple other articles can be assigned to one sentence in the article that is the display target, the other articles with larger differences are displayed with higher priority. Link information may be given. For example, the visualization unit 130 displays only other articles that satisfy a predetermined condition such that the difference amount is within the upper predetermined number or above a predetermined threshold as a link destination, and the difference amount is large when displaying a list of link destinations. Articles may be displayed at the top of the list.
  • the visualization unit 130 may highlight and display the difference portion when displaying other articles that are linked and the contents of a part thereof.
  • FIG. 7 and 8 are explanatory diagrams showing examples of display by the visualization unit 130.
  • FIG. FIG. 7 shows a display example of an article to which link information is given by the visualization unit 130.
  • the underline attached to the sentence in the article indicates that a link is set for the sentence.
  • the balloon at the end of the underlined sentence indicates the number of linked articles.
  • setting the link means that the link information is given to the article so that the article that is the link destination can be automatically accessed according to the user input.
  • FIG. 8 is an explanatory diagram showing an example of a linked article list set for a sentence in an article.
  • the visualization unit 130 may display a list of linked article information set in the sentence. .
  • the visualization unit 130 may display an article having a larger difference from the displayed article at the top of the list.
  • the visualization unit 130 may display an excerpt of the linked article as information of the linked article.
  • the visualization unit 130 becomes a link source in a sentence that has an implication relation with a sentence that is a link source in an article that is a link destination or an article that is a link destination.
  • k1 to k3 are excerpts of articles linked to each other.
  • a sentence surrounded by “ ⁇ >>” is a sentence having an implication relationship with a sentence that is a link source in an article that is a link destination.
  • the sentence at the bottom is a sentence that is a difference with respect to the article including the sentence that becomes the link source in the article that is the link destination.
  • FIG. 8 as an example of the difference highlighting, in the excerpt of each article, it was specified based on the word duplication ratio between the article including the sentence that is the link source and the article that is the link destination.
  • the visualization unit 130 may display information of a linked article as illustrated in FIG. 8.
  • the linked article is displayed as it is, the information (title, location, etc.) related to the linked article is displayed as a list, and the linked article is displayed. Or a list thereof, and highlight a difference part.
  • one or more linked articles may be processed to generate a new display article (processed article).
  • the excerpt, highlighting, and listing in the above example are examples of processing the linked article.
  • the visualization unit 130 may set a link to the processed article generated for the link source sentence.
  • FIG. 9 to 12 are flowcharts showing an operation example of the article management system 1 of the present embodiment.
  • FIG. 9 is a flowchart showing an example of related information association processing of the article management system 1 of the present embodiment.
  • the implication sentence specifying unit 110 selects one sentence as a link source from a set of sentences (first sentence set) constituting each article stored in the article storage unit 100. Select (step S101).
  • the sentence selected in step S101 may be referred to as a first sentence.
  • the implication sentence specifying unit 110 is a sentence in an article different from the first article including the first sentence selected from the first sentence set, and the implication relation with the first sentence.
  • the sentence in is identified (step S102).
  • the sentence specified in step S102 may be referred to as a second sentence.
  • the implication sentence specifying unit 110 compares, for example, the first sentence and each sentence included in an article other than the article including the first sentence, and determines whether there is an implication relationship.
  • the second sentence may be specified.
  • the implication sentence specifying unit 110 performs implication clustering processing on the first sentence set and, based on the cluster information obtained as a result, adds other sentences belonging to the cluster to which the first sentence belongs to the first sentence set. You may specify as 2 sentences.
  • the difference specifying unit 120 obtains a difference between the first article including the first sentence and the second article including the second sentence (step S103).
  • the difference specifying unit 120 selects the second article for the first sentence as the link destination. Store as an article candidate (step S105). Then, the process proceeds to step S106.
  • step S104 if there is no difference between the first article and the second article (No in step S104), the process proceeds to step S106 as it is.
  • step S106 it is determined whether or not the processing from step S101 has been completed for all sentences included in the sentence set. As a result of the determination, if it is completed, the process is terminated (Yes in step S106), and if it is not completed, the process returns to step S101 to select the next link source sentence (No in step S106).
  • the article management system 1 repeats the series of processing from step S101 to step S105 until all sentences included in the first sentence set are selected as link sources in this way.
  • the article management system 1 may perform the operation shown in FIG. 9, for example, in response to designation of a target sentence set.
  • FIG. 10 to 12 are flowcharts showing an example of the operation of the visualization unit 130.
  • the system accepts designation of an article to be displayed (step S111).
  • the system may accept designation of any of the articles stored in the article storage unit 100 from the user.
  • the visualization unit 130 Upon receiving the designation of the article to be displayed, the visualization unit 130 assigns link information to each sentence included in the designated article based on the information of the candidate article of the link destination stored in advance, and An article is displayed (step S112). For example, the visualization unit 130 may display the specified article by adding link destination information as illustrated in FIG. 7.
  • step S121 the system accepts a sentence designation from the displayed article.
  • the system may accept any designation of a sentence included in the article being displayed from the user.
  • the visualization unit 130 receives the designation of the sentence in step S121, and displays the linked article list for the designated sentence based on the information of the linked article candidate articles stored in advance. (Step S122).
  • the visualization unit 130 may display a linked article list including an excerpt of an article as illustrated in FIG. 8, for example.
  • the display method of the linked article list is not limited to the method shown in FIG.
  • the visualization unit 130 may display a list of titles of linked articles in the form of a balloon or the like near a designated sentence in the displayed article.
  • step S131 the system accepts a sentence designation from the displayed article.
  • the system may accept any designation of a sentence included in the article being displayed from the user.
  • the visualization unit 130 receives the designation of the sentence in step S121, and the designated sentence is changed to 2 based on the information on the result of specifying the implication relationship stored in advance. It is determined whether or not there is a linked candidate article with the above semantic content (step S132).
  • the visualization unit 130 for example, when a specified sentence belongs to two or more clusters, and an article including another sentence having an implication relationship is set as a link destination in the two or more clusters.
  • the specified sentence may be determined to have a link destination candidate article with two or more semantic contents.
  • the meanings of the representative sentences of two or more clusters that satisfy the above conditions correspond to two or more meaning contents in which the designated sentence has a link destination candidate article.
  • the sentence T2 belongs to the cluster A and the cluster B.
  • the visualization unit 130 may determine that the sentence T2 has candidate articles linked to two or more semantic contents.
  • both the cluster A and the cluster B include another sentence that is included in an article different from the article including the sentence T2, and the different article is set as a link destination candidate.
  • any of the sentences T1, T4, and T5 included in the cluster A is included in an article different from the article including the sentence T2, and the different article is set as the link destination of the sentence T2.
  • any of the sentences T3 and T4 included in the cluster B may be included in an article different from the article including the sentence T2, and the different article may be set as the link destination of the sentence T2.
  • the meaning of the sentence T1 that is the representative sentence of the cluster A and the meaning of the sentence T3 that is the representative sentence of the cluster B are included in the “two or more meaning contents” in which the sentence T2 has the link destination candidate article. And correspond.
  • the visualization unit 130 may determine that the sentence T4 has candidate articles linked to two or more semantic contents.
  • both the cluster A and the cluster C include another sentence that is included in an article different from the article including the sentence T4 and the different article is set as a link destination candidate.
  • any of sentences T1, T2, and T5 included in cluster A is included in an article different from the article including sentence T4, and the different article is a candidate for the link destination of sentence T4. Is set as.
  • the sentence T5 included in the cluster C is included in an article different from the article including the sentence T4, and the different article is set as the link destination of the sentence T4.
  • the meaning of the sentence T1 that is the representative sentence of the cluster A and the meaning of the sentence T4 that is the representative sentence of the cluster C are two or more meaning contents in which the sentence T4 has the link candidate article. Equivalent to.
  • step S132 if it is determined that the first sentence does not have a candidate article linked to by two or more semantic contents (No in step S132), the visualization unit 130 normally May be displayed (step S133). In that case, the visualization unit 130 may perform the process of step S122 described above, for example, as a link destination display.
  • the visualization unit 130 displays the link destination to the user. May be selected (step S133).
  • the visualization unit 130 may list and display sentences expressing two or more meaning contents specified as a result of the determination, and inquire about which meaning contents should be displayed as a link destination. Thereby, it is possible to specify the semantic content corresponding to the viewpoint in which the user is interested from the semantic content of the first sentence.
  • a sentence T4 is selected from the sentence set U1.
  • the notation of the sentence T4 is “Company X has announced a mini vehicle”, and its meaning is also “Company X has announced a mini vehicle”.
  • the sentence T4 has two or more meaning contents having the link destination candidate articles, and the meaning of the sentence T1 is "Company X has sold a car”, the sentence T4 It is assumed that “Company X has announced a mini vehicle”.
  • articles including sentences T1, T2, and T5 are all articles other than articles including sentence T4, and have contents different from the contents of articles including sentence T4.
  • each of the articles including the sentences T1, T2, and T5 is extracted as a link destination candidate.
  • the sentences T1, T2, and T5 correspond to the other sentence in the implication determination when the candidate article is the link destination with respect to the sentence T4 that is the link source.
  • sentences T1, T2 and T5 only the sentence T1 has the meaning equivalent to two or more meaning contents having candidate articles linked to the sentence T4. This is because sentences T2 and T5 may have meaning contents that sentence T4 does not have.
  • sentence T4 may have meaning contents that sentence T4 does not have.
  • the relationship between the sentence T4 and the sentence T1 is a relation in which the sentence T4 implies the sentence T1. From this, it can be interpreted that the link is associated with one of the semantic contents of the sentence T1 corresponding to the semantic contents of the two sentences in common. In such a case, it is preferable to present to the user the sentence T1 that expresses all the semantic content that is the basis for the association as a viewpoint candidate for displaying the link destination.
  • the relationship between the sentence T4 and the sentence T5 is a relation in which the sentence T5 implies the sentence T4. From this, it can be interpreted that the link is associated based on one of the semantic contents of the sentence T4 corresponding to the semantic contents common to the two sentences. Then, it is preferable to present to the user the sentence T4 that expresses all the semantic content that is the basis for the association as a viewpoint candidate for displaying the link destination.
  • a link from the sentence T4 to an article including the sentence T2 is considered.
  • the relation between the sentence T4 and the sentence T2 is a relation associated with the sentence T1 which is a representative sentence of the cluster.
  • the link can be interpreted as being associated based on any of the semantic contents of the sentence T1 that is a common element of the two sentences.
  • the sentence T4 and the sentence T1 are each presented to the user as a sentence expressing the meaning content having the link destination candidate article included in the sentence T4, and the link destination is displayed from among the sentences. Let the viewpoint be selected.
  • the visualization unit 130 makes an inquiry such as “Which point of meaning should you present the link destination of related information” as candidates for the viewpoint of displaying the link destinations of the sentences T1 and T4? Also good.
  • the visualization unit 130 displays the link destination based on the implication relationship based on the viewpoint (step S135).
  • the visualization unit 130 is a relationship in which the implication relationship that has led to the identification of the article of the link destination candidate among the link destination candidates set for the first sentence implies the sentence selected as a viewpoint.
  • the link destination is displayed only for the link destination candidates.
  • the visualization unit 130 is an article including an article including the sentence T1 or another sentence (sentences T2 and T5) having an implication to the sentence T1 among the link destination candidates set for the sentence T4. Therefore, the link destination may be displayed only for an article having a content different from the article including the sentence T4. This is because the user is interested in the meaning of “X sold a car” among the meanings of the sentence “Company X released a minicar”.
  • the visualization unit 130 is an article including another sentence (sentence T5) having a relation that implies the sentence T4 among the link destination candidates set for the sentence T4, and the article including the sentence T4.
  • the link destination may be displayed only for articles having different contents. This is because the user is interested in the meaning of “X has released a mini vehicle” among the meanings of the sentence “X has released a mini vehicle”. It is based on the judgment that other articles including sentences having a meaning similar to the meaning of “has been released” should be collected. In this case, an article including sentence T1 or sentence T2 that has an implication relationship with sentence T4 but does not have a similar meaning to the meaning of “Company X has released a mini vehicle” is included in the link destination candidate articles. Excluded.
  • the user can efficiently collect information related to a specific viewpoint in an article. More specifically, the user can easily access articles that contain at least sentences that have the same meaning and content as the point of interest in the article and that have different contents as the whole article. It is possible to efficiently collect information related to this viewpoint. For example, the user can easily access information related to the content of interest by simply following the link attached to the sentence expressing the content of interest in the displayed article. Information collection time can be shortened.
  • the article management system 1 of the present embodiment may have a configuration in which two or more physically separated devices are connected by wire or wirelessly. This is the same in the systems and apparatuses of other embodiments described later.
  • Embodiment 2 a second embodiment of the present invention will be described.
  • the first embodiment mainly based on the result of implication determination between sentences included in different articles, information on other articles including contents related to each sentence included in the specified sentence set is stored.
  • the system which provides the information which a user desires by matching was illustrated.
  • FIG. 13 is a block diagram showing an example of a related article determination apparatus according to the second embodiment of the present invention.
  • the related article determination apparatus 200 illustrated in FIG. 13 includes an implication sentence determination unit 210, a difference determination unit 220, and a result output unit 230.
  • the related article determination apparatus 200 shown in FIG. 13 receives as input the designation of a first sentence that is an arbitrary sentence in an arbitrary article and the designation of a second article that is an article to be determined. At least information indicating whether the article is a related article having information related to the first sentence is output.
  • an article including the first sentence is referred to as a first article.
  • the related article includes a sentence having a meaning similar to any of the semantic contents of the designated sentence (first sentence), and an article including the designated sentence. Articles with different contents may be used.
  • the implication sentence determination unit 210 determines whether or not a sentence having an implication relationship with the first sentence is included in the second article.
  • the implication sentence determination unit 210 selects, for example, sentences included in the second article one by one in order, and determines whether there is an implication relationship between the selected sentence and the first sentence. Also good. More specifically, the implication sentence determination unit 210 determines whether the selected sentence implies the first sentence or the first sentence implies the selected sentence using the implication determination. If any implication relationship is established as a result of such an implication determination, the implication sentence determination unit 210 determines that a sentence having an implication relation with the first sentence is included in the second article. May be.
  • the implication sentence determination unit 210 may perform implication clustering on the first sentence and all sentences included in the second article, for example.
  • the cluster including the first sentence includes a sentence other than the first sentence
  • the implication sentence determination unit 210 includes a sentence having an implication relation with the first sentence in the second article. May be determined.
  • the difference determination unit 220 when the implication sentence determination unit 210 determines that the second article includes a sentence having an implication relationship with the first sentence, the second article and the first article The difference between is determined. In addition, the difference determination unit 220 may obtain a portion that is the difference of the first article in the second article together with the difference between the articles.
  • the method of obtaining the presence / absence and / or the amount of difference between articles and the method of obtaining a part to be a difference in the article may be the same as the method by the difference specifying unit 120 of the first embodiment.
  • the result output unit 230 when the difference determination unit 220 determines that there is a difference between the second article and the first article, the second article has information related to the first sentence. Outputs the judgment result indicating the article.
  • the result output unit 230 outputs, together with the determination result, information indicating the amount of difference between the second article and the first article, or a portion of the second article that is different from the first sentence. May be.
  • FIG. 14 is a flowchart illustrating an operation example of the related article determination apparatus 200 according to the present embodiment.
  • the implication sentence determination unit 210 determines whether there is an implication relationship between the designated sentence (first sentence) and each sentence in the designated article (second article). Is determined (step S201). As a result of step S201, when it is determined that there is an implication relationship between the first sentence and any sentence in the second article (Yes in step S202), the process proceeds to step S203.
  • step S203 the difference determination unit 220 determines a difference between the first article including the first sentence and the second article (step S203).
  • step S203 when it is determined that there is a difference between the first article and the second article (Yes in step S204), the result output unit 230 indicates that the second article is a related article. Output.
  • the result output unit 230 outputs that the second article is not a related article.
  • FIG. 15 is a block diagram illustrating an example of an information search system according to the third embodiment of this invention.
  • the information search system 3 illustrated in FIG. 15 includes an article providing server 301 and a search server 302.
  • the search server 302 includes a sentence reception unit 310, a search unit 320, a difference determination unit 330, and a result display unit 340.
  • the article providing server 301 and the search server 302 are connected via a communication network such as the Internet.
  • the article providing server 301 is a server that provides articles.
  • the article providing server 301 may be, for example, a Web server that publishes articles on a communication network.
  • FIG. 15 shows an example including n article providing servers 301, but any number of article providing servers 301 may be provided.
  • the sentence accepting unit 310 accepts designation of a sentence included in a published article from a user terminal (not shown).
  • the search unit 320 specifies an article including the specified sentence and outputs the specified sentence to the search unit 320 as a search query.
  • the designated sentence may be referred to as a first sentence
  • an article including the first sentence may be referred to as a first article.
  • the search unit 320 uses the first sentence specified in the search query to store an article including a sentence having a meaning similar to the semantic content of the first sentence. Search from within.
  • the search unit 320 uses a method similar to the method by the implication sentence specifying unit 110 of the first embodiment, that is, a sentence having a meaning similar to the semantic content of the search query sentence using an implication recognition or implication clustering technique. And an article including the searched sentence may be acquired. At this time, when the information of the first article is obtained, the search unit 320 may exclude the first article from the articles to be searched.
  • the search unit 320 determines whether the meaning of the sentence in the article to be searched is similar to the semantic content of the first sentence, regardless of whether the article to be searched is the first article. May be determined. Even in such a case, it is possible to prevent the first article from being displayed as a search result by using a difference determination result between articles by a difference determination unit 330 described later.
  • the difference determination unit 330 determines whether or not there is a difference between the first article and the searched article and / or its amount. In addition, the difference determination unit 330 may determine such a difference between articles and may specify a portion that is a difference from the first article in the searched article. The method for obtaining the presence / absence and / or the amount of difference between articles and the method for identifying the part that becomes the difference in the article may be the same as the method by the difference identifying unit 120 of the first embodiment.
  • the result display unit 340 sets the article determined to have a difference by the difference determination unit 330 among the articles searched by the search unit 320 as a related article for the first sentence, and displays information on the article.
  • the result display unit 340 may display information on articles searched in descending order of the difference amount.
  • the information to be displayed may be, for example, the location of the corresponding article (URL (Uniform Resource Locator), information indicating the storage location of the article, etc.) and a list of titles.
  • the list may further include an excerpt of the article content and a link to the corresponding article or an article processed from the corresponding article.
  • the result display unit 340 may perform excerpt article generation and difference highlighting using, for example, a method similar to the method according to the first embodiment.
  • FIG. 16 is a flowchart showing an operation example of the information search system 3 of the present embodiment.
  • the sentence receiving unit 310 receives a specification of a sentence included in an article being published (step S301).
  • the search unit 320 uses the sentence specified in step S301 (first sentence) as a search query sentence, and an article including a sentence having a meaning similar to any of the semantic contents of the first sentence. Search is made from articles published by the providing server 301 (step S302).
  • the difference determination unit 330 determines the difference between the article searched by the search unit 320 and the article (first article) including the sentence specified in the search query (step S303).
  • the difference determination unit 330 excludes the searched article from the search result when it is determined that there is no difference as a result of the determination in step S03 (No in step S304, step S305). Then, the process proceeds to step S306. On the other hand, if it is determined that there is a difference (Yes in step S304), the process proceeds to step S306 as it is.
  • step S306 it is determined whether or not the difference determination is completed for all the articles searched. If the difference determination is not completed (No in step S306), the process returns to step S303. If the difference determination is completed, the process proceeds to step S307.
  • the result display unit 340 displays the information of the article that is finally set as the search result (step S307).
  • a sentence having a meaning similar to any of the semantic contents of the sentence is automatically specified only by specifying the sentence in the article. And an article having a different content as a whole article is searched, so that information related to a specific viewpoint in which the user is interested can be efficiently collected.
  • the difference determination unit 330 may obtain only the difference amount without determining whether or not there is a difference between articles. Even in such a case, when the result display unit 340 displays an article searched by the search unit 320 as a search result, if an article with a large difference from the first article is displayed preferentially, The user can efficiently collect information related to a particular viewpoint that he is interested in.
  • Embodiment 4 FIG. Next, a fourth embodiment of the present embodiment will be described.
  • an information collection apparatus that automatically collects related articles when a sentence in a certain article is designated will be described.
  • FIG. 17 is a block diagram illustrating an example of an information collection system according to the fourth embodiment.
  • the information collection system 4 illustrated in FIG. 17 includes an article collection unit 410, a related article determination unit 420, and a related article storage unit 430.
  • the article collection unit 410 When the article collection unit 410 receives designation of a sentence in a certain article, the article collection unit 410 collects the article using the designated sentence.
  • the article collection method in the article collection unit 410 is not particularly limited.
  • the article collection unit 410 may collect articles using a search system that uses morphological analysis.
  • the related article determination unit 420 determines, for each of the articles collected by the article collection unit 410, whether the article is a related article of the specified sentence (first sentence).
  • a related article determination method in the related article determination unit 420 may be the same as the method by the related article determination apparatus 200 of the second embodiment.
  • the related article determination apparatus 200 according to the second embodiment may be mounted.
  • the related article storage unit 430 stores articles determined as related articles by the related article determination unit 420 among the collected articles. At this time, the related article storage unit 430 receives, from the related article determination unit 420, the difference amount between the related article and the article including the specified sentence, and the article including the specified sentence in the related article. When the information of the part considered as the difference is obtained, the information may be stored together with the related article.
  • FIG. 18 is a flowchart illustrating an operation example of the information collection system 4 of the present embodiment.
  • the article collection unit 410 collects articles using the designated sentence (step S401).
  • the related article determination unit 420 determines, for each of the collected articles, whether the article is a related article of the designated sentence (step S402).
  • step S404 if the collected article is a related article of the specified sentence (Yes in step S403), the article collection unit 410 that has received the result from the related article determination unit 420 or the related article determination unit 420, The article is stored in the related article storage unit 430 (step S404).
  • the user is related only by specifying (registering) a specific sentence (a sentence expressing the content of interest) in the article including the content of interest.
  • Articles containing information can be obtained automatically.
  • the information collection system 4 may periodically perform a series of processes shown in FIG.
  • the information collection system 4 is implemented as an agent function that is resident in an information processing apparatus such as a user terminal connected to a communication network and automatically collects related articles of a specified sentence. Also good.
  • the related article determination unit 420 of the present embodiment can also operate as the implication sentence specifying unit 110 and the difference specifying unit 120 of the first embodiment, for example.
  • the related article determination unit 420 of the present embodiment can also operate as the search unit 320 and the difference determination unit 330 of the third embodiment, for example.
  • FIG. 19 illustrates four articles (articles A, B, C, and D).
  • the contents of each article are as follows.
  • Sentence A-1 “The venue for the Olympic and Paralympic Games is fixed in Tokyo.”
  • Sentence A-2 “There is an economic effect of 30 trillion yen according to the report of Company X.”
  • Sentence A-3 “However, the creation of a budget of several trillion yen is an issue.”
  • Sentence B-1 “The Olympics will be held in Tokyo.”
  • Sentence B-2 “According to company X, the economic effect is 30 trillion yen.”
  • Sentence B-3 “In particular, environmental demand is expected to increase.”
  • Sentence B-4 “The tourism industry has listed multilingual support as an issue in anticipation of the Tokyo Olympics.”
  • Sentence C-1 “Tokyo Olympics will be held”
  • Sentence C-2 “Expect the economic effect of the Olympics.”
  • Sentence D-1 “We were expected to face a disadvantage, but we decided to hold the Tokyo Olympics.” Sentence D-2: “About half a century since the last Tokyo Olympics.” Sentence D-3: “I want to look back on the 1964 Tokyo Olympics.” Sentence D-4 and after: “... (Topics related to the previous Tokyo Olympics, etc.)
  • sentence A-1 implies sentences B-1, C-1, and D-1.
  • the sentences A-1, B-1, C-1, and D-1 are assumed to belong to a cluster having the representative sentence as the sentence C-1.
  • the implication sentence determination unit 210 of the related article determination apparatus 200 determines whether the specified article includes a sentence that has an implication relationship with the specified sentence. In this example, it is determined that the sentence B-1 in the article B, the sentence C-1 in the article C, and the sentence D-1 in the article D have an implication relationship with respect to the designated sentence A-1. . Therefore, articles B, C, and D are extracted as articles containing sentences that have an implication relationship with the designated sentence.
  • the difference determination unit 220 determines the difference between the extracted articles B, C, and D and the article A including the specified sentence. For example, in the determination of the difference between Article A and Article B, Article B is not only the content that “the Olympic venue is Tokyo” and “the economic effect is 30 trillion yen”, but also “ Article B is determined to have a difference because it refers to “increase” and “problems for multilingualism in the tourism industry”. For example, the difference determination unit 220 determines that the article B has a difference because the article B includes a predetermined ratio or more of words that are not included in the article A such as tourism demand, tourism industry, and other languages. May be.
  • the difference determination unit 220 may specify the sentences B-2 and B-3 in the article B including the word that is not included in the article A as the sentence that is a difference with respect to the article A.
  • the difference determination unit 220 obtains the degree of duplication of elements constituting the article using, for example, part-of-speech information such as nouns and adjectives obtained as a result of morphological analysis. A method may be used.
  • the difference determination part 220 may determine the difference between articles, when the implication determination result between each sentence is obtained. For example, the difference determination unit 220 obtains the number or ratio of sentences in the article B that are not considered to have an implication relationship with any sentence in the article A, and if the difference is greater than or equal to a predetermined threshold value It may be determined that there is a difference.
  • the article B includes a sentence B-2 having almost the same meaning as that of the sentence A-2 in the article A, but is similar to the meaning of any sentence in the article A. Assume that sentences B-3 and B-4 with meanings not included are also included. In such a case, the difference determination unit 220 may determine that the article B is different from the article A.
  • the difference determination unit 220 may perform the difference determination between the article A and the article C and between the article A and the article D, similarly to the difference determination between the article A and the article B. For example, in the difference determination between the article A and the article C, the difference determination unit 220 determines that there is no difference because the article C does not include a sentence that is different from the sentence in the article A. You may judge.
  • the difference determination unit 220 includes, for example, a predetermined percentage of the words that are not included in the article A such as the previous Olympics, half century, and 1964 in the article D. Since it is included, the article D may be determined to have a difference. Further, for example, as a result of the implication determination, the difference determination unit 220 includes sentences D-2 and D-3 having a meaning that is not similar to the meaning content of any sentence in the article A in the article D. The article D may be determined to have a difference.
  • articles B and D are specified as related articles for sentence A-1. Also, in article B, which is a related article, sentences B-2, B-3, B-4,... Are identified as sentences that are differences from article A. In the article D, which is a related article, sentences D-2, D-3,... Are identified as sentences that are differences from the article A.
  • the related article determination example described above is not limited to the case of using the related article determination apparatus 200, but also the case of using the implication sentence specifying unit 110 and the difference specifying unit 120 of the article management system 1, for example.
  • the same applies to the case of the search unit 320 and the difference determination unit 330 of the search server 302 and the case of the related article determination unit 420 of the information collection system 4.
  • the visualization unit 130 of the article management system 1 determines that the related article is specified in response to the article A-1 in the article A being designated. It is also possible to set a link to the article B or the article D that is a candidate for the link destination, or display the information of the article B or the article D. For example, when displaying the information of the article B, the visualization unit 130 determines that the sentence B-1 is a sentence having a similar meaning to the sentence A-1 that is the link source, .., B-3, B-4,... May be highlighted so that it can be seen that they are differences from the article A including the sentence A-1 that is the link source.
  • a similar display example can be said as a display example by the result display unit 340 of the search server 302, for example.
  • FIG. 20 is a schematic block diagram illustrating a configuration example of a computer according to each embodiment of the present invention.
  • the computer 1000 includes a CPU 1001, a main storage device 1002, an auxiliary storage device 1003, an interface 1004, and a display device 1005.
  • the article management system 1, the related article determination device 200, the information search system 3, and the information collection system 4 described above may be implemented in the computer 1000.
  • the operation of these systems may be stored in the auxiliary storage device 1003 in the form of a program.
  • the CPU 1001 reads a program from the auxiliary storage device 1003 and develops it in the main storage device 1002, and executes predetermined processing in each embodiment according to the program.
  • the auxiliary storage device 1003 is an example of a tangible medium that is not temporary.
  • Other examples of the non-temporary tangible medium include a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, and a semiconductor memory connected via the interface 1004.
  • the computer that has received the distribution may develop the program in the main storage device 1002 and execute the predetermined processing in each embodiment.
  • the program may be for realizing a part of predetermined processing in each embodiment.
  • the program may be a difference program that realizes predetermined processing in each embodiment in combination with another program already stored in the auxiliary storage device 1003.
  • the computer 1000 may include an input device depending on the processing content in the embodiment.
  • the computer 1000 may include an input device depending on the processing content in the embodiment.
  • an input device is provided for inputting an instruction to move to a link destination, such as clicking a portion where a link is set. May be.
  • each device is implemented by general-purpose or dedicated circuits (Circuitry), processors, etc., or combinations thereof. These may be constituted by a single chip or may be constituted by a plurality of chips connected via a bus. Moreover, a part or all of each component of each device may be realized by a combination of the above-described circuit and the like and a program.
  • each device When some or all of the constituent elements of each device are realized by a plurality of information processing devices and circuits, the plurality of information processing devices and circuits may be centrally arranged or distributedly arranged. Also good.
  • the information processing apparatus, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client and server system and a cloud computing system.
  • FIG. 21 is a block diagram showing the minimum configuration of the search system according to the present invention.
  • the search system according to the present invention includes a reception unit 601, a search unit 602, and a display unit 603.
  • the accepting unit 601 accepts designation of a specific sentence in the article.
  • Such a reception unit 601 is illustrated as the sentence reception unit 310 in the above embodiment, for example.
  • the search unit 602 uses the first sentence, which is the designated sentence, as a search query to search for an article including a sentence having a meaning similar to the semantic content of the first sentence.
  • search part 602 is shown as the search part 320 in the said embodiment, for example.
  • the display unit 603 displays information on the searched article as a related article for the first sentence. At this time, when there are a plurality of related articles, the display unit 603 preferentially displays an article having a larger difference from the first article that is an article including the first sentence.
  • Such a display part 603 is shown as the result display part 340 in the said embodiment, for example.
  • the search unit 602 may search for an article that includes a sentence having a meaning similar to the semantic content of the first sentence and that has a difference from the first article.
  • the display unit 603 may display, as a search result, a screen on which a link to an article that is a related article or a processed article obtained by processing the article is set.
  • the search system compares the content of the first article with the content of the second article that is the searched article, and calculates the difference between the first article and the second article.
  • a difference specifying unit for specifying a presence or absence or a portion where there is a difference with respect to the content of the first article in the second article.
  • the display unit 603 may highlight a portion having a difference with respect to the content of the first article in a manner that can be distinguished from others.
  • the display unit 603 displays a sentence having a meaning similar to any of the meaning contents of the first sentence in the first mode, and the contents of the first article are displayed. You may display the place where there was a difference by a 2nd aspect.
  • the search system further includes an implication relationship determination unit that determines the presence or absence of an implication relationship between sentences, and the search unit 602 is an article that is the search target by the implication relationship determination unit. If it is determined that there is an implication relationship with the second sentence that is one of the sentences, the article that is the search target is a sentence having a meaning similar to the semantic content of the first sentence. It may be included.
  • the above-described implication relation determination unit determines the implication relation between a sentence and a sentence by using the relation between two sentences in which the meaning of one sentence is true when the meaning of the other sentence is true. The presence or absence may be determined.
  • the above-described implication relation determination unit imposes a relationship between two sentences in which one of the meaning contents of one sentence is similar to the meaning of the other sentence, and the other sentence implies the one sentence.
  • the presence or absence of an implication relationship between sentences may be determined.
  • the search unit 602 determines that the second sentence has an implication relationship that implies the first sentence or the first sentence has an implication relationship that implies the second sentence by the above-described implication relationship determination unit.
  • the article to be searched may include a sentence having a meaning similar to the semantic content of the first sentence.
  • the search unit 602 uses the above-described implication relationship determination unit to determine whether the second sentence has an implication relationship that implies the first sentence, or the first sentence and the second sentence are other common sentences.
  • an article that is a search target may include a sentence having a meaning similar to the semantic content of the first sentence.
  • the above-described implication relationship determination unit performs implication clustering, which is clustering based on the relationship between two sentences in which the meaning of one sentence is true when the meaning of one sentence is true.
  • implication clustering is clustering based on the relationship between two sentences in which the meaning of one sentence is true when the meaning of one sentence is true.
  • the presence or absence of an implication relationship between sentences may be determined using the relationship between sentences belonging to the same cluster as an implication relationship.
  • the present invention can be suitably applied to article management and article collection.
  • the present invention can be suitably applied to a purpose of defining the relationship between a plurality of articles based on the content of sentences included in each article and the difference between the contents of each article.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

 検索システムは、記事中の特定の文の指定を受け付ける受付部601と、指定された文である第1の文を検索クエリに用いて、第1の文がもつ意味内容と類似する意味の文を含む記事を検索する検索部602と、検索された記事を、第1の文に対する関連記事として、該記事の情報を表示する表示部603とを備え、表示部603は、関連記事が複数ある場合に、第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示する。

Description

検索システム、検索方法および検索プログラム
 本発明は、記事を検索するための検索システム、検索方法および検索プログラムに関する。
 文の意味(meaning)の類似性を判断する処理の一つとして含意認識がある。含意認識の例が非特許文献1に記載されている。また、含意認識に基づいてテキストをグループ化する例が特許文献1に記載されている。
 含意認識は、“A”、“B”をそれぞれ文または文相当の文章表現上の単位(以下、両者を含む表現として、“文”という。)とした場合に、“AはBを含意(entailment)する”という関係の有無を判定する処理である。また、そのような関係の有無を判定することを含意判定と呼ぶ場合がある。
 ここで、“AはBを含意する”とは、Aが真であるならばBも真であることである。また、特許文献1に記載されているように、Aの表記からBの意味が読み取れる場合に、AがBを含意すると定義してもよい。以下、第1の文が他の文を含意する関係を、含意関係と呼ぶ場合がある。
 また、検索クエリとして文を指定できる検索システムがある。このような検索システムは、検索クエリとして指定された文を形態素解析して、指定された文に含まれる単語を抽出し、抽出された単語を検索クエリとして用いて、文や記事を検索する。
特許第5494999号公報
Masaaki Tsuchida, Kai Ishikawa, "IKOMA at TAC2011: A Method for Recognizing Textual Entailment using Lexical-level and Sentence Structure-level features", [online], [2016年1月26日検索]、インターネット<URL:http://www.nist.gov/tac/publications/2011/participant.papers/IKOMA.proceedings.pdf>
 ところで、ある記事を読んだ際、その読者がその記事内の一部の内容(contents)に興味をもったとする。以下、記事に含まれる複数の内容のうち、読者が興味を持った内容を「観点」と記載する。読者は、その観点についてよりたくさんの情報を得たい場合に、その観点について今読んでいる記事にはない新規な内容を含む他の記事を読みたい場合がある。また、読者は、その観点に関連する事柄(例えば、その事柄と一緒に論じられることが多い事柄といった、その事柄の周辺事項)について書かれた記事をさらに読みたい場合がある。
 ところが、形態素解析を利用した検索システムの場合、上記のような記事が検索されるとは限らない。例えば、ユーザが興味をもった観点を表現している文を指定して検索を行っても、指定した文と類似する文を含んでいるが新規な内容を含まない記事が検索される可能性がある。一例として、公開場所は異なるが全く同じ内容の記事が検索される可能性がある。
また、例えば、指定した文に用いられている単語や特徴語が用いられているが、該単語や特徴語が、元の記事内において指定した文により表現されていた内容すなわちユーザが興味をもった観点とは全く異なる内容を表現している記事が検索される可能性がある。一例として、指定した文が“X機種は性能が高く、価格も低く抑えられている”であった場合に、“Y機種はX機種に比べて性能が高い”といった文を含む記事や“X機種は価格が高い”といった文を含む記事が検索される可能性がある。
 このように、形態素解析を利用した検索システムには、記事内の一部の内容であって読者が興味を持った内容(すなわち観点)に関連する情報を効率よく収集できない問題がある。
 そこで、本発明は、ユーザが、記事内の一部の内容であって特定の観点に関連する情報を効率よく収集できる検索システム、検索方法および検索プログラムを提供することを目的とする。
 本発明による検索システムは、記事中の特定の文の指定を受け付ける受付部と、指定された文である第1の文を検索クエリに用いて、第1の文がもつ意味内容(connotations)と類似する内容(meaning)の文を含む記事を検索する検索部と、検索された記事を、第1の文に対する関連記事として、該記事の情報を表示する表示部とを備え、表示部は、関連記事が複数ある場合に、第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示することを特徴とする。
 また、本発明による検索方法は、記事中の特定の文の指定を受け付け、指定された文である第1の文を検索クエリに用いて、第1の文がもつ意味内容と類似する内容の文を含む記事を検索し、検索された記事を、第1の文に対する関連記事として、該記事の情報を表示し、表示をする際に、関連記事が複数ある場合に、第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示することを特徴とする。
 また、本発明による検索理プログラムは、コンピュータに、記事中の特定の文の指定を受け付ける処理、指定された文である第1の文を検索クエリに用いて、第1の文がもつ意味内容と類似する内容の文を含む記事を検索する処理、および検索された記事を、第1の文に対する関連記事として、該記事の情報を表示する処理を実行させ、表示する処理で、関連が複数ある場合に、第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示させることを特徴とする。
 本発明によれば、ユーザが、記事内の一部の内容であって特定の観点に関連する情報を効率よく収集できる。
第1の実施形態の記事管理システムの例を示すブロック図である。 記事記憶部100に記憶される記事の例を示す説明図である。 含意文特定部110から出力される情報の例を示す説明図である。 含意文特定部110から出力される情報の例を示す説明図である。 文集合U1における含意関係の例を示す説明図である。 文集合U1に対する含意クラスタリングの結果例を示す説明図である。 可視化部130による表示の例を示す説明図である。 可視化部130による表示の例を示す説明図である。 記事管理システム1の動作例を示すフローチャートである。 記事管理システム1の動作例を示すフローチャートである。 記事管理システム1の動作例を示すフローチャートである。 記事管理システム1の動作例を示すフローチャートである。 第2の実施形態の関連記事判定装置の例を示すブロック図である。 関連記事判定装置200の動作例を示すフローチャートである。 第3の実施形態の情報検索システムの例を示すブロック図である。 情報検索システム3の動作例を示すフローチャートである。 第4の実施形態の情報収集システムの例を示すブロック図である。 情報収集システム4の動作例を示すフローチャートである。 文集合の他の例を示す説明図である。 本発明の各実施形態にかかるコンピュータの構成例を示す概略ブロック図である。 本発明による検索システムの最小構成を示すブロック図である。
 まず、本発明で使用する用語を説明する。本発明において、“記事”は、ある特定の内容を伝えるための文章を表す。なお、記事を、少なくとも文章が記録されたファイルと読み替えてもよい。そのような場合、記事には図などの文章以外の情報が含まれていてもよい。
 また、“文”は、一般的には、句点までの文字列を表す。ただし、各実施形態において“文“といった場合には、例えば、標題のような句点で終わらない一連の文字列や、“aはbであるが、cはdである。”といったように所定の接続詞等で接続されており、2以上の文に分解可能な文字列、における分解後の文に相当する文字列が含まれうる。また、各実施形態における“文”には、上述したような文相当の文字列だけでなく、節など、人が読んだ時に特定の意味が読み取れる、あるまとまった文章表現上の単位をなす文字列が含まれうる。
 また、文に関して、“意味(meaning)”といった場合、その文の明示的な意味、すなわち、その文に含まれる単語の意味や文法的用法を純粋に解釈して得られる事柄など、その文そのものが表現している事柄を表す。一方、“意味内容(connotations)”といった場合には、その文そのものが表現している事柄だけでなく、その文の一部によって表現される事柄や、その文がもつ言外の意味といった、その文からおよそ人が認識できる全ての意味を含む。すなわち、意味内容は、その文がもつ明示的な意味と言外の意味とを含む範囲の一部または全部に相当する。当然、文の“意味内容”の1つに、その文の“意味”が挙げられる。
実施形態1.
 図1は、本発明の第1の実施形態の記事管理システムの例を示すブロック図である。第1の実施形態において、記事管理システム1は、記事記憶部100と、含意文特定部110と、差分特定部120と、可視化部130とを備える。
 記事記憶部100は、記事を記憶する。本実施形態では、記事内の文とそれに関連する情報を有する記事との対応づけを行うが、記事記憶部100には、そのような対応づけの対象とする2以上の記事が記憶される。
 また、記事記憶部100において、記事の各々には、当該記事を識別するための識別子である記事IDが割り当てられるとともに、各記事内の文の各々にも、当該文を識別するための識別子である文IDが割り当てられる。
 図2は、記事記憶部100に記憶される記事の例を示す説明図である。図2に示すように、記事記憶部100は、対応づけの対象とされる記事集合を記憶する代わりに、対応づけの対象とされる記事の各々を文単位に分解して得られる文集合を記憶してもよい。そのような文集合は、例えば、対応づけの対象とされる記事の各々に対して文切り(文を切り出す処理)を行うことにより得られる。なお、文集合において、各文には、当該文を識別する情報の一つとして、当該文を含む記事の識別子が付随される。図2に示す例では、対応づけの対象とされる記事を構成している各文が、当該文を含む記事を識別する記事IDと、その記事内において当該文を識別する文IDとに対応づけられて記憶されている。なお、記事記憶部100は、対応づけの対象とされる記事集合を記憶するとともに、対応づけの対象とされる記事の各々を文単位に分解して得られる文集合を記憶してもよい。
 含意文特定部110は、記事記憶部100に記憶されている文の集合である第1文集合に含まれる各文に対して、含意認識に基づいて含意関係にある他の文を特定することにより、当該各文がもつ意味内容のいずれかと類似する意味をもつ他の文を特定する。ここで、類似は同一を含む概念である。なお、文Aと含意関係にある他の文(例えば、文B)には、文Bが文Aを含意する関係にあるときの該文Bだけでなく、文Aが文Bを含意する関係にあるときの該文Bも含まれる。
 含意文特定部110は、例えば、(1)文Bが文Aを含意する関係にあるとき、文Bの意味は、文Aがもつ意味内容のいずれかと類似するとしてもよい。このとき、含意文特定部110は、より具体的に、文Bの意味が、文Aがもつ意味内容のいずれとも類似するとしてもよい。また、含意文特定部110は、例えば、(2)文Aが文Bを含意する関係にあるとき、文Aがもつ意味内容のいずれかと類似するとしてもよい。このとき、含意文特定部110は、より具体的に、文Aは文Bがもつ意味内容を全てもち、文Bの意味は、文Aがもつ意味内容の一部(文Bと共通する意味内容のみ)と類似するとしてもよい。この場合、“文の意味が類似する”とは、その文が、相手側の文がもつ意味内容のいずれかと同一の意味または相手側の文がもつ意味内容のいずれかに何らかの限定を加えた意味を有することを意味する。なお、上記の例では、(1)が相手側の文がもつ意味内容のいずれかに何らかの限定を加えた意味を有する場合に相当し、(2)が相手側の文がもつ意味内容のいずれかと同一の意味を有する場合に相当する。
 含意文特定部110は、例えば、第1文集合から文を順次読み出し、読み出した文と、第1文集合の他の文の各々とを比較して、含意判定を行ってもよい。このとき、含意文特定部110は、比較対象が同一記事内の文同士である場合には、含意判定を行わないようにしてもよい。
 また、含意文特定部110は、例えば、第1文集合に対して、含意認識に基づくクラスタリング(以下、含意クラスタリングという)を実施してもよい。このとき、含意文特定部110は、同一記事中の文を含むクラスタが生成された場合、同じクラスタ内において同一記事中の文同士は含意関係にないとして扱うようにしてもよい。例えば、文Aと文Bとが同一クラスタに属する場合であっても、文Aと文Bとが同じ記事に含まれる場合には、文Aと文Bとの間の含意関係はないものとしてもよい。
 含意クラスタリングの方法は特に限定されない。例えば、上記の特許文献1に記載されている方法であってもよい。また、例えば、対象とされる全ての記事を構成している文からなる文集合に含まれる各文をそれぞれ代表文として、当該代表文と当該代表文を含意する関係にある他の文とを同一クラスタ内のメンバとする方法であってもよい。この場合、文の数と同じ数のクラスタが生成される。なお、含意クラスタリングの方法として、上記のような1段のクラスタリングの結果得られるクラスタ間の要素の重複の度合いに基づいてさらにクラスタを統合するような、多段のクラスタリングを行う方法を用いることも可能である。
 図3および図4は、含意文特定部110から出力される情報の例を示す説明図である。なお、図3は、含意文特定部110による含意判定の結果を示す情報の例である。図3において、対象文は、他の文との間で含意関係の有無を判定する対象とした文を示している。また、含意文は、対象文を含意すると判定された文を示している。図3によれば、例えば、文1-1は、文2-2の文を含意すると判定されたことがわかる。以下、文の識別用の表現として、“文n-m”という表現を用いた場合、“-”の右側にある“n”が記事を識別する情報(記事ID)を示し、左側にある“m”が文を識別する情報(文ID)を示す。
 また、図4は、含意文特定部110による含意クラスタリングの結果を示す情報の例である。図4において、クラスタIDは、含意クラスタリングによって分類されたクラスタの識別子を示している。また、記事IDと文IDの組は、当該クラスタに属する文の記事IDと文IDの組を示している。また、代表文フラグは、当該クラスタの代表文であるか否かを示している。各クラスタの代表文には、一般に、その代表文が属するクラスタに含まれる他の文との間で最も多く含意関係がある文が選ばれる。例えば、代表文と、同一クラスタ内の他の文との含意関係の例としては、同一クラスタ内の他の文の全てが代表文を含意する関係が挙げられる。なお、これは、代表文が同一クラスタ内の他の文を含意する関係を否定するものではない。
 含意クラスタリングの方法によっては、同一クラスタ内の他の文の全てが代表文を含意する関係が必ずしも成り立たない場合がある。例えば、多段のクラスタリングを行った結果、最終的に生成されたクラスタでは、代表文以外の他の文の全てが代表文を含意しない場合も考えられる。なお、含意関係にない他の文があっても、代表文と当該他の文との間には共起関係といった何らかの関係があると言える。例えば、クラスタ内の要素の重複度合いに基づいてクラスタを統合した場合には、共起関係がある。ここで、共起関係とは、意味的に、1つの文内に同時に現れやすい関係をいう。例えば、統計的に、文Aの意味と文Bの意味とを同一文により表現した他の文Cが多く存在する場合に、文Aと文Bとの間に共起関係があるといってもよい。
 例えば、次のような5つの文を含む文集合U1があったとする。
・文集合U1
文T1:X社は車を販売した
文T2:X社は車を売買する業者である
文T3:X社は車を買った
文T4:X社は軽自動車を発売した
文T5:X社はセダンを買い取り、軽自動車を売った
 文集合U1において、文T2は、文T1を含意する。また、文T2は、文T3を含意する。また、文T4は、文T1を含意する。また、文T5は、文T1、T2およびT4を含意している。なお、文T2、T4およびT5が、それぞれ文T1を含意する。また、文T2およびT5が、それぞれ文T3を含意する。また、文T5が、文T4を含意する。これらの含意関係を図示すると、図5のようになる。
 図5は、文集合U1における含意関係の例を示す説明図である。図5における円形のシンボルは1つの文を示している。また、矢印は、矢印の元の文が矢印の先の文を含意することを示している。
 また、図6は、文集合U1に対して含意クラスタリングを実施した場合の処理結果の例を示す説明図である。含意クラスタリングの結果、例えば、図6(a)に示すように、文T1を含意する文は、文T1を代表文とするクラスタAに分類されたとする。同様に、文T3を含意する文は、文T3を代表文とするクラスタBに分類されたとする。同様に、文T4を含意する文は、文T4を代表文とするクラスCに分類されたとする。この場合、クラスタAには、要素として、代表文である文T1以外に、文T2、T4およびT5が含まれる。同様に、クラスタBには、要素として、代表文である文T3以外に、文T2およびT5が含まれる。同様に、クラスタCには、要素として、代表文である文T4以外に、文T5が含まれる。なお、このように1つの文が複数のクラスタに属する場合もある。図6(a)において、文T2と文T4との間に直接の含意関係はないが、代表文T1を通じて含意関係が結ばれていると言える。これは、文T2およびT4のいずれもが文T1の意味を、意味内容として含んでいるからである。このように、一方の文の意味が、他方の文がもつ意味内容のいずれか(例えば、文T4がもつ意味内容の1つに相当する文T1の意味)と類似する場合、これらの文は広義の意味で“含意関係にある”としてもよい。このような含意関係は、同一クラスタに属する代表文以外の文が代表文(共通する他の文)を含意する(狭義の)含意関係に加えて、同一クラスタに属する代表文以外の文同士が、共通に有する代表文がもつ意味内容という少なくとも1つの共通する意味内容において含意する(狭義の)含意関係を含む概念である。なお、同一クラスタに属する代表文以外の文同士が、共通に有する代表文がもつ意味内容という少なくとも1つの共通する意味内容において含意する(狭義の)含意関係は、同一クラスタに属する代表文以外の文が互いに、代表文がもつ意味内容と類似する意味を有する関係と言い換えることも可能である。
 また、含意クラスタリングの方法によっては、要素の重複度合いに基づいてクラスタを統合することも考えられる。例えば、クラスタCの要素は全てクラスタAに含まれている。そのような場合に、クラスタAとクラスタCとを統合して、図6(b)に示すようなクラスタDとすることが考えられる。
 また、図6(b)を見ると、クラスタBの要素は、その半分以上がクラスタDに含まれている。そのような場合に、クラスタBとクラスタDとを統合して、図6(c)に示すようなクラスタEとすることが考えられる。このとき、クラスタEの代表文には、要素数の多い方のクラスタDの代表文であった文T1が選択されてもよい。その場合、クラスタEにおいて、代表文である文T1と、他の文である文T3との間には含意関係が成立しない場合がある。しかし、文T1と文T3の表現をそれぞれ見ると、動詞が“売る”と“買う”となっており、“販売”といった表現があることからも明らかなように、これらの意味は一緒に表現されることが多い。以下、このような、含意クラスタリング処理の結果、含意関係がなくても共起関係といった所定の関係がある2つの文が同一クラスタに属することになった場合も、それらの文は、広義の意味で“含意関係にある”とする。このような含意関係は、同一クラスタに属する代表文以外の文が代表文(共通する他の文)を含意する(狭義の)含意関係と、同一クラスタに属する代表文以外の文同士が、共通に有する代表文がもつ意味内容という少なくとも1つの共通する意味内容において含意する(狭義の)含意関係とに加えて、同一クラスタに属する文同士の共起関係を含む概念である。
 差分特定部120は、含意文特定部110による処理の結果に基づいて、含意関係にある文を含む記事間の差分の有無または差分量や差分とされる箇所を特定する。差分特定部120は、例えば、含意文特定部110から出力される情報を入力として、記事毎に含意関係にある文の組を特定し、その文を含む記事間の差分の有無および/またはその量を特定してもよい。差分特定部120は、例えば、対象とされた記事間の差分量だけを求めてもよいし、さらに求めた差分量が所定の閾値以上であれば差分ありと判定してもよい。
 以下、第1の文として文1-1で識別される文と、第2の文として文2-2で識別される文とが含意関係にあることを想定する。ここで、第1の文は、記事ID=1の第1の記事に含まれる。また、第2の文は、記事ID=2の第2の記事に含まれる。差分特定部120は、この場合、第1の文を含む第1の記事と、第2の文を含む第2の記事との間の差分の有無および/または差分量を求めればよい。このとき、差分特定部120は、第1の記事に含まれる第1の文以外の文と、第2の記事に含まれる全ての文とを比較し、差分となる文を特定してもよい。なお、差分とされる箇所は、文に限られず、例えば、特定の品詞や、節や、図表などであってもよい。
 記事間もしくは文間における差分の有無および/または差分量は、一方の記事もしくは文に含まれる単語が、他方の記事もしくは文にどれくらい含まれているか、すなわち重複度合いなどを用いて判定してもよく、このとき、単語の同義語や上位語を勘案して類似性を求めてもよい。
 また、差分特定部120は、求めた結果を記憶する。差分特定部120は、例えば、第1の文の識別情報である文IDに対応づけて、当該第1の文を含む第1の記事との間で差分があると判定された他の記事の記事IDや、当該他の記事内の差分があるとされた文の文IDを記憶してもよい。また、差分特定部120は、差分の有無は判定せずに差分量のみを求める場合には、例えば、第1の文の識別情報である文IDに対応づけて、差分量を求めた他の記事の記事IDと求めた差分量の組を記憶してもよい。
 また、差分となる文が特定された場合には、上記の対応関係に加えて、差分となる文の文IDや求めた差分量を記録してもよい。
 また、記事間の差分の有無や差分量を求める際に、記事中の全ての文を対象としなくてもよい。主文となる文は記事の前半部分に多いことから、差分特定部120は、例えば、互いの記事の前半部分のみを対象にして、記事間の差分の有無や差分量を求めてもよい。
 可視化部130は、含意文特定部110による文間の含意関係の判定結果と、差分特定部120による記事間の差分の特定結果とに基づいて、ユーザが情報収集を行うのに適した画面を生成して表示する。
 可視化部130は、例えば、記事記憶部100に記憶されている記事を表示する際に、該記事内の各文に対して、その文と含意関係にある文を含み、かつ当該記事との間で差分がある他の記事がある場合に、当該他の記事をリンク先とするリンク情報を付与して当該記事の表示を行ってもよい。このとき、表示対象とされた記事内の一つの文に対して、複数の他の記事へのリンク情報が付与可能であった場合、差分が大きい他の記事ほど優先して表示されるようにリンク情報を付与してもよい。例えば、可視化部130は、差分量が上位所定数以内や所定の閾値以上といった所定の条件を満たす他の記事のみをリンク先として表示する、リンク先一覧などをリスト表示する際に差分量が大きい記事ほどリストの上の方に表示してもよい。
 また、可視化部130は、リンク先とされた他の記事やその一部の内容を表示する際に、差分箇所を強調して表示するようにしてもよい。
 図7および図8は、可視化部130による表示の例を示す説明図である。なお、図7には、可視化部130によってリンク情報が付与された記事の表示例が示されている。図7において、記事中の文に付された下線が、当該文にリンクが設定されていることを示している。また、下線が付された文の末尾の吹き出しは、リンク先の記事数を示している。可視化部130は、例えば、図7に示すように、ある記事を表示する際に、その記事内の各文に対して、関連する情報を有する記事へのリンクの有無やリンク先の記事数が分かるに記事を加工して表示してもよい。なお、本例では、記事にリンク情報を付与することで、ユーザ入力に応じてリンク先とされた記事に自動でアクセスできるようにすることを、リンクを設定すると表現している。
 また、図8は、ある記事内の文に設定されたリンク先の記事一覧の例を示す説明図である。可視化部130は、例えば、図8に示すように、表示中のある記事中の特定の文が選択された時に、当該文に設定されているリンク先の記事の情報を一覧表示してもよい。このとき、可視化部130は、表示中の記事との間の差分が大きい記事ほど、リストの上位に表示してもよい。また、可視化部130は、リンク先の記事の情報として、リンク先の記事の抜粋を表示してもよい。リストに記事の抜粋を表示する際には、可視化部130は、リンク先とされた記事においてリンク元となった文と含意関係にある文や、リンク先とされた記事においてリンク元となった文を含む記事に対して差分とされた文を抜粋して表示してもよい。図8において、k1~k3は、それぞれリンク先とされた記事の抜粋である。“<< >>”で囲まれた文は、リンク先とされた記事においてリンク元となった文と含意関係にある文である。また、その下部にある文は、リンク先とされた記事においてリンク元となった文を含む記事に対して差分とされた文である。また、図8では、差分強調表示の例として、各記事の抜粋において、リンク元となった文を含む記事と、リンク先とされた記事との間における単語の重複割合に基づいて特定された差分箇所を黒塗りで表示しているが、差分強調表示の方法はこの限りではない。例えば、差分箇所とされた文字の色やフォントを変えるなど、他の箇所と区別しうる態様により表示すればよい。可視化部130は、例えば、図8に示すように、リンク先の記事の情報を表示してもよい。リンク先の記事の情報の表示例としては、リンク先とされた記事をそのまま表示する、リンク先とされた記事に関する情報(タイトルや所在や)をリスト化して表示する、リンク先とされた記事の抜粋またはその一覧を表示する、その際に差分箇所などを強調表示するなどが挙げられる。このとき、一つ以上のリンク先の記事を加工して、表示用の記事(加工記事)を新たに生成してもよい。上記の例でいう抜粋、強調表示、リスト化は、リンク先の記事の加工例である。可視化部130は、リンク元となった文に対して生成した加工記事へのリンクを設定してもよい。
 次に、本実施形態の動作について説明する。図9~図12は、本実施形態の記事管理システム1の動作例を示すフローチャートである。図9は、本実施形態の記事管理システム1の関連情報対応づけ処理の例を示すフローチャートである。
 図9に示す例では、まず、含意文特定部110が、記事記憶部100に記憶されている各記事を構成している文の集合(第1文集合)からリンク元とする文を1つ選択する(ステップS101)。以下、ステップS101で選択された文を第1の文と呼ぶ場合がある。
 次に、含意文特定部110は、第1文集合の中から、選択された第1の文を含む第1の記事とは異なる記事内の文であって、該第1の文と含意関係にある文を特定する(ステップS102)。以下、ステップS102で特定された文を第2の文と呼ぶ場合がある。
 ステップS102において、含意文特定部110は、例えば、第1の文と、第1の文を含む記事以外の記事に含まれる各文とを比較して、含意関係の有無を判定することにより、第2の文を特定してもよい。また、例えば、含意文特定部110は、第1文集合に対して含意クラスタリング処理を行ってその結果得られるクラスタの情報を基に、第1の文が属するクラスタに属する他の文を、第2の文として特定してもよい。
 次に、差分特定部120は、第1の文を含む第1の記事と、第2の文を含む第2の記事との間の差分を求める(ステップS103)。ここで、第1の記事と第2の記事との間に差分がある場合(ステップS104のYes)、差分特定部120は、第1の文に対して、第2の記事を、リンク先の記事候補として記憶する(ステップS105)。そして、ステップS106に移行する。
 一方、第1の記事と第2の記事との間に差分がない場合には(ステップS104のNo)、そのままステップS106に移行する。
 ステップS106では、文集合に含まれる全ての文について、ステップS101からの処理が完了したかを判定する。判定の結果、完了していれば処理を終了し(ステップS106のYes)、完了していなければステップS101に戻り、次のリンク元の文を選択する(ステップS106のNo)。
 記事管理システム1は、このようにして第1文集合に含まれる全ての文がリンク元として選択されるまで、上記のステップS101からステップS105までの一連の処理を繰り返し行う。
 記事管理システム1は、例えば、対象とする文集合の指定を受けて、図9に示す動作を行ってもよい。
 また、図10~図12は、可視化部130の動作例を示すフローチャートである。まず、図10に示す例を説明する。図10に示す例では、まず、システムが、表示する記事の指定を受け付ける(ステップS111)。システムは、例えば、ユーザから記事記憶部100に記憶されている記事のいずれかの指定を受け付けてもよい。
 表示する記事の指定を受けて、可視化部130は、指定された記事に含まれる各文に対して、予め記憶されているリンク先の候補記事の情報に基づいてリンク情報を付与して、当該記事を表示する(ステップS112)。可視化部130は、例えば、図7に示したようなリンク先の情報を付与して、指定された記事を表示してもよい。
 次に、図11に示す例を説明する。図11に示す例では、記事記憶部100に記憶されている記事のいずれかが表示されているとする。その上で、システムが、表示中の記事の中から文の指定を受け付ける(ステップS121)。システムは、例えば、ユーザから表示中の記事に含まれる文のいずれかの指定を受け付けてもよい。
 次に、可視化部130は、ステップS121での文の指定を受けて、指定された文に対して、予め記憶されているリンク先の候補記事の情報に基づいて、リンク先の記事リストを表示する(ステップS122)。可視化部130は、例えば、図8に示したような記事の抜粋を含むリンク先の記事リストを表示してもよい。リンク先の記事リストの表示方法は、図8に示した方法に限定されない。例えば、可視化部130は、表示中の記事内の指定された文の近くに、吹き出し等の形で、リンク先の記事のタイトル一覧等を表示してもよい。
 次に、図12に示す例を説明する。図12に示す例でも、記事記憶部100に記憶されている記事のいずれかが表示されているとする。その上で、システムが、表示中の記事の中から文の指定を受け付ける(ステップS131)。システムは、例えば、ユーザから表示中の記事に含まれる文のいずれかの指定を受け付けてもよい。
 次に、可視化部130は、ステップS121での文の指定を受けて、指定された文に対して、予め記憶されている含意関係の特定結果の情報等に基づいて、指定された文が2以上の意味内容によるリンク先の候補記事を有しているか否かを判定する(ステップS132)。
 可視化部130は、例えば、指定された文が2以上のクラスタに属しており、そのうちの2以上のクラスタ内において、含意関係にある他の文を含む記事がリンク先として設定されている場合に、指定された文が2以上の意味内容によるリンク先の候補記事を有していると判定してもよい。この場合、上記の条件を満たした2以上のクラスタの代表文の意味が、指定された文がリンク先の候補記事を有している2以上の意味内容に相当する。
 以下、上記の文集合U1を用いて具体的に説明する。例えば、図5(a)のような含意クラスタリングの処理結果が得られたとする。このとき、文T2は、クラスタAとクラスタBとに属する。このような場合に、可視化部130は、文T2について、2以上の意味内容によるリンク先の候補記事を有していると判定してもよい。なお、本例では、クラスタAおよびクラスタBのいずれにも、文T2を含む記事とは異なる記事に含まれ、当該異なる記事がリンク先の候補として設定されているような他の文が属しているとする。これは、例えば、クラスタAに含まれる文T1、T4、T5のいずれかが、文T2を含む記事とは異なる記事に含まれており、かつその異なる記事が文T2のリンク先として設定されているとともに、クラスタBに含まれる文T3、T4のいずれかが、文T2を含む記事とは異なる記事に含まれており、かつその異なる記事が文T2のリンク先として設定されていればよい。このとき、文T2がリンク先の候補記事を有している「2以上の意味内容」には、クラスタAの代表文である文T1の意味と、クラスタBの代表文である文T3の意味とが相当する。
 また、例えば、図5(a)のような含意クラスタリングの処理結果が得られたとする。このとき、文T4は、クラスタAとクラスタCとに属する。このような場合に、可視化部130は、文T4に対して、2以上の意味内容によるリンク先の候補記事を有していると判定してもよい。なお、本例では、クラスタAおよびクラスタCのいずれにも、文T4を含む記事とは異なる記事に含まれ、当該異なる記事がリンク先の候補として設定されているような他の文が属しているとする。換言すると、クラスタAについて、クラスタAに含まれる文T1、T2、T5のいずれかが、文T4を含む記事とは異なる記事に含まれており、かつその異なる記事が文T4のリンク先の候補として設定されているとする。また、クラスタCについても同様に、クラスタCに含まれる文T5が、文T4を含む記事とは異なる記事に含まれており、かつその異なる記事が文T4のリンク先として設定されているとする。このとき、文T4がリンク先の候補記事を有している2以上の意味内容としては、クラスタAの代表文である文T1の意味と、クラスタCの代表文である文T4の意味とが相当する。
 ステップS132の判定の結果、第1の文に対して2以上の意味内容によるリンク先の候補記事を有してないと判定された場合には(ステップS132のNo)、可視化部130は、通常のリンク先表示を行えばよい(ステップS133)。その場合、可視化部130は、例えば、リンク先表示として、上記のステップS122の処理を行ってもよい。
 一方、第1の文に対して2以上の意味内容によるリンク先の候補記事を有していると判定された場合(ステップS132のYes)、可視化部130は、ユーザにリンク先を表示する観点を選択させてもよい(ステップS133)。可視化部130は、例えば、判定の結果特定された2以上の意味内容を表現した文をリスト化して表示し、いずれの意味内容について関連する情報をリンク先として表示するかを問い合わせてもよい。これにより、第1の文がもつ意味内容の中からユーザが興味をもった観点に相当する意味内容を特定することができる。
 例えば、上記の文集合U1の中から文T4が選択されたとする。なお、文T4の表記は“X社は軽自動車を発表した”であり、その意味もやはり“X社は軽自動車を発表した”である。そして、ステップS132の判定の結果、文T4がもつ、リンク先の候補記事を有している2以上の意味内容として、文T1の意味である“X社は車を販売した”と、文T4の意味である“X社は軽自動車を発表した”とが特定されたとする。なお、本例では、文T1、T2およびT5を含む記事は全て文T4を含む記事以外の記事であり、かつ文T4を含む記事の内容とは異なる内容を有しているものとする。したがって、文T4に対して、文T1、T2およびT5を含む記事の各々がリンク先の候補として抽出される。ここで、文T1、T2およびT5は、リンク元である文T4に対して、リンク先の候補記事とされた際の含意判定における他方の文に相当する。
 本例では、文T1、T2およびT5のうち、その意味が文T4のリンク先の候補記事を有している2以上の意味内容に相当するとされるのは、文T1のみである。これは、文T2およびT5が、文T4がもたない意味内容をもっている可能性があることによる。例えば、文T4から文T1を含む記事へのリンクを考える。なお、文T4と文T1の関係は、文T4が文T1を含意する関係である。このことから、該リンクは、2つの文が共通してもつ意味内容に相当する文T1がもつ意味内容のいずれかに基づいて対応づけられていると解釈できる。このような場合には、対応づけの根拠となった意味内容を全て表現している文T1を、リンク先を表示する観点候補としてユーザに提示するのが好ましい。同様に、例えば、文T4から文T5を含む記事へのリンクを考える。なお、文T4と文T5の関係は、文T5が文T4を含意する関係である。このことから、該リンクは、2つの文が共通してもつ意味内容に相当する文T4の意味内容のいずれかに基づいて対応づけられていると解釈できる。すると、対応づけの根拠となった意味内容を全て表現している文T4を、リンク先を表示する観点候補としてユーザに提示するのが好ましい。同様に、文T4から文T2を含む記事へのリンクを考える。文T4と文T2の関係は、クラスタの代表文である文T1を介して対応づけられた関係である。このような関係から、該リンクは、2つの文の共通要素となる文T1がもつ意味内容のいずれかに基づいて対応づけられていると解釈できる。すると、このような場合には、対応づけの根拠となった意味内容を全て表現している文T1を、リンク先を表示する観点候補としてユーザに提示するのが好ましい。以上のことから、文T4と文T1を、それぞれ文T4がもつリンク先の候補記事を有している意味内容を表現している文として、ユーザに提示し、その中からリンク先を表示する観点を選択させる。
 なお、可視化部130は、文T1およびT4をリンク先を表示する観点の候補として、例えば、「いずれの意味を観点にして、関連する情報のリンク先を提示しますか」といった問い合わせを行ってもよい。
 リンク先を表示する観点が決定すると、可視化部130は、その観点による含意関係に基づいて、リンク先の表示を行う(ステップS135)。可視化部130は、第1の文に対して設定されているリンク先候補のうち、当該リンク先候補の記事を特定するに至った含意関係が、観点として選択された文を含意する関係であるリンク先候補のみを対象にして、リンク先の表示を行う。
 例えば、上記の例において、文T4が指定された場合に、文T1およびT5を、リンク先を表示する観点の候補として提示した結果、文T1が選択されたとする。この場合、可視化部130は、文T4に対して設定されているリンク先候補のうち、文T1を含む記事または文T1を含意する関係にある他の文(文T2およびT5)を含む記事であって、文T4を含む記事とは異なる内容を有する記事のみを対象にして、リンク先の表示を行えばよい。これは、ユーザが、“X社が軽自動車を発売した”という文がもつ意味内容の中で“X社が車を販売した”という意味内容に興味をもっているとして、“X社が車を販売した”という意味内容と類似する意味の文を含む他の記事が収集されればよいとの判断による。なお、上記の例にはないが、“X社が車を販売した”という意味内容の下位概念に相当する“X社が軽自動車を発売した”という意味内容をもつ文が他の記事に含まれている場合には、当該記事も収集される。
 また、例えば、上記の例において、文T4が選択されたとする。この場合、可視化部130は、文T4に対して設定されているリンク先候補のうち、文T4を含意する関係にある他の文(文T5)を含む記事であって、文T4を含む記事とは異なる内容を有する記事のみを対象にして、リンク先の表示を行えばよい。これは、ユーザが、“X社が軽自動車を発売した”という文がもつ意味内容の中で“X社が軽自動車を発売した”という意味内容に興味をもっているとして、“X社が軽自動車を発売した”という意味内容と類似する意味の文を含む他の記事が収集されればよいとの判断による。なお、この場合、文T4とは含意関係にあるが、“X社が軽自動車を発売した”という意味内容に類似する意味をもたない文T1や文T2を含む記事がリンク先候補記事から除外される。
 以上のように、本実施形態によれば、ユーザは、記事中の特定の観点に関連する情報を効率よく収集できる。より具体的には、ユーザは、記事中の興味をもった観点と同じ意味内容をもつ文を少なくとも含み、かつ記事全体としては異なる内容をもった記事に容易にアクセスできるため、記事中の特定の観点に関連する情報を効率よく収集できる。例えば、ユーザは、表示中の記事内において、興味をもった内容を表現している文に付されたリンクを辿っていくだけで、興味をもった内容に関連する情報に簡単にアクセスできるため、情報収集にかかる時間を短縮できる。
 本実施形態の記事管理システム1は、2つ以上の物理的に分離した装置が有線または無線で接続されている構成であってもよい。この点、後述の他の実施形態のシステムや装置において同様である。
実施形態2.
 次に、本発明の第2の実施形態を説明する。第1の実施形態では、主に、異なる記事に含まれる文間の含意判定の結果に基づいて、指定された文集合に含まれる各文に対して関連する内容を含む他の記事の情報を対応づけることにより、ユーザが所望する情報を提供するシステムを例示した。
 本実施形態では、記事に割り当てられた識別情報等を用いずに、指定された記事が、ある記事内の指定された文と関連する情報を有している関連記事か否かを判定する関連記事判定装置について説明する。
 図13は、本発明の第2の実施形態の関連記事判定装置の例を示すブロック図である。図13に示す関連記事判定装置200は、含意文判定部210と、差分判定部220と、結果出力部230とを備えている。図13に示す関連記事判定装置200は、任意の記事中の任意の文である第1の文の指定と、判定対象とする記事である第2の記事の指定とを入力とし、第2の記事が第1の文と関連する情報を有している関連記事か否かの情報を少なくとも出力する。以下、第1の文を含む記事を第1の記事という。本実施形態において、第1の記事と第2の記事とが同じ記事であるかは特に問わない。また、関連記事は、より具体的には、指定された文(第1の文)がもつ意味内容のいずれかと類似する意味の文を含み、かつ指定された文が含まれている記事とは異なる内容を有する記事としてもよい。
 含意文判定部210は、第2の記事内に、第1の文と含意関係にある文が含まれているか否かを判定する。
 含意文判定部210は、例えば、第2の記事に含まれる文を順に1つずつ選択し、選択された文と、第1の文との間に含意関係があるか否かを判定してもよい。より具体的には、含意文判定部210は、選択した文が第1の文を含意するまたは第1の文が選択した文を含意するかどうかを、含意判定を用いて判定する。そのような含意判定の結果、いずれかの含意関係が成立した場合に、含意文判定部210は、第2の記事内に第1の文と含意関係にある文が含まれていると判定してもよい。
 また、含意文判定部210は、例えば、第1の文と、第2の記事に含まれる全ての文とを対象に含意クラスタリングを行ってもよい。そして、第1の文を含むクラスタが第1の文以外の文を含む場合に、含意文判定部210は、第2の記事内に第1の文と含意関係にある文が含まれていると判定してもよい。
 差分判定部220は、含意文判定部210により、第2の記事内に第1の文と含意関係にある文が含まれていると判定された場合に、第2の記事と第1の記事との間の差分を判定する。また、差分判定部220は、記事間の差分とともに、第2の記事内において第1の記事の差分とされる箇所を求めてもよい。記事間の差分の有無および/またはその量の求め方や、記事内における差分とされる箇所の求め方は、第1の実施形態の差分特定部120による方法と同様でよい。
 結果出力部230は、差分判定部220により第2の記事と第1の記事との間に差分があると判定された場合に、第2の記事が第1の文と関連する情報を有する関連記事である旨の判定結果を出力する。結果出力部230は、判定結果とともに、第2の記事がもつ第1の記事との差分量や、第2の記事のうち第1の文と差分があるとされた箇所を示す情報を出力してもよい。
 次に、本実施形態の動作について説明する。図14は、本実施形態の関連記事判定装置200の動作例を示すフローチャートである。
 図14に示す例では、まず、含意文判定部210が、指定された文(第1の文)と、指定された記事(第2の記事)内の各文との間の含意関係の有無を判定する(ステップS201)。ステップS201の結果、第1の文と、第2の記事内のいずれかの文との間に含意関係があると判定された場合(ステップS202のYes)、ステップS203に進む。
 ステップS203では、差分判定部220が、第1の文を含む第1の記事と、第2の記事との間の差分を判定する(ステップS203)。
 ステップS203の結果、第1の記事と第2の記事との間に差分があると判定された場合(ステップS204のYes)、結果出力部230が、第2の記事は関連記事である旨を出力する。
 その他の場合(ステップS202のNoやステップS204のNo)、結果出力部230が、第2の記事は関連記事でない旨を出力する。
 以上のように、本実施形態によれば、指定した記事が、任意の記事中の任意の文に対する関連記事であるか否かの情報を得ることができる。
実施形態3.
 図15は、本発明の第3の実施形態の情報検索システムの例を示すブロック図である。図15に示す情報検索システム3は、記事提供サーバ301と、検索サーバ302とを備える。また、検索サーバ302は、文受付部310と、検索部320と、差分判定部330と、結果表示部340とを含む。
 また、本実施形態において、記事提供サーバ301と検索サーバ302とはインターネットなどの通信ネットワークを介して接続されている。
 記事提供サーバ301は、記事を提供するサーバである。記事提供サーバ301は、例えば、通信ネットワーク上に記事を公開しているWebサーバであってもよい。なお、図15には、n個の記事提供サーバ301を備える例が示されているが、記事提供サーバ301はいくつであってもよい。
 文受付部310は、図示しないユーザ端末等から、公開中の記事に含まれる文の指定を受け付ける。検索部320は、文の指定を受け付けると、その指定された文を含む記事を特定するとともに、その指定された文を検索クエリとして検索部320に出力する。以下、指定された文を、第1の文といい、第1の文を含む記事を第1の記事という場合がある。
 検索部320は、検索クエリに指定された第1の文を用いて、当該第1の文がもつ意味内容と類似する意味の文を含む記事を、記事提供サーバ301が公開している記事の中から検索する。ここで、検索部320は、第1の実施形態の含意文特定部110による方法と同様の方法、すなわち含意認識や含意クラスタリング技術を用いて、検索クエリ文がもつ意味内容と類似する意味の文を検索し、検索された文を含む記事を取得してもよい。また、このとき、検索部320は、第1の記事の情報を得ている場合には、検索対象とする記事の中から、第1の記事を除外してもよい。なお、検索部320では、検索対象とする記事が、第1の記事か否かによらず、検索対象とする記事内の文の意味が第1の文がもつ意味内容と類似するか否かを判定してもよい。その場合であっても、後述する差分判定部330による、記事間の差分の判定結果を利用して、第1の記事が検索結果として表示されるのを防止できる。
 差分判定部330は、第1の記事と、検索された記事との間の差分の有無および/またはその量を判定する。また、差分判定部330は、このような記事間の差分を判定するとともに、検索された記事内において第1の記事との差分となる箇所を特定してもよい。記事間の差分の有無および/またはその量の求め方や、記事内の差分となる箇所の特定方法は、第1の実施形態の差分特定部120による方法と同様でよい。
 結果表示部340は、検索部320によって検索された記事のうち、差分判定部330によって差分ありと判定された記事を、第1の文に対する関連記事とし、該記事の情報を表示する。このとき、結果表示部340は、差分量が大きい順に検索された記事の情報を表示してもよい。表示する情報は、例えば、該当する記事の所在(URL(Uniform Resource Locator)や記事の保管場所を示す情報等)やタイトルの一覧であってもよい。一覧には、さらに記事内容の抜粋や、該当する記事または該当する記事を加工した記事へのリンクが含まれていてもよい。結果表示部340は、例えば、第1の実施形態による方法と同様の方法を用いて、抜粋記事の生成や差分強調表示を行ってもよい。
 次に、本実施形態の動作について説明する。図16は、本実施形態の情報検索システム3の動作例を示すフローチャートである。
 図16に示す例では、まず、文受付部310が、公開中の記事に含まれる文の指定を受け付ける(ステップS301)。
 次に、検索部320は、ステップS301で指定された文(第1の文)を検索クエリ文として、当該第1の文がもつ意味内容のいずれかと類似する意味の文を含む記事を、記事提供サーバ301が公開している記事の中から検索する(ステップS302)。
 次に、差分判定部330は、検索部320によって検索された記事と、検索クエリに指定された文を含む記事(第1の記事)との差分を判定する(ステップS303)。
 差分判定部330は、ステップS03による判定の結果、差分なしと判定された場合、検索された記事を、検索結果から除外する(ステップS304のNo,ステップS305)。そして、ステップS306に移行する。一方、差分ありと判定された場合には(ステップS304のYes)、そのままステップS306に移行する。
 ステップS306では、検索された全ての記事について差分判定が完了したか否かを判定する。差分判定が完了していなければ(ステップS306のNo)、ステップS303に戻る。差分判定が完了していればステップS307に移行する。
 最後に、結果表示部340は、最終的に検索結果とされた記事の情報を表示する(ステップS307)。
 以上のように、本実施形態によれば、ユーザがある記事を読んだ際に、その記事内の文を指定するだけで、自動的にその文がもつ意味内容のいずれかと類似する意味の文を含み、かつ記事全体として異なる内容の記事が検索されるので、ユーザが興味をもった特定の観点に関連する情報を効率よく収集できる。
 なお、本実施形態の検索システムは、上述したとおり、差分判定部330が記事間の差分の有無を判定せずに差分量だけを求めてもよい。そのような場合であっても、結果表示部340が、検索部320によって検索された記事を検索結果として表示する際に、第1の記事との差分が大きい記事を優先して表示すれば、ユーザは、興味をもった特定の観点に関連する情報を効率よく収集できる。
実施形態4.
 次に、本実施形態の第4の実施形態について説明する。本実施形態では、ある記事中の文を指定すると、自動で、関連記事を収集する情報収集装置について説明する。
 図17は、第4の実施形態の情報収集システムの例を示すブロック図である。図17に示す情報収集システム4は、記事収集部410と、関連記事判定部420と、関連記事記憶部430とを備える。
 記事収集部410は、ある記事中の文の指定を受け付けると、指定された文を用いて記事を収集する。記事収集部410における記事の収集方法は特に問わない。例えば、記事収集部410は、形態素解析を利用した検索システムを利用して記事の収集を行ってもよい。
 関連記事判定部420は、記事収集部410によって収集された記事の各々に対して、当該記事が、指定された文(第1の文)の関連記事であるか否かを判定する。関連記事判定部420における関連記事の判定方法は、第2の実施形態の関連記事判定装置200による方法と同様でよい。なお、関連記事判定部420として、第2の実施形態の関連記事判定装置200が実装されていてもよい。
 関連記事記憶部430は、収集された記事のうち、関連記事判定部420によって関連記事と判定された記事を記憶する。このとき、関連記事記憶部430は、関連記事判定部420から、当該関連記事に関して、指定された文を含む記事との間の差分量や、当該関連記事内における、指定された文を含む記事との差分とされる箇所の情報を得られた場合には、それらの情報を関連記事と併せて記憶してもよい。
 次に、本実施形態の動作について説明する。図18は、本実施形態の情報収集システム4の動作例を示すフローチャートである。
 なお、図18に示す動作例では、既にユーザから文が指定されているものとする。まず、記事収集部410が、指定された文を用いて記事を収集する(ステップS401)。
 次に、関連記事判定部420が、収集された記事の各々について、当該記事が、指定された文の関連記事であるか否かを判定する(ステップS402)。
 判定の結果、収集された記事が指定された文の関連記事であった場合(ステップS403のYes)、関連記事判定部420または関連記事判定部420からの結果を受けた記事収集部410が、その記事を、関連記事記憶部430に記憶する(ステップS404)。
 以上のように、本実施形態によれば、ユーザは、興味のある内容を含む記事中の特定の文(興味のある内容を表現している文)を指定(登録)するだけで、関連する情報を含む記事を自動で得ることができる。
 なお、情報収集システム4は、図18に示す一連の処理を定期的に行ってもよい。そのような場合において、情報収集システム4は、例えば、通信ネットワークに接続されたユーザ端末等の情報処理装置に常駐して、指定された文の関連記事を自動で収集するエージェント機能として実装されてもよい。
 また、本実施形態の関連記事判定部420は、例えば、第1の実施形態の含意文特定部110および差分特定部120として動作することも可能である。また、本実施形態の関連記事判定部420は、例えば、第3の実施形態の検索部320および差分判定部330として動作することも可能である。
 次に、図19に示す文集合を用いて、関連記事判定装置200による関連記事の判定例を示す。図19には、4つの記事(記事A,B,CおよびD)が例示されている。各記事の内容は次の通りである。
・記事A
文A-1:「オリンピック・パラリンピックの開催地は東京で確定。」
文A-2:「X社の報告によれば、30兆円規模の経済効果がある。」
文A-3:「しかし、数兆円規模の予算の捻出が課題とされている。」
文A-4以降:「・・・(予算に関する課題に関するトピック等)」
・記事B
文B-1:「東京でオリンピックが開かれることになった。」
文B-2:「X社レポートによれば、経済効果は30兆円とも。」
文B-3:「特に、環境需要の増大が見込まれる。」
文B-4:「観光産業界では、東京オリンピックを見越して、多言語対応を課題として挙げている。」
文B-5以降:「・・・(観光産業界における課題に関するトピック等)」
・記事C
文C-1:「東京五輪開催決定。」
文C-2:「オリンピックによる経済効果に期待。」
・記事D
文D-1:「形勢不利が予想されていたが、東京五輪開催決定。」
文D-2:「前回東京オリンピックから約半世紀。」
文D-3:「1964年の東京オリンピックを振り返ってみたい。」
文D-4以降:「・・・(前回東京オリンピックに関するトピック等)
 本例において、文A-1は、文B-1、C-1およびD-1を含意する。また、含意クラスタリング処理では、文A-1、B-1、C-1およびD-1は、代表文を文C-1とするクラスタに属するとされる。
 このような文集合があった場合に、例えば、ユーザが記事Aを見ており、その中の文A-1を指定したとする。また、関連記事の判定候補として、記事B、CおよびDが指定されたとする。
 関連記事判定装置200の含意文判定部210は、指定された記事内に、指定された文と含意関係にある文が含まれているか否かを判定する。本例では、指定された文A-1に対して、記事B内の文B-1、記事C内の文C-1および記事D内の文D-1が含意関係にあると判定される。したがって、記事B、CおよびDが、指定された文と含意関係にある文が含まれている記事として抽出される。
 差分判定部220は、抽出された記事B、CおよびDを対象に、指定された文を含む記事Aとの差分を判定する。例えば、記事Aと記事Bとの間の差分判定において、記事Bは、“オリンピックの開催地が東京”であり、“経済効果が30兆円である”といった内容だけでなく、“環境需要の増大”や“観光産業界における多言語対応の課題”について言及していることから、記事Bを差分ありと判定される。差分判定部220は、例えば、記事Bには、観光需要、観光産業界、他言語対応といった記事Aに含まれていない単語が所定割合以上含まれていることから、記事Bを差分ありと判定してもよい。このとき、差分判定部220は、記事Aに対して差分とされる文として、記事Aに含まれていない単語を含む記事B中の文B-2およびB-3を特定されてもよい。なお、差分判定部220は、単語の重複度合いを求める方法以外にも、例えば、形態素解析の結果得られた名詞や形容詞等といった品詞の情報を用いて、記事を構成する要素の重複度合いを求める方法を用いてもよい。
 なお、差分判定部220は、各文間の含意判定結果が得られる場合には、それを利用して、記事間の差分を判定してもよい。例えば、差分判定部220は、記事B内の文のうち、記事A内のいずれかの文と含意関係があるとされていない文の数や割合を求め、それが所定の閾値以上であれば差分ありと判定してもよい。
 例えば、含意判定の結果、記事Bには、記事A中の文A-2の意味とほぼ同じ意味の文B-2が含まれているが、記事A中のいずれの文の意味とも類似していない意味の文B-3およびB-4も含まれているとする。そのような場合において、差分判定部220は、記事Bを記事Aに対して差分ありと判定してもよい。
 差分判定部220は、記事Aと記事Bとの間の差分判定と同様に、記事Aと記事Cとの間および記事Aと記事Dとの間の差分判定を行えばよい。例えば、記事Aと記事Cとの間の差分判定において、差分判定部220は、記事Cには、記事A内の文と差分があるとされる文が含まれていないことから、差分なしと判定してもよい。
 また、例えば、記事Aと記事Dとの間の差分判定において、差分判定部220は、例えば、記事Dには、前回オリンピック、半世紀、1964年といった記事Aに含まれていない単語が所定割合以上含まれていることから、記事Dを差分ありと判定してもよい。また、例えば、差分判定部220は、含意判定の結果、記事Dには、記事A中のいずれの文の意味内容とも類似していない意味の文D-2およびD-3が含まれているとして、記事Dを差分ありと判定してもよい。
 このような判定により、文A-1に対して、記事BおよびDが関連記事として特定される。また、関連記事である記事B内において、文B-2,B-3,B-4,・・・が記事Aに対して差分とされる文として特定される。また、関連記事である記事D内において、文D-2,D-3,・・・が記事Aに対して差分とされる文として特定される。
 なお、上記の関連記事の判定例は、関連記事判定装置200による場合だけでなく、例えば、記事管理システム1の含意文特定部110および差分特定部120による場合も同様である。同様に、例えば、検索サーバ302の検索部320および差分判定部330による場合や、情報収集システム4の関連記事判定部420による場合も同様である。
 そして、上記の関連記事の判定結果に基づいて、例えば、第1の実施形態の記事管理システム1の可視化部130が、記事A中の記事A-1が指定されたことに応じて、関連記事とされた、すなわちリンク先の候補とされた記事Bや記事Dへのリンクを設定したり、記事Bや記事Dの情報を表示してもよい。また、可視化部130は、例えば、記事Bの情報を表示する際に、文B-1が、リンク元とされた文A-1と類似する意味の文であることや、文B-2,B-3,B-4,・・・が、リンク元とされた文A-1を含む記事Aとの差分となる箇所であることがわかるような強調表示を行ってもよい。同様の表示例が、例えば、検索サーバ302の結果表示部340による表示例として言える。
 次に、本発明の各実施形態にかかるコンピュータの構成例を示す。図20は、本発明の各実施形態にかかるコンピュータの構成例を示す概略ブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004と、ディスプレイ装置1005とを備える。
 上述の記事管理システム1や、関連記事判定装置200や、情報検索システム3や、情報収集システム4は、コンピュータ1000に実装されてもよい。その場合、それらシステムの動作は、プログラムの形式で補助記憶装置1003に記憶されていてもよい。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、そのプログラムに従って各実施形態における所定の処理を実施する。
 補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータは1000がそのプログラムを主記憶装置1002に展開し、各実施形態における所定の処理を実行してもよい。
 また、プログラムは、各実施形態における所定の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで各実施形態における所定の処理を実現する差分プログラムであってもよい。
 また、実施形態における処理内容によっては、コンピュータ1000の一部の要素は省略可能である。例えば、関連記事判定装置200や情報収集システム4の場合、ユーザに情報を提示しないのであれば、ディスプレイ装置1005は省略可能である。また、図20には図示省略しているが、実施形態における処理内容によっては、コンピュータ1000は、入力デバイスを備えていてもよい。例えば、記事管理システム1や情報検索システム3や情報収集システム4の場合に、リンクが設定されている部分をクリックするなど、リンク先に移動する旨の指示を入力するための入力デバイスを備えていてもよい。
 また、各装置の各構成要素の一部または全部は、汎用または専用の回路(Circuitry)、プロセッサ等やこれらの組み合わせによって実施される。これらは単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。また、各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
 各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本発明による検索システムの概要を説明する。図21は、本発明による検索システムの最小構成を示すブロック図である。図21に示すように、本発明による検索システムは、受付部601と、検索部602と、表示部603とを備えている。
 受付部601は、記事中の特定の文の指定を受け付ける。
 なお、このような受付部601は、上記実施形態において、例えば、文受付部310として示されている。
 検索部602は、指定された文である第1の文を検索クエリに用いて、第1の文がもつ意味内容と類似する意味の文を含む記事を検索する。
 なお、このような検索部602は、上記実施形態において、例えば、検索部320として示されている。
 表示部603は、検索された記事を、第1の文に対する関連記事として、該記事の情報を表示する。このとき、表示部603は、関連記事が複数ある場合に、第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示する。
 なお、このような表示部603は、上記実施形態において、例えば、結果表示部340として示されている。
 また、検索部602は、第1の文がもつ意味内容と類似する意味の文を含む記事であって、第1の記事との間に差分がある記事を検索してもよい。
 また、表示部603は、表示部は、関連記事とされた記事または該記事を加工して得られる加工記事へのリンクが設定された画面を検索結果として表示してもよい。
 また、本発明による検索システムは、第1の記事の内容と、検索された記事である第2の記事の内容とを比較して、第1の記事と第2の記事との間の差分の有無、または、第2の記事内において、第1の記事の内容に対して差分がある箇所を特定する差分特定部をさらに備えていてもよい。そのような場合において、表示部603は、検索結果を表示する際に、第1の記事の内容に対して差分がある箇所を、他と区別しうる態様により強調表示してもよい。
 なお、このような差分特定部は、上記実施形態において、例えば、差分判定部220や差分判定部330として示されている。
 また、表示部603は、検索結果を表示する際に、第1の文がもつ意味内容のいずれかと類似する意味をもつ文を第1の態様により表示し、第1の記事の内容に対して差分があるとされた箇所を第2の態様により表示してもよい。
 本発明による検索システムは、文と文との間の含意関係の有無を判定する含意関係判定部をさらに備え、検索部602は、含意関係判定部により第1の文と検索対象とされた記事内のいずれかの文である第2の文との間に含意関係があると判定された場合に、検索対象とされた記事が、第1の文がもつ意味内容と類似する意味の文を含むとしてもよい。
 なお、このような含意関係判定部は、上記実施形態において、例えば、検索部320として示されている。
 また、上記の含意関係判定部は、一方の文の意味が真である場合に他方の文の意味も真である2つの文の関係を含意関係として、文と文との間の含意関係の有無を判定してもよい。
 また、上記の含意関係判定部は、一方の文の意味内容のいずれかが、他方の文の意味とが類似している2つの文の関係を、該他方の文が該一方の文を含意する含意関係として、文と文との間の含意関係の有無を判定してもよい。
 また、検索部602は、上記の含意関係判定部により、第2の文が第1の文を含意する含意関係があるまたは第1の文が第2の文を含意する含意関係があると判定された場合に、検索対象とされた記事が、第1の文がもつ意味内容と類似する意味の文を含むとしてもよい。
 また、検索部602は、上記の含意関係判定部により、第2の文が第1の文を含意する含意関係があるまたは第1の文と第2の文とが、共通する他の文である第3の文を含意する含意関係があると判定された場合に、検索対象とされた記事が、第1の文がもつ意味内容と類似する意味の文を含むとしてもよい。
 また、上記の含意関係判定部は、ある文集合に対して、一方の文の意味が真である場合に他方の文の意味も真である2つの文の関係に基づくクラスタリングである含意クラスタリングの結果、同一クラスタに属する文同士の関係を含意関係として、文と文との間の含意関係の有無を判定してもよい。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2015年3月13日に出願された米国特許出願62/132,648を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、記事の管理や記事の収集に好適に適用可能である。また、複数の記事間の関係性を、お互いの記事に含まれる文の内容およびお互いの記事の内容の差異に基づいて定義する用途にも好適に適用可能である。
 1 記事管理システム
 100 記事記憶部
 110 含意文特定部
 120 差分特定部
 130 可視化部
 200 関連記事判定装置
 210 含意文判定部
 220 差分判定部
 230 結果出力部
 3 情報検索システム
 301 記事提供サーバ
 302 検索サーバ
 310 文受付部
 320 検索部
 330 差分判定部
 340 結果表示部
 4 情報収集システム
 410 記事収集部
 420 関連記事判定部
 430 関連記事記憶部
 601 受付部
 602 検索部
 603 表示部
 1000 コンピュータ
 1001 CPU
 1002 主記憶装置
 1003 補助記憶装置
 1004 インタフェース
 1005 ディスプレイ装置

Claims (11)

  1.  記事中の特定の文の指定を受け付ける受付部と、
     指定された文である第1の文を検索クエリに用いて、前記第1の文がもつ意味内容と類似する意味の文を含む記事を検索する検索部と、
     検索された記事を、前記第1の文に対する関連記事として、該記事の情報を表示する表示部とを備え、
     前記表示部は、前記関連記事が複数ある場合に、前記第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示する
     ことを特徴とする検索システム。
  2.  検索部は、第1の文がもつ意味内容と類似する意味の文を含む記事であって、第1の記事との間に差分がある記事を検索する
     請求項1に記載の検索システム。
  3.  表示部は、関連記事とされた記事または該記事を加工して得られる加工記事へのリンクが設定された画面を検索結果として表示する
     請求項1または請求項2に記載の検索システム。
  4.  第1の記事の内容と、検索された記事である第2の記事の内容とを比較して、前記第1の記事と前記第2の記事との間の差分の有無、または、前記第2の記事内において、前記第1の記事の内容に対して差分がある箇所を特定する差分特定部を備え、
     表示部は、検索結果を表示する際に、前記第1の記事の内容に対して差分がある箇所を、他と区別しうる態様により強調表示する
     請求項3に記載の検索システム。
  5.  表示部は、検索結果を表示する際に、第1の文がもつ意味内容のいずれかと類似する意味をもつ文を第1の態様により表示し、第1の記事の内容に対して差分があるとされた箇所を第2の態様により表示する
     請求項4に記載の記事管理システム。
  6.  文と文との間の含意関係の有無を判定する含意関係判定部を備え、
     検索部は、前記含意関係判定部により第1の文と検索対象とされた記事内のいずれかの文である第2の文との間に含意関係があると判定された場合に、検索対象とされた記事が、前記第1の文がもつ意味内容と類似する意味の文を含むとする
     請求項1から請求項5のいずれかに記載の検索システム。
  7.  含意関係判定部は、一方の文の意味が真である場合に他方の文の意味も真である2つの文の関係を、前記他方の文が前記一方の文を含意する含意関係として、文と文のとの間の含意関係の有無により判定する
     請求項6に記載の検索システム。
  8.  検索部は、含意関係判定部により、第2の文が第1の文を含意する含意関係があるまたは第1の文が第2の文を含意する含意関係があると判定された場合に、検索対象とされた記事が、前記第1の文がもつ意味内容と類似する意味の文を含むとする
     請求項7に記載の検索システム。
  9.  検索部は、含意関係判定部により、第2の文が第1の文を含意する含意関係があるまたは第1の文と第2の文とが、共通する他の文である第3の文を含意する含意関係があると判定された場合に、検索対象とされた記事が、前記第1の文がもつ意味内容と類似する意味の文を含むとする
     請求項7に記載の検索システム。
  10.  記事中の特定の文の指定を受け付け、
     指定された文である第1の文を検索クエリに用いて、前記第1の文がもつ意味内容と類似する意味の文を含む記事を検索し、
     検索された記事を、前記第1の文に対する関連記事として、該記事の情報を表示し、
     前記表示をする際に、前記関連記事が複数ある場合に、前記第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示させる
     ことを特徴とする検索方法。
  11.  コンピュータに、
     記事中の特定の文の指定を受け付ける処理、
     指定された文である第1の文を検索クエリに用いて、前記第1の文がもつ意味内容と類似する意味の文を含む記事を検索する処理、および
     検索された記事を、前記第1の文に対する関連記事として、該記事の情報を表示する処理を実行させ、
     前記表示する処理で、前記関連記事が複数ある場合に、前記第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示させる
     ための検索プログラム。
PCT/JP2016/001341 2015-03-13 2016-03-10 検索システム、検索方法および検索プログラム WO2016147624A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017506080A JP6747427B2 (ja) 2015-03-13 2016-03-10 検索システム、検索方法および検索プログラム
US15/558,112 US10909154B2 (en) 2015-03-13 2016-03-10 Search system, search method and search program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562132648P 2015-03-13 2015-03-13
US62/132,648 2015-03-13

Publications (1)

Publication Number Publication Date
WO2016147624A1 true WO2016147624A1 (ja) 2016-09-22

Family

ID=56918571

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2016/001328 WO2016147621A1 (ja) 2015-03-13 2016-03-10 記事管理システム、記事管理方法および記事管理プログラム
PCT/JP2016/001341 WO2016147624A1 (ja) 2015-03-13 2016-03-10 検索システム、検索方法および検索プログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/001328 WO2016147621A1 (ja) 2015-03-13 2016-03-10 記事管理システム、記事管理方法および記事管理プログラム

Country Status (3)

Country Link
US (1) US10909154B2 (ja)
JP (2) JP6747427B2 (ja)
WO (2) WO2016147621A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11416682B2 (en) * 2020-07-01 2022-08-16 International Business Machines Corporation Evaluating chatbots for knowledge gaps

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101990A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
JPH09223161A (ja) * 1995-07-07 1997-08-26 Sun Microsyst Inc コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置
JP2000105769A (ja) * 1998-09-28 2000-04-11 Hitachi Ltd 文書表示方法
JP2004318528A (ja) * 2003-04-16 2004-11-11 Seiko Epson Corp 情報抽出システム、文書抽出システム、情報抽出プログラム及び文書抽出プログラム、並びに情報抽出方法及び文書抽出方法
JP2005258831A (ja) * 2004-03-11 2005-09-22 Patolis Corp 類似文書検索方法
JP2008077252A (ja) * 2006-09-19 2008-04-03 Ricoh Co Ltd 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP2011022630A (ja) * 2009-07-13 2011-02-03 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106627A1 (en) * 2005-10-05 2007-05-10 Mohit Srivastava Social discovery systems and methods
SG11201406913VA (en) 2012-04-26 2014-12-30 Nec Corp Text mining system, text mining method, and program
US20150286698A1 (en) * 2014-04-07 2015-10-08 Microsoft Corporation Reactive digital personal assistant

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09223161A (ja) * 1995-07-07 1997-08-26 Sun Microsyst Inc コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置
JPH09101990A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
JP2000105769A (ja) * 1998-09-28 2000-04-11 Hitachi Ltd 文書表示方法
JP2004318528A (ja) * 2003-04-16 2004-11-11 Seiko Epson Corp 情報抽出システム、文書抽出システム、情報抽出プログラム及び文書抽出プログラム、並びに情報抽出方法及び文書抽出方法
JP2005258831A (ja) * 2004-03-11 2005-09-22 Patolis Corp 類似文書検索方法
JP2008077252A (ja) * 2006-09-19 2008-04-03 Ricoh Co Ltd 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP2011022630A (ja) * 2009-07-13 2011-02-03 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
US10909154B2 (en) 2021-02-02
US20180046706A1 (en) 2018-02-15
WO2016147621A1 (ja) 2016-09-22
JP6747427B2 (ja) 2020-08-26
JPWO2016147624A1 (ja) 2017-12-21
JPWO2016147621A1 (ja) 2018-01-11

Similar Documents

Publication Publication Date Title
US10546005B2 (en) Perspective data analysis and management
CN108346075B (zh) 信息推荐方法和装置
US20100313258A1 (en) Identifying synonyms of entities using a document collection
US20040049499A1 (en) Document retrieval system and question answering system
US20130060769A1 (en) System and method for identifying social media interactions
CN107767273B (zh) 基于社交数据的资产配置方法、电子装置及介质
CN110516011B (zh) 一种多源实体数据融合方法、装置及设备
CN111444304A (zh) 搜索排序的方法和装置
CN112256845A (zh) 意图识别方法、装置、电子设备和计算机可读存储介质
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
US20120096003A1 (en) Information classification device, information classification method, and information classification program
Ghosh et al. A rule based extractive text summarization technique for Bangla news documents
US10042913B2 (en) Perspective data analysis and management
KR20140026796A (ko) 맞춤형 특허분석 서비스 시스템 및 그 방법
WO2016147624A1 (ja) 検索システム、検索方法および検索プログラム
Sen et al. Screener: a system for extracting education related information from resumes using text based information extraction system
Ngo et al. Building English-Vietnamese named entity corpus with aligned bilingual news articles
JP2009205499A (ja) ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム
CN114780601A (zh) 一种数据查询方法、装置、电子设备和存储介质
CN104376034A (zh) 信息处理设备,信息处理方法和程序
JP4573358B2 (ja) 評判情報検索装置、その方法およびプログラム
Dambhare et al. Smart map for smart city
CN110609959B (zh) 基于项目生命周期的检索方法、存储介质及电子设备
CN115809334B (zh) 事件关联性分类模型的训练方法、文本处理方法及装置
JP2019168758A (ja) データ処理装置、データ処理方法及びデータ処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16764456

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017506080

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15558112

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16764456

Country of ref document: EP

Kind code of ref document: A1