WO2012111226A1 - 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体 - Google Patents

時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2012111226A1
WO2012111226A1 PCT/JP2011/078517 JP2011078517W WO2012111226A1 WO 2012111226 A1 WO2012111226 A1 WO 2012111226A1 JP 2011078517 W JP2011078517 W JP 2011078517W WO 2012111226 A1 WO2012111226 A1 WO 2012111226A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
topic
document set
target document
topic word
Prior art date
Application number
PCT/JP2011/078517
Other languages
English (en)
French (fr)
Inventor
岡嶋穣
中澤聡
河合剛巨
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/982,523 priority Critical patent/US20130311471A1/en
Priority to JP2012557792A priority patent/JP5884740B2/ja
Publication of WO2012111226A1 publication Critical patent/WO2012111226A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Definitions

  • the present invention relates to a time-series document summarization apparatus, a time-series document summarization method, and a computer-readable recording medium, and more particularly to a time-series document summarization apparatus, a time-series document summarization method, and a method for summarizing topics in a document set and presenting them to a user.
  • the present invention relates to a computer-readable recording medium.
  • Trend analysis technology is known as a technology for extracting and summarizing matters that have become a hot topic from a large amount of time-series documents.
  • Trend analysis is a technology that analyzes what is being talked about in each period from a large number of documents generated in time series, such as news articles and blog articles, and presents it to the user. .
  • Non-patent Document 1 Okumura Manabu, Minano Yasuyuki, Fujiki Yasuaki, Suzuki Yasuhiro, “Text Mining Based on Automatic Collection and Monitoring of Blog Pages”, Technology described in the Japanese Society for Artificial Intelligence SIG-SW & ONT-A401-01, 2004 (Non-patent Document 1) Then, by determining whether or not the appearance interval of a document including a certain word is shorter than usual, feature words that appear more frequently in a specific period are extracted.
  • a sentence including the feature word for the feature word of the target period extracted using the technique described in Non-Patent Document 1 can be output as a summary sentence representing the topic in that period.
  • Non-patent Document 2 "Yahoo! Blog Search", [online], [August 23, 2010 search], Internet ⁇ URL: http://blog-search.yahoo.co.jp/> (Non-patent Document 2)
  • a feature word at the current time is displayed on the top page, and when the displayed feature word is clicked, a transition is made to a search page and a part of a sentence including the clicked feature word is displayed. This is equivalent to presenting to the user a sentence including a feature word in the period of interest as a sentence for explaining the topic in that period.
  • Non-Patent Document 3 extracts sentences including feature words of documents. This is a technique for creating a summary. By applying this technique to a set of documents belonging to a certain period, it is possible to present a summary sentence that explains the topic of that period.
  • Patent Document 1 discloses the following technique. That is, when a topic word and document information related to the topic word are read, a document related to a certain topic word and a document related to another topic word are determined by the topic word combination rule stored in the topic word combination storage unit. The degree of document sharing with is calculated. Next, topic words that can be combined are selected based on the document sharing level, and the selected topic words are combined to form a topic word group together with the document sharing level. Next, based on the representative word extraction rule, the representative words of the combined topic word groups are extracted.
  • Patent Document 2 discloses the following technique.
  • the word obtained by acquiring the degree of relevance between the source of the processing target document and the source that has used the word from the relevance database and totaling it.
  • Relevance distribution with the user, and relevance distribution with other transmission sources obtained by acquiring and totaling the relevance between the transmission source of the document to be processed and other transmission sources from the relevance database Contrast.
  • the amount representing the degree of use of a large number of transmission sources having a high degree of association with the transmission source of the processing target document is set as the topic level of the word.
  • Patent Document 3 discloses the following technique. That is, the time series frequency vector of each word is generated by counting the temporal change in appearance frequency of words appearing in a plurality of document sets. The time-series frequency vector of the generated word is analyzed, and a word whose frequency increases rapidly is extracted as a candidate word that is a candidate for a potential topic. A main topic time-series frequency vector is generated by quantifying the number of documents acquired every time for topics whose number of documents exceeds a predetermined threshold among topics included in the document set. Then, the inter-vector distance between the time series frequency vector of each candidate word and the main topic time series frequency vector is calculated, and a word having a large distance is extracted as a latent topic word.
  • microblogging like Twitter By the way, a new service called microblogging like Twitter has begun to spread. In such a microblog, a user often posts a sentence assuming a reader who shares a specific small number of background information.
  • sentences that do not include parts that explain the background stochastically are summarized sentences. Easy to be sorted as. However, for general readers who do not know the original background, there is a problem that it is not appropriate as a summary sentence because it cannot understand what the sentence is written about.
  • Non-Patent Documents 1 to 3 and Patent Documents 1 to 3 do not disclose a configuration for solving such a problem.
  • the present invention has been made to solve the above-described problems, and an object of the present invention is to provide a time-series document summarization apparatus, a time-series document summarization method, and a computer-readable computer that can output an appropriate summary sentence from a set of documents. It is to provide a possible recording medium.
  • a time-series document summarization apparatus for outputting a summary sentence of a target document set that is a target document set.
  • a target document set, a set of target document topic words that are characteristic words of the target document set, and a reference document set that is a document set different from the target document set are acquired and described in the target document set.
  • a background topic word extracting unit for extracting a background topic word representing a topic as a background of a topic from the reference document set, and from the character string included in the target document set,
  • a representative character string extracting unit for extracting a representative character string including a background topic word as a summary sentence of the target document set;
  • a time-series document summarization method is a time-series document summarization method for outputting a summary sentence of a target document set which is a target document set, and the target document A topic and a set of target document topic words that are characteristic words of the target document set, and a reference document set that is a document set different from the target document set, and a topic described in the target document set
  • a step of extracting a background topic word representing a topic as a background of the reference document set from the reference document set, and a representative character string including the target document topic word and the background topic word from the character strings included in the target document set Is extracted as a summary sentence of the target document set.
  • a computer-readable recording medium is used in a time-series document summarization apparatus for outputting a summary sentence of a target document set which is a target document set.
  • the string is a program for executing a step of extracting as a summary of the interest document set.
  • an appropriate summary sentence can be output from a set of documents.
  • FIG. 1 is a schematic configuration diagram of a time-series document summarizing device according to an embodiment of the present invention. It is a block diagram which shows the control structure which the time series document summarization apparatus which concerns on the 1st Embodiment of this invention provides. It is a flowchart which shows the operation
  • Human sentences are considered to consist of two parts. That is, a part explaining “background” indicating what the sentence describes and a part explaining “new information” that the writer wants to convey by the sentence. This is not limited to text written in writing, but is also true for verbal utterances.
  • background refers to the pre-requisite topics and the objects to be described that are necessary for understanding the text.
  • new information refers to matters that the author wants to assert through the text, such as descriptions of new facts, opinions and impressions, etc., regarding the topic and subject matter explained as background.
  • new information is generically used here, but this “new information” refers to information that the author wants to convey to the reader or information that the author wants to claim, and is not necessarily completely unknown to the reader. It does not have to be limited to information.
  • the main part I want to convey through the text is the explanation of the new information. Since the description of the background is not new information, it can be omitted when the information is transmitted to a specific partner who already shares the background information.
  • the news article assumes an unspecified number of readers who do not always share background information, so “Japan won 3 vs 1 in Japan vs. Denmark in the Soccer World Cup. ”Describes new information after explaining the background.
  • microblogging is a service that allows individuals to post their own texts, just like blogs. The user can post a short sentence of about 140 characters at the maximum. With microblogging, people can easily post what they thought of on the Internet in real time.
  • microblogs contain a large number of sentences that are intended for a specific number of readers when a large number of sentences posted on microblogs are accumulated, compared to the accumulation of conventional news articles and blogs. It is thought that there is. And in such a sentence, the part used as the description regarding a background is often abbreviate
  • the microblog posts a lot of sentences that convey only the current new information, such as “Oh, I decided to shoot” and “I did it, goal” but omitted the explanation of the background.
  • the contributors to these texts are posting to a small number of readers who share backgrounds that can guess what they are writing about. In many cases, it is assumed that the timing at which the posted text is read is not greatly deviated from the time of posting.
  • FIG. 1 is a diagram showing an example of a topic of a day in a microblog.
  • FIG. 2 is a diagram illustrating the feature words of each period and a sentence including the feature words in the example of FIG.
  • FIGS. 1 and 2 illustrate changes in topics in a set of documents posted during a day on a microblog.
  • One day is divided into six periods every four hours, and for each period, one sentence summarizing topics included in documents posted in that period is output. Therefore, it is assumed that a total of six summary sentences are output per day.
  • Fig. 1 shows the result of a human worker reading and analyzing a posted document and examining what has become a topic. This day was the day when various parts of Japan were hit by heavy rain, and it was filled with topics related to heavy rain in three time zones: “4 am-8pm”, “12 am-16:00” and “16: 00-20am”. I understand that.
  • FIG. 2 shows the result of extracting feature words in each period and a sentence including the feature words for the same document set as FIG.
  • the sentence shown in FIG. 2 has not been able to output a summary sentence including an explanation of a topic that is the background of heavy rain.
  • This method cannot output a summary sentence that includes the explanation of the topic that is the background.
  • it is necessary to include the feature word for the period of interest. It is because it considers only. For this reason, it is necessary to further add a condition that becomes a summary sentence including the explanation of the background topic.
  • the time-series document summarization apparatus uses the characteristic words of the past period as a clue rather than the period of interest. As a result, it is possible to output a summary sentence that summarizes the topic of a certain period and includes the explanation of the topic as a background from a large amount of documents having time information.
  • the time-series document summarization apparatus 201 typically has a computer having a general-purpose architecture as a basic structure, and executes various programs as will be described later by executing a preinstalled program. Provide functionality. Generally, such a program is stored in a recording medium such as a flexible disk and a CD-ROM (Compact Disk Read Only Memory) or distributed via a network or the like.
  • an OS Operating System
  • an OS for providing basic functions of the computer is provided in addition to the application for providing the functions according to the embodiment of the present invention. It may be installed.
  • the program according to the embodiment of the present invention executes processing by calling necessary modules out of program modules provided as a part of the OS in a predetermined order and / or timing. May be. That is, the program itself according to the embodiment of the present invention does not include the module as described above, and the process may be executed in cooperation with the OS. Therefore, the program according to the embodiment of the present invention may have a form that does not include the above-described module.
  • the program according to the embodiment of the present invention may be provided by being incorporated in a part of another program such as an OS. Even in this case, the program itself according to the embodiment of the present invention does not include a module included in the other program as described above, and the process is executed in cooperation with the other program. That is, the program according to the embodiment of the present invention may be in a form incorporated in such another program.
  • program execution may be implemented as a dedicated hardware circuit.
  • FIG. 3 is a schematic configuration diagram of the time-series document summarizing apparatus according to the embodiment of the present invention.
  • time-series document summarization apparatus 201 is an information processing apparatus such as a portable information terminal, personal computer, and server, and includes a CPU (Central Processing Unit) 101 that is an arithmetic processing unit, a main memory 102, and a hard disk. 103, an input interface 104, a display controller 105, a data reader / writer 106, and a communication interface 107. These units are connected to each other via a bus 121 so that data communication is possible.
  • the CPU 101 performs various operations by developing programs (codes) stored in the hard disk 103 in the main memory 102 and executing them in a predetermined order.
  • the main memory 102 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory), and stores data indicating various arithmetic processing results in addition to the program read from the hard disk 103. To do.
  • the hard disk 103 is a non-volatile magnetic storage device, and stores various setting values in addition to programs executed by the CPU 101.
  • the program installed in the hard disk 103 is distributed in a state of being stored in the recording medium 111 as will be described later.
  • a semiconductor storage device such as a flash memory may be employed.
  • the input interface 104 mediates data transmission between the CPU 101 and an input unit such as a keyboard 108, a mouse 109, and a touch panel (not shown). That is, the input interface 104 receives an external input such as an operation command given by the user operating the input unit.
  • an input unit such as a keyboard 108, a mouse 109, and a touch panel (not shown). That is, the input interface 104 receives an external input such as an operation command given by the user operating the input unit.
  • the display controller 105 is connected to a display 110 that is a typical example of a display unit, and controls display on the display 110. That is, the display controller 105 displays the result of image processing by the CPU 101 to the user.
  • the display 110 is, for example, an LCD (Liquid Crystal Display) or a CRT (Cathode Ray Tube).
  • the data reader / writer 106 mediates data transmission between the CPU 101 and the recording medium 111. That is, the recording medium 111 circulates in a state where a program executed by the time-series document summarizing apparatus 201 is stored, and the data reader / writer 106 reads the program from the recording medium 111. Further, the data reader / writer 106 writes the processing result in the time-series document summarizing apparatus 201 into the recording medium 111 in response to the internal command of the CPU 101.
  • the recording medium 111 may be, for example, a general-purpose semiconductor storage device such as CF (Compact Flash) and SD (Secure Digital), a magnetic storage medium such as a flexible disk, or a CD-ROM (Compact Disk Read Only). Memory).
  • the communication interface 107 mediates data transmission between the CPU 101, a personal computer, a server device, and the like.
  • the communication interface 107 typically has an Ethernet (registered trademark) or USB (Universal Serial Bus) communication function.
  • Ethernet registered trademark
  • USB Universal Serial Bus
  • time series document summarization apparatus 201 may be connected to another output device such as a printer as necessary.
  • FIG. 4 is a block diagram showing a control structure provided by the time-series document summarizing apparatus according to the first embodiment of the present invention.
  • FIG. 4 is provided by developing a program (code) stored in the hard disk 103 in the main memory 102 and causing the CPU 101 to execute it. Note that some or all of the modules shown in FIG. 4 may be provided by firmware implemented in hardware. Alternatively, part or all of the control structure shown in FIG. 4 may be realized by dedicated hardware and / or a wiring circuit.
  • the time-series document summarizing apparatus 201 includes a target document topic word extraction unit 10, a background topic word extraction unit 20, and a representative character string extraction unit 30 as its control structure.
  • the time-series document summarizing apparatus 201 accepts a document set with time information as an input.
  • a document set with time information is a set of documents in which documents included in the set are associated with some time.
  • the time associated with each document represents the time when the document was created, the time when it was transmitted, and the like.
  • the time may be described in any granularity such as year, month, day, hour, minute, and second.
  • Examples of document sets with time information received as input by the time-series document summarization apparatus 201 include news articles, blogs, microblogs, and documents posted on electronic bulletin boards.
  • the time series document summarization apparatus 201 summarizes the topics of the input document set. This input document set is called a target document set. That is, the time-series document summarization apparatus 201 creates a summary sentence of a target document set that is a target document set.
  • the target document topic word extraction unit 10 sets the input document set with time information as the target document set. Then, the document-of-interest topic word extraction unit 10 extracts a feature word representing the topic of the document-of-interest collection as a document-of-interest topic word and outputs it.
  • the background topic word extraction unit 20 sets a document set different from the target document set as a reference document set.
  • this document set is different from a document set that is a dictionary such as a term dictionary.
  • the document set for reference may be a document set with time information or a document set without time information.
  • the background topic word extraction unit 20 extracts, from the reference document set, feature words representing topics in the past period as the background topic word from the period of the document set of interest. Then, the background topic word extraction unit 20 calculates a relevance level representing the relevance between the extracted background topic word and the target document topic word output from the target document topic word extraction unit 10, and calculates the calculated relevance level. , And background topic words are output.
  • the representative character string extraction unit 30 adds the background topic word extracted by the background topic word extraction unit 20 and the calculated relevance degree in addition to the target document topic word representing the topic of the target document set extracted by the target document topic word extraction unit 10. Is used to extract a representative character string representing the topic of the document set of interest.
  • the document-of-interest topic word extraction unit 10 acquires the document-of-interest collection, and extracts a word representing the topic of the document-of-interest included in the document-of-interest collection as a document-of-interest topic word.
  • the background topic word extraction unit 20 is a document set that is different from the target document set and the set of target document topic words that are characteristic words of the target document set extracted by the target document topic word extraction unit 10. Get reference document set.
  • the background topic word extraction unit 20 acquires, as a reference document set, a document set including documents created or released in the past from the target document set.
  • the background topic word extraction unit 20 extracts a background topic word representing a topic that is a background of the topic described in the target document set from the reference document set. For example, the background topic word extraction unit 20 extracts many words included in the reference document set or words included in a biased manner as background topic words.
  • the representative character string extraction unit 30 extracts a representative character string including the target document topic word and the background topic word from the character strings included in the target document set as a summary sentence of the target document set.
  • the background topic word extraction unit 20 calculates the degree of association between the target document topic word and the background topic word.
  • the background topic word extraction unit 20 relates to the relationship based on the co-occurrence or similarity of the co-occurrence words in the document of the target document topic word and the background topic word in at least one of the target document set and the reference document set. Calculate the degree.
  • the representative character string extraction unit 30 calculates the score of the character string included in the target document set based on the relevance calculated by the background topic word extraction unit 20, and sets the character string having a high score as the representative character string. .
  • FIG. 5 is a flowchart showing an operation procedure when the time-series document summarization apparatus according to the embodiment of the present invention performs time-series document summarization processing.
  • the document-of-interest topic word extraction unit 10 receives an input of a document set with time information from the user (step S1).
  • the target document topic word extraction unit 10 sets the input document set with time information as the target document set. Then, the document-of-interest topic word extraction unit 10 extracts a feature word representing the topic of the document-of-interest collection as a document-of-interest topic word and outputs it (step S2).
  • the background topic word extraction unit 20 sets a document set different from the target document set as a reference document set.
  • the background topic word extraction unit 20 extracts, from the reference document set, a feature word representing a topic in a period before the target document set period as a background topic word.
  • the background topic word extraction unit 20 calculates a relevance level representing the relevance between the target document topic word and the background topic word output from the target document topic word extraction unit 10, A topic word is output (step S3).
  • the representative character string extracting unit 30 adds the background topic word and the calculation extracted by the background topic word extracting unit 20 in addition to the target document topic word representing the topic of the target document set extracted by the target document topic word extracting unit 10.
  • the representative character string representing the topic of the target document set is extracted using the degree of relevance (step S4).
  • step S1 the operation of step S1 will be specifically described.
  • the user inputs a document set with time information to the target document topic word extraction unit 10 using the keyboard 108 or the like.
  • the user may input the document set with time information to the target document topic word extraction unit 10 by an external computer connected to the time-series document summarizing apparatus 201 via the communication interface 107 and the network.
  • the user may input a document set with time information by designating a data file storing the document set with time information.
  • the target document topic word extraction unit 10 reads a document set with time information from a data file designated by the user.
  • the document-of-interest topic word extraction unit 10 sets the input document set with time information as the document-of-interest collection. Then, the document-of-interest topic word extraction unit 10 extracts a feature word representing the topic of the document-of-interest collection as a document-of-interest topic word and outputs it.
  • a feature word of a document may be extracted using the technique described in pages 22 to 23 of Non-Patent Document 3.
  • FIG. 6 is a diagram illustrating an example of data output from the document-of-interest topic word extraction unit 10.
  • a set of documents posted on a microblog from 16:00 to 20:00 is used as a target document set, and topic words included in this target document set are extracted.
  • the background topic word extraction unit 20 sets a document set different from the target document set as a reference document set.
  • the background topic word extraction unit 20 extracts, from the reference document set, feature words representing topics in a period before the target document set period as background topic words. Then, the background topic word extraction unit 20 calculates a relevance level representing the relevance between the target document topic word and the background topic word output from the target document topic word extraction unit 10, Output topic words.
  • the reference document set a set of documents that are expected to include a topic that is earlier than the topic of the target document set is used.
  • a set of documents expected to include the past topics a set of documents created or released in the past than the target document set can be used.
  • the input document set of interest is a set of documents posted from 16:00 to 20:00 on a microblog.
  • a reference document set for example, a set of documents posted on the same microblog between 0 o'clock and 16 o'clock can be used.
  • a document source different from the microblog to which the target document set belongs such as a news article and another blog, may be used.
  • another document source it is necessary to be a document set that is expected to include a past topic from the time to which the target document set belongs.
  • the reference document set is a set of documents that are expected to include topics that are earlier than the topic of the target document set
  • the time when the reference document set was created or published is It may be far from the creation or publication time of, or may overlap.
  • a reference document set a set of documents posted from 0 o'clock to 6 o'clock may be used, or a set of documents posted from 3 o'clock to 18 o'clock may be used.
  • the background topic word extraction unit 20 extracts feature words representing topics in a period before the target document set period as background topic words from the reference document set.
  • the same method as the target document topic word extraction unit 10 extracting the target document topic word from the target document set may be used, or a different method may be used.
  • the same method as that in which the target document topic word extraction unit 10 extracts the target document topic word from the target document set is applied to the reference document set.
  • a feature word representing a topic in a period earlier than the period of the target document set can be extracted as a background topic word.
  • the reference document set is further divided into several periods, and the same method as that in which the target document topic word extraction unit 10 extracts the target document topic word from the target document set is applied to each divided document set. You may do it.
  • the background topic word extraction unit 20 calculates the relevance level representing the relationship between the target document topic word and the background topic word output by the target document topic word extraction unit 10. calculate.
  • the degree of association representing the relationship between the target document topic word and the background topic word various things can be considered. Below, an example of a value considered as a relevance degree representing a relevance between A and B will be described, where the target document topic word and the background topic word are A and B, respectively.
  • the strength of co-occurrence in which two words appear in the document may be used as the degree of association representing the relation between the target document topic word and the background topic word.
  • N1 be the number of documents in which both word A and word B appear in the document set
  • N2 be the number of documents in which either word A or word B appears.
  • N1 / N2 can be a degree of relevance representing the relevance between two words. The larger the value, the stronger the two words appear together.
  • a method for counting the number of documents only the number of documents in the target document set may be counted, or the number of documents in the target document set and the reference document set may be combined. Although the accuracy is inferior to these, only the number of documents in the reference document set may be counted.
  • the degree of association representing the relationship between the topic word of interest and the background topic word
  • the similarity between the co-occurrence word of the subject document topic word and the co-occurrence word of the background topic word specifically, the subject document topic Similarity between the context in which the word appears and the context in which the background topic word appears may be used.
  • a vector having a length Nw representing each context can be considered, where Nw is the total number of all words.
  • Nw is the total number of all words.
  • Each element of the vector represents the number of times that a word co-occurs with the word A or the word B.
  • This similarity may be used as a degree of relation representing the relation between two words.
  • the presence / absence of relevance in a dictionary describing the relevance of words may be used as the relevance level representing the relevance between the topic word of interest and the background topic word.
  • the reciprocal of the distance between nodes representing two words in the thesaurus tree structure is represented as the relationship between the two words. It is good also as the degree of relation to represent.
  • the temporal appearance closeness may be used.
  • Ta be the average time of creation or publication of a document in which word A appears
  • Tb be the average time of creation or publication of a document in which word B appears.
  • the reciprocal of the temporal distance between Ta and Tb may be used as the degree of association representing the relationship between two words.
  • a value obtained by combining the above-mentioned various degrees of association may be used as the degree of association representing the relation between the target document topic word and the background topic word.
  • V1 + V2 may be output as the relevance.
  • a value representing the characteristic word likelihood of the background topic word is calculated, and that value is taken into account in calculating the degree of association. May be.
  • the magnitude of the appearance frequency in the reference document set be V3 as a value representing the likelihood of a feature word in the reference document set. It may be considered that the larger the value is, the more important the background topic word is, and the degree of association of the background topic word may be highly evaluated by adding V3 to the degree of association based on another method.
  • FIG. 7 is a diagram illustrating an example of data output from the background topic word extraction unit 20.
  • FIG. 7 the degree of relevance representing the relevance between the target document topic word and the background topic word is described.
  • the vertical column represents the document topic word of interest, and the horizontal column represents the background topic word.
  • This example is based on the following assumptions. That is, a set of documents posted on a microblog from 16:00 to 20:00 is set as a target document set. A set of documents posted from 0 o'clock to 16 o'clock is set as a reference document set, and “4 o'clock to 4 o'clock”, “4 o'clock to 8 o'clock”, “8 o'clock to 12 o'clock”, and “12 o'clock to 16 o'clock” are displayed. The document is divided into documents posted in one period, and feature words of each document set are extracted as background topic words. Further, a relevance level representing the relevance between the target document topic word and the background topic word is calculated.
  • the degree of relevance with a background topic word representing a topic that is a background for the target document topic word is calculated to be high.
  • the degree of relevance to background topic words that do not represent the background topic for the target document topic word such as “electronic book” and “Democratic Party” is calculated low.
  • the representative character string extraction unit 30 adds the background topic word extracted by the background topic word extraction unit 20 and the calculated degree of relevance in addition to the target document topic word representing the topic of the target document set extracted by the target document topic word extraction unit 10. Is used to extract a representative character string representing the topic of the document set of interest.
  • the character strings included in the documents in the target document set include any one of the target document topic words, and include any one of the background topic words highly related to the target document topic word
  • a summary score indicating the goodness of the character string as a summary sentence is assigned to such a character string.
  • a character string having a high summary score is extracted as a representative character string representing the topic of the document set of interest.
  • the method of determining the character string to be extracted is arbitrary.
  • all the sentences included in the documents in the target document set can be obtained by dividing all the documents in the target document set with symbols representing sentence breaks such as punctuation marks.
  • the set of these sentences may be a character string to be extracted. Further, by dividing all documents in the target document set into every N characters (N is an integer of 2 or more), a set of character strings having a length of N characters can be obtained. A set of character strings having a length of N characters may be a character string to be extracted.
  • a method for calculating a summary score of a character string for example, only a character string including any one of the target document topic words is selected, and for each of the background topic words included in the selected character string, the target document topic is selected.
  • the sum of the relevance between words may be used as a summary score.
  • a method for selecting a summary character string from feature words as described in Non-Patent Document 3 may be used.
  • FIG. 8 is a diagram illustrating an example of a summary score of a character string in the representative character string extraction unit 30.
  • FIG. 8 shows the summary score of the character strings included in the documents in the target document set when the documents in the period of “16: 00-20: 00” are set as the target document set.
  • the first column in FIG. 8 is a character string included in the documents in the target document set.
  • the second column is a document topic word of interest included in the character string.
  • the third column is a background topic word included in the character string and its degree of association.
  • the fourth column is a summary score of the character string calculated based on the third column.
  • the character string “Kinkakuji is flooded due to heavy rain” has the highest summary score. This is because it includes a background topic word “high rain” that is highly relevant to the topic word of interest document. Such a sentence is considered to be a summary sentence including an explanation of a topic as a background.
  • the character string “Kinkakuji is supposed to be dangerous” includes two topic words of interest, but does not include background topic words, so the summary score of the character string is low.
  • Such a character string is considered to be a summary sentence that does not include an explanation of the background topic.
  • the character string “I was surprised by the heavy rain” includes the background topic word “heavy rain”, but the summary score of the character string is not given. This is because even if a background topic word is included, a character string that does not include the target topic word is considered not suitable as a summary of the topic in the target period.
  • the character string “Kinkakuji is submerged due to heavy rain” is selected as the representative character string when the document in the period of “16: 00-20: 00” is the target document set.
  • FIG. 9 is a diagram illustrating an example of data output by the representative character string extraction unit 30.
  • a representative character string is displayed when a document in a period from 16:00 to 20:00 is set as a target document set.
  • the representative character string includes a related background topic word “heavy rain”.
  • the sentence including the explanation of the topic as a background is output.
  • the topic of the target document set is summarized by including the target document topic word “Kinkakuji”.
  • time-series document summarizing apparatus 201 As described above, according to the time-series document summarizing apparatus 201 according to the present embodiment, topics in a certain period are summarized from a large amount of documents having time information, and the background topics are explained. A summary sentence can be output.
  • the background topic word extraction unit 20 includes a target document set, a set of target document topic words that are feature words of the target document set, and a target A reference document set, which is a document set different from the document set, is acquired, and background topic words representing topics serving as backgrounds of topics described in the document set of interest are extracted from the reference document set.
  • the representative character string extracting unit 30 extracts a representative character string including the target document topic word and the background topic word from the character strings included in the target document set as a summary sentence of the target document set.
  • a document set different from the document set of interest is prepared and feature words are extracted, and the extracted feature words are used as background topic words. Then, a character string including two types of background topic word and target document topic word is extracted from the target document set.
  • the degree of association between transmission sources is calculated from the similarity of word groups included in documents created by each transmission source in the past.
  • the appearance frequency of each word at each time is totaled, and only words whose appearance frequency greatly increases at any part of the period are extracted as potential topic candidate words.
  • the techniques described in Patent Documents 2 and 3 provide a background topic representing a topic that is the background of the topic described in the target document set, like the time-series document summarization device according to the embodiment of the present invention. This is completely different from the configuration for extracting words from the reference document set.
  • the time-series document summarization device not only the feature word included in the target document set, that is, the target document topic word, but also the character representing the background topic, that is, the character further including the background topic word
  • a column is extracted from the character strings included in the target document set and extracted as a representative character string. More specifically, a document set different from the target document set is prepared, a feature word of this document set is extracted as a background topic word, and a character string including two types of the background topic word and the target document topic word is selected as the target document. Extract from set.
  • an appropriate summary sentence is collected from a set of documents by the minimum configuration including the background topic word extraction unit 20 and the representative character string extraction unit 30. It is possible to achieve the object of the present invention to output.
  • the background topic word extraction unit 20 acquires a document set including documents created or released in the past as a reference document set rather than the target document set. .
  • the background topic word extraction unit 20 extracts many words included in the reference document set or words included in a biased manner as background topic words.
  • an appropriate background topic word can be more reliably acquired from the reference document set. That is, it is possible to acquire words related to contents that have been discussed to some extent in the past as background topic words.
  • the background topic word extraction unit 20 calculates the degree of association between the target document topic word and the background topic word. Then, the representative character string extraction unit 30 calculates the score of the character string included in the target document set based on the relevance calculated by the background topic word extraction unit 20, and determines the character string having a high score as the representative character string.
  • the background topic word extraction unit 20 includes in the document of the target document topic word and the background topic word in at least one of the target document set and the reference document set. Relevance is calculated based on co-occurrence or similarity of co-occurrence words.
  • the target document topic word extraction unit 10 acquires the target document set, and focuses on a word representing the topic of the target document set included in the target document set. Extracted as document topic words. Then, the background topic word extraction unit 20 acquires the target document topic word extracted by the target document topic word extraction unit 10.
  • the target document set and the target document topic word can be automatically acquired, and the apparatus can function more comprehensively as a device for creating a summary sentence of the target document set.
  • the time series document summarization apparatus is configured to include the target document topic word extraction unit 10, the present invention is not limited to this.
  • the configuration may be such that the topic topic word extraction unit 20 does not include the target document topic word extraction unit 10 and the background topic word extraction unit 20 acquires a set of the target document set and the target document topic word from outside the time-series document summarization apparatus 201.
  • the time-series document summarization apparatus 201 may be configured to accept designation of a set of a target document set and a target document topic word from a user.
  • a time-series document summarization device for outputting a summary sentence of a target document set which is a target document set, The target document set, a set of target document topic words that are characteristic words of the target document set, and a reference document set that is a document set different from the target document set are acquired and described in the target document set.
  • a background topic word extraction unit for extracting a background topic word representing a topic that is a background of a topic that is from the reference document set;
  • a representative character string extraction unit for extracting a representative character string including the target document topic word and the background topic word from the character strings included in the target document set as a summary sentence of the target document set; , Time-series document summarization device.
  • Appendix 2 The time series document summarization device according to appendix 1, wherein the background topic word extraction unit acquires a document set including documents created or released in the past as the reference document set as the reference document set.
  • Appendix 3 The time-series document summarization device according to appendix 2, wherein the background topic word extraction unit extracts words included in the reference document set in large numbers or words included in a biased manner as the background topic words.
  • the background topic word extraction unit calculates a degree of association between the target document topic word and the background topic word
  • the representative character string extracting unit calculates a score of a character string included in the target document set based on the relevance calculated by the background topic word extracting unit, and the character string having a high score is represented by the representative character string. 4.
  • the time-series document summarization device according to any one of appendices 1 to 3, which is a character string.
  • the background topic word extraction unit is based on co-occurrence or similarity of co-occurrence words in the document of the target document topic word and the background topic word in at least one of the target document set and the reference document set.
  • the time-series document summarization device according to appendix 4 which calculates the relevance level.
  • the time-series document summarization apparatus further includes: A document-of-interest topic word extraction unit for acquiring the document-of-interest collection and extracting a word representing the topic of the document-of-interest document included in the document-of-interest collection as the document-of-interest topic word; The time series document summarization device according to any one of appendices 1 to 5, wherein the background topic word extraction unit acquires the target document topic word extracted by the target document topic word extraction unit.
  • Appendix 8 The time-series document summarizing method according to appendix 7, wherein in the step of extracting the background topic word, a document set including documents created or released in the past than the target document set is acquired as the reference document set.
  • Appendix 9 9. The time-series document summarizing method according to appendix 8, wherein in the step of extracting the background topic word, a plurality of words included in the reference document set or words included in a biased manner are extracted as the background topic word.
  • the above time series document summarization method further includes: Obtaining the target document set, and extracting a word representing the topic of the target document set included in the target document set as the target document topic word, 12.
  • the time-series document summarization method according to any one of appendices 7 to 11, wherein in the step of extracting the background topic word, the extracted document topic word of interest is acquired.
  • the program is on the computer
  • the target document set, a target document topic word set that is a characteristic word of the target document set, and a reference document set that is a document set different from the target document set are acquired and described in the target document set.
  • Appendix 14 The computer-readable recording medium according to appendix 13, wherein in the step of extracting the background topic word, a document set including documents created or released in the past than the target document set is acquired as the reference document set. .
  • Appendix 15 15. The computer-readable recording medium according to appendix 14, wherein in the step of extracting the background topic word, a plurality of words included in the reference document set or words included in a biased manner are extracted as the background topic word.
  • the time-series document summarization program is further stored in a computer.
  • the present invention for example, in a microblog, it is possible to output a summary sentence that summarizes a topic of a certain period from a large amount of documents having time information and includes an explanation of a background topic. Therefore, the present invention has industrial applicability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 時系列文書要約装置(201)は、対象となる文書集合である着目文書集合の要約文を出力する。時系列文書要約装置(201)は、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するための背景話題語抽出部(20)と、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するための代表文字列抽出部(30)とを備える。

Description

時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体
 本発明は、時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体に関し、特に、文書集合における話題を要約してユーザに提示する時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体に関する。
 近年では、インターネットの発展により、ニュース記事およびブログ記事のような大量の文書が日夜生成され、公開されるようになっている。そのため、このような大量の時系列文書の内容を要約するための新しい技術が必要とされている。
 大量の時系列文書から話題となっている事柄を抽出および要約するための技術として、トレンド分析の技術が知られている。トレンド分析とは、ニュース記事およびブログ記事など時系列的に生成される大量の文書の中から、期間ごとにどのようなことが話題になっているかを分析して、ユーザに提示する技術である。
 トレンド分析技術では、着目している期間について、その期間に属する文書集合に偏って多く出現している特徴語を抽出して出力することで、その期間の話題を表すことが一般的である。
 奥村 学,南野 朋之,藤木 稔明,鈴木 泰裕,“blogページの自動収集と監視に基づくテキストマイニング”,人工知能学会研究会SIG-SW&ONT-A401-01,2004(非特許文献1)に記載の技術では、ある語を含む文書の出現間隔が通常よりも短くなっているかどうかを判断することで、特定期間に偏って多く出現する特徴語を抽出している。
 さらに、非特許文献1に記載の技術を用いて抽出された着目期間の特徴語について、その特徴語を含む文を抽出することは容易である。この特徴語を含む文をその期間の話題を表す要約文として出力することができる。
 実例として、“Yahoo!ブログ検索”、[online]、[平成22年8月23日検索]、インターネット<URL:http://blog-search.yahoo.co.jp/>(非特許文献2)に記載のサービスがある。このサービスでは、トップページに現在時刻における特徴語が表示され、表示された特徴語をクリックすると、検索ページに遷移し、クリックされた特徴語を含んでいる文の一部が表示される。これは、着目する期間の特徴語を含む文を、その期間の話題を説明するための文としてユーザに提示していることに相当する。
 また、奥村 学,難波 英嗣,『知の科学 テキスト自動要約』,オーム社,2005(非特許文献3)の22ページから23ページに記載の技術は、文書の特徴語を含む文を抽出することで要約を作成する技術である。ある期間に属する文書集合にこの技術を適用することで、その期間の話題を説明する要約文を提示することができる。
 このように、ある期間の特徴語を含む文を抽出することで、その期間の話題を説明する要約文として提示する技術が存在する。
 また、話題語を処理する技術の一例として、特開2006-139718号公報(特許文献1)には、以下のような技術が開示されている。すなわち、話題語および該話題語に関連する文書情報が読み込まれると、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と他の話題語が関連する文書との文書共有度を算出する。次に、文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合し、文書共有度と共に話題語グループとする。次に、代表語抽出ルールに基づいて、結合した話題語グループの代表語を抽出する。
 また、特開2007-140602号公報(特許文献2)には、以下のような技術が開示されている。すなわち、処理対象文書に含まれる各語句に対して、処理対象文書の発信源と当該語句を使用したことのある発信源との関連度を関連度データベースから取得し集計することにより得られる当該語句使用者との関連度分布と、該処理対象文書の発信源と他の発信源との関連度を該関連度データベースから取得し集計することにより得られた他の発信源との関連度分布とを対比させる。そして、該処理対象文書の発信源との関連度が大きい発信源において多く使用されている度合いを表す量を当該語句の話題度とする。
 また、特開2008-152634号公報(特許文献3)には、以下のような技術が開示されている。すなわち、複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成する。上記生成された単語の時系列頻度ベクトルを分析し、頻度が一時的に急増する単語を、潜在的話題の候補である候補語として抽出する。上記文書集合中に含まれている話題のうちで、文書数が、所定の閾値よりも多い話題について、時間ごとに取得した文書数を数値化することによって主話題時系列頻度ベクトルを生成する。そして、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、該距離が大きい単語を潜在話題語として抽出する。
奥村 学,南野 朋之,藤木 稔明,鈴木 泰裕,"blogページの自動収集と監視に基づくテキストマイニング",人工知能学会研究会SIG-SW&ONT-A401-01,2004 "Yahoo!ブログ検索"、[online]、[平成22年8月23日検索]、インターネット<URL:http://blog-search.yahoo.co.jp/> 奥村 学,難波 英嗣,『知の科学 テキスト自動要約』,オーム社,2005
特開2006-139718号公報 特開2007-140602号公報 特開2008-152634号公報
 ところで、Twitterのようなマイクロブログと呼ばれる新しいサービスが、普及しはじめている。このようなマイクロブログでは、ユーザは、特定少数の背景情報を共有した読み手を想定して文章を投稿することが多い。
 そのため、従来のニュース記事およびブログ記事に比べて、親しい友人同士の会話のように、背景に関する説明となる部分が省略されることが多い。
 単語または表現の統計的出現傾向に基づき、特徴語を含む文を要約文として選別するような従来技術を用いた場合では、確率的にこうした背景に関する説明となる部分が含まれない文が要約文として選別されやすい。しかしながら、もともとの背景について知らない一般の読者にとっては、何について書かれた文であるのか理解できず、要約文として不適切となるという問題があった。
 そして、非特許文献1~3および特許文献1~3には、このような問題を解決するための構成は開示されていない。
 この発明は、上述の課題を解決するためになされたもので、その目的は、文書の集合から適切な要約文を出力することが可能な時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体を提供することである。
 上記課題を解決するために、この発明のある局面に係わる時系列文書要約装置は、対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置であって、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するための背景話題語抽出部と、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するための代表文字列抽出部とを備える。
 上記課題を解決するために、この発明のある局面に係わる時系列文書要約方法は、対象となる文書集合である着目文書集合の要約文を出力する時系列文書要約方法であって、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを含む。
 上記課題を解決するために、この発明のある局面に係わるコンピュータ読み取り可能な記録媒体は、対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置において用いられる時系列文書要約プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、上記時系列文書要約プログラムは、コンピュータに、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを実行させるためのプログラムである。
 本発明によれば、文書の集合から適切な要約文を出力することができる。
マイクロブログにおける一日の話題の例を示す図である。 図1の例について各期間の特徴語、および特徴語を含む文を示す図である。 本発明の実施の形態に係る時系列文書要約装置の概略構成図である。 本発明の第1の実施の形態に係る時系列文書要約装置が提供する制御構造を示すブロック図である。 本発明の実施の形態に係る時系列文書要約装置が時系列文書要約処理を行なう際の動作手順を示すフローチャートである。 着目文書話題語抽出部10の出力するデータの例を示す図である。 背景話題語抽出部20の出力するデータの例を示す図である。 代表文字列抽出部30における文字列の要約スコアの例を示す図である。 代表文字列抽出部30の出力するデータの例を示す図である。
 以下、本発明の実施の形態について図面を用いて説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。
 まず、本発明の理解を容易にするために、本発明が解決する課題について詳細に説明する。
 人間が発する文章は、大きく分けて2つの部分からなると考えられる。すなわち、その文章が何について述べているのかを表す「背景」について説明している部分と、その文章によって筆者が伝えたい「新情報」を説明している部分である。これは、文字で書いた文章に限らず、口頭での発話でも同様である。
 ここで、「背景」とは、文章を理解する上で必要な、前提となる話題および記述する対象事物などのことである。
 一方、「新情報」とは、背景として説明した話題および対象事物に関する、新しい事実の記述、意見および感想など、その文章を通して筆者が主張したい事柄を指すものとする。
 なお、ここでは「新情報」と総称しているが、この「新情報」は、筆者が読者に伝えたい情報または筆者が主張したい情報のことを指しており、必ずしも、読者にとって完全に未知の情報に限らなくても良い。
 すなわち、その文章で筆者が読者に伝えたい部分が、読者が既に知っているかもしれない事実の再確認であっても、当該部分も広く新情報に含めるものとする。また、事実の説明でなくとも、筆者の意見または感想であっても良い。
 たとえば、サッカーW杯の日本VSデンマークの試合が行われた翌日のニュース記事に「サッカーW杯の日本VSデンマークの試合は、3対1で日本が勝利した」と書かれていたとする。このとき、「サッカーW杯の日本VSデンマークの試合は、」という部分が、文章が何について書かれているかを示す背景の説明であり、「3対1で日本が勝利した」という部分が、文章を通して筆者が伝えたい新情報の記述である。
 文章を通して筆者が伝えたいメインとなる部分は、新情報の説明である。背景の説明は新しい情報ではないため、背景の情報を既に共有している特定の相手に情報を伝達する場合には、省略することが可能である。
 一方、背景の情報を共有しているとは限らない不特定多数の相手に文章で情報を伝達する場合には、新情報だけでなく、その前提となる背景から説明する必要がある。
 たとえば、ニュース記事では、背景の情報を共有しているとは限らない不特定多数の読者を想定しているため、「サッカーW杯の日本VSデンマークの試合は、3対1で日本が勝利した」というように、背景について説明した上で新情報を記述している。
 一方、試合の翌日に親しい友人同士が会話している場合、背景についての説明なしに「3対1で日本が勝ったね!」と話しかけることも自然である。これは、試合の翌日であれば、特に説明をしなくても何のことについて話しているかが自明であり、背景を省略しても、相手が何について話しているかを察してくれるだろうという期待に基づいている。
 このように、不特定多数に伝える公的な文章(発話)であるほど背景の説明は詳細になり、特定少数の相手に伝える私的な文章(発話)であるほど背景の説明は省略される傾向にある。
 従来のトレンド分析技術が対象としてきたのは、ニュース記事およびブログ記事であった。これらの文書に含まれている文は、不特定多数の人に読まれることを想定して広く公開されている文章であり、筆者の伝えたい内容が不特定多数の読者に読まれた場合でも分かるよう、背景となる話題の説明が文書中に含まれていることが多い。
 このため、従来のようにニュース記事およびブログ記事を分析対象としている場合は、非特許文献1~3に挙げた技術を用いて要約対象文書から特徴語を多く含む文を抽出するだけで、背景となる話題の説明を含んだ、不特定多数の読者にとって適切な要約文を出力することができていた。
 一方、マイクロブログと呼ばれる新しい種類のサービスが、ここ数年で大きく普及している。Twitterがその代表例である。マイクロブログは、ブログと同様に個人が自分の書いた文章を投稿できるサービスである。ユーザは、最大で140文字程度の短い文章を投稿することができる。マイクロブログでは、人々が日常で考えたことを、リアルタイムで気軽にインターネット上に投稿することができる。
 こうしたマイクロブログでは、フォロワーと呼ばれる、ユーザの文章を読むために登録している特定の人々だけが読むことを想定した文章が投稿されることが多く、私的な日常会話に近い利用方法が普及している。一部の例外を除いて、ユーザがフォローされている数は数十人から数百人程度であり、ユーザは、背景の情報を共有した特定少数の読み手を想定して文章を投稿することができる。
 マイクロブログでは、これらの特徴のため、マイクロブログに投稿される文章を多数集積した場合、従来のニュース記事およびブログを集積した際に比べて、特定少数の読み手を想定した文章が数多く含まれていると考えられる。そして、そのような文章では、親しい友人同士の会話のように、背景に関する説明となる部分が省略されることが多い。
 このようなマイクロブログに投稿される文章を多数集積し、従来技術を用いて単に特徴語を含む文を抽出するような手法では、適切な要約文を出力することが困難である。
 その理由は、以下の通りである。すなわち、マイクロブログでは、特定少数の読み手に向けた文章が非常に多く、マイクロブログに含まれるほとんどの文は、背景となる話題を説明していない文である。よって、単語または表現の統計的出現傾向に基づき、特徴語を含む文を要約文として選別したとしても、確率的に背景説明となる部分が含まれない文が選別されやすい。
 しかしながら、もともとの背景について知らない大多数の読者は、このような文を元の文書集合の要約文として提示され、読んだとしても、何について書かれた文であるのか理解できないことから、このような文は、要約文として不適切となる。
 たとえば、サッカーW杯の日本VSデンマークの試合がテレビで中継されていたとする。さらに、現在試合中で、2点目のゴールが決まったばかりだとする。この場合、「シュートが決まった」および「ゴールした」が現在時刻における新しい情報である。一方、「サッカーW杯」および「日本VSデンマーク」などは、「シュートが決まった」および「ゴールした」というのが一体何についての話であるのかを特定する、背景となる話題である。
 このとき、マイクロブログでは「おっ、シュート決まった。」「やった、ゴールだ。」のような、現在の新情報だけを伝え、背景の説明は省略している文章が多数投稿される。これらの文章の投稿者は、自分が何について書いているかを推測することができる、背景を共有した特定少数の読み手に向けて投稿している。多くの場合、投稿された文章が読まれるタイミングも、投稿された時点から大きくずれてはいないことが想定される。
 一方、「サッカーW杯の日本VSデンマークの試合は、今2点目のゴールが決まったところだ。」というような、背景となる話題の説明を含んだ文章は、マイクロブログ全体の投稿数から見ると少数となる。このような説明的な文章は、公的なメディアで使われ、私的な文章および会話では用いられないためである。
 こうした理由から、マイクロブログでは「シュート」および「ゴール」のような頻出語がその時点での特徴語として大きく抽出されるが、「サッカーW杯」、「日本」および「デンマーク」などの、背景となる話題を示す語が頻度として少なくなり、特徴語として抽出されづらくなる。
 結果として、マイクロブログから、ある着目している期間の特徴語を多く含む文を抽出するだけでは、「シュート決まった。」および「ゴールだ、嬉しい。」のような新しい情報を表す特徴語だけを含んでいて、背景となる話題を表す語を含まない文章が要約文として抽出され易い傾向が生じる。このような新情報だけからなる要約文は、背景となる話題を知らない第三者の読者にとって分かりづらく、要約文として適していない。
 以上のように、従来技術を用いて単に特徴語を含む文を抽出するだけでは、不特定多数の一般の読者にも分かり易い適切な要約文をマイクロブログから出力することができない。
 さらに、図1および図2を用いて、この課題の具体例を説明する。
 図1は、マイクロブログにおける一日の話題の例を示す図である。図2は、図1の例について各期間の特徴語、および特徴語を含む文を示す図である。
 図1および図2は、あるマイクロブログで、一日の間に投稿された文書集合の中での話題の変化を説明したものである。一日は、4時間ごとに6つの期間に分割され、それぞれの期間ごとに、その期間に投稿された文書に含まれる話題を要約した文がひとつ出力されるものとする。よって、一日に合計6つの要約文が出力されるものとする。
 図1は、投稿された文書を人間の作業者が読んで分析し、どのようなことが話題になっていたかを調べた結果を表すものとする。この日は日本各地が大雨に襲われた日であり、「4時-8時」、「12時-16時」および「16時-20時」の3つの時間帯で大雨に関する話題で盛り上がっていることが分かる。
 「12時-16時」および「16時-20時」の話題は、最初の「4時-8時」に続いて大雨の話題であることから、「12時-16時」および「16時-20時」の期間を要約する際には、背景となる話題の説明を含んだ要約文が出力されることが望ましい。
 図2は、図1と同じ文書集合について、各期間における特徴語と、その特徴語を含む文とを抽出した結果である。図2に示した文は、大雨という背景となる話題の説明を含んだ要約文を出力することができていない。
 すなわち、「今日は大雨で豪雨警報だそうだ」、「電車が止まった」および「金閣寺が危険なことになっている」が抽出されており、確かにどの文も各期間の特徴語を含んでいる。しかしながら、これらの抽出された文を読んだだけでは、これらの3つの出来事に、大雨という共通の背景があることを理解できない。
 この方法で、背景となる話題の説明を含んだ要約文を出力することができないのは、各期間の要約文を生成する際に、「その着目している期間の特徴語を含む」という条件しか考慮していないからである。このため、背景となる話題の説明を含んだ要約文となるような条件をさらに追加する必要がある。
 上記の考えに基づき、本発明の実施の形態に係る時系列文書要約装置は、着目している期間よりも過去の期間の特徴語を手がかりとする。これにより、時間情報を持つ大量の文書から、ある期間の話題を要約しており、かつ、背景となる話題の説明を含んだ要約文を出力することができる。
 本発明の実施の形態に係る時系列文書要約装置201は、典型的には、汎用的なアーキテクチャを有するコンピュータを基本構造としており、あらかじめインストールされたプログラムを実行することで、後述するような各種機能を提供する。一般的に、このようなプログラムは、フレキシブルディスク(Flexible Disk)およびCD-ROM(Compact Disk Read Only Memory)などの記録媒体に格納されて、またはネットワークなどを介して流通する。このような汎用的なコンピュータを利用する場合には、本発明の実施の形態に係る機能を提供するためのアプリケーションに加えて、コンピュータの基本的な機能を提供するためのOS(Operating System)がインストールされていてもよい。この場合には、本発明の実施の形態に係るプログラムは、OSの一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の順序および/またはタイミングで呼出して処理を実行するものであってもよい。すなわち、本発明の実施の形態に係るプログラム自体は、上記のようなモジュールを含んでおらず、OSと協働して処理が実行される場合もある。したがって、本発明の実施の形態に係るプログラムとしては、上記のようなモジュールを含まない形態であってもよい。
 さらに、本発明の実施の形態に係るプログラムは、OS等の他のプログラムの一部に組み込まれて提供されるものであってもよい。この場合でも、本発明の実施の形態に係るプログラム自体は、上記のような組み込み先の他のプログラムが有するモジュールを含んでおらず、当該他のプログラムと協働して処理が実行される。すなわち、本発明の実施の形態に係るプログラムとしては、このような他のプログラムに組み込まれた形態であってもよい。
 なお、代替的に、プログラムの実行により提供される機能の一部または全部を専用のハードウェア回路として実装してもよい。
 [装置構成]
 図3は、本発明の実施の形態に係る時系列文書要約装置の概略構成図である。
 図3を参照して、時系列文書要約装置201は、携帯情報端末、パーソナルコンピュータおよびサーバ等の情報処理装置であり、演算処理部であるCPU(Central Processing Unit)101と、メインメモリ102およびハードディスク103と、入力インタフェース104と、表示コントローラ105と、データリーダ/ライタ106と、通信インタフェース107とを備える。これらの各部は、バス121を介して互いにデータ通信可能に接続される。
 CPU101は、ハードディスク103に格納されたプログラム(コード)をメインメモリ102に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ102は、典型的には、DRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、ハードディスク103から読み出されたプログラムに加えて、各種の演算処理結果を示すデータなどを保持する。また、ハードディスク103は不揮発性の磁気記憶装置であり、CPU101で実行されるプログラムに加えて、各種設定値などが格納される。このハードディスク103にインストールされるプログラムは、後述するように、記録媒体111に格納された状態で流通する。なお、ハードディスク103に加えて、またはハードディスク103に代えて、フラッシュメモリなどの半導体記憶装置を採用してもよい。
 入力インタフェース104は、CPU101とキーボード108、マウス109および図示しないタッチパネルなどの入力部との間のデータ伝送を仲介する。すなわち、入力インタフェース104は、ユーザが入力部を操作することで与えられる操作指令などの外部からの入力を受け付ける。
 表示コントローラ105は、表示部の典型例であるディスプレイ110と接続され、ディスプレイ110での表示を制御する。すなわち、表示コントローラ105は、CPU101による画像処理の結果などをユーザに対して表示する。ディスプレイ110は、たとえばLCD(Liquid Crystal Display)またはCRT(Cathode Ray Tube)である。
 データリーダ/ライタ106は、CPU101と記録媒体111の間のデータ伝送を仲介する。すなわち、記録媒体111は、時系列文書要約装置201で実行されるプログラムなどが格納された状態で流通し、データリーダ/ライタ106は、この記録媒体111からプログラムを読み出す。また、データリーダ/ライタ106は、CPU101の内部指令に応答して、時系列文書要約装置201における処理結果などを記録媒体111へ書き込む。なお、記録媒体111は、たとえば、CF(Compact Flash)およびSD(Secure Digital)などの汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)などの磁気記憶媒体、またはCD-ROM(Compact Disk Read Only Memory)などの光学記憶媒体である。
 通信インタフェース107は、CPU101とパーソナルコンピュータおよびサーバ装置などの間のデータ伝送を仲介する。通信インタフェース107は、典型的には、イーサネット(登録商標)またはUSB(Universal Serial Bus)の通信機能を有する。なお、記録媒体111に格納されたプログラムを時系列文書要約装置201にインストールする形態に代えて、通信インタフェース107を介して配信サーバなどからダウンロードしたプログラムを時系列文書要約装置201にインストールしてもよい。
 また、時系列文書要約装置201には、必要に応じてプリンタなどの他の出力装置が接続されてもよい。
 [制御構造]
 次に、時系列文書要約装置201における各種機能を提供するための制御構造について説明する。
 図4は、本発明の第1の実施の形態に係る時系列文書要約装置が提供する制御構造を示すブロック図である。
 図4に示す時系列文書要約装置201の各ブロックは、ハードディスク103に格納されたプログラム(コード)などをメインメモリ102に展開して、CPU101に実行させることで提供される。なお、図4に示すモジュールの一部または全部がハードウェアに実装されているファームウェアによって提供される場合もある。あるいは、図4に示す制御構造の一部または全部を専用ハードウェアおよび/または配線回路によって実現してもよい。
 図4を参照して、時系列文書要約装置201は、その制御構造として、着目文書話題語抽出部10と、背景話題語抽出部20と、代表文字列抽出部30とを備える。
 時系列文書要約装置201は、入力として時間情報つきの文書集合を受け付ける。時間情報つきの文書集合とは、その集合に含まれる文書が何らかの時間と関連付けられているような文書の集合である。各文書に関連付けられた時間は、文書が作成された時間および発信された時間などを表す。時間は、年、月、日、時、分および秒など、どの粒度で記述されていても良い。
 時系列文書要約装置201が入力として受け付ける時間情報つきの文書集合の例としては、ニュース記事、ブログ、マイクロブログ、および電子掲示板に投稿された文書などがある。
 時系列文書要約装置201は、入力された文書集合の話題を要約する。この入力された文書集合を、着目文書集合と呼ぶ。すなわち、時系列文書要約装置201は、対象となる文書集合である着目文書集合の要約文を作成する。
 時系列文書要約装置201において、着目文書話題語抽出部10は、入力された時間情報つきの文書集合を着目文書集合とする。そして、着目文書話題語抽出部10は、その着目文書集合の話題を表す特徴語を、着目文書話題語として抽出し、出力する。
 背景話題語抽出部20は、着目文書集合とは異なる文書集合を参照用文書集合とする。たとえば、この文書集合は、用語辞典等の辞書である文書集合とは異なるものである。なお、参照用文書集合は、時間情報つきの文書集合であってもよいし、時間情報がついていない文書集合であってもよい。
 背景話題語抽出部20は、その参照用文書集合から、着目文書集合の期間よりも過去の期間の話題を表す特徴語を背景話題語として抽出する。そして、背景話題語抽出部20は、抽出した背景話題語と、着目文書話題語抽出部10が出力した着目文書話題語との間の関連性を表す関連度を計算して、計算した関連度、および背景話題語を出力する。
 代表文字列抽出部30は、着目文書話題語抽出部10が抽出した着目文書集合の話題を表す着目文書話題語に加えて、背景話題語抽出部20が抽出した背景話題語および計算した関連度を用いて、着目文書集合の話題を表す代表文字列を抽出する。
 [動作]
 次に、本発明の実施の形態に係る時系列文書要約装置の動作について図面を用いて説明する。本発明の実施の形態では、時系列文書要約装置201を動作させることによって、本発明の実施の形態に係る時系列文書要約方法が実施される。よって、本発明の実施の形態に係る時系列文書要約方法の説明は、以下の時系列文書要約装置201の動作説明に代える。なお、以下の説明においては、適宜図4を参照する。
 時系列文書要約装置201において、着目文書話題語抽出部10は、着目文書集合を取得し、着目文書集合に含まれる、着目文書集合の話題を表す語を着目文書話題語として抽出する。
 背景話題語抽出部20は、着目文書集合、および着目文書話題語抽出部10によって抽出された着目文書集合の特徴語である着目文書話題語の組と、着目文書集合とは異なる文書集合である参照用文書集合とを取得する。たとえば、背景話題語抽出部20は、着目文書集合よりも過去に作成または公開された文書を含む文書集合を参照用文書集合として取得する。
 そして、背景話題語抽出部20は、着目文書集合において記述されている話題の背景となる話題を表す背景話題語を参照用文書集合から抽出する。たとえば、背景話題語抽出部20は、参照用文書集合に多数含まれる語または偏って含まれる語を背景話題語として抽出する。
 代表文字列抽出部30は、着目文書集合に含まれる文字列の中から、着目文書話題語および背景話題語を含む代表文字列を、着目文書集合の要約文として抽出する。
 より詳細には、背景話題語抽出部20は、着目文書話題語と背景話題語との関連度を計算する。たとえば、背景話題語抽出部20は、着目文書集合および参照用文書集合の少なくとも一方における、着目文書話題語および背景話題語の文書内の共起性または共起語の類似性に基づいて、関連度を計算する。
 代表文字列抽出部30は、背景話題語抽出部20によって計算された関連度に基づいて、着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ文字列を代表文字列とする。
 図5は、本発明の実施の形態に係る時系列文書要約装置が時系列文書要約処理を行なう際の動作手順を示すフローチャートである。
 図5を参照して、まず、着目文書話題語抽出部10は、ユーザから時間情報つきの文書集合の入力を受け付ける(ステップS1)。
 次に、着目文書話題語抽出部10は、入力された時間情報つきの文書集合を着目文書集合とする。そして、着目文書話題語抽出部10は、その着目文書集合の話題を表す特徴語を着目文書話題語として抽出し、出力する(ステップS2)。
 次に、背景話題語抽出部20は、着目文書集合とは異なる文書集合を参照用文書集合とする。背景話題語抽出部20は、その参照用文書集合から、着目文書集合の期間よりも過去の期間の話題を表す特徴語を背景話題語として抽出する。そして、背景話題語抽出部20は、着目文書話題語抽出部10が出力した着目文書話題語と背景話題語との間の関連性を表す関連度を計算して、計算した関連度、および背景話題語を出力する(ステップS3)。
 次に、代表文字列抽出部30は、着目文書話題語抽出部10が抽出した着目文書集合の話題を表す着目文書話題語に加えて、背景話題語抽出部20が抽出した背景話題語および計算した関連度を用いて、着目文書集合の話題を表す代表文字列を抽出する(ステップS4)。
 ここで、ステップS1の動作を具体的に説明する。本実施の形態では、ユーザは、着目文書話題語抽出部10への時間情報つきの文書集合の入力を、キーボード108などによって行なう。
 なお、ユーザは、着目文書話題語抽出部10への時間情報つきの文書集合の入力を、通信インタフェース107およびネットワークを介して時系列文書要約装置201と接続された外部のコンピュータなどによって行なっても良い。あるいは、ユーザは、時間情報つきの文書集合を記憶したデータファイルを指定することで時間情報つきの文書集合の入力を行なっても良い。この場合、着目文書話題語抽出部10は、ユーザが指定したデータファイルから時間情報つきの文書集合を読み込む。
 次に、ステップS2の動作を具体的に説明する。本実施の形態では、着目文書話題語抽出部10は、入力された時間情報つきの文書集合を着目文書集合とする。そして、着目文書話題語抽出部10は、その着目文書集合の話題を表す特徴語を、着目文書話題語として抽出し、出力する。
 ここで、着目文書集合の話題を表す特徴語の抽出方法は様々なものが考えられる。たとえば、各語についてその期間の文書における出現数を数えて、その出現数が多い順番に語をランキングする。そして、上位N個の語をその期間に偏って出現する特徴語と見なすことができる。
 また、着目文書集合の話題を表す特徴語の抽出方法には、従来から知られている様々な特徴語の抽出技術を用いることができる。たとえば、非特許文献3の22ページから23ページに記載の技術を用いて、文書の特徴語を抽出しても良い。
 図6は、着目文書話題語抽出部10の出力するデータの例を示す図である。
 図6を参照して、この例では、あるマイクロブログに16時から20時に投稿された文書の集合を着目文書集合として、この着目文書集合に含まれていた話題語が抽出されている。
 次に、ステップS3の動作を具体的に説明する。背景話題語抽出部20は、着目文書集合とは異なる文書集合を参照用文書集合とする。背景話題語抽出部20は、参照用文書集合から、着目文書集合の期間よりも過去の期間の話題を表す特徴語を、背景話題語として抽出する。そして、背景話題語抽出部20は、着目文書話題語抽出部10が出力した着目文書話題語と背景話題語との間の関連性を表す関連度を計算して、計算した関連度、および背景話題語を出力する。
 ここで、参照用文書集合としては、着目文書集合の話題よりも過去の話題が含まれていると期待される文書の集合を用いる。この過去の話題が含まれていると期待される文書の集合としては、着目文書集合よりも過去に作成または公開された文書の集合を用いることができる。
 たとえば、入力された着目文書集合が、あるマイクロブログにおいて16時から20時に投稿された文書の集合だったとする。このとき、参照用文書集合としては、たとえば、0時から16時までの間に同じマイクロブログに投稿された文書の集合を用いることができる。
 あるいは、ニュース記事および別のブログのように、着目文書集合が属するマイクロブログとは異なる文書ソースを用いても良い。ただし、別の文書ソースを用いる場合であっても、着目文書集合が属する時間より過去の話題が含まれていると期待される文書集合である必要がある。
 また、参照用文書集合が、着目文書集合の話題よりも過去の話題が含まれていると期待される文書の集合であれば、参照用文書集合の作成または公開された時間は、着目文書集合の作成または公開された時間と遠く離れていても、あるいは重なりを持っていても良い。たとえば、上記した例において、参照用文書集合として、0時から6時までに投稿された文書の集合を用いても、3時から18時までに投稿された文書の集合を用いても良い。
 背景話題語抽出部20は、着目文書集合の期間よりも過去の期間の話題を表す特徴語を、参照用文書集合から背景話題語として抽出する。背景話題語の抽出方法は、着目文書話題語抽出部10において着目文書集合から着目文書話題語を抽出したのと同じ方法を用いても良いし、異なる方法を用いても良い。
 最も単純には、着目文書話題語抽出部10において着目文書集合から着目文書話題語を抽出したのと同じ方法を、参照用文書集合に対して適用する。これにより、着目文書集合の期間よりも過去の期間の話題を表す特徴語を、背景話題語として抽出することができる。
 また、参照用文書集合を、さらにいくつかの期間に分割し、分割したそれぞれの文書集合について、着目文書話題語抽出部10において着目文書集合から着目文書話題語を抽出したのと同じ方法を適用しても良い。
 たとえば、参照用文書集合として、0時から16時までの間に投稿された文書の集合を用いているとき、「0時-4時」、「4時-8時」、「8時-12時」および「12時-16時」の4つの期間に投稿された文書に分割し、それぞれの文書集合の特徴語を、背景話題語として抽出しても良い。
 背景話題語抽出部20は、以上のようにして背景話題語を抽出した後、着目文書話題語抽出部10が出力した着目文書話題語と背景話題語との間の関連性を表す関連度を計算する。
 着目文書話題語と背景話題語との間の関連性を表す関連度としては、様々なものが考えられる。以下に、着目文書話題語と背景話題語をそれぞれAおよびBとして、AおよびBの間の関連性を表す関連度として考えられる値の例を説明する。
 着目文書話題語と背景話題語との間の関連性を表す関連度として、2つの語が文書に出現する共起の強さを用いても良い。
 たとえば、文書集合中で語Aおよび語Bが両方出現する文書数をN1とし、語Aおよび語Bのいずれかが出現する文書数をN2とする。そして、N1/N2を2つの語の間の関連性を表す関連度とすることができる。この値が大きいほど、2つの語が強く共起して出現することを表す。文書数の数え方としては、着目文書集合における文書数だけを数えても良いし、着目文書集合および参照文書集合における文書数を合わせて数えても良い。また、これらと比べて精度は劣るが、参照文書集合における文書数だけを数えても良い。
 また、着目文書話題語と背景話題語との間の関連性を表す関連度として、着目文書話題語の共起語と背景話題語の共起語との類似性、具体的には着目文書話題語が出現する文脈と背景話題語が出現する文脈との類似性を用いても良い。
 すなわち、すべての語の総数をNwとして、語Aおよび語Bについて、それぞれの文脈を表す長さNwのベクトルを考えることができる。ベクトルの各要素は、ある語が、語Aまたは語Bと共起した回数の多さを表すものとする。このとき、語Aの文脈を表すベクトルと、語Bの文脈を表すベクトルとのコサイン類似度を計算することで、語Aおよび語Bの文脈の類似度とすることができる。この類似度を、2つの語の間の関連性を表す関連度としても良い。
 また、着目文書話題語と背景話題語との間の関連性を表す関連度として、語の関連性を記述した辞書における関連性の有無を用いても良い。
 たとえば、語の上位下位関係を表す木構造状のシソーラスが得られているとき、このシソーラスの木構造における2つの語を表すノードの間の距離の逆数を、2つの語の間の関連性を表す関連度としても良い。
 また、着目文書話題語と背景話題語との間の関連性を表す関連度として、時間的な出現の近さを用いても良い。
 たとえば、語Aが出現する文書の作成または公開された時間の平均をTaとし、語Bが出現する文書の作成または公開された時間の平均をTbとする。このとき、TaおよびTbの間の時間的距離の逆数を、2つの語の間の関連性を表す関連度としても良い。
 また、着目文書話題語と背景話題語との間の関連性を表す関連度として、上記に挙げた各種の関連度を組み合わせた値を用いても良い。
 たとえば、2つの語が文書に出現する共起の強さを用いて算出した関連度をV1とし、時間的な出現の近さを用いて算出した関連度をV2とするとき、V1およびV2の代わりに、V1+V2を関連度として出力しても良い。
 また、着目文書話題語と背景話題語との間の関連性を表す関連度を算出する際に、背景話題語の特徴語らしさを表す値を計算し、その値を関連度の算出において考慮しても良い。
 たとえば、参照用文書集合における出現頻度の大きさを、参照用文書集合における特徴語らしさを表す値としてV3とする。この値が大きいほど重要な背景話題語であると見なして、他の手法に基づく関連度にV3を加算することで、背景話題語の関連度を高く評価しても良い。
 単語と単語との関連度を算出する手法は他にも、自然言語処理の分野で一般に知られている公知技術がある。本実施の形態では、着目文書話題語と背景話題語との間の関連性を算出するために、他にそうした公知技術による関連度を用いてもよい。
 図7は、背景話題語抽出部20の出力するデータの例を示す図である。
 図7では、着目文書話題語と背景話題語との関連性を表す関連度が記述されている。図7において、縦方向の欄が着目文書話題語を表し、横方向の欄が背景話題語を表す。
 この例は、以下のような想定における例である。すなわち、あるマイクロブログに16時から20時に投稿された文書の集合を着目文書集合とする。0時から16時に投稿された文書の集合を参照文書集合として、「0時-4時」、「4時-8時」、「8時-12時」および「12時-16時」の4つの期間に投稿された文書に分割し、それぞれの文書集合の特徴語を、背景話題語として抽出する。さらに、着目文書話題語と背景話題語との関連性を表す関連度を計算する。
 図7の例に示すように、「大雨」および「豪雨」のような、着目文書話題語にとって背景となる話題を表す背景話題語との関連度は高く計算される。一方、「電子書籍」および「民主党」のような、着目文書話題語にとって背景となる話題を表さない背景話題語との関連度は低く計算される。
 次に、ステップS4の動作を具体的に説明する。代表文字列抽出部30は、着目文書話題語抽出部10が抽出した着目文書集合の話題を表す着目文書話題語に加えて、背景話題語抽出部20が抽出した背景話題語および計算した関連度を用いて、着目文書集合の話題を表す代表文字列を抽出する。
 具体的には、着目文書集合中の文書に含まれる文字列のうち、着目文書話題語のいずれかを含み、かつ、その着目文書話題語との関連度が高い背景話題語のいずれかを含むような文字列に対して、文字列の要約文としての良さを表す要約スコアを付与する。そして、要約スコアが高い文字列を、着目文書集合の話題を表す代表文字列として抽出する。
 抽出する対象となる文字列の定め方は任意である。たとえば、着目文書集合中のすべての文書を、句点などの文区切りを表す記号で区切ることで、着目文書集合中の文書に含まれるすべての文を得ることができる。
 これらの文の集合を、抽出する対象となる文字列としてもよい。また、着目文書集合中のすべての文書をN文字ごと(Nは2以上の整数)に区切ることで、N文字長の文字列の集合を得ることができる。これらのN文字長の文字列の集合を、抽出する対象となる文字列としてもよい。
 文字列の要約スコアの計算方法としては、たとえば、着目文書話題語のいずれかを含んでいる文字列だけを選別し、選別した文字列に含まれている背景話題語のそれぞれについて、着目文書話題語との間の関連度を合計して、要約スコアとしても良い。他にも、非特許文献3に記載されているような、特徴語から要約文字列を選別する手法を用いて良い。
 図8は、代表文字列抽出部30における文字列の要約スコアの例を示す図である。図8は、「16時-20時」の期間の文書を着目文書集合としたときの、着目文書集合中の文書に含まれる文字列の要約スコアを表している。
 図8の第1列は、着目文書集合中の文書に含まれる文字列である。第2列は、その文字列に含まれている着目文書話題語である。第3列は、その文字列に含まれている背景話題語とその関連度である。第4列は、第3列を元に計算した、その文字列の要約スコアである。
 図8では、「大雨で金閣寺が水没した。」という文字列が最も高い要約スコアを持っている。これは、「大雨」という、着目文書話題語との関連性が高い背景話題語を含んでいるためである。このような文は、背景となる話題の説明を含んだ要約文であると考えられる。
 一方、「金閣寺が危険なことになってる。」という文字列は、着目話題語を2個含んでいるが、背景話題語を含んでいないため、文字列の要約スコアは低くなっている。このような文字列は、背景となる話題の説明を含んでいない要約文であると考えられる。
 一方、「すごい大雨で驚いた。」という文字列は、「大雨」という背景話題語を含んでいるが、文字列の要約スコアは付与されていない。これは、たとえ背景話題語を含んでいたとしても、着目話題語を含んでいない文字列は、着目期間の話題の要約としてふさわしくないと考えられるためである。
 この結果、「16時-20時」の期間の文書を着目文書集合としたときの代表文字列として、「大雨で金閣寺が水没した。」という文字列が選ばれることになる。
 図9は、代表文字列抽出部30の出力するデータの例を示す図である。この例では、16時から20時までの期間の文書を着目文書集合としたときの代表文字列を表示している。
 図9では、代表文字列に「大雨」という関連する背景話題語が含まれている。これにより、図2に示した例に比べ、背景となる話題の説明を含んだ文が出力されている。また、「金閣寺」という、着目文書話題語を含んでいることで、着目文書集合の話題を要約している。
 以上説明したように、本実施の形態に係る時系列文書要約装置201によれば、時間情報を持つ大量の文書から、ある期間の話題を要約しており、かつ、背景となる話題の説明を含んだ要約文を出力することができる。
 ところで、単語または表現の統計的出現傾向に基づき、特徴語を含む文を要約文として選別するような従来技術を用いた場合では、確率的にこうした背景に関する説明となる部分が含まれない文が要約文として選別されやすい。しかしながら、もともとの背景について知らない一般の読者にとっては、何について書かれた文であるのか理解できず、要約文として不適切となるという問題があった。
 これに対して、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部20は、着目文書集合、および着目文書集合の特徴語である着目文書話題語の組と、着目文書集合とは異なる文書集合である参照用文書集合とを取得し、着目文書集合において記述されている話題の背景となる話題を表す背景話題語を参照用文書集合から抽出する。そして、代表文字列抽出部30は、着目文書集合に含まれる文字列の中から、着目文書話題語および背景話題語を含む代表文字列を、着目文書集合の要約文として抽出する。
 ここで、特許文献1~3に記載の技術と本発明の実施の形態に係る時系列文書要約装置との具体的な相違としては、たとえば、以下のような点がある。
 すなわち、特許文献1に記載の技術では、話題語同士の文書共有度の高い場合にこれらの話題語を結合する。すなわち、同じ文書に多く出現しやすい話題語を結合する。このため、着目文書集合と、着目文書集合とは異なる文書集合とを区別していないことから、着目文書話題語および背景話題語の2種類を区別して抽出することができない。
 これに対して、本発明の実施の形態に係る時系列文書要約装置では、着目文書集合とは異なる文書集合を用意して特徴語を抽出し、抽出した特徴語を背景話題語とする。そして、背景話題語および着目文書話題語の2種類を含む文字列を着目文書集合から抽出する。
 また、特許文献2に記載の技術では、各発信源が過去に作成した文書中に含まれる語句群の類似性から発信源間の関連度を算出する。また、特許文献3に記載の技術では、各単語の時刻ごとの出現頻度を集計し、期間中のいずれかの箇所で大きく出現頻度が増加する単語のみを、潜在話題の候補語として抽出する。このように、特許文献2および3に記載の技術は、本発明の実施の形態に係る時系列文書要約装置のように、着目文書集合において記述されている話題の背景となる話題を表す背景話題語を参照用文書集合から抽出する構成とはまったく異なるものである。
 すなわち、本発明の実施の形態に係る時系列文書要約装置では、着目文書集合に含まれる特徴語すなわち着目文書話題語だけでなく、背景となる話題を表す語すなわち背景話題語をさらに含んだ文字列を、着目文書集合に含まれる文字列の中から抽出し、代表文字列として抽出する。より詳細には、着目文書集合とは異なる文書集合を用意して、この文書集合の特徴語を背景話題語として抽出し、背景話題語および着目文書話題語の2種類を含む文字列を着目文書集合から抽出する。
 すなわち、本発明の実施の形態に係る時系列文書要約装置における各構成要素のうち、背景話題語抽出部20および代表文字列抽出部30からなる最小構成により、文書の集合から適切な要約文を出力する、という本発明の目的を達成することが可能となる。
 また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部20は、着目文書集合よりも過去に作成または公開された文書を含む文書集合を参照用文書集合として取得する。
 このような構成により、着目文書集合の話題よりも過去の話題が含まれている可能性の高い文書集合を取得し、適切な背景話題語を取得することができる。
 また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部20は、参照用文書集合に多数含まれる語または偏って含まれる語を背景話題語として抽出する。
 このような構成により、参照用文書集合の中から、適切な背景話題語をより確実に取得することができる。すなわち、過去にある程度話題になった内容に関する語を背景話題語として取得することができる。
 また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部20は、着目文書話題語と背景話題語との関連度を計算する。そして、代表文字列抽出部30は、背景話題語抽出部20によって計算された関連度に基づいて、着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ文字列を代表文字列とする。
 このような構成により、着目文書集合に含まれる文字列を定量的に評価し、適切な代表文字列を抽出することができる。すなわち、現在話題になっている内容に関する語を背景話題語として取得することができる。
 また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部20は、着目文書集合および参照用文書集合の少なくとも一方における、着目文書話題語および背景話題語の文書内の共起性または共起語の類似性に基づいて、関連度を計算する。
 このような構成により、着目文書集合に含まれる文字列のスコアを適切に計算することができる。
 また、本発明の実施の形態に係る時系列文書要約装置では、着目文書話題語抽出部10は、着目文書集合を取得し、着目文書集合に含まれる、着目文書集合の話題を表す語を着目文書話題語として抽出する。そして、背景話題語抽出部20は、着目文書話題語抽出部10によって抽出された着目文書話題語を取得する。
 このような構成により、着目文書集合および着目文書話題語を自動で取得することができ、着目文書集合の要約文を作成するための装置として、より総合的に機能することができる。
 なお、本発明の実施の形態に係る時系列文書要約装置は、着目文書話題語抽出部10を備える構成であるとしたが、これに限定するものではない。着目文書話題語抽出部10を備えず、背景話題語抽出部20が、着目文書集合および着目文書話題語の組を時系列文書要約装置201の外部から取得する構成であってもよい。たとえば、時系列文書要約装置201が、着目文書集合および着目文書話題語の組の指定をユーザから受け付ける構成であってもよい。
 上記実施の形態の一部または全部は以下の付記のようにも記載されうるが、本発明の範囲は、以下の付記に限定されるものではない。
 [付記1]
 対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置であって、
 上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するための背景話題語抽出部と、
 上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するための代表文字列抽出部とを備える、時系列文書要約装置。
 [付記2]
 上記背景話題語抽出部は、上記着目文書集合よりも過去に作成または公開された文書を含む文書集合を上記参照用文書集合として取得する、付記1に記載の時系列文書要約装置。
 [付記3]
 上記背景話題語抽出部は、上記参照用文書集合に多数含まれる語または偏って含まれる語を上記背景話題語として抽出する、付記2に記載の時系列文書要約装置。
 [付記4]
 上記背景話題語抽出部は、上記着目文書話題語と上記背景話題語との関連度を計算し、
 上記代表文字列抽出部は、上記背景話題語抽出部によって計算された上記関連度に基づいて、上記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ上記文字列を上記代表文字列とする、付記1から3のいずれかに記載の時系列文書要約装置。
 [付記5]
 上記背景話題語抽出部は、上記着目文書集合および上記参照用文書集合の少なくとも一方における、上記着目文書話題語および上記背景話題語の文書内の共起性または共起語の類似性に基づいて、上記関連度を計算する、付記4に記載の時系列文書要約装置。
 [付記6]
 上記時系列文書要約装置は、さらに、
 上記着目文書集合を取得し、上記着目文書集合に含まれる、上記着目文書集合の話題を表す語を上記着目文書話題語として抽出するための着目文書話題語抽出部を備え、
 上記背景話題語抽出部は、上記着目文書話題語抽出部によって抽出された上記着目文書話題語を取得する、付記1から5のいずれかに記載の時系列文書要約装置。
 [付記7]
 対象となる文書集合である着目文書集合の要約文を出力する時系列文書要約方法であって、
 上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、
 上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを含む、時系列文書要約方法。
 [付記8]
 上記背景話題語を抽出するステップにおいては、上記着目文書集合よりも過去に作成または公開された文書を含む文書集合を上記参照用文書集合として取得する、付記7に記載の時系列文書要約方法。
 [付記9]
 上記背景話題語を抽出するステップにおいては、上記参照用文書集合に多数含まれる語または偏って含まれる語を上記背景話題語として抽出する、付記8に記載の時系列文書要約方法。
 [付記10]
 上記背景話題語を抽出するステップにおいては、上記着目文書話題語と上記背景話題語との関連度を計算し、
 上記代表文字列を抽出するステップにおいては、計算した上記関連度に基づいて、上記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ上記文字列を上記代表文字列とする、付記7から9のいずれかに記載の時系列文書要約方法。
 [付記11]
 上記背景話題語を抽出するステップにおいては、上記着目文書集合または上記参照用文書集合における、上記着目文書話題語および上記背景話題語の文書内の共起性または共起語の類似性に基づいて、上記関連度を計算する、付記10に記載の時系列文書要約方法。
 [付記12]
 上記時系列文書要約方法は、さらに、
 上記着目文書集合を取得し、上記着目文書集合に含まれる、上記着目文書集合の話題を表す語を上記着目文書話題語として抽出するステップを含み、
 上記背景話題語を抽出するステップにおいては、抽出した上記着目文書話題語を取得する、付記7から11のいずれかに記載の時系列文書要約方法。
 [付記13]
 対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置において用いられる時系列文書要約プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、上記時系列文書要約プログラムは、コンピュータに、
 上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、
 上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを実行させるためのプログラムである、コンピュータ読み取り可能な記録媒体。
 [付記14]
 上記背景話題語を抽出するステップにおいては、上記着目文書集合よりも過去に作成または公開された文書を含む文書集合を上記参照用文書集合として取得する、付記13に記載のコンピュータ読み取り可能な記録媒体。
 [付記15]
 上記背景話題語を抽出するステップにおいては、上記参照用文書集合に多数含まれる語または偏って含まれる語を上記背景話題語として抽出する、付記14に記載のコンピュータ読み取り可能な記録媒体。
 [付記16]
 上記背景話題語を抽出するステップにおいては、上記着目文書話題語と上記背景話題語との関連度を計算し、
 上記代表文字列を抽出するステップにおいては、計算した上記関連度に基づいて、上記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ上記文字列を上記代表文字列とする、付記13から15のいずれかに記載のコンピュータ読み取り可能な記録媒体。
 [付記17]
 上記背景話題語を抽出するステップにおいては、上記着目文書集合または上記参照用文書集合における、上記着目文書話題語および上記背景話題語の文書内の共起性または共起語の類似性に基づいて、上記関連度を計算する、付記16に記載のコンピュータ読み取り可能な記録媒体。
 [付記18]
 上記時系列文書要約プログラムは、さらに、コンピュータに、
 上記着目文書集合を取得し、上記着目文書集合に含まれる、上記着目文書集合の話題を表す語を上記着目文書話題語として抽出するステップを実行させるためのプログラムであり、
 上記背景話題語を抽出するステップにおいては、抽出した上記着目文書話題語を取得する、付記13から17のいずれかに記載の時系列文書要約プログラム。
 上記実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記説明ではなく請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 この出願は、2011年2月15日に出願された日本出願特願2011-29705を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明によれば、たとえばマイクロブログにおいて、時間情報を持つ大量の文書から、ある期間の話題を要約しており、かつ、背景となる話題の説明を含んだ要約文を出力することができる。したがって、本発明は、産業上の利用可能性を有している。
 10 着目文書話題語抽出部
 20 背景話題語抽出部
 30 代表文字列抽出部
 101 CPU
 102 メインメモリ
 103 ハードディスク
 104 入力インタフェース
 105 表示コントローラ
 106 データリーダ/ライタ
 107 通信インタフェース
 108 キーボード
 109 マウス
 110 ディスプレイ
 111 記録媒体
 121 バス
 201 時系列文書要約装置

Claims (8)

  1.  対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置であって、
     前記着目文書集合、および前記着目文書集合の特徴語である着目文書話題語の組と、前記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、前記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を前記参照用文書集合から抽出するための背景話題語抽出部と、
     前記着目文書集合に含まれる文字列の中から、前記着目文書話題語および前記背景話題語を含む代表文字列を、前記着目文書集合の要約文として抽出するための代表文字列抽出部とを備える、時系列文書要約装置。
  2.  前記背景話題語抽出部は、前記着目文書集合よりも過去に作成または公開された文書を含む文書集合を前記参照用文書集合として取得する、請求の範囲第1項に記載の時系列文書要約装置。
  3.  前記背景話題語抽出部は、前記参照用文書集合に多数含まれる語または偏って含まれる語を前記背景話題語として抽出する、請求の範囲第2項に記載の時系列文書要約装置。
  4.  前記背景話題語抽出部は、前記着目文書話題語と前記背景話題語との関連度を計算し、
     前記代表文字列抽出部は、前記背景話題語抽出部によって計算された前記関連度に基づいて、前記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ前記文字列を前記代表文字列とする、請求の範囲第1項から第3項のいずれかに記載の時系列文書要約装置。
  5.  前記背景話題語抽出部は、前記着目文書集合および前記参照用文書集合の少なくとも一方における、前記着目文書話題語および前記背景話題語の文書内の共起性または共起語の類似性に基づいて、前記関連度を計算する、請求の範囲第4項に記載の時系列文書要約装置。
  6.  前記時系列文書要約装置は、さらに、
     前記着目文書集合を取得し、前記着目文書集合に含まれる、前記着目文書集合の話題を表す語を前記着目文書話題語として抽出するための着目文書話題語抽出部を備え、
     前記背景話題語抽出部は、前記着目文書話題語抽出部によって抽出された前記着目文書話題語を取得する、請求の範囲第1項から第5項のいずれかに記載の時系列文書要約装置。
  7.  対象となる文書集合である着目文書集合の要約文を出力する時系列文書要約方法であって、
     前記着目文書集合、および前記着目文書集合の特徴語である着目文書話題語の組と、前記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、前記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を前記参照用文書集合から抽出するステップと、
     前記着目文書集合に含まれる文字列の中から、前記着目文書話題語および前記背景話題語を含む代表文字列を、前記着目文書集合の要約文として抽出するステップとを含む、時系列文書要約方法。
  8.  対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置において用いられる時系列文書要約プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、前記時系列文書要約プログラムは、コンピュータに、
     前記着目文書集合、および前記着目文書集合の特徴語である着目文書話題語の組と、前記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、前記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を前記参照用文書集合から抽出するステップと、
     前記着目文書集合に含まれる文字列の中から、前記着目文書話題語および前記背景話題語を含む代表文字列を、前記着目文書集合の要約文として抽出するステップとを実行させるためのプログラムである、コンピュータ読み取り可能な記録媒体。
PCT/JP2011/078517 2011-02-15 2011-12-09 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体 WO2012111226A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/982,523 US20130311471A1 (en) 2011-02-15 2011-12-09 Time-series document summarization device, time-series document summarization method and computer-readable recording medium
JP2012557792A JP5884740B2 (ja) 2011-02-15 2011-12-09 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011029705 2011-02-15
JP2011-029705 2011-02-15

Publications (1)

Publication Number Publication Date
WO2012111226A1 true WO2012111226A1 (ja) 2012-08-23

Family

ID=46672175

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/078517 WO2012111226A1 (ja) 2011-02-15 2011-12-09 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US20130311471A1 (ja)
JP (1) JP5884740B2 (ja)
WO (1) WO2012111226A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015064650A (ja) * 2013-09-24 2015-04-09 ビッグローブ株式会社 情報処理装置、記事情報生成方法およびプログラム
JP2015169969A (ja) * 2014-03-04 2015-09-28 Nttコムオンライン・マーケティング・ソリューション株式会社 話題特定装置、および話題特定方法
JP2019046016A (ja) * 2017-08-31 2019-03-22 ヤフー株式会社 算出装置、算出方法及び算出プログラム
JP7553314B2 (ja) 2020-10-13 2024-09-18 株式会社リクルート 推定装置、推定方法及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767165B1 (en) 2016-07-11 2017-09-19 Quid, Inc. Summarizing collections of documents
US10679002B2 (en) 2017-04-13 2020-06-09 International Business Machines Corporation Text analysis of narrative documents
EP3432155A1 (en) * 2017-07-17 2019-01-23 Siemens Aktiengesellschaft Method and system for automatic discovery of topics and trends over time
CN110727789A (zh) * 2018-06-29 2020-01-24 微软技术许可有限责任公司 文档的概要生成
CN109117485B (zh) * 2018-09-06 2023-08-08 北京汇钧科技有限公司 祝福语文本生成方法和装置、计算机可读存储介质
US11790184B2 (en) * 2020-08-28 2023-10-17 Salesforce.Com, Inc. Systems and methods for scientific contribution summarization
JP2024008334A (ja) 2022-07-08 2024-01-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法
JPH11219361A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd 文書閲覧装置およびそのプログラムを格納した記憶媒体
JP2001084255A (ja) * 1999-09-10 2001-03-30 Fuji Xerox Co Ltd 文書検索装置および方法
JP2002259371A (ja) * 2001-03-02 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141027A (ja) * 2001-10-31 2003-05-16 Toshiba Corp 要約作成方法および要約作成支援装置およびプログラム
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
JP4333318B2 (ja) * 2003-10-17 2009-09-16 日本電信電話株式会社 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
US7480669B2 (en) * 2005-02-15 2009-01-20 Infomato Crosslink data structure, crosslink database, and system and method of organizing and retrieving information
US7577646B2 (en) * 2005-05-02 2009-08-18 Microsoft Corporation Method for finding semantically related search engine queries
US7702680B2 (en) * 2006-11-02 2010-04-20 Microsoft Corporation Document summarization by maximizing informative content words
WO2008083504A1 (en) * 2007-01-10 2008-07-17 Nick Koudas Method and system for information discovery and text analysis
US20080301120A1 (en) * 2007-06-04 2008-12-04 Precipia Systems Inc. Method, apparatus and computer program for managing the processing of extracted data
US8781989B2 (en) * 2008-01-14 2014-07-15 Aptima, Inc. Method and system to predict a data value
US8606810B2 (en) * 2008-01-30 2013-12-10 Nec Corporation Information analyzing device, information analyzing method, information analyzing program, and search system
WO2009096523A1 (ja) * 2008-01-30 2009-08-06 Nec Corporation 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US20100185943A1 (en) * 2009-01-21 2010-07-22 Nec Laboratories America, Inc. Comparative document summarization with discriminative sentence selection
US8843476B1 (en) * 2009-03-16 2014-09-23 Guangsheng Zhang System and methods for automated document topic discovery, browsable search and document categorization
JP5879260B2 (ja) * 2009-06-09 2016-03-08 イービーエイチ エンタープライズィーズ インコーポレイテッド マイクロブログメッセージの内容を分析する方法及び装置
US8533208B2 (en) * 2009-09-28 2013-09-10 Ebay Inc. System and method for topic extraction and opinion mining
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US8326880B2 (en) * 2010-04-05 2012-12-04 Microsoft Corporation Summarizing streams of information
US9286619B2 (en) * 2010-12-27 2016-03-15 Microsoft Technology Licensing, Llc System and method for generating social summaries
US8990065B2 (en) * 2011-01-11 2015-03-24 Microsoft Technology Licensing, Llc Automatic story summarization from clustered messages

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法
JPH11219361A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd 文書閲覧装置およびそのプログラムを格納した記憶媒体
JP2001084255A (ja) * 1999-09-10 2001-03-30 Fuji Xerox Co Ltd 文書検索装置および方法
JP2002259371A (ja) * 2001-03-02 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015064650A (ja) * 2013-09-24 2015-04-09 ビッグローブ株式会社 情報処理装置、記事情報生成方法およびプログラム
JP2015169969A (ja) * 2014-03-04 2015-09-28 Nttコムオンライン・マーケティング・ソリューション株式会社 話題特定装置、および話題特定方法
JP2019046016A (ja) * 2017-08-31 2019-03-22 ヤフー株式会社 算出装置、算出方法及び算出プログラム
JP7388617B2 (ja) 2017-08-31 2023-11-29 Lineヤフー株式会社 算出装置、算出方法及び算出プログラム
JP7553314B2 (ja) 2020-10-13 2024-09-18 株式会社リクルート 推定装置、推定方法及びプログラム

Also Published As

Publication number Publication date
JPWO2012111226A1 (ja) 2014-07-03
JP5884740B2 (ja) 2016-03-15
US20130311471A1 (en) 2013-11-21

Similar Documents

Publication Publication Date Title
JP5884740B2 (ja) 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム
Nguyen et al. Computational sociolinguistics: A survey
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Bansal et al. On predicting elections with hybrid topic based sentiment analysis of tweets
Ruder et al. Character-level and multi-channel convolutional neural networks for large-scale authorship attribution
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
Mostafa More than words: Social networks’ text mining for consumer brand sentiments
JP6629246B2 (ja) クエリー曖昧性除去のための文脈に応じたコンテンツ取得ルールの学習と使用
US8924491B2 (en) Tracking message topics in an interactive messaging environment
US20200073485A1 (en) Emoji prediction and visual sentiment analysis
US8782042B1 (en) Method and system for identifying entities
Furini et al. Sentiment analysis and twitter: a game proposal
CN110727785A (zh) 推荐模型的训练、搜索文本的推荐方法、装置及存储介质
US20210248687A1 (en) System and method for predicting engagement on social media
US8290925B1 (en) Locating product references in content pages
CN104881447A (zh) 搜索方法及装置
Hernandez et al. Constructing consumer profiles from social media data
CN110430448B (zh) 一种弹幕处理方法、装置及电子设备
Muralikumar et al. A human-centered evaluation of a toxicity detection api: Testing transferability and unpacking latent attributes
Rahman et al. Enhancing lecture video navigation with AI generated summaries
JPWO2016103519A1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
WO2016063403A1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
CN110659419A (zh) 确定目标用户的方法及相关装置
Cela et al. Sexualization and Emotional Valence in Audience Reactions to Popular Music Video Through Automated Language Analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11858890

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012557792

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13982523

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11858890

Country of ref document: EP

Kind code of ref document: A1