WO2010035455A1 - 情報分析装置、情報分析方法、及びプログラム - Google Patents

情報分析装置、情報分析方法、及びプログラム Download PDF

Info

Publication number
WO2010035455A1
WO2010035455A1 PCT/JP2009/004752 JP2009004752W WO2010035455A1 WO 2010035455 A1 WO2010035455 A1 WO 2010035455A1 JP 2009004752 W JP2009004752 W JP 2009004752W WO 2010035455 A1 WO2010035455 A1 WO 2010035455A1
Authority
WO
WIPO (PCT)
Prior art keywords
series data
time
section
document
sections
Prior art date
Application number
PCT/JP2009/004752
Other languages
English (en)
French (fr)
Inventor
中澤聡
安藤真一
河合剛巨
岡嶋穣
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2010530725A priority Critical patent/JP5387578B2/ja
Priority to US13/060,572 priority patent/US20110153601A1/en
Publication of WO2010035455A1 publication Critical patent/WO2010035455A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Definitions

  • the present invention relates to an information analysis apparatus, an information analysis method, and a program for analyzing a document set.
  • This application claims priority on the basis of Japanese Patent Application No. 2008-244753 for which it applied to Japan on September 24, 2008, and uses the content here.
  • Non-Patent Document 1 discloses a technique for obtaining a similarity between two documents in order to group similar documents and organize texts.
  • the similarity between two documents is defined by an expression using the number of index words (a kind of language expression) that appear in common in both documents.
  • index words a kind of language expression
  • the similarity between two document sets clusters
  • the maximum value among the similarities between documents belonging to each document set is used, and the pair of document sets having the highest similarity (cluster pair) is merged. And one group.
  • language expression means a description representing a specific noun, topic, opinion, or thing included in a document (text).
  • Examples of the “language expression” include a noun expression expressed by a so-called noun such as an event name, an event name, and a product name, and a combination of a noun expression and a predicate or a modifier.
  • Specific examples of noun expressions include “race games”, “food disguise”, “earthquake resistant gel”, and the like.
  • Specific examples of combined expressions include “seismic gel is effective” and “diesel engine is good for the environment”.
  • the “language expression” may be a character string itself appearing in a document, and an existing natural language processing technology such as morphological analysis, syntax analysis, dependency analysis, or synonym processing is applied to the document. It may be the analysis result obtained by applying it.
  • “school” and “student” are linguistic expressions each consisting of one word.
  • the relationship between words such as “School ⁇ Go” obtained by performing dependency analysis on texts such as “go to school”, “go to school”, “go to school”, etc.
  • the result of the receiving analysis is also a linguistic expression representing a single meaning.
  • the document data analysis is also performed by examining the temporal transition of the number of document sets including a specific language expression. It has been broken. This will be described below.
  • Non-Patent Document 2 discloses a technique called “Blog Watcher”.
  • time series changes such as the number of times a specific topic word has appeared, the number of times that the topic word has been described positively, and the number of times it has been described negatively in the entire collected blog are broken lines. Plotted as a graph.
  • the user can examine the transition of the number of appearances in the blog of the topic word of interest, and how popular the topic word of interest was at each time point. Analysis can be performed.
  • regression analysis is a basic method of statistical analysis. This is a technology to detect highly relevant events by examining the correlation of time changes of multiple time-series data when there are multiple sets of time-series data such as the number of occurrences and prices of each event at each time point. It is. For example, when there is a correlation between the time change of one stock price and the time change of another stock price, the regression analysis is performed by regarding the price of each of the two stocks as time series data. So we can calculate how much the price of both was related.
  • the event of interest is an event expressed in a specific language expression.
  • a document set of documents with time information is given as an analysis target instead of direct time-series data such as stock prices
  • each language expression can be expressed by using the technique disclosed in Non-Patent Document 2.
  • the time series data can be obtained.
  • the document set that is the analysis population is divided by a specific period using time information, the number of documents including each language expression and the number of appearances of the language expression in each period are determined by the period of each language expression.
  • Each time-series data is if the document set that is the analysis population is divided by a specific period using time information, the number of documents including each language expression and the number of appearances of the language expression in each period are determined by the period of each language expression.
  • Non-Patent Document 2 if two document sets with time information are converted into two time-series data, and then the correlation between the two is examined by statistical analysis such as regression analysis, The relevance of is required. In this case, it is irrelevant whether the same or similar language expression exists in the two sets of documents with time information.
  • the two sets of documents with time information are regarded as time-series data, and the degree of relevance between the two is obtained from the similarity and correlation between the two change patterns.
  • FIG. 2 is a diagram illustrating an example of time-series data, as will be described later.
  • two peaks exist at the same time in time series data (1) and time series data (2). Therefore, high relevance is recognized only from the time series data shown in FIG.
  • the time series data (1) and the time series data (2) there is a causal relationship between the time series data (1) and the time series data (2), in which one causes the change of the other, and high relevance may be appropriate.
  • the two peaks of the time series data (1) are due to two different causes and the peaks are independent, but the two peaks of the time series data (2) are It is possible that the peak is a periodic peak due to another cause. That is, in the time-series data (1) and the time-series data (2), a case where the peak sections of both coincide by chance can be considered.
  • Non-Patent Document 2 two sets of documents with time information are converted into two time-series data, and then the correlation between the two is examined by statistical analysis such as regression analysis. In some cases, it is difficult to determine whether it is due to coincidence or is really relevant.
  • Non-Patent Document 1 the similarity between the document set that is the origin of one time-series data and the document set that is the origin of another time-series data is obtained, and the obtained similarity Based on the characteristics, a method for obtaining the degree of association between time series data is also conceivable.
  • the similarity between the two document sets is calculated based on the degree to which the same or similar language expression appears in both document sets.
  • An object of the present invention is to solve the above-mentioned problem, and when determining the relevance of a plurality of document sets with time information, the change pattern of the time series data obtained from each document set is accidentally changed.
  • An object of the present invention is to provide an information analysis device, an information analysis method, and a program capable of suppressing the influence of matching.
  • an information analysis apparatus is an information analysis apparatus that performs information analysis on a document set including documents to which time information is added, A plurality of time-series data generated based on the time information for each document set from a plurality of the document sets are compared with each other, and two or more sections of other time-series data from each time-series data A corresponding section selecting unit for selecting two or more sections that change corresponding to For each of the plurality of time-series data, a feature extraction unit that identifies the document belonging to the selected two or more sections for each section, and extracts the characteristics of the identified document for each section; For each of the time series data, the inter-feature distance between the feature extracted from one section and the feature extracted from another section in the selected two or more sections is obtained, and the obtained time A comparison unit for comparing distances between features for each series data; A relevance calculating unit that calculates a relevance between the document sets based on a result of the comparison by the comparing unit.
  • an information analysis method for performing information analysis on a document set including a document to which time information is given, (A) A plurality of time series data generated based on the time information for each document set from a plurality of the document sets are compared with each other, and two or more of the other time series data are obtained from each time series data.
  • a program according to an aspect of the present invention is a program for causing a computer to perform information analysis on a document set including a document to which time information is added.
  • (A) A plurality of time series data generated based on the time information for each document set from a plurality of the document sets are compared with each other, and two or more of the other time series data are obtained from each time series data.
  • the change patterns of the time-series data obtained from each document set coincide by chance. The influence by this can be suppressed.
  • FIG. 1 is a block diagram showing a schematic configuration of the information analysis apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a diagram illustrating an example of time-series data.
  • FIG. 3 is a diagram illustrating an example of time-series data.
  • FIG. 4 is a diagram illustrating an example of time-series data.
  • FIG. 5 is a diagram illustrating an example of time-series data.
  • FIG. 6 is a diagram illustrating an example of time-series data that varies due to a common cause.
  • FIG. 7 is a diagram illustrating another example of time-series data that varies due to a common cause.
  • FIG. 8 is a diagram illustrating another example of time-series data that varies due to different causes.
  • FIG. 1 is a block diagram showing a schematic configuration of the information analysis apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a diagram illustrating an example of time-series data.
  • FIG. 3 is
  • FIG. 9 is a flowchart showing the flow of processing in the information analysis method according to Embodiment 1 of the present invention.
  • FIG. 10 is a block diagram showing a schematic configuration of the information analysis apparatus according to Embodiment 2 of the present invention.
  • FIG. 11 is a flowchart showing the flow of processing in the information analysis method according to Embodiment 2 of the present invention.
  • FIG. 1 is a block diagram showing a schematic configuration of the information analysis apparatus according to Embodiment 1 of the present invention.
  • 2 to 5 are diagrams showing examples of time-series data.
  • the information analysis apparatus 1 shown in FIG. 1 is an apparatus that performs information analysis on a document set including documents to which time information is assigned. As illustrated in FIG. 1, the information analysis apparatus 1 includes a corresponding section selection unit 30, a feature extraction unit 40, a comparison unit 50, and a relevance calculation unit 70.
  • the document set to be analyzed is composed of a plurality of text data to which time information is added, and is input to the information analysis apparatus 1 from the outside.
  • the information analysis apparatus 1 further includes an input unit 10, a time series data generation unit 20, and an output unit 80.
  • a database 60 is connected to the information analysis apparatus 1.
  • the database 60 is used for processing by the comparison unit 50 as described later. In the following, a case will be described in which two document sets are input and two time-series data that change correspondingly are generated.
  • the input unit 10 accepts input of a plurality of document sets to be analyzed.
  • the document data constituting the document set is input to the input unit 10.
  • the document data constituting the document set may be directly input to the input unit 10 from an external computer device via a network, or may be provided in a state stored in a recording medium.
  • an interface for connecting the information analysis apparatus 1 to the outside is used as the input unit 10.
  • a reading device is used as the input unit 10.
  • time information in the present invention means time information such as date and time assigned to each document belonging to the input document set.
  • time information time information directly related to each document such as the creation date / time, transmission date / time, and publication date / time of each document can be used.
  • time information it is possible to use time information related to matters and cases handled by the contents in the document. Specific examples of such time information include an incoming call date and time recorded in a response record created at a call center, an accident occurrence date and time recorded in a police accident record, and the like.
  • a plurality of pieces of time information may be given to one document.
  • time information is used as unique time information for the document in the time-series data generation unit 20 described later.
  • the time-series data generation unit 20 extracts only time information of a preset type.
  • the format of the time information may be any format that can be ordered over time among the documents included in the input document set, such as year / month / day, combination of year / month / day and time, year / month only, etc. Any format may be used.
  • Examples of document sets to be input include a blog article including a language expression (or synonymous expression) “I bought candy A”, a language expression “or dance of Idol B” (or its Blog articles that contain synonymous expressions). In this case, the date of each blog article becomes time information.
  • the time-series data generation unit 20 generates a plurality of time-series data from a plurality of document sets received by the input unit 10 based on time information for each document set.
  • a document set may be directly input to the information analysis apparatus 1.
  • two document sets are input, and the time-series data generation unit 20 generates two time-series data.
  • the time series data generated from the input document set (1) is referred to as “time series data (1)”
  • the time series data generated from the input document set (2) is “ It is expressed as “time series data (2)”.
  • time-series data refers to time divided by a certain period, and each divided section, or a specific point in each section such as the head or middle point of each section. Arbitrary counting results are arranged in order of time, and the data obtained thereby.
  • time series data generated from a document set
  • a stock price of a certain company for each date is a typical example of time series data.
  • the certain period is one day.
  • the time change of temperature, the time change of traffic on a specific road, and the like are not time series data generated from a document set, but are examples of time series data.
  • the time-series data generation unit 20 generates time-series data from a document set.
  • the document set is set to a certain fixed value. Divide by period to create multiple subsets.
  • the degree of the certain period is not particularly limited, and the length of the certain period is the time and the purpose of use of the information analysis apparatus 1 and the time given to the documents constituting the document set. It is set appropriately according to the nature of the information.
  • the time-series data generation unit 20 stores a document set of documents having time information of January 2005, a document set of documents having time information of February 2005, and documents having time information of March 2005. Like a document set, one document set is divided into a plurality of document sets. Then, the time-series data generation unit 20 obtains a value (arbitrary counting result) defined by the properties of the documents constituting each subset for each document set (subset) obtained by the division. The values are sorted in time order to obtain time series data.
  • the “value defined by the properties of the document” may be any value that can be uniquely calculated mechanically from the properties of the documents constituting each subset, and the purpose and use of the information analysis apparatus 1 These are set as appropriate according to the type of meta information assigned to each document.
  • examples of the “value defined by the nature of the document” include the number and size of documents constituting each subset, the number of unique senders of the documents constituting each subset, and the like.
  • the “number of unique senders of a document” is the actual number of senders sending each document and does not include the total number of people who count the same person multiple times.
  • information specifying the numerical value for each document for example, information specifying a sender such as a sender ID
  • it must be added as meta information of the document separately from the time information.
  • time series data (1) generated from the input document set (1) and the time series data (2) generated from the input document set (2) are illustrated.
  • Both the time series data (1) and (2) can be represented by graphs in which the horizontal axis represents time and the vertical axis represents the counting result. In FIGS. The count results up to 2008) are plotted.
  • the counting result that can be used as the vertical axis in the time series data may be a measured value itself such as the number of appearances, or may be a value obtained by correcting or converting the original numerical value. . Examples of the latter include values obtained by normalizing measured values by the number of all document sets, values obtained by differentiating changes in measured values, and the like. Further, what correction or conversion is performed or whether the measured value itself is used is appropriately selected according to the use and purpose of use of the information analysis apparatus 1 and the nature of the input document set. .
  • the corresponding section selection unit 30 compares a plurality of time-series data obtained from a plurality of document sets with each other, and changes from each time-series data corresponding to each of two or more sections of other time-series data (corresponding 2) or more are selected.
  • the corresponding section selection unit 30 compares the time series data (1) and the time series data (2) with each other, and selects two or more sections (corresponding sections) that change correspondingly from each other. .
  • the corresponding section selection unit 30 outputs two or more corresponding sections of the selected time series data to the feature extraction unit 40.
  • the corresponding section selection unit 30 includes a corresponding section pair selection unit 31 and a similar corresponding section pair selection unit 32, and performs selection of the corresponding section by these. This will be described below.
  • the corresponding section pair selection unit 31 examines the correlation between the two time series data, and selects a section (corresponding section) that changes corresponding to each other between the two time series data.
  • the corresponding section pair selection unit 31 receives the time-series data (1) and the time-series data (2) from the time-series data creation unit 20, and receives one section of one time-series data and the other that changes correspondingly.
  • corresponding section pair is detected as a pair of corresponding sections in the time series data (hereinafter referred to as “corresponding section pair”).
  • the corresponding section pair selection unit 31 selects two or more pairs of such corresponding section pairs from the time series data (1) and the time series data (2).
  • correspondingly changing section is a graph in which values of one partial section of time series data (1) are plotted and a partial section of time series data (2). These partial one sections in the case where a high correlation is recognized with a graph in which values of one section are plotted. Further, in the first embodiment, it can be determined whether the correlation is high using the correlation coefficient.
  • the corresponding section pair selection unit 31 first obtains a correlation coefficient between the time series data (1) and the time series data (2). Then, the corresponding section pair selection unit 31 can select two or more sections in each of the two time-series data that have an absolute value of the correlation coefficient that exceeds the set threshold value (or is equal to or greater than the threshold value) as the corresponding section. it can. At this time, the threshold is set so that two or more corresponding section pairs are selected in the time-series data assumed as an input, taking into account the nature of the document set that is the source of the time-series data and the fluctuation state of the time-series data. It is assumed that an appropriate value is set in advance.
  • the obtained correlation coefficient may be a negative value.
  • a general Pearson product moment correlation coefficient, Spearman rank correlation coefficient, Kendall rank correlation coefficient, or the like can be used.
  • the corresponding section pair selecting unit 31 may set the threshold value again so that the preset threshold value becomes small. An instruction may be given to cancel the calculation of the degree of association.
  • the corresponding segment pair selection unit 31 does not use the correlation coefficient, but instead uses the existing statistical analysis technique or the time series analysis technique, and uses one of the time series data parts. It is also possible to determine the correlation between the section and the other section of the time series data.
  • the corresponding section pair selection unit 31 does not use only the high correlation in the partial sections of both time series data as the selection criterion of the corresponding section pair, but one or both of the time series data is characteristic.
  • a fluctuating section may be detected, and the degree thereof may be used as a selection criterion. For example, it is possible to detect a section where one or both of the time-series data graphs change greatly, and select the corresponding section pair in consideration of the degree of change in this section.
  • the graph in Fig. 2 can be cited as an example of selecting corresponding section pairs.
  • both of the time series data (1) and (2) have two peaks that are convex upward.
  • the correlation coefficient between the time series data is a positive high value, and the time series data (1) and (2) are highly correlated at the peak. Therefore, these two peaks can be selected as corresponding section pairs.
  • the number of appearances of the time series data (1) is rapidly decreasing, whereas the number of appearances of the time series data (2) is It is increasing rapidly.
  • the number of appearances of time-series data (1) is rapidly increasing, whereas the number of appearances of time-series data (2) is rapidly decreasing.
  • the correlation coefficient is negative, but its absolute value is high, and the correlation between the rapidly increasing portion and the rapidly decreasing portion is considered high. Therefore, both the rapidly increasing and rapidly decreasing sections can be selected as corresponding section pairs.
  • the corresponding sections of the time series data in FIGS. 2 to 8 are described as a corresponding section 1-1, a corresponding section 2-1, a corresponding section 1-2, and a corresponding section 2-2 for convenience of explanation. I will do it.
  • the corresponding section 1-1 means the first corresponding section of the time series data (1)
  • the corresponding section 1-2 means the second corresponding section of the time series data (1)
  • the corresponding section 1-n means the nth corresponding section of the time series data (1).
  • the corresponding section 2-1 means the first corresponding section of the time series data (2)
  • the corresponding section 2-2 means the second corresponding section of the time series data (2)
  • the corresponding section 2-n means the nth corresponding section of the time series data (2).
  • the corresponding section 1-n and the corresponding section 2-n have the same numerical value corresponding to “n”, it indicates that the corresponding section pair has a corresponding relationship.
  • the corresponding section 1-1 and the corresponding section 2-1 are corresponding section pairs that have a corresponding relationship.
  • each corresponding section pair shown in FIG. 2 and FIG. 3 the length, start time, and end time are the same in the corresponding section having a correspondence relationship.
  • this Embodiment 1 is not limited to this, In the corresponding section in a correspondence relationship, the length, start time, and end time of a corresponding section do not necessarily need to be the same.
  • a pair of corresponding sections such as the pair of the corresponding section 1-1 and the corresponding section 2-1 or the pair of the corresponding section 1-2 and the corresponding section 2-2 shown in FIG.
  • the start time and end time may be different from each other.
  • the lengths of the corresponding sections 1-2 and the corresponding sections 2-2 shown in FIG. 4 may be different.
  • the similar opposing section pair selection unit 32 examines the correlation between the partial sections for a plurality of partial sections existing in one time-series data, and further performs selection from those selected as the corresponding sections.
  • the similar corresponding section pair selection unit 32 further selects similar correspondences in the time series data (1) and the time series data (2) from the plurality of corresponding section pairs previously selected by the corresponding section pair selection unit 31. Select interval pairs.
  • the similar corresponding section pair selection unit 32 first determines whether or not changes in two or more selected corresponding sections in the time series data (1) are similar to each other. Similarly, in the time series data (2), it is determined whether or not changes in two or more selected corresponding sections are similar to each other.
  • the similar corresponding section pair selection unit 32 determines that, in the time series data (1) and (2), if there are two or more similar corresponding sections on each time series data, the time series It is determined whether or not two or more corresponding sections similar in data (1) and two or more corresponding sections similar in time series data (2) change correspondingly (corresponding to a corresponding section pair). judge. If there are two or more corresponding section pairs that satisfy the above conditions, the similar corresponding section pair selection unit 32 selects these corresponding sections (corresponding section pairs).
  • the similar corresponding section pair selection unit 32 outputs information specifying the corresponding section forming the corresponding section pair selected here to the feature extraction unit 40.
  • corresponding sections that are on the same time-series data and are similar to each other are referred to as “similar corresponding sections”.
  • a group of similar corresponding sections belonging to the same time series data is hereinafter referred to as “similar corresponding section set”.
  • the corresponding section 1-m and the corresponding section 2-m, and the corresponding section 1-n and the corresponding section 2-n have already been selected as corresponding section pairs.
  • the graph of the corresponding section 1-m and the graph of the corresponding section 1-n are similar, and if the graph of the corresponding section 2-m and the graph of the corresponding section 2-n are similar,
  • the sections 1-m, 1-n, 2-m, and 2-n are selected again as similar corresponding sections.
  • the corresponding sections 1-m and 1-n and the corresponding sections 2-m and 2-n are similar corresponding section sets.
  • similarity determination by the similarity corresponding section pair selection unit 32 can be performed using the correlation coefficient.
  • similarity determination between corresponding sections to be subjected to similarity determination, for example, between a corresponding section 1-m and a corresponding section 1-n, or between a corresponding section 2-m and a corresponding section 2-n.
  • a correlation coefficient is obtained.
  • compatible area pair selection part 32 determines with it being similar, when the calculated correlation coefficient is a positive value and exceeds a threshold value (or when it becomes more than a threshold value).
  • the threshold is set so that two or more similar corresponding sections are selected in the time-series data assumed as input, taking into account the nature of the document set that is the source of the time-series data and the fluctuation state of the time-series data. It is assumed that it is set in advance.
  • the similarity determination by the similarity corresponding section pair selection unit 32 in the first embodiment can be performed without using a correlation coefficient.
  • the similarity corresponding section pair selection unit 32 can make a similar determination by a method using an existing time series analysis technique.
  • a method using time series analysis technology the number of inflection points in each corresponding section, the relative position of the inflection point in the corresponding section, the value of the differential count between the inflection points, etc. are used as determination factors.
  • a method is mentioned.
  • the determination is made based on a preset threshold value. The threshold value can be set in the same manner as when the correlation coefficient is used.
  • the similarity corresponding section pair selection unit 32 determines similarity by the time series analysis technique. For example, in FIG. 2, the corresponding section 1-1 and the corresponding section 1-2 both decrease after increasing. Therefore, it can be determined that these are similar. Also, the corresponding section 2-1 and the corresponding section 2-2 corresponding to these are similar. In this case, the similar corresponding section pair selection unit 32 selects the corresponding section pair of the corresponding section 1-1 and the corresponding section 2-1, and the corresponding section pair of the corresponding section 1-2 and the corresponding section 2-2. .
  • the corresponding section 1-2 and the corresponding section 1-3 are both monotonically increasing and similar, but the corresponding section 2-2 and the corresponding section 2-3 corresponding to them are the same.
  • the sign of the derivative is opposite and not similar. Therefore, the corresponding section 1-2 and the corresponding section 1-3, and the corresponding section 2-2 and the corresponding section 2-3 do not constitute a similar corresponding section set.
  • the similar correspondence section pair selection unit 32 may reset the threshold value so that the threshold value used for the similarity determination described above becomes small when one or more similar correspondence section sets cannot be selected in each time-series data. good. Further, in this case, the similar correspondence section pair selection unit 32 may instruct the relevance calculation unit 70 to stop calculating the relevance.
  • the similar corresponding section pair selection unit 32 of the first embodiment it is possible to extend the conditions of the similar corresponding section to be selected.
  • the similar corresponding section pair selection unit 32 further selects similar correspondences in the time series data (1) and the time series data (2) from the plurality of corresponding section pairs previously selected by the corresponding section pair selection unit 31.
  • this condition can be expanded. For example, a corresponding section pair having low similarity is selected in each of the time-series data (1) and the time-series data (2) from a plurality of corresponding section pairs previously selected by the corresponding section pair selection unit 31. You can also
  • the corresponding section 1-1 and the corresponding section 1-2, and the corresponding section 2-1 and the corresponding section 2-2 have a similar relationship.
  • the corresponding section 1-1 and the corresponding section 1-3, and the corresponding section 2-1 and the corresponding section 2-3 have a dissimilar relationship.
  • the corresponding section pair of the corresponding sections 1-1 and 2-1 is similar to the corresponding section pair of the corresponding sections 1-2 and 2-2, but the corresponding sections 1-3 and 2-
  • the corresponding section pair with 3 has a dissimilar relationship on both the time series data (1) side and the time series data (2) side.
  • the similar corresponding section pair selection unit 32 adds the corresponding section 1-3. And 2-3 corresponding section pairs can also be selected.
  • the similar corresponding section pair selection unit 32 selects a corresponding section having a dissimilar relationship as a selection target, for each corresponding section pair, a relationship with another corresponding section pair (similar relationship). It is preferable to register whether or not there is a dissimilar relationship.
  • the time series data (1) side and the time series data (2 ) Side is either similar or dissimilar.
  • the time series data (1) side and the time series data (2 ) Side is either similar or dissimilar.
  • the feature extraction unit 40 identifies, for each corresponding section, a document (document data) belonging to two or more selected corresponding sections for each of a plurality of time series data, and extracts the document features specified for each corresponding section.
  • the “document feature” here includes “document set feature” specified for each corresponding section.
  • the feature extraction unit 40 identifies the corresponding sections selected for the time-series data (1) and the corresponding sections selected for the time-series data (2). Is performed for each corresponding section, and the characteristics of the specified document are extracted. For example, when the corresponding section 1-1, the corresponding section 2-1, the corresponding section 1-2, the corresponding section 2-2, the corresponding section 1-3, and the corresponding section 2-3 shown in FIG. 5 are selected. To do. In this case, the feature extraction unit 40 identifies documents belonging to each corresponding section for each of the six corresponding sections, and further extracts features from each of the identified documents.
  • features extracted from a document include language expressions that characteristically appear in a set of documents belonging to a selected corresponding section.
  • the linguistic expression that appears characteristically is the language expression that appears frequently as a result of counting the number of simple occurrences of each linguistic expression in the document set belonging to the selected corresponding section, and other than the corresponding section Compared with the number of appearances in the document set that belongs to the section or the number of appearances in the population of the documents to be analyzed by the information analysis device 1, language expressions that appear relatively frequently, and appear relatively infrequently Language expression.
  • the feature extraction unit 40 can also extract such meta information as “feature”.
  • sender information indicating whether the sender is “beginner”, “normal”, or “skilled” is given to each document in the input document set.
  • These sender information can be used as features. For example, if the document set belonging to the corresponding section 1-2 includes a large number of documents transmitted from the “novice” sender, “novice” is the “feature” in the corresponding section 1-2. Extracted as
  • the type of meta information is not particularly limited, and the feature extraction unit 40 can arbitrarily select the meta information provided to each document included in the input document set. Can be extracted as “features”.
  • feature extraction from a specific document set by the feature extraction unit 40 can be performed using, for example, an existing text mining technique.
  • the text mining technique is one of general natural language processing techniques and is not the main focus of the first embodiment of the present invention. Therefore, the description about the text mining technique is omitted.
  • the extraction of “features” is performed by, for example, setting the number of pieces of information (language expression, meta information, etc.) to be extracted as “features” in advance, and extracting the set number of information in order from the most frequently appearing information. Can be done. Further, the extraction of “feature” can be performed using a feature score if, for example, a text mining technique is used.
  • the feature extraction unit 40 first selects a feature element (language expression, meta information, etc.) for each corresponding section to be extracted, and calculates a feature score for each feature element. Then, the feature extraction unit 40 determines whether or not the feature score exceeds a set threshold value, and extracts a feature element that exceeds the threshold value as a “feature”.
  • a feature element language expression, meta information, etc.
  • the calculation of the “feature score” by the feature extraction unit 40 can be performed by various statistical analysis techniques using the appearance frequency of the feature elements.
  • the feature extraction unit 40 obtains statistical measures such as the appearance frequency of each feature element, log likelihood ratio, ⁇ 2 value, Yates correction ⁇ 2 value, self-mutual information, SE, ESC, and the obtained value is used as a feature score.
  • the feature extraction unit 40 obtains statistical measures such as the appearance frequency of each feature element, log likelihood ratio, ⁇ 2 value, Yates correction ⁇ 2 value, self-mutual information, SE, ESC, and the obtained value is used as a feature score.
  • the feature extraction unit 40 can also extract the combination data of the feature element and its feature score as “feature”. For example, consider a case where n feature elements are extracted from the corresponding section 1-1. In this case, the feature 1-1 in the corresponding section 1-1 is expressed by a feature vector composed of 2n elements such as (T1, SC1, T2, SC2, T3, SC3,..., Tn, SCn). can do.
  • T1 to Tn indicates n feature elements.
  • the feature elements T1 to Tn for example, a language expression such as “effective for cancer” or meta information attached to a document such as sender information (the sender is “beginner”).
  • SC1 to SCn is numerical data indicating the feature score added to each feature element.
  • the feature elements may not be paired with the feature score, that is, only the feature elements may be extracted as “features”.
  • the “feature” is expressed by a feature vector composed of n elements, such as feature 1-1 (T1, T2, T3,..., Tn).
  • the comparison unit 50 obtains the inter-feature distance between the feature extracted from the document belonging to one corresponding section and the feature extracted from the document belonging to another corresponding section for each time series data. Further, in the first embodiment, when there are a plurality of combinations of corresponding sections for obtaining the distance between features instead of one set in each time series data, the distance between features is obtained for each of the plurality of sets. The distance value is treated as vector data.
  • the time series data (1) and (2) shown in FIG. 5 will be described as an example.
  • the corresponding sections 1-1 and 2-1, the corresponding sections 1-2 and 2-2, and the corresponding sections 1-3 and 2-3 are each a corresponding section pair.
  • An interval pair exists.
  • the time series data (1) it is assumed that three corresponding sections 1-1, 1-2, and 1-3 are selected.
  • the inter-feature distance between the feature of the corresponding section 1-1 and the feature of 1-2 the inter-feature distance between the feature of the corresponding section 1-1 and the feature of 1-3, and the corresponding section 1-2.
  • the distance between the features 1 and 1-3 is obtained.
  • the obtained distance between features is represented by three-dimensional vector data.
  • time series data (2) it is assumed that three corresponding sections, corresponding sections 2-1, 2-2, and 2-3, are selected.
  • the distance between the features of the corresponding section 2-1 and the features of 2-2 the distance between the features of the corresponding section 2-1 and the features of 2-3, and the corresponding section 2-2.
  • the distance between the features of 2-3 is similarly expressed by three-dimensional vector data.
  • the inter-feature distance is obtained for all combinations of the corresponding sections selected by the corresponding section selecting unit 30.
  • the inter-feature distance is obtained. May be obtained only for the corresponding sections adjacent on the time-series data.
  • the distance between features is obtained only for adjacent corresponding sections
  • the time series data (1) the characteristics for the corresponding sections 1-1 and 1-2 and the corresponding sections 1-2 and 1-3 are featured. A distance is required.
  • the time series data (2) the distance between features is obtained for the corresponding sections 2-1 and 2-2 and the corresponding sections 2-2 and 2-3.
  • the distance between features is represented by vector data.
  • the combination of corresponding sections for which the distance between features is obtained is appropriately set according to the use and purpose of use of the information analysis apparatus 1 and the nature of the input document set. It ’s fine.
  • the comparison unit 50 obtains the distance between features in an arbitrary corresponding section and another corresponding section using a function (distance function) for obtaining the distance between features.
  • the distance function is defined in advance and stored in the database 60.
  • the distance function can calculate the distance between features when a feature extracted from a document belonging to an arbitrary corresponding section and a feature extracted from a document belonging to another corresponding section are given. Function.
  • the distance function is not limited. What function is used as the distance function can be set as appropriate according to the application and purpose of use of the information analysis apparatus 1 and the nature of the input document set. Specifically, a distance function that satisfies the following conditions can be used.
  • Conditions 4 and 5 indicate that there are many common feature elements in the two input features, and the distance between the features becomes smaller as the feature score indicating the degree of the feature is closer in both. Yes. Furthermore, the conditions 4 and 5 also indicate that when there is a feature element possessed by only one feature, the greater the feature score indicating the degree of the feature, the greater the feature distance.
  • the two input feature vectors are the following feature (1) and feature (2).
  • feature (1) (Useful for cancer", 0.8, "No side effects”, 0.6, “Document category: Advertising”, 0.85)
  • Feature (2) ("Immediate effect”, 0.4, "No side effects”, 0.5, "Document category: Advertising”, 0.7)
  • “effective for cancer”, “no side effect”, and “effective immediately” are linguistic expressions that appear characteristically in documents belonging to each corresponding section.
  • “Document category: advertisement” indicates a category of a document that appears characteristically in a document set belonging to the corresponding section.
  • the numerical value described next to the feature element in the features (1) and (2) indicates the feature score of each feature element.
  • the distance between features is calculated using the number of feature elements that appear in common in the two input features, but the first embodiment is limited to this. It is not something. In the first embodiment, even if the feature elements are not completely common, similar feature elements are regarded as common elements, and the distance between features can be obtained.
  • a similarity criterion indicating which feature elements and which feature elements are treated as similar feature elements is defined in advance and stored in the database 60.
  • a similar feature element can be defined by using a synonym dictionary or a thesaurus.
  • the comparison unit 50 calculates the inter-feature distance vector of the obtained time series data and other times.
  • the distance data between features of the series data is compared.
  • An arbitrary vector distance function may be used for the comparison.
  • the inter-vector distance function a cosine distance can be used.
  • the comparison unit 50 outputs the comparison result to the later-described relevance calculation unit 70 as a value for obtaining the relevance between the input document sets.
  • the relevance calculation unit 70 calculates the relevance between the input document set (1) and the input document set (2) based on the comparison result output from the comparison unit 50.
  • the output unit 80 outputs the relevance calculated by the relevance calculation unit 70 as the relevance between the input document set (1) and the input document set (2).
  • the degree of relevance is smaller as the numerical value (cosine distance or the like) indicating the comparison result output from the comparison unit 50 is smaller, that is, between the vector data of the distance between the two features calculated by the comparison unit 50. It is better to specify that the smaller the distance is, the higher the distance is.
  • the relevance calculation is performed by, for example, obtaining the reciprocal of the comparison result between the vector data of the distance between features in the time series data (1) and the vector data of the distance between features in the time series data (2), and presetting this This can be done with a constant.
  • the calculation of the degree of association can be performed by subtracting the comparison result of the vector data of the distance between features from a preset constant.
  • FIG. 6 is a diagram illustrating an example of time-series data that fluctuates due to a common cause (time-series data having high relevance).
  • FIG. 7 is a diagram illustrating another example of time-series data that fluctuates due to a common cause (time-series data having high relevance).
  • FIG. 8 is a diagram illustrating another example of time-series data that fluctuates due to different causes (such as when time-series data coincides by chance).
  • time series data (1) and time series data (2) as shown in FIG. 6, and the time series data (1) and the time series data (2) are truly highly related.
  • the time series data (1) and the time series data (2) are truly highly related.
  • the corresponding section 1-1 and the corresponding section 1-2 are similar in shape of the time series data.
  • the corresponding section 2-1 and the corresponding section 2-2 in the time series data (2) forming a pair of corresponding sections with them have similar time-series data shapes, and these four corresponding sections are the corresponding section set. The condition is met. In such a case, the degree of association between the time series data (1) and the time series data (2) is obtained.
  • Non-Patent Document 1 the feature of the document set belonging to the time series data (1) and the feature of the document set belonging to the time series data (2) are directly compared, and the presence or absence of a common feature element is present. From the above, the relevance between them is calculated.
  • the corresponding section 1-1 that is a partial section of the time series data (1) and the corresponding section 2-1 that is a partial section of the time series data 2 are highly correlated and attention is paid to those sections, Find the characteristics of the sections and find the distance between them.
  • the input document set (1) that is the basis of the time series data (1) and the input document set (2) that is the basis of the time series data (2) are generally document sets having different properties. Even if these are similarly changed due to the common cause a, the common element is not necessarily included in the feature 1-1 found in the corresponding section 1-1 and the feature 2-1 found in the corresponding section 2-1. There is not always there.
  • the characteristics 1-1 and 1-2 are Common elements are considered large.
  • the peaks of the corresponding section 2-1 and the corresponding section 2-2 are due to a common cause a in the same input document set (2), the characteristics 2-1 and 2-2 The common element is considered to be large.
  • the distance between the feature 1-1 and the feature 2-1 is calculated, and then the feature 2-1 and the feature 2-2 are The degree of association can be obtained by calculating the distance and comparing the two calculated distances.
  • the distance between the feature 1-1 and the feature 1-2 has many common elements, that is, the distance becomes small.
  • the distance between the feature 2-1 and the feature 2-2 has many common elements and the distance becomes small.
  • the time-series data (1) and the time-series data (2) are truly related and fluctuate due to a common cause (in the same period).
  • -1 and the corresponding section 2-1 have a peak due to the cause a
  • the corresponding section pair between the corresponding section 1-2 and the corresponding section 2-2 has a peak due to the cause b.
  • the feature 1-1 and the feature 1-2 have different causes of their peaks, so there are few common feature elements and the distance is considered to be large.
  • the feature 2-1 and the feature 2-2 have different causes of the peaks, so that there are few common feature elements and the distance is increased. Therefore, the vector data of the distance between features in the time series data (1) (only one element in this example) and the vector data of the distance between features in the time series data (2) (only one element in this example) Both become larger. For this reason, the distance between them becomes small and the relevance degree is calculated highly.
  • the cause of the variation in the corresponding interval pair is common based on that assumption. is there. Therefore, the corresponding section 1-1 and the corresponding section 2-1 have a common cause of variation, and the corresponding section 1-2 and the corresponding section 2-2 have a common cause.
  • the corresponding section 1-1 and the corresponding section 1-2 do not necessarily have a common cause, but when there is a common cause (in the case of FIG. 6) Logically, the corresponding section 2-1 and the corresponding section 2-2 have a common cause. On the other hand, when the corresponding section 1-1 and the corresponding section 1-2 do not have a common cause, the corresponding section 2-1 and the corresponding section 2-2 also have no common cause.
  • the corresponding section 1-1 and the corresponding section 1-2 in the time series data (1) are both caused by the same cause a. Then, the feature 1-1 and the feature 1-2 have more common feature elements, and the distance becomes smaller.
  • the features 2-1 and 2-2 have few common elements, and their distance Will grow. Therefore, the vector data of the distance between features in the time series data (1) (only one element in this example) and the vector data of the distance between features in the time series data (2) (only one element in this example) However, since one is small and the other is large, the distance between them is large and the relevance is calculated low.
  • both the corresponding section 2-1 and the corresponding section 2-2 are caused by the same cause c, and the corresponding section 2-1 and the corresponding section 1-1, and the corresponding section 2-2 and the corresponding section 1-2 have the same timing.
  • vector data of distance between features in the time series data 1 in this example, only one element
  • vector data of distance between features in the time series data 2 this In the example, there is only one element. For this reason, the distance between them also becomes small, and a relevance degree is calculated high erroneously.
  • the two peak timings of the time-series data (1) and the time-series data (2) coincide with each other (in the case of FIG. 8), but they are not related to each other. Regardless of the fact that peaks occur due to common causes in time-series data (1) and common causes in time-series data (2), and the possibility that these two timings coincide with each other, the constraints are severe. Therefore, it is considered rare.
  • the information analysis apparatus 1 has completely the characteristics of the document in both corresponding sections. If they are different, this becomes clear. As a result, according to the information analysis apparatus 1, it is possible to suppress the occurrence of a situation in which it is erroneously determined to be related when the change patterns of both coincide with each other by chance.
  • the information analysis apparatus 1 needs to find a highly relevant document set from a set of a large number of documents that fluctuate due to various causes, such as a document set composed of document data on the Internet. It is effective when there is.
  • FIG. 9 is a flowchart showing the flow of processing in the information analysis method according to Embodiment 1 of the present invention.
  • the information analysis method according to the first embodiment is implemented by operating the information analysis apparatus 1 according to the first embodiment shown in FIG. For this reason, the following description will be described together with the operation of the information analysis apparatus 1 with appropriate reference to FIG.
  • the input unit 10 receives input of a plurality of document sets to be analyzed (step A1).
  • two document sets are input, which are an input document set (1) and an input document set (2), respectively.
  • Each input document set is composed of a plurality of documents with time information.
  • the time-series data generation unit 20 generates time-series data based on time information for each document set from the plurality of document sets received by the input unit 10 (step A2).
  • the time-series data generation unit 20 generates time-series data (1) from the input document set, and generates time-series data (2) from the input document set (2).
  • the corresponding section selection unit 30 compares a plurality of time series data obtained from a plurality of document sets with each other, and changes from each time series data corresponding to each of two or more sections of other time series data. Two or more (corresponding sections) are selected.
  • step A2 when step A2 is completed, the corresponding section pair selection unit 31 compares the time-series data (1) and the time-series data (2), and the corresponding section pairs that change with high correlation with each other. Are selected (step A3). Subsequently, the corresponding section pair selection unit 31 determines whether or not two or more corresponding section pairs that fluctuate with high correlation can be selected from the time series data (1) and (2) (step A4). .
  • step A4 if the number of corresponding section pairs that have been selected is one pair or less, the corresponding section pair selection unit 31 instructs the relevance calculation unit 70 to cancel the relevance and stops the processing. On the other hand, if there are two or more corresponding section pairs that have been selected as a result of step A4, the corresponding section pair selecting section 31 inputs information for identifying the selected corresponding section pairs to the similar corresponding section pair selecting section 32. .
  • the similar corresponding section pair selecting section 32 receives time series data (1) and time series data (2) from the plurality of already selected corresponding section pairs. ) Select corresponding pair of similar sections in each (step A5). Subsequently, the similar corresponding section pair selection unit 32 determines whether two or more corresponding section pairs are selected (the total number of corresponding sections is four or more) (step A6).
  • step A6 when two or more corresponding section pairs are not selected in the time series data (1) and (2), the similar corresponding section pair selecting unit 32 determines the relevance level to the relevance level calculating unit 70. Instruct to stop the process. On the other hand, if two or more corresponding section pairs are selected in the time series data (1) and (2) as a result of step A6, the similar corresponding section pair selecting unit 32 performs feature extraction on the selected corresponding section pairs. Input to the unit 40.
  • the feature extraction unit 40 receives information from the similar correspondence section pair selection unit 32, the feature extraction unit 40 identifies documents belonging to each corresponding section selected from each time-series data, and determines the characteristics of the identified document as the corresponding section. Extract every time (step A7). Then, the feature extraction unit 40 inputs the extracted features to the comparison unit 50.
  • the comparing unit 50 obtains the distance between features between the feature extracted from one corresponding section and the feature extracted from another corresponding section for each time series data, and the obtained time series data.
  • the inter-feature distances are compared with each other (step A8).
  • the comparison unit 50 pays attention to each time series data, calculates the inter-feature distance between a plurality of corresponding sections within each time series data, and between the features in the time series data (1). The distance is compared with the distance between features in the time series data (2). Then, the comparison unit 50 inputs a comparison result between the inter-feature distance in the time series data (1) and the inter-feature distance in the time series data (2) to the relevance calculation unit 70.
  • the relevance calculation unit 70 calculates the relevance between the input document sets based on the comparison result input by the comparison unit 50 (step A9). Thereafter, when the degree-of-association calculation unit 70 outputs analysis data for specifying the degree of association to the outside, the processing in the information analysis apparatus 1 ends.
  • the program in the first embodiment may be a program that causes a computer to execute steps A1 to A9 shown in FIG. Therefore, the information analysis apparatus 1 can be embodied by installing this program in a computer and further executing it.
  • a CPU central processing unit of the computer functions as the time-series data generation unit 20, the corresponding section selection unit 30, the feature extraction unit 40, the comparison unit 50, and the relevance calculation unit 70 to perform processing.
  • the database 60 can be realized by storing a data file in a storage device such as a hard disk or by mounting a recording medium storing the data file on a reading device connected to a computer.
  • the storage device constituting the database 60 may be provided in a computer in which the above-described program is installed, or may be provided in another computer connected via a network.
  • the reading device may be connected to a computer in which the above-described program is installed, or may be connected to another computer connected via a network.
  • FIG. 10 is a block diagram showing a schematic configuration of the information analysis apparatus according to Embodiment 2 of the present invention.
  • the information analysis apparatus 2 in the second embodiment does not include a time series data generation unit (see FIG. 1), and is different from the information analysis apparatus 1 in the first embodiment in this respect. ing. Further, since the time series data generation unit is not provided, the information analysis device 2 is different from the information analysis device 1 in the first embodiment also in terms of functions of each unit. Hereinafter, differences from the information analysis apparatus 1 will be described.
  • the time series data generated from the document set in advance is input to the information analysis apparatus 2.
  • the input unit 10 receives time-series data input. Also in the second embodiment, two pieces of time-series data are input. In the second embodiment, one corresponding section of one time-series data and a corresponding section of the other time-series data corresponding to this corresponding section are set in advance. Information specifying a preset corresponding section (set corresponding section) is also input to the input unit 10.
  • the input time-series data (1) and (2) are as shown in FIG. 2, and further, the corresponding section 1-1 and the corresponding section 2-1 changing with high correlation with the corresponding section 1-1 It is assumed that corresponding section pairs are set in advance. In this case, the time series data (1) and (2) and the information specifying the setting corresponding section 1-1 and the setting corresponding section 2-1 are received by the input unit 10.
  • the corresponding section selection unit 30 first selects a corresponding section whose change is similar to that of the set corresponding section for one time-series data. Further, the corresponding section selection unit 30 selects a corresponding section corresponding to the corresponding section selected for the other time series data, the change of which is similar to that of the set corresponding section and corresponding to the selected time series data.
  • the corresponding section selection unit 30 selects a section that is a partial section of the time-series data (1) and is similar to the setting corresponding section 1-1 as the corresponding section 1-2. Further, the corresponding section selection unit 30 is a partial section of the time series data (2), which is similar to the setting corresponding section 2-1 and changes with high correlation with the corresponding section 1-2. The section is selected as the corresponding section 2-2.
  • the feature extraction unit 40 identifies the document belonging to the setting corresponding section of each time-series data and the document belonging to the selected corresponding section of each time-series data, and the identified document Are extracted for each corresponding section.
  • the comparison unit 50 obtains the inter-feature distance between the feature extracted from the set corresponding section and the feature extracted from the selected corresponding section. Also in the second embodiment, the comparison unit 50 calculates the inter-feature distance using the distance function stored in the database 60 as in the first embodiment. Further, as in the first embodiment, the comparison unit 50 compares the inter-feature distances for each obtained time-series data, and inputs the comparison result to the relevance calculation unit 70.
  • the degree-of-association calculation unit 70 calculates the degree of association based on the comparison result by the comparison unit 50.
  • the degree of association is calculated for another set corresponding section.
  • FIG. 11 is a flowchart showing the flow of processing in the information analysis method according to Embodiment 2 of the present invention.
  • the information analysis method in the second embodiment is performed by operating the information analysis apparatus 2 in the second embodiment shown in FIG. For this reason, the following description will be described together with the operation of the information analysis apparatus 2 with appropriate reference to FIG.
  • the input unit 10 includes time-series data (1) and (2) to be analyzed and information (setting corresponding section information) for specifying each corresponding corresponding section.
  • An input is received (step A11).
  • the corresponding section selection unit 30 selects a corresponding section whose change is similar to the setting corresponding section of the time series data (1), and further, the change is similar to the setting corresponding section of the time series data (2), and The corresponding section corresponding to the corresponding section selected for the time-series data (1) is selected (step A12).
  • the feature extraction unit 40 identifies a document belonging to the setting corresponding section of each of the time series data and a document belonging to a selected corresponding section of each of the time series data, and each identified document for each corresponding section. Are extracted (step A13).
  • the comparison unit 50 obtains the inter-feature distance between the feature extracted from the set corresponding section and the feature extracted from the selected corresponding section, and calculates the obtained inter-feature distance for each time series data.
  • the comparison result is input to the relevance calculation unit 70 (step A14).
  • the degree-of-association calculation unit 70 calculates the degree of association for one setting-corresponding section and another setting-corresponding section based on the result of comparison by the comparison unit 50 (step A15). Thereafter, when the degree-of-association calculation unit 70 outputs analysis data for specifying the degree of association to the outside, the processing in the information analysis device 2 ends.
  • a document set having a high degree of relevance is selected from an aggregate composed of a large number of documents that fluctuate due to various causes, such as a document aggregate composed of document data on the Internet. It is effective when it is necessary to find out.
  • the program in the second embodiment is a program for causing a computer to execute steps A11 to A15 shown in FIG. Therefore, the information analysis apparatus 2 can be realized by installing this program in a computer and further executing it.
  • a CPU (central processing unit) of the computer functions as the corresponding section selection unit 30, the feature extraction unit 40, the comparison unit 50, and the related degree calculation unit 70, and performs processing.
  • the database 60 stores a data file in a storage device such as a hard disk, or mounts a recording medium storing the data file in a reading device connected to a computer. Can be realized.
  • the present invention can be used for analyzing document data on the Internet such as a blog and document data to which time information such as a call center response history is attached. It can also be used for the purpose of obtaining related document sets when analyzing the results of questionnaire surveys and market surveys that are performed regularly. Furthermore, according to the present invention, since the degree of association between document sets that changes with time can be calculated appropriately, it can also be applied to document search navigation, search result classification, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 時間情報が付与された文書を含む文書集合に対して情報分析を行う、情報分析装置1は、文書集合毎に生成された複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別する対応区間選別部30と、選別された2以上の区間に属する文書から特徴を抽出する特徴抽出部40と、時系列データ毎に、抽出された特徴から、選別された一の区間と他の区間とにおける特徴間距離を求め、時系列データ毎の特徴間距離を互いに比較する比較部50と、比較結果から文書集合間の関連度を算出する関連度算出部70とを備える。

Description

情報分析装置、情報分析方法、及びプログラム
 本発明は、文書集合に対して分析を行う情報分析装置、情報分析方法、及びプログラムに関する。
 本願は、2008年9月24日に、日本に出願された特願2008-244753号に基づき優先権を主張し、その内容をここに援用する。
 近年、文書データを分析するため、2つの文書集合間の類似度や関連度の判定が行われている。このような類似度の判定は、例えば、2つの文書集合に共通に現れる言語表現の数や、各文書集合に含まれる情報の量に基づいて行われる(例えば、非特許文献1参照)。
 具体的には、非特許文献1には、似ている文書をグループ化し、テキストを整理するため、2つの文書間の類似度を求める技術が開示されている。非特許文献1では、双方の文書に共通して出現する索引語(言語表現の一種)の数を用いた式によって、2つの文書間の類似度が定義される。そして、2つの文書集合(クラスタ)間の類似度として、各文書集合に属する文書間の類似度のうち最大の値が用いられ、最も類似度の高い文書集合のペア(クラスタペア)が併合されて、1つのグループとされる。
 ここで、本明細書において、「言語表現」とは、文書(テキスト)に含まれる、特定の名詞、話題、意見又は事物等を表す記述をいう。「言語表現」としては、例えば、イベント名、事件名、製品名等のいわゆる名詞で表現される名詞的表現や、名詞的表現と述語又は修飾語とを組み合わせた表現等が挙げられる。また、名詞的表現の具体例としては、「レースゲーム」、「食品偽装」、「耐震ジェル」等が挙げられる。組み合わせた表現の具体例としては、「耐震ジェルは有効」、「ディーゼルエンジンは環境によい」等が挙げられる。
 更に、「言語表現」は、文書中に出現する文字列そのものであって良いし、文書に対して、形態素解析、構文解析、係り受け解析、又は同義語処理等の既存の自然言語処理技術を適用し、それによって得られる解析結果であっても良い。例えば「学校」「生徒」などはそれぞれ1単語からなる言語表現である。また、「学校へ行く」、「学校に行った」、「学校に急いで行った」等のテキストに対して、係り受け解析を行って得られる「学校→行く」のような単語間の係り受け解析の結果も、1つのまとまった意味を表す言語表現である。
 また、文書データの分析は、上述した2つの文書集合間の類似度や関連度の判定による分析とは別に、特定の言語表現を含む文書集合の数の時間的な変遷を調べることによっても行われている。この点について以下に説明する。
 近年、インターネット上のブログや、電子メール、コールセンターにおける応答履歴など、発信日時や作成日時、応答日時などの時間情報が付与された大量の文書データが作成され、また、これらの入手が可能となっている。こうした時間情報付き文書の文書集合から、着目する特定の言語表現が記述された文書を抽出し、それを、付与されている時間情報に基づいて順に並べ、時系列分析を行うことで、着目する言語表現の出現回数や、話題に挙がる回数等が調べられる(例えば、非特許文献2参照)。
 具体的には、非特許文献2は、「Blog Watcher」という技術を開示している。この技術では、収集されたブログ全体における、特定の話題語が出現した回数、その話題語が肯定的に記述されている回数、及び否定的に記述されている回数等の時系列変化が、折れ線グラフとしてプロットされる。非特許文献2に開示の技術によれば、ユーザは、着目する話題語のブログにおける出現数の変遷を調べることができ、その着目する話題語が各時点でどの程度流行していたのか、といった分析を行うことができる。
 また、統計分析の基本的な手法に回帰分析がある。これは、ある事象の各時点での出現数や価格といった時系列データが複数組存在するときに、複数の時系列データの時間変化の相関性を調べて、関連性の高い事象を検出する技術である。例えば、ある株価の時間変化と、別の株価の時間変化とに相関性があった場合に、それらの2つの株の時点ごとの価格を、それぞれの時系列データとみなして回帰分析を行うことで、両者の価格にどれくらい関連があったのかを計算することができる。
 ここで、着目する事象が、ある特定の言語表現で表される事象である場合を考える。例えば、株価のような直接的な時系列データでなく、分析対象として、時間情報付の文書の文書集合が与えられた場合は、非特許文献2に開示の技術を用いることで、各言語表現の時系列データを求めることができる。この場合、分析母集団となる文書集合を、時間情報を用いて特定の期間で区切れば、期間毎における、各言語表現を含む文書の数や言語表現の出現回数が、各言語表現の期間毎の時系列データとなる。
 よって、非特許文献2に開示された技術を用いて、2つの時間情報付き文書集合を2つの時系列データに変換し、その後、回帰分析等の統計分析によって両者の相関性を調べれば、両者の関連度が求められる。この場合、この2つの時間情報付き文書集合において、同一又は類似の言語表現が存在しているかどうかは関係が無い。2つの時間情報付き文書集合は時系列データと見なされ、両者の変化パターンの類似性や相関性から、両者の関連度が求められる。
 つまり、必ずしも、双方の文書集合に、同一または類似の言語表現が多数含まれていなくとも、それぞれの時系列データの時間変化に相関性が高く見受けられる場合は、入力された2つの文書集合の関連度は高く計算される。このように、非特許文献2に開示の技術と回帰分析等の統計的分析とを組み合わせれば、2つの時間情報付き文書集合間に対して、類似度や関連度を判定することができる。
 しかしながら、回帰分析等の統計分析を用いて、時系列データの変化パターンの類似性や相関性を調べ、複数の時系列データの関連度を求める場合は、偶然の一致により、誤って関連性を高く評価してしまう問題が存在する。
 例えば、図2に示す時系列データ(1)と時系列データ(2)とが存在したとする。図2は、後述するように、時系列データの一例を示す図である。図2に示す例では、時系列データ(1)と時系列データ(2)とで、2つのピークが同時期に存在している。よって、図2に示された時系列データだけからは、高い関連性が認められる。
 もちろん、時系列データ(1)と時系列データ(2)との間に、一方が他方の変化の原因になっているといった何らかの因果関係が存在し、高い関連性が適切である場合もある。一方で、例えば、時系列データ(1)の2つのピークは、2つの異なる原因によるものであり、それらのピークは独立しているものであるが、時系列データ(2)の2つのピークは、別のある原因による周期的なピークである、といった場合が考えられる。即ち、時系列データ(1)と時系列データ(2)とにおいて、偶然に両者のピークの区間が重なる場合が考えられる。
 これらの点から、非特許文献2に開示された技術を用いて、2つの時間情報付き文書集合を2つの時系列データに変換し、その後、回帰分析等の統計分析によって両者の相関性を調べる場合は、偶然の一致によるのか、本当に関連性があるのかの判断は困難である。
 また、非特許文献1に開示の技術を適用し、一の時系列データの元となった文書集合と他の時系列データの元となった文書集合との類似性を求め、求められた類似性から、時系列データ間の関連度を求める手法も考えられる。この場合、2つの文書集合間の類似度は、同一又は類似の言語表現が双方の文書集合に出現する度合いに基づいて、計算される。
 しかしながら、この場合は、双方の文書集合間に関連性が存在するにも拘わらず、同一又は類似の内容が記述されていないために、関連性を適切に判断できない場合がある。具体的には、一方の文書集合で記述されている事象と他方の文書集合で記述されている事象とに因果関係が存在するが、同一又は類似の言語表現が双方の文書集合で用いられていない場合が挙げられる。また、双方の文書集合それぞれに、共通の原因について記載されているが、共通の原因に対する結果が、各文書集合で異なっている場合等も挙げられる。
長尾真編、「自然言語処理」、岩波書店、1996年、ISBN4-00-010355-5、p.436-438 南野朋之、鈴木泰裕、藤木稔明、奥村学著、「blogの自動収集と監視」、人工知能学会論文誌、Vol.19(2004)、No.6、pp.511-520
 本発明の目的は、上記問題を解消し、時間情報付きの複数の文書集合に対して、互いの関連性を判定する際に、各文書集合から得られた時系列データの変化パターンが偶然に一致することによる影響を抑制し得る、情報分析装置、情報分析方法、及びプログラムを提供することにある。
 上記目的を達成するため、本発明の一態様における情報分析装置は、時間情報が付与された文書を含む文書集合に対して、情報分析を実行する情報分析装置であって、
 複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別する対応区間選別部と、
 複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出する特徴抽出部と、
 前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較する比較部と、
 前記比較部による比較の結果に基づいて、前記文書集合間の関連度を算出する関連度算出部とを備える、ことを特徴とする。
 また、上記目的を達成するため、本発明の一態様における情報分析方法は、時間情報が付与された文書を含む文書集合に対して、情報分析を実行するための情報分析方法であって、
(a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
(b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
(c)前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
(d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを有する、ことを特徴とする。
 更に、上記目的を達成するため、本発明の一態様におけるプログラムは、時間情報が付与された文書を含む文書集合に対する情報分析をコンピュータに実行させるためのプログラムであって、
 前記コンピュータに、
(a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
(b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
(c)前記時系列データ毎に、選別された前記2以上の区間における、前記一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
(d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを実行させる、ことを特徴とする。
 以上のように本発明によれば、時間情報付きの複数の文書集合に対して、互いの関連性を判定する際に、各文書集合から得られた時系列データの変化パターンが偶然に一致することによる影響を抑制できる。
図1は、本発明の実施の形態1における情報分析装置の概略構成を示すブロック図である。 図2は、それぞれ、時系列データの一例を示す図である。 図3は、それぞれ、時系列データの一例を示す図である。 図4は、それぞれ、時系列データの一例を示す図である。 図5は、それぞれ、時系列データの一例を示す図である。 図6は、共通の原因によって変動する時系列データの例を示す図である。 図7は、共通の原因によって変動する時系列データの他の例を示す図である。 図8は、異なる原因によって変動する時系列データの他の例を示す図である。 図9は、本発明の実施の形態1における情報分析方法における処理の流れを示すフロー図である。 図10は、本発明の実施の形態2における情報分析装置の概略構成を示すブロック図である。 図11は、本発明の実施の形態2における情報分析方法における処理の流れを示すフロー図である。
 (実施の形態1)
 以下、本発明の実施の形態1における情報分析装置、情報分析装置及びプログラムについて、図1~図9を参照しながら説明する。最初に、図1~図5を用いて、本発明の実施の形態1における情報分析装置の構成について説明する。図1は、本発明の実施の形態1における情報分析装置の概略構成を示すブロック図である。図2~図5は、それぞれ、時系列データの一例を示す図である。
 図1に示す情報分析装置1は、時間情報が付与された文書を含む文書集合に対して、情報分析を実行する装置である。図1に示すように、情報分析装置1は、対応区間選別部30と、特徴抽出部40と、比較部50と、関連度算出部70とを備えている。分析対象となる文書集合は、時間情報が付与された複数の文章データで構成され、外部から情報分析装置1へと入力される。
 また、図1に示すように、本実施の形態1では、情報分析装置1は、更に、入力部10と、時系列データ生成部20と、出力部80とを備えている。また、情報分析装置1には、データベース60が接続されている。データベース60は、後述するように、比較部50による処理に利用される。また、以下においては、2つの文書集合が入力され、それぞれに対応して変化する2つの時系列データが生成される場合について説明する。
 入力部10は、分析対象とする複数の文書集合の入力を受け付けている。文書集合を構成する文書データは、入力部10に入力される。このとき、文書集合を構成する文書データは、外部のコンピュータ装置からネットワークを介して、直接、入力部10に入力されても良いし、記録媒体に格納された状態で提供されても良い。前者の場合は、入力部10としては、外部と情報分析装置1とを接続するためのインターフェイスが用いられる。後者の場合は、入力部10としては、読取装置が用いられる。
 また、本実施の形態1では、上述したように、2つの文書集合が入力される。そして、後述するように、入力された2つの文書集合に対して関連度が計算され、最終的に、出力部80から外部に出力される。なお、本明細書では便宜上、入力される2つの文書集合を区別して説明する必要がある場合は、それぞれ、入力文書集合(1)、入力文書集合(2)、と表記する。また、2つの文書集合が入力される場合に、いずれを入力文書集合(1)とするか、又は入力文書集合(2)とするかについて特に限定は無く、適宜設定できる。
 入力される文書集合は、上述したように、時間情報が付与された文書(文書データ)の集合である。ここで、本発明でいう「時間情報」とは、入力された文書集合に属する各文書に付与されている年月日や時刻といった時間情報を意味する。また、「時間情報」としては、各文書の作成日時、発信日時、公開日時等各文書に直接関係する時間情報を用いることができる。更に「時間情報」としては、文書中の内容で扱われる事項及び事件に関する時間情報を用いることもできる。このような時間情報の具体例としては、コールセンター等で作成される応対記録に記されている通話の着信日時や、警察の事故記録に記されている事故の発生日時等が挙げられる。
 また、本実施の形態1では、1つの文書に複数の時間情報が付与されていても良い。但し、この場合は、事前に、後述する時系列データ生成部20において、どの時間情報をその文書に対する一意の時間情報として用いるのか、設定されている必要がある。時系列データ生成部20は、予め設定された種類の時間情報のみを抽出する。
 時間情報の形式は、入力された文書集合に含まれる文書間で、経時的な順序づけが可能な形式であれば良く、西暦による年月日、年月日と時刻との組み合わせ、年月のみ等、いずれの形式であっても良い。また、入力される文書集合の例としては、「お菓子Aを買った」という言語表現(又はその同義表現)を含んだブログ記事や、「アイドルBのダンスがいい」という言語表現(又はその同義表現)を含んだブログ記事等が挙げられる。この場合、各ブログ記事の日付が時間情報となる。
 時系列データ生成部20は、入力部10で受け付けられた複数の文書集合から、文書集合毎に、時間情報に基づいて、複数の時系列データを生成する。本実施の形態1では、このように、時系列データ生成部20が備えられているため、情報分析装置1には、文書集合を直接入力すれば良い。また、本実施の形態1では、二つの文書集合が入力されており、時系列データ生成部20は、二つの時系列データを生成する。なお、本明細書では、便宜上、入力文書集合(1)から生成される時系列データを「時系列データ(1)」と表記し、入力文書集合(2)から生成される時系列データを「時系列データ(2)」と表記する。
 ここで、本発明でいう「時系列データ」とは、時間をある一定の期間で区切り、そして、区切られた各区間、あるいは、各区間の先頭や中点など各区間中の特定の点における任意の計数結果を時間の順に並べ、それによって得られるデータをいう。なお、文書集合から生成された時系列データではないが、年月日毎のある会社の株価は、時系列データの典型的な例である。この場合、ある一定の期間は1日である。その他、気温の時間変化や、特定の道路における交通量の時間変化等も、文書集合から生成された時系列データではないが、時系列データの例として挙げられる。
 また、本実施の形態1では、時系列データ生成部20は、文書集合から時系列データを生成するため、先ず、各文書に付与されている時間情報を基にして、文書集合をある一定の期間ごとに区切り、複数の部分集合とする。このとき、一定の期間をどの程度とするかは、特に限定されず、一定の期間の長さは、情報分析装置1の用途や使用目的、文書集合を構成している文書に付与された時間情報の性質等に応じて、適宜設定される。
 例えば、文書に付与された時間情報が西暦の年月日であって、一番古い文書が2005年1月1日であり、ある一定の期間が1ヶ月であったとする。この場合、時系列データ生成部20は、2005年1月の時間情報を持つ文書の文書集合、2005年2月の時間情報を持つ文書の文書集合、2005年3月の時間情報を持つ文書の文書集合、のように、一つの文書集合を複数の文書集合に分割する。そして、時系列データ生成部20は、分割によって得られた文書集合(部分集合)毎に、それぞれの部分集合を構成する文書の性質から規定される値(任意の計数結果)を求め、求められた値を時間順にソートし、時系列データとする。
 また、「文書の性質から規定される値」は、各部分集合を構成する文書の性質から、一意に機械的に算出することが可能な値であれば良く、情報分析装置1の目的や用途、各文書に付与されているメタ情報の種類等に応じて適宜設定される。具体的には、「文書の性質から規定される値」としては、各部分集合を構成する文書の数やサイズ、各部分集合を構成する文書のユニーク発信者数等が挙げられる。
 なお、「文書のユニーク発信者数」とは、各文書を発信している発信者の実際の数であり、同一人を複数回カウントする、のべ人数を含まない意である。また、ユニーク発信者数等、文書の内容そのものから機械的に算出不可能な数値を用いる場合は、各文書に、数値を特定する情報(例えば、発信者ID等の発信者を特定する情報)が、時間情報とは別に、文書のメタ情報として付与されている必要がある。
 ここで、時系列データの例について説明する。図2~図8の例では、入力文書集合(1)から生成された時系列データ(1)と、入力文書集合(2)から生成された時系列データ(2)とが図示されている。時系列データ(1)及び(2)は、共に、横軸を時間、縦軸を計数結果とするグラフによって表すことができ、図2~図8においては、2004年から2007年(図3の場合は2008年)までの計数結果がプロットされている。
 また、図2~図8においては、縦軸となる計数結果として、特定の特徴語やその類似語が設定期間内で出現した回数(出現数)が用いられている。更に、時系列データにおいて縦軸として用いることができる計数結果は、出現数のような計測された値自体であっても良いし、元の数値に補正や変換をかけた値であっても良い。後者の例としては、計測された値を全文書集合の数で正規化して得られた値や、計測された値の変化を微分して得られた値等が挙げられる。また、どのような補正や変換を行うか、又は計測された値自体を使用するかは、情報分析装置1の用途や使用目的、入力される文書集合の性質等に応じて、適宜選択される。
 対応区間選別部30は、複数の文書集合から得られる複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する区間(対応区間)を2以上選別する。本実施の形態1では、対応区間選別部30は、時系列データ(1)と時系列データ(2)とを互いに比較し、それぞれから対応して変化する区間(対応区間)を2以上選別する。また、対応区間選別部30は、選別した各時系列データの2以上の対応区間を、特徴抽出部40に出力する。
 また、本実施の形態1では、対応区間選別部30は、対応区間ペア選別部31と類似対応区間ペア選別部32とを備え、これらによって対応区間の選別を行っている。この点について以下に説明する。
 対応区間ペア選別部31は、2つの時系列データ間の相関性を調べ、2つの時系列データ間で互いに対応して変化する区間(対応区間)を選別する。対応区間ペア選別部31は、時系列データ作成部20から時系列データ(1)と時系列データ(2)とを受け取り、一方の時系列データの一区間と、これに対応して変化する他方の時系列データの一区間とを検出し、両者を時系列データにおける対応区間のペア(以下「対応区間ペア」と称する)として選別する。対応区間ペア選別部31は、このような対応区間ペアを時系列データ(1)と時系列データ(2)とから2ペア以上選別する。
 ここで、「対応して変化する区間(対応区間)」とは、時系列データ(1)のある部分的な一区間の値をプロットしたグラフと、時系列データ(2)のある部分的な一区間の値をプロットしたグラフとの間に高い相関性が認められる場合における、これらの部分的な一区間をいう。また、相関性が高いかどうかの判定は、本実施の形態1では、相関係数を用いて行うことができる。
 具体的には、対応区間ペア選別部31は、先ず、時系列データ(1)と時系列データ(2)との相関係数を求める。そして、対応区間ペア選別部31は、2つの時系列データそれぞれにおける、相関係数の絶対値が設定された閾値を超える(又は閾値以上となる)2以上の区間を対応区間として選別することができる。このとき閾値は、時系列データの元となった文書集合の性質や、時系列データの変動状態を考慮しながら、入力として想定される時系列データにおいて対応区間ペアが2つ以上選別されるような適切な値に、事前に設定されているものとする。
 また、相関係数の絶対値を判定に利用することから、求められた相関係数は負の値となっても良い。更に、相関係数としては、一般的なピアソンの積率相関係数や、スピアマンの順位相関係数、ケンドールの順位相関係数等を用いることができる。また、対応区間ペア選別部31は、対応区間ペアを2つ以上選別できない場合は、予め設定されている閾値が小さくなるように再度閾値の設定を行っても良いし、関連度算出部70に対して関連度の算出を中止するように指示を行っても良い。
 更に、本実施の形態1では、対応区間ペア選別部31は、相関係数を用いないで、代わりに、既存の統計分析技術や、時系列分析技術を用いて、一方の時系列データの部分区間と他方の時系列データの部分区間との相関性を判断することもできる。また、対応区間ペア選別部31は、両方の時系列データの部分区間における相関性の高さのみを、対応区間ペアの選別基準とするのではなく、一方あるいは両方の時系列データが特徴的に変動する区間を検出し、その度合いを選別の基準として用いても良い。例えば、一方または両方の時系列データのグラフがそれぞれ大きく変化する区間を検出し、この区間における変化の度合いを考慮して、対応区間ペアとして選別することもできる。
 対応区間ペア選別の例としては図2のグラフが挙げられる。図2のグラフでは、時系列データ(1)及び(2)は共に、上に凸となった2つのピークを有している。この場合、時系列データ間の相関係数は正の高い値となり、時系列データ(1)及び(2)は、ピークにおいて相関性が高くなっている。よって、これら2つのピークは、それぞれ対応区間ペアとして選別できる。
 更に、図3のグラフでは、2004年の後半から2005年の頭にかけて、時系列データ(1)の出現数は急速に減少しているのに対して、時系列データ(2)の出現数は急速に増加している。逆に、2006年の初頭においては、時系列データ(1)の出現数が急速に増加しているのに対して、時系列データ(2)の出現数は急速に減少している。この図3の場合においては、相関係数は負となるが、その絶対値は高く、両者の急増部分及び急減部分の相関性は高いと考えられる。よって、両者の急増部分及び急減部分の区間は、対応区間ペアとして選別されることが可能である。
 ここで、図2~図8における時系列データの対応区間を、説明の便宜上、対応区間1-1、対応区間2-1、対応区間1-2、対応区間2-2、のように記述することとする。この場合、対応区間1-1は、時系列データ(1)の1番目の対応区間を意味し、対応区間1-2は、時系列データ(1)の2番目の対応区間を意味する。また、対応区間1-nは、時系列データ(1)のn番目の対応区間であることを意味する。
 同様に、対応区間2-1は、時系列データ(2)の1番目の対応区間を意味し、対応区間2-2は、時系列データ(2)の2番目の対応区間を意味する。また、対応区間2-nは、時系列データ(2)のn番目の対応区間であることを意味する。更に、対応区間1-nと対応区間2-nとにおいて、「n」に当てはまる数値が同一の場合は、対応関係にある対応区間ペアであることを示す。例えば、対応区間1-1と対応区間2-1とは、対応関係にある対応区間ペアである。
 また、図2及び図3に示された、各対応区間ペアでは、対応関係にある対応区間において、その長さ、開始時間、及び終了時間は、同一となっている。但し、本実施の形態1は、これに限定されず、対応関係にある対応区間において、必ずしも対応区間の長さ、開始時間、及び終了時間が同一となる必要はない。
 例えば、図4に示された、対応区間1-1と対応区間2-1とのペアや、対応区間1-2と対応区間2-2とのペアのように、ペアとなっている対応区間同士で、開始時間及び終了時間がずれていても良い。更に、図4に示された、対応区間1-2と対応区間2-2とのペアのように、それぞれの長さが異なっていても良い。
 なお、2つの時系列データから対応区間ペアを選別するにあたり、どの程度、開始時間及び終了時間のずれや、長さの違いを許容するかは、用いられる対応区間ペアを求める手法、即ち、相関性の判断手法に依存する。
 類似対向区間ペア選別部32は、1つの時系列データに存在する複数の部分区間について、部分区間同士での相関性を調べ、対応区間として選別されたものの中から更に選別を実行する。類似対応区間ペア選別部32は、対応区間ペア選別部31が先に選別している複数の対応区間ペアの中から、更に時系列データ(1)及び時系列データ(2)それぞれにおいて類似する対応区間ペアを選別する。
 具体的には、類似対応区間ペア選別部32は、先ず、時系列データ(1)において、選別された2以上の対応区間の変化が相互に類似するかどうかを判定する。同様に時系列データ(2)において、選別された2以上の対応区間の変化が相互に類似するかどうかを判定する。
 次に、類似対応区間ペア選別部32は、判定の結果、時系列データ(1)及び(2)において、それぞれの時系列データ上で類似する2以上の対応区間が存在する場合は、時系列データ(1)の類似する2以上の対応区間と、時系列データ(2)の類似する2以上の対応区間とがそれぞれ対応して変化している(対応区間ペアをなしている)かどうかを判定する。そして、上記の条件を満たす対応区間ペアが2以上存在する場合は、類似対応区間ペア選別部32は、それらの対応区間(対応区間ペア)を選別する。
 その後、類似対応区間ペア選別部32は、ここで選別された対応区間ペアをなす対応区間を特定する情報を特徴抽出部40に出力する。なお、以降において、同一の時系列データ上にあり、互いに類似している対応区間それぞれは、「類似対応区間」とする。また、同一の時系列データに属する互いに類似する類似対応区間の組は、以下、「類似対応区間組」とする。
 例えば、対応区間1-mと対応区間2-m、及び対応区間1-nと対応区間2-nが、対応区間ペアとして既に選別されているとする。この場合に、対応区間1-mのグラフと対応区間1-nのグラフとが類似し、更に、対応区間2-mのグラフと対応区間2-nのグラフとが類似していると、対応区間1-m、1-n、2-m、及び2-nは、類似対応区間として再度選別される。そして、対応区間1-mと1-n、対応区間2-mと2-nは、それぞれ類似対応区間組となる。
 また、類似対応区間ペア選別部32による類似の判定も、相関係数を用いて行うことができる。但し、この場合は、類似判定の対象となる対応区間の間で、例えば、対応区間1-mと対応区間1-nとの間、対応区間2-mと対応区間2-nとの間で、相関係数が求められる。そして、類似対応区間ペア選別部32は、求めた相関係数が正の値であって、閾値を超える場合(又は閾値以上となる場合)に、類似していると判定する。なお、閾値は、時系列データの元となった文書集合の性質や、時系列データの変動状態を考慮しながら、入力として想定される時系列データにおいて類似対応区間が2つ以上選別されるように、事前に設定されているものとする。
 更に、本実施の形態1での類似対応区間ペア選別部32による類似の判定は、相関係数を用いないで行うこともできる。例えば、類似対応区間ペア選別部32は、既存の時系列分析技術を用いた手法によっても類似の判定を行うことが可能となる。時系列分析技術を用いた手法としては、各対応区間内における変曲点の数、変曲点の対応区間内における相対的な位置、変曲点間の微分計数の値等を判定要素とする手法が挙げられる。また、この場合も、判定は、予め設定された閾値に基づいて行われる。閾値の設定は、相関係数を用いる場合と同様に行うことができる。
 ここで、類似対応区間ペア選別部32が、時系列分析技術によって類似を判定した場合について説明する。例えば、図2において、対応区間1-1と対応区間1-2は、共に増加の後、減少している。よって、これらは、類似していると判定できる。また、これらと対応している対応区間2-1と対応区間2-2も類似している。この場合、類似対応区間ペア選別部32は、対応区間1-1と対応区間2-1との対応区間ペア、及び対応区間1-2と対応区間2-2との対応区間ペアを、選別する。
 一方、図3において、対応区間1-2と対応区間1-3は、共に単調増加にあり、類似しているが、それらと対応している対応区間2-2と対応区間2-3とは、微分係数の符号が逆であり、類似していない。よって、対応区間1-2と対応区間1-3、及び対応区間2-2と対応区間2-3それぞれは、類似対応区間組を構成しない。
 また、類似対応区間ペア選別部32は、各時系列データにおいて、類似対応区間組を1つ以上選別できない場合は、上述した類似判定に用いる閾値が小さくなるように再度閾値の設定を行っても良い。更に、この場合、類似対応区間ペア選別部32は、関連度算出部70に対して関連度の算出を中止するように指示を行っても良い。
 更に、本実施の形態1の類似対応区間ペア選別部32では、選別する類似対応区間の条件を拡張することも可能である。類似対応区間ペア選別部32は、対応区間ペア選別部31が先に選別している複数の対応区間ペアの中から、更に時系列データ(1)及び時系列データ(2)それぞれにおいて類似する対応区間ペアを選別する、と上述したが、この条件を拡張できる。例えば、対応区間ペア選別部31が先に選別している複数の対応区間ペアの中から、時系列データ(1)及び時系列データ(2)それぞれにおいてともに類似性の低い対応区間ペアを選別することもできる。
 例えば、図5に示すグラフでは、対応区間1-1と対応区間1-2、対応区間2-1と対応区間2-2は、それぞれ、類似の関係にある。一方、対応区間1-1と対応区間1-3、対応区間2-1と対応区間2-3は、それぞれ、非類似の関係にある。この場合に、対応区間1-1と2-1との対応区間ペアは、対応区間1-2と2-2との対応区間ペアとは類似関係にあるが、対応区間1-3と2-3との対応区間ペアとは時系列データ(1)側においても、時系列データ(2)側においても非類似関係にある。このとき、類似対応区間ペア選別部32は、対応区間1-1と2-1との対応区間ペア、対応区間1-2と2-2との対応区間ペアに加えて、対応区間1-3と2-3との対応区間ペアも選別することができる。
 なお、類似対応区間ペア選別部32は、上述のように、非類似関係にある対応区間についても選別対象とする場合は、対応区間ペア毎に、他の対応区間ペアとの関係(類似関係にあるのか、非類似関係にあるのか)を登録しておくのが好ましい。
 ここで、類似対応区間ペア選別部32が再度選別する対応区間についてまとめると、選別されるのは、二つの対応区間ペアを対比したときに、時系列データ(1)側と時系列データ(2)側で共に類似関係にあるか、共に非類似関係にあるか、のどちらかの場合である。二つの対応区間ペアを対比したときに、一方の時系列データ側では類似関係にあるが、他方の時系列データ側では非類似関係にある場合は、これらの対応空間ペアは選別されないこととなる。
 特徴抽出部40は、複数の時系列データそれぞれについて、選別された2以上の対応区間に属する文書(文書データ)を対応区間毎に特定し、対応区間毎に特定された文書の特徴を抽出する。なお、ここでいう「文書の特徴」には、対応区間毎に特定された「文書集合の特徴」も含まれる。本実施の形態1では、特徴抽出部40は、時系列データ(1)の選別された対応区間と、時系列データ(2)の選別された対応区間とに対して、これらに属する文書の特定を対応区間毎に行い、更に、特定された文書の特徴を抽出する。例えば、図5に示した、対応区間1-1、対応区間2-1、対応区間1-2、対応区間2-2、対応区間1-3、及び対応区間2-3が選別されているとする。この場合、特徴抽出部40は、6つの対応区間それぞれに対して、各対応区間に属する文書を特定し、更に、特定された文書それぞれから特徴を抽出する。
 ここで、文書から抽出される「特徴」としては、選別された対応区間に属している文書の集合に特徴的に出現する言語表現がある。ここで特徴的に出現する言語表現とは、選別された対応区間に属している文書集合において、各言語表現の単純な出現回数を計数した結果、高頻度で出現する言語表現や、対応区間以外の区間に属している文書集合、または、情報分析装置1が分析対象とする文書の母集団における出現回数と比較して、相対的に高頻度で出現する言語表現、相対的に低頻度で出現する言語表現が挙げられる。
 例えば、図5に示した時系列データ(1)において、「ガンに効く」という言語表現が、対応区間1-1に属している文書集合中に、高頻度で出現する場合、「ガンに効く」は、対応区間1-1の特徴とすることができる。また、例えば、「健康に良い」という言語表現が、時系列データ(1)の対応区間1-3以外の対応区間に属する文書集合中に高頻度で出現し、対応区間1-3に属する文書集合中には低頻度で出現する場合、「健康によい」は、対応区間1-3の特徴となりうる。
 また、本実施の形態1では、入力される文書集合に含まれる各文書に対して、文書サイズ、カテゴリー、分類情報、発信者情報、発信者の属性等のメタ情報が付与されている場合は、特徴抽出部40は、そうしたメタ情報を、「特徴」として抽出することもできる。
 具体的には、入力される文書集合の各文書に、その発信者が、「初心者」、「普通」、又は「熟練」のいずれに当てはまるかを示す発信者情報が、付与されている場合は、これらの発信者情報を特徴として用いることができる。例えば、対応区間1-2に属する文書集合には、特に、「初心者」の発信者から発信された文書が多く含まれているとすると、「初心者」が、対応区間1-2における「特徴」として抽出される。
 また、メタ情報を特徴として抽出する場合、メタ情報の種類は特に限定されず、入力される文書集合に含まれる各文書に付与されているメタ情報であれば、特徴抽出部40は、この任意のメタ情報を「特徴」として抽出することが可能である。更に、本実施の形態1において、特徴抽出部40による特定の文書集合からの特徴の抽出は、例えば、既存のテキストマイニング技術を用いて行うことができる。なお、テキストマイニング技術は、一般的な自然言語処理技術の一つであり、本発明の実施の形態1の主眼ではない。よって、テキストマイニング技術についての説明は省略する。
 更に、「特徴」の抽出は、例えば、「特徴」として抽出する情報(言語表現や、メタ情報等)の個数を予め設定し、出現回数の多い情報から順に、設定された数の情報を抽出することによって行うことができる。また、「特徴」の抽出は、例えば、テキストマイニング技術を利用するのであれば、特徴スコアを用いて行うこともできる。
 後者の場合は、特徴抽出部40は、先ず、抽出対象となる対応区間毎に、特徴要素(言語表現やメタ情報等)を選出し、各特徴要素について特徴スコアを算出する。そして、特徴抽出部40は、特徴スコアが設定された閾値を超えるかどうかを判定し、閾値を超える特徴要素を「特徴」として抽出する。
 この場合、特徴抽出部40による「特徴スコア」の算出は、特徴要素の出現頻度等を用いて、種々の統計解析技術によって行うことができる。例えば、特徴抽出部40は、各特徴要素の出現頻度、対数尤度比、χ2値、イエーツ補正χ2値、自己相互情報量、SE、ESCなどの統計的尺度を求め、求めた値を特徴スコアとして用いることができる。
 また、特徴抽出部40は、特徴要素と、その特徴スコアとの組データを「特徴」として抽出することもできる。例えば、対応区間1-1からn個の特徴要素が抽出されている場合を考える。この場合、対応区間1-1における特徴1-1は、(T1,SC1,T2,SC2,T3,SC3,・・・,Tn,SCn)のように、2n個の要素からなる特徴ベクトルで表現することができる。
 なお、上記において、「T1~Tn」は、n個の特徴要素を示す。具体的には、特徴要素T1~Tnとしては、例えば「ガンに効く」のような言語表現や、発信者情報(発信者が「初心者」である)のような文書に付与されているメタ情報が挙げられる。「SC1~SCn」は、各特徴要素に付加された特徴スコアを示す数値データである。また、特徴要素は、特徴スコアと組になっていなくても良く、即ち、「特徴」として特徴要素のみが抽出されていても良い。この場合は、「特徴」は、例えば、特徴1-1(T1,T2,T3,・・・,Tn)のように、n個の要素からなる特徴ベクトルで表現される。
 比較部50は、時系列データ毎に、一の対応区間に属する文書から抽出された特徴と、他の対応区間に属する文書から抽出された特徴との間の特徴間距離を求める。また、本実施の形態1では、特徴間距離を求める対応区間の組み合わせが、各時系列データにおいて1組ではなく複数組存在する場合は、複数組それぞれに対して特徴間距離を求めて、求めた距離の値をベクトルデータとして扱う。
 ここで、図5に示す時系列データ(1)及び(2)を例に挙げて説明する。例えば、図5においては、対応区間1-1と2-1、対応区間1-2と2-2、対応区間1-3と2-3は、それぞれ対応区間ペアとなっており、3つの対応区間ペアが存在している。そして、時系列データ(1)では、対応区間1-1、1-2、1-3の三つの対応区間が選別されているとする。
 上記の場合、例えば、対応区間1-1の特徴と1-2の特徴との特徴間距離、対応区間1-1の特徴と1-3の特徴との特徴間距離、及び対応区間1-2の特徴と1-3の特徴との特徴間距離が求められる。求められた各特徴間距離は3次元のベクトルデータで表される。
 同様に、時系列データ(2)では、対応区間2-1、2-2、2-3の三つの対応区間が選別されているとする。この場合は、例えば、対応区間2-1の特徴と2-2の特徴との特徴間距離、対応区間2-1の特徴と2-3の特徴との特徴間距離、及び対応区間2-2の特徴と2-3の特徴との特徴間距離が求められる。求められた各特徴間距離は同じく3次元のベクトルデータで表される。
 また、上記の例では、各時系列データにおいて、対応区間選別部30が選別した全ての対応区間同士の組み合わせに対して特徴間距離を求めているが、本実施の形態1では、特徴間距離は、時系列データ上で隣り合う対応区間同士のみについてだけ求められていても良い。図5の例で、隣り合う対応区間についてのみ特徴間距離が求められる場合は、時系列データ(1)では、対応区間1-1と1-2、対応区間1-2と1-3について特徴間距離が求められる。同様に、時系列データ(2)では、対応区間2-1と2-2、対応区間2-2と2-3について特徴間距離が求められる。上記の場合も、各特徴間距離はベクトルデータで表される。
 なお、隣り合う対応区間の間の特徴間距離だけを求める場合は、比較部50における計算量を少なくする事が可能となる。但し、この場合は、比較部50による比較結果の精度が、全ての対応区間同士の組み合わせについて特徴間距離を求める場合に比べて、劣化する傾向にある。よって、どのような対応区間の組み合わせについて特徴間距離を求めるかは、本実施の形態1では、情報分析装置1の用途や使用目的、入力される文書集合の性質等に応じて、適宜設定すれば良い。
 また、本実施の形態1において、比較部50は、特徴間距離を求めるための関数(距離関数)を用いて、任意の対応区間と別の対応区間とにおける特徴間距離を求める。距離関数は、予め規定され、データベース60に格納されている。距離関数は、任意の対応区間に属する文書から抽出された特徴と、別の対応区間に属する文書から抽出された特徴とが与えられたときに、それらの間の特徴間距離の計算を可能とする関数である。
 本実施の形態1では、距離関数は、限定されるものではない。距離関数として、どのような関数を用いるかは、情報分析装置1の用途や使用目的、入力される文書集合の性質等に応じて、適宜設定できる。具体的には、距離関数としては、以下の条件を満たすものを用いることができる。
(条件1)
 距離関数を求める対象となる二つの対応区間から抽出された、二つの特徴が全く同一となる場合、これらの特徴間距離が0(ゼロ)となる。
(条件2)
 ある対応区間から特徴(1)が抽出され、別のある対応区間から特徴(2)が抽出されている場合、特徴(1)と特徴(2)との距離は、順序を入れ替えた特徴(2)と特徴(1)との距離と等しくなる。
(条件3)
 3つの対応区間の特徴として、特徴(1)、特徴(2)、特徴(3)があるとき、それらの間の距離には、下記の関係が成立する。
(特徴(1)と特徴(3)の特徴間距離)≦(特徴(1)と特徴(2)の特徴間距離)+(特徴(2)と特徴(3)の特徴間距離)
(条件4)
 比較部50に2つの特徴が入力されている場合に、一方の特徴がm個の特徴要素からなるベクトルで表現され、他方の特徴がn個の特徴要素からなるベクトルで表現され、更に、両方の特徴がc個の共通の特徴要素を有しているとする。この場合、共通でない特徴要素の数は(m+n-c)個となる。特徴間距離は、共通でない特徴要素の数に応じて、単調に増加する。
(条件5)
 比較部50に2つの特徴が入力されている場合に、一方の特徴がm個の特徴要素と対応するm個の特徴スコアとのベクトル(特徴ベクトル)で表現され、他方の特徴がn個の特徴要素と対応するn個の特徴スコアとのベクトル(特徴ベクトル)で表現されるとする。またこのとき、両方の特徴は、c個の共通の特徴要素も有しているとする。この場合は、以下の手順5-1~手順5-3で、2つの特徴ベクトル間の差分が求められ、差分の大きさが特徴間距離となる。
(手順5-1)
 先ず、入力された2つの特徴ベクトルが正規化され、両者の次元数の整合が行われる。これにより、それぞれの特徴ベクトルにおいて、他方のみに存在する特徴要素に対しては、その特徴要素と特徴スコア「0(ゼロ)」とが与えられ、2つの特徴ベクトルの特徴要素が全て共通とされる。
(手順5-2)
 入力された2つの特徴ベクトルそれぞれに対して、特徴要素の種類毎に、特徴ベクトル内の特徴スコアの出現順序のソートが実行される。このとき、種類が同一(言語表現が同一、メタ情報が同一)の特徴要素に対しては、ベクトル内の特徴スコアの出現位置が同じになるように、ソートが実行される。
(手順5-3)
 手順5-1、手順5-2により、次元数と特徴スコアの出現順序との正規化が行われた後、正規化された2つの特徴ベクトルに対して、差分ベクトルが計算される。この差分ベクトルは、2つの特徴ベクトルそれぞれの各特徴スコア間の差分を値として有し、その次元は(m+n-c)次元となる。その後、得られた差分ベクトルの大きさの絶対値を求め、入力された2つの特徴ベクトル間の距離(特徴間距離)とする。
 上述した条件1から条件3は、一般的な距離関数の性質を規定している。また、条件4及び条件5は、入力された2つの特徴に、共通の特徴要素が多く、そして、両者において、特徴の度合いを示す特徴スコアが近いほど、特徴間距離が小さくなることを示している。更に、条件4及び5は、一方の特徴のみが有する特徴要素が存在している場合は、その特徴の度合いを示す特徴スコアが大きいほど、特徴間距離が大きくなることも示している。
 例えば、入力された2つの特徴ベクトルが、下記に示す特徴(1)と特徴(2)とであるとする。
[特徴(1)]
(「ガンに効く」,0.8、「副作用がない」,0.6,「文書カテゴリー:広告」、0.85)
[特徴(2)]
(「即効性がある」,0.4,「副作用がない」,0.5,「文書カテゴリー:広告」,0.7)
 上記において、「ガンに効く」、「副作用がない」、及び「即効性がある」は、各対応区間に属する文書において特徴的に出現する言語表現である。「文書カテゴリー:広告」は、その対応区間に属する文書集合に特徴的に出現する文書のカテゴリーを示している。また、特徴(1)及び(2)における特徴要素の次に記述されている数値は、各特徴要素の特徴スコアを示している。
 ここで、手順5-1及び手順5-2により、特徴(1)と特徴(2)とに対して正規化を行うと、これらの特徴は下記の通りとなる。
[正規化された特徴(1)]
(「ガンに効く」,0.8,「副作用がない」,0.6,「即効性がある」,0,「文書カテゴリー:広告」,0.85)
[正規化された特徴(2)]
(「ガンに効く」,0,「副作用がない」,0.5,「即効性がある」,0.4,「文書カテゴリー:広告」,0.7)
 次いで、手順5-3により、各特徴スコアの差分ベクトルを求めると、差分ベクトルの算出は以下の式で行われる。
差分ベクトル=((0.8-0),(0.6-0.5),(0-0.4),(0.85-0.7))
更に、上記の式を展開すると、下記の通りとなる。
差分ベクトル=(0.8,0.1,-0.4,0.15)
この差分ベクトルの大きさの絶対値を求めると、これが、特徴間距離となる。
 ところで、上記の条件4及び条件5では、入力された2つの特徴に共通して出現する特徴要素の個数を用いて特徴間距離が計算されているが、本実施の形態1はこれに限定されるものではない。本実施の形態1では、完全に共通する特徴要素でなくとも、類似する特徴要素を共通要素と見なして、特徴間距離を求めることも可能である。
 但し、この場合は、どの特徴要素と、どの特徴要素とを類似する特徴要素として扱うのかを示す類似基準が、事前に規定され、データベース60内に格納されていることが必要となる。なお、特徴要素が言語表現である場合、同義語辞書やシソーラスを用いることによって、類似する特徴要素を規定することができる。
 更に、比較部50は、時系列データ毎に対応区間選別部30が選別した対応区間同士の特徴間距離のベクトルデータを算出した後、求めた時系列データの特徴間距離ベクトルと、他の時系列データの特徴間距離ベクトルとを比較する。比較には任意のベクトル間距離関数を用いてよい。ベクトル間距離関数の1例として、コサイン距離を用いることができる。
 ついで比較部50は、比較した結果を、入力文書集合間の関連度を求めるための値として、後述する関連度算出部70に出力する。
 関連度算出部70は、本実施の形態1では、比較部50から出力された比較結果に基づいて、入力文書集合(1)と入力文書集合(2)との関連度を算出する。出力部80は、関連度算出部70によって算出された関連度を、入力文書集合(1)と入力文書集合(2)との関連度として出力する。
 本実施の形態1では、関連度は、比較部50から出力された比較結果を示す数値(コサイン距離等)が小さいほど、即ち、比較部50が算出した、二つの特徴間距離のベクトルデータ間の距離が小さいほど、高くなるように規定するのが良い。
 関連度の算出は、例えば、時系列データ(1)における特徴間距離のベクトルデータと、時系列データ(2)における特徴間距離のベクトルデータとの比較結果の逆数を求め、これに予め設定した定数をかけて行うことができる。また、関連度の算出は、その他、予め設定した定数から、特徴間距離のベクトルデータの比較結果を減算しても行うことができる。
 ここで、関連度をこのように規定する理由を図6~図8を用いて以下に説明する。図6は、共通の原因によって変動する時系列データの例(関連性が高い時系列データなど)を示す図である。図7は、共通の原因によって変動する時系列データの他の例(関連性が高い時系列データなど)を示す図である。図8は、異なる原因によって変動する時系列データの他の例(時系列データが偶然に一致した場合など)を示す図である。
 まず、例えば、図6で示されるような時系列データ(1)と時系列データ(2)とがあって、時系列データ(1)と時系列データ(2)が、真に関連性が高く、時系列データ(1)の変動と、時系列データ(2)の変動とには、共通の原因がある場合を考える。
 この図6で時系列データ(1)の対応区間1-1と、時系列データ(2)の対応区間2-1は、共通の原因aによりピークを有しているものとする。また同様に、時系列データ1の対応区間1-2と、時系列データ2の対応区間2-2とも、共通の原因aによりピークを有しているとする。
 さらに、時系列データ(1)において、対応区間1-1と対応区間1-2は、時系列データの形状が類似している。また、それらと対応区間ペアをなす時系列データ(2)における対応区間2-1と対応区間2-2は、時系列データの形状が類似しており、これら4つの対応区間は対応区間組の条件を満たしている。このような場合に、時系列データ(1)と時系列データ(2)との関連度を求める。
 非特許文献1の技術では、時系列データ(1)に属している文書集合の特徴と、時系列データ(2)に属している文書集合の特徴とを直接比較し、共通の特徴要素の有無から、それらの間の関連度を計算する。時系列データ(1)の部分区間である対応区間1-1と、時系列データ2の部分区間である対応区間2-1との相関性が高く、それらの区間に着目している場合、各区間の特徴を求めて、それらの間の距離を求める。
 しかし、時系列データ(1)の元となる入力文書集合(1)と、時系列データ(2)の元となる入力文書集合(2)は、一般には異なる性質の文書集合である。そして、これらが、共通の原因aにより同様に変動しているとしても、必ずしも対応区間1-1で見受けられる特徴1-1と、対応区間2-1で見受けられる特徴2-1とに共通要素があるとは限らない。
 だが、同じ入力文書集合(1)の中で、対応区間1-1と対応区間1-2のピークが共通の原因aによるものであるのならば、特徴1-1と特徴1-2との共通要素は大きいと考えられる。同様に、同じ入力文書集合(2)の中で、対応区間2-1と対応区間2-2のピークが共通の原因aによるものであるのならば、特徴2-1と特徴2-2との共通要素は大きいと考えられる。
 そこで、特徴1-1と特徴2-1との距離を直接求めるのではなく、特徴1-1と特徴1-2との距離を算出し、ついで、特徴2-1と特徴2-2との距離を算出し、算出した2つの距離を比較することで、関連度を求めることができる。この例では、特徴1-1と特徴1-2との距離は、共通要素が多く、すなわち距離が小さくなる。特徴2-1と特徴2-2との距離も同様に、共通要素が多く、距離が小さくなる。
 よって、時系列データ(1)における特徴間距離のベクトルデータ(この例では要素が1つのみ)と、時系列データ(2)における特徴間距離のベクトルデータ(この例では要素が1つのみ)とが、ともに小さくなるため、それらの間の距離も小さくなり、関連度は高く計算される。
 一方、図7に示すように時系列データ(1)と時系列データ(2)とが、真に関連性が高く、(同時期では)共通の原因によりそれぞれ変動しているが、対応区間1-1と対応区間2-1との対応区間ペアでは、原因aによりピークが生じ、対応区間1-2と対応区間2-2との対応区間ペアでは、原因bによりピークが生じている場合を考える。
 時系列データ(1)において、特徴1-1と特徴1-2とは、そのピークの原因が異なるため、共通の特徴要素が少なく、距離が大きくなると考えられる。同様に、時系列データ(2)において、特徴2-1と特徴2-2とは、そのピークの原因が異なるため、共通の特徴要素が少なく、距離が大きくなると考えられる。よって、時系列データ(1)における特徴間距離のベクトルデータ(この例では要素が1つのみ)と、時系列データ(2)における特徴間距離のベクトルデータ(この例では要素が1つのみ)とが、ともに大きくなる。このため、それらの間の距離は小さくなり、関連度は高く計算される。
 時系列データ(1)と時系列データ(2)との関連性が、真に高く、対応区間ペア同士では共通の原因で変動する場合、その前提から、対応区間ペアにおける変動の原因は共通である。よって、対応区間1-1と対応区間2-1とは共通の変動原因を持ち、また、対応区間1-2と対応区間2-2とは共通の原因を持つ。
 ここで、時系列データ(1)の中で、対応区間1-1と対応区間1-2とが共通の原因をもつとは限らないが、共通の原因を持つ場合(図6の場合)は、論理的に、対応区間2-1と対応区間2-2とも共通の原因を持つことになる。一方、対応区間1-1と対応区間1-2とが共通の原因を持たない場合、やはり、対応区間2-1と対応区間2-2とも共通の原因を持たないことになる。
 また別の例として、今度は、図8に示すように、時系列データ(1)と時系列データ(2)との間に関連性はないが、偶然の一致により、対応区間1-1と対応区間2-1との間、および、対応区間1-2と対応区間2-2との間に相関性が高い場合を考える。
 ここで、時系列データ(1)における対応区間1-1と対応区間1-2とは、ともに同じ原因aによって生じているものとする。すると、それらの特徴1-1と特徴1-2は共通の特徴要素が多くなり、距離は小さくなる。
 一方、対応区間2-1は原因cによって、対応区間2-2は原因dによって生じたピークであり、原因が異なるため、特徴2-1と特徴2-2は共通要素が少なく、それらの距離は大きくなる。よって、時系列データ(1)における特徴間距離のベクトルデータ(この例では要素が1つのみ)と、時系列データ(2)における特徴間距離のベクトルデータ(この例では要素が1つのみ)とが、一方は小さく、他方は大きくなるため、それらの間の距離は大きくなり、関連度は低く計算される。
 もちろん、対応区間2-1と対応区間2-2とがともに同じ原因cによって生じ、さらに、対応区間2-1と対応区間1-1、対応区間2-2と対応区間1-2が同タイミングで生じた場合は、図6の場合と同様に、時系列データ1における特徴間距離のベクトルデータ(この例では要素が1つのみ)と、時系列データ2における特徴間距離のベクトルデータ(この例では要素が1つのみ)とが、ともに小さくなる。このため、それらの間の距離も小さくなり、関連度は誤って高く計算される。
 しかし、任意の異なる原因により、時系列データ(1)と時系列データ(2)との2つのピークタイミングが偶然一致する場合(図8の場合)に比べて、相互に関連性がないのにかかわらず、時系列データ(1)内で共通する原因、時系列データ(2)内でも共通する原因でピークが生じ、さらにそれらのタイミングが2つとも一致する可能性は、制約条件が厳しくなっているため、稀であると考えられる。
 このように、情報分析装置1では、ある時系列データの対応区間における変化パターンと、別の時系列データの対応区間における変化パターンとが似通っていたとしても、両対応区間における文書の特徴が全く異なる場合は、そのことが明らかとなる。この結果、情報分析装置1によれば、時系列データ間において、両者の変化パターンが偶然に一致した場合に、間違って関連性があると判定されてしまう事態の発生が抑制される。情報分析装置1は、インターネット上の文書データ等で構成された文書集合のように、様々な原因で変動する大量の文書で構成された集合体の中から、関連度の高い文書集合を見つけ出す必要がある場合に、有効である。
 次に、本発明の実施の形態1における情報分析方法について図9を用いて説明する。図9は、本発明の実施の形態1における情報分析方法における処理の流れを示すフロー図である。本実施の形態1における情報分析法は、図1に示した本実施の形態1における情報分析装置1を動作させることによって実施される。このため、以下の説明は、適宜図1を参酌しながら、情報分析装置1の動作と共に説明する。
 図9に示すように、先ず、入力部10が、分析対象となる複数の文書集合の入力を受け付ける(ステップA1)。本実施の形態1では、入力される文書集合は、2つであり、それぞれ入力文書集合(1)及び入力文書集合(2)である。また、各入力文書集合は、時間情報付きの複数の文書で構成されている。
 次に、時系列データ生成部20が、入力部10によって受け付けられた複数の文書集合から、文書集合毎に、時間情報に基づいて、時系列データを生成する(ステップA2)。本実施の形態1では、時系列データ生成部20は、入力文書集合から時系列データ(1)を生成し、入力文書集合(2)から時系列データ(2)を生成する。
 次いで、対応区間選別部30が、複数の文書集合から得られる複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する区間(対応区間)を2以上選別する。
 具体的には、ステップA2が終了すると、対応区間ペア選別部31が、時系列データ(1)と時系列データ(2)とを対比し、相互に高い相関性を持って変動する対応区間ペアを選別する(ステップA3)。続いて、対応区間ペア選別部31は、時系列データ(1)及び(2)から、相互に高い相関性を持って変動する対応区間ペアが2ペア以上選別できたかどうか判定する(ステップA4)。
 ステップA4の判定の結果、選別できた対応区間ペアが1ペア以下の場合は、対応区間ペア選別部31は、関連度算出部70に対して関連度の中止を指示し、処理を中止する。一方、ステップA4の結果、選別できた対応区間ペアが2ペア以上の場合は、対応区間ペア選別部31は、選別された対応区間ペアを特定する情報を類似対応区間ペア選別部32に入力する。
 次に、類似対応区間ペア選別部32は、対応区間ペア選別部31から情報を受け取ると、既に選別されている複数の対応区間ペアの中から、時系列データ(1)及び時系列データ(2)それぞれにおいて類似する対応区間ペアを選別する(ステップA5)。続いて、類似対応区間ペア選別部32は、対応区間ペアが2以上(対応区間の合計数が4つ以上)選別されているかどうかを判定する(ステップA6)。
 ステップA6の判定の結果、時系列データ(1)及び(2)において対応区間ペアが2以上選別されていない場合は、類似対応区間ペア選別部32は、関連度算出部70に対して関連度の中止を指示し、処理を中止する。一方、ステップA6の結果、時系列データ(1)及び(2)において対応区間ペアが2以上選別されている場合は、類似対応区間ペア選別部32は、再度選別された対応区間ペアを特徴抽出部40に入力する。
 次に、特徴抽出部40は、類似対応区間ペア選別部32から情報を受け取ると、各時系列データの選別された各対応区間に属する文書を特定し、特定された文書の特徴を、対応区間毎に抽出する(ステップA7)。そして、特徴抽出部40は、抽出した特徴を比較部50に入力する。
 次に、比較部50は、時系列データ毎に、一の対応区間から抽出された特徴と、他の対応区間から抽出された特徴との間の特徴間距離を求め、求められた時系列データ毎の特徴間距離を互いに比較する(ステップA8)。
 具体的には、比較部50は、各時系列データに着目して、個々の時系列データの内部において複数の対応区間どうしの特徴間距離を算出し、時系列データ(1)内における特徴間距離と、時系列データ(2)内における特徴間距離とを比較する。そして、比較部50は、時系列データ(1)における特徴間距離と、時系列データ(2)における特徴間距離との比較結果を関連度算出部70に入力する。
 続いて、関連度算出部70は、比較部50が入力した比較結果に基づいて、入力された文書集合間の関連度を算出する(ステップA9)。その後、関連度算出部70が、関連度を特定する分析データを外部に出力すると、情報分析装置1における処理は終了する。
 本実施の形態1における情報分析方法を実行すれば、時系列データ間において、両者の変化パターンが偶然に一致した場合に、間違って関連性があると判定されてしまう事態の発生が抑制される。
 また、本実施の形態1におけるプログラムは、コンピュータに、図9に示すステップA1~A9を実行させるプログラムであれば良い。よって、情報分析装置1は、コンピュータに、このプログラムをインストールし、更にこれを実行させることによって、具現化することができる。この場合、コンピュータのCPU(central processing unit)は、時系列データ生成部20、対応区間選別部30、特徴抽出部40、比較部50及び関連度算出部70として機能し、処理を行なう。
 更に、データベース60は、ハードディスク等の記憶装置に、データファイルを格納することによって、又はデータファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによって実現できる。なお、データベース60を構成する記憶装置は、上述したプログラムがインストールされたコンピュータに備えられていても良いし、ネットワークを介して接続された別のコンピュータに備えられていても良い。また、読取装置は、上述したプログラムがインストールされたコンピュータに接続されていても良いし、ネットワークを介して接続された別のコンピュータに接続されていても良い。
(実施の形態2)
 次に、本発明の実施の形態2における情報分析装置、情報分析装置及びプログラムについて、図10及び図11を参照しながら説明する。最初に、図10を用いて、本発明の実施の形態2における情報分析装置の構成について説明する。図10は、本発明の実施の形態2における情報分析装置の概略構成を示すブロック図である。
 図10に示すように、本実施の形態2における情報分析装置2は、時系列データ生成部(図1参照)を備えておらず、この点で、実施の形態1における情報分析装置1と異なっている。また、時系列データ生成部が備えられていないことに伴い、情報分析装置2は、各部の機能の点でも、実施の形態1における情報分析装置1と異なっている。以下に、情報分析装置1との相違点について説明する。
 本実施の形態2では、情報分析装置2には、予め、文書集合から生成された時系列データが入力される。入力部10は、時系列データの入力を受け付ける。なお、本実施の形態2においても、入力される時系列データは、2つである。また、本実施の形態2では、一方の時系列データの一の対応区間と、この対応区間に対応する他方の時系列データの対応区間とが予め設定されている。そして、予め設定された対応区間(設定対応区間)を特定する情報も、入力部10に入力される。
 例えば、入力される時系列データ(1)及び(2)が、図2に示すものであり、更に、対応区間1-1と、これと高い相関性を持って変化する対応区間2-1との対応区間ペアが予め設定されているとする。この場合、時系列データ(1)及び(2)と、設定対応区間1-1及び設定対応区間2-1を特定する情報とが、入力部10によって受け付けられる。
 また、本実施の形態2では、対応区間選別部30は、先ず、一方の時系列データについて、その設定対応区間と変化が類似する対応区間を選別する。更に、対応区間選別部30は、他方の時系列データについて、その設定対応区間と変化が類似し、且つ、一方の時系列データについて選別された対応区間に対応する、対応区間を選別する。
 例えば、上述したように、時系列データ(1)及び(2)が、図2に示すものであり、対応区間1-1及び対応区間2-1が予め設定されているとする。この場合、対応区間選別部30は、時系列データ(1)の部分的な区間であって、設定対応区間1-1と類似する区間を対応区間1-2として選別する。更に、対応区間選別部30は、時系列データ(2)の部分的な区間であって、設定対応区間2-1と類似し、且つ、対応区間1-2と高い相関性を持って変化する区間を対応区間2-2として選別する。
 また、本実施の形態2では、特徴抽出部40は、時系列データそれぞれの設定対応区間に属する文書と、時系列データそれぞれの選別された対応区間に属する文書とを特定し、特定された文書の特徴を対応区間毎に抽出する。
 更に、本実施の形態2では、比較部50は、設定対応区間から抽出された特徴と、選別された対応区間から抽出された特徴との間の特徴間距離を求める。なお、本実施の形態2においても、比較部50は、実施の形態1と同様に、データベース60に格納されている距離関数を用いて、特徴間距離を算出する。また、比較部50は、実施の形態1と同様に、求められた時系列データ毎の特徴間距離を比較し、比較結果を関連度算出部70に入力する。
 また、関連度算出部70は、実施の形態1の場合と同様に、比較部50による比較の結果に基づいて、関連度を算出するが、本実施の形態2では、一の設定対応区間と別の設定対応区間とについて関連度を算出する。
 次に、本発明の実施の形態2における情報分析方法について図11を用いて説明する。図11は、本発明の実施の形態2における情報分析方法における処理の流れを示すフロー図である。本実施の形態2における情報分析法は、図10に示した本実施の形態2における情報分析装置2を動作させることによって実施される。このため、以下の説明は、適宜図10を参酌しながら、情報分析装置2の動作と共に説明する。
 図11に示すように、先ず、入力部10が、分析対象となる時系列データ(1)及び(2)と、それぞれの予め設定された対応区間を特定する情報(設定対応区間情報)との入力を受け付ける(ステップA11)。
 次に、対応区間選別部30は、時系列データ(1)の設定対応区間と変化が類似する対応区間を選別し、更に、時系列データ(2)の設定対応区間と変化が類似し、且つ、時系列データ(1)について選別された対応区間に対応する、対応区間を選別する(ステップA12)。
 次に、特徴抽出部40は、時系列データそれぞれの設定対応区間に属する文書と、時系列データそれぞれの選別された対応区間に属する文書とを特定し、対応区間毎に、特定された文書それぞれの特徴を抽出する(ステップA13)。
 続いて、比較部50は、設定対応区間から抽出された特徴と、選別された対応区間から抽出された特徴との間の特徴間距離を求め、求められた時系列データ毎の特徴間距離を比較し、比較結果を関連度算出部70に入力する(ステップA14)。
 その後、関連度算出部70は、比較部50による比較の結果に基づいて、一の設定対応区間と別の設定対応区間とについて関連度を算出する(ステップA15)。その後、関連度算出部70が、関連度を特定する分析データを外部に出力すると、情報分析装置2における処理は終了する。
 このように、本実施の形態2によれば、時系列データ(1)及び時系列データ(2)それぞれの部分的な区間に対する関連度を求めることができる。また、実施の形態2においても、実施の形態1と同様に、時系列データ(1)と(2)との変化パターンの偶然の一致によって、関連性が誤って判定されてしまう事態は回避される。また、本実施の形態2も、インターネット上の文書データ等で構成された文書集合のように、様々な原因で変動する大量の文書で構成された集合体の中から、関連度の高い文書集合を見つけ出す必要がある場合に、有効である。
 また、本実施の形態2におけるプログラムは、コンピュータに、図11に示すステップA11~A15を実行させるプログラムである。よって、情報分析装置2は、コンピュータに、このプログラムをインストールし、更にこれを実行させることによって、具現化することができる。この場合、コンピュータのCPU(central processing unit)は、対応区間選別部30、特徴抽出部40、比較部50及び関連度算出部70として機能し、処理を行なう。また、データベース60は、実施の形態1の場合と同様に、ハードディスク等の記憶装置にデータファイルを格納することによって、又はデータファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによって実現できる。
 本発明は、ブログ等のインターネット上の文書データや、コールセンターの応対履歴等の時間情報が付与された文書データ等の分析に利用できる。また、定期的に実行されるアンケート調査や市場調査の結果を分析する際において、関連する文書集合を求める目的にも利用できる。更に、本発明によれば、時間によって変化する文書集合間の関連度を適切に算出することができるので、文書検索のナビゲーションや、検索結果の分類等にも適用できる。
 1 情報分析装置(実施の形態1)
 2 情報分析装置(実施の形態2)
 10 入力部
 20 時系列データ生成部
 30 対応区間選別部
 31 対応区間ペア選別部
 32 類似対向区間ペア選別部
 40 特徴抽出部
 50 比較部
 60 データベース
 70 関連度
 80 出力部

Claims (15)

  1.  時間情報が付与された文書を含む文書集合に対して、情報分析を実行する情報分析装置であって、
     複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別する対応区間選別部と、
     複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出する特徴抽出部と、
     前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較する比較部と、
     前記比較部による比較の結果に基づいて、前記文書集合間の関連度を算出する関連度算出部とを備える、ことを特徴とする情報分析装置。
  2.  複数の前記文書集合の入力を受け付ける入力部と、
     入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する時系列データ生成部とを、更に備えている、請求項1に記載の情報分析装置。
  3.  前記入力部が2つの前記文書集合の入力を受け付け、前記時系列データ生成部が、2つの前記時系列データを生成している場合において、
     前記対応区間選別部が、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、2つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる2以上の区間を、前記対応して変化する2以上の区間として選別する、請求項2に記載の情報分析装置。
  4.  前記入力部が2つの前記文書集合の入力を受け付け、前記時系列データ生成部が、2つの前記時系列データを生成している場合において、
     前記対応区間選別部が、更に、2つの前記時系列データそれぞれについて、選別された前記対応して変化する2以上の区間の変化が相互に類似するかどうかを判定し、2つの前記時系列データ両方において、変化が相互に類似する2以上の区間が存在する場合は、一方の前記時系列データの相互に類似する2以上の区間それぞれと、他方の前記時系列データの相互に類似する2以上の区間それぞれとが対応しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合は、これらの区間を再度選別し、
     前記特徴抽出部が、2つの前記時系列データそれぞれについて、再度選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、
     前記比較部が、前記時系列データ毎に、再度選別された前記2以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項2または3に記載の情報分析装置。
  5.  前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付ける入力部を更に備え、
     前記入力部が2つの前記時系列データの入力を受け付け、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合において、
     前記対応区間選別部が、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データについて選別された前記区間に対応して変化する、区間を選別し、
     前記特徴抽出部が、2つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、前記区間毎に、2つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、特定された前記文書それぞれの特徴を抽出し、
     前記比較部が、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴係間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
     前記関連度算出部が、前記比較部による比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項1に記載の情報分析装置。
  6.  時間情報が付与された文書を含む文書集合に対して、情報分析を実行するための情報分析方法であって、
    (a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
    (b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
    (c)前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
    (d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを有する、ことを特徴とする情報分析方法。
  7. (e)前記(a)のステップの実行前に、複数の前記文書集合の入力を受け付けるステップと、
    (f)前記(e)のステップで入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する、ステップとを更に有する、請求項6に記載の情報分析方法。
  8.  前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
     前記(a)のステップにおいて、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、2つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる2以上の区間を、前記対応して変化する2以上の区間として選別する、請求項7に記載の情報分析方法。
  9.  前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
     前記(a)のステップにおいて、前記対応して変化する2以上の区間を選別した後に、更に、2つの前記時系列データそれぞれについて、選別された前記2以上の区間の変化が相互に類似するかどうかを判定し、2つの前記時系列データ両方に、変化が相互に類似する2以上の区間が存在する場合は、一方の前記時系列データの相互に類似する2以上の区間それぞれと、他方の前記時系列データの相互に類似する2以上の区間それぞれとが対応して変化しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合に、これらの区間を再度選別し、
     前記(b)のステップにおいて、2つの前記時系列データそれぞれについて、再度選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、
     前記(c)のステップにおいて、前記時系列データ毎に、再度選別された前記2以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項7または8に記載の情報分析方法。
  10. (g)前記(a)のステップの実行前に、前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付けるステップを更に有し、
     前記(g)のステップにおいて、2つの前記時系列データの入力が受け付けられ、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合に、
     前記(a)のステップにおいて、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データにおいて選別された前記区間に対応して変化する、区間を選別し、
     前記(b)のステップにおいて、2つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、2つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、前記区間毎に、特定された前記文書それぞれの特徴を抽出し、
     前記(c)のステップにおいて、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
     前記(d)のステップにおいて、前記(c)のステップによる比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項6に記載の情報分析方法。
  11.  時間情報が付与された文書を含む文書集合に対する情報分析をコンピュータに実行させるためのプログラムであって、
     前記コンピュータに、
    (a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
    (b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
    (c)前記時系列データ毎に、選別された前記2以上の区間における、前記一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
    (d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを実行させる、ことを特徴とするプログラム。
  12. (e)前記(a)のステップの実行前に、複数の前記文書集合の入力を受け付けるステップと、
    (f)前記(e)のステップで入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する、ステップとを、更に、前記コンピュータに実行させる、請求項11に記載のプログラム。
  13.  前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
     前記(a)のステップにおいて、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、2つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる2以上の区間を、前記対応して変化する2以上の区間として選別する、請求項12に記載のプログラム。
  14.  前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
     前記(a)のステップにおいて、前記対応して変化する2以上の区間を選別した後に、更に、2つの前記時系列データそれぞれについて、選別された前記2以上の区間の変化が相互に類似するかどうかを判定し、2つの前記時系列データ両方に、変化が相互に類似する2以上の区間が存在する場合は、一方の前記時系列データの相互に類似する2以上の区間それぞれと、他方の前記時系列データの相互に類似する2以上の区間それぞれとが対応して変化しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合に、これらの区間を再度選別し、
     前記(b)のステップにおいて、2つの前記時系列データそれぞれについて、再度選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、
     前記(c)のステップにおいて、前記時系列データ毎に、再度選別された前記2以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項12または13に記載のプログラム。
  15. (g)前記(a)のステップの実行前に、前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付けるステップを、更に、前記コンピュータに実行させ、
     前記(g)のステップにおいて、2つの前記時系列データの入力が受け付けられ、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合に、
     前記(a)のステップにおいて、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データにおいて選別された前記区間に対応して変化する、区間を選別し、
     前記(b)のステップにおいて、2つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、2つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、前記区間毎に、特定された前記文書それぞれの特徴を抽出し、
     前記(c)のステップにおいて、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴間距離係を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
     前記(d)のステップにおいて、前記(c)のステップによる比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項11に記載のプログラム。
PCT/JP2009/004752 2008-09-24 2009-09-18 情報分析装置、情報分析方法、及びプログラム WO2010035455A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010530725A JP5387578B2 (ja) 2008-09-24 2009-09-18 情報分析装置、情報分析方法、及びプログラム
US13/060,572 US20110153601A1 (en) 2008-09-24 2009-09-18 Information analysis apparatus, information analysis method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-244753 2008-09-24
JP2008244753 2008-09-24

Publications (1)

Publication Number Publication Date
WO2010035455A1 true WO2010035455A1 (ja) 2010-04-01

Family

ID=42059468

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/004752 WO2010035455A1 (ja) 2008-09-24 2009-09-18 情報分析装置、情報分析方法、及びプログラム

Country Status (3)

Country Link
US (1) US20110153601A1 (ja)
JP (1) JP5387578B2 (ja)
WO (1) WO2010035455A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012115254A1 (ja) * 2011-02-25 2012-08-30 楽天株式会社 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
WO2014034557A1 (ja) * 2012-08-31 2014-03-06 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体
JP2014085862A (ja) * 2012-10-24 2014-05-12 Kddi Corp 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
WO2014184928A1 (ja) * 2013-05-16 2014-11-20 株式会社日立製作所 検出装置、検出方法、および記録媒体
JP2018181296A (ja) * 2017-04-10 2018-11-15 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報提供装置、情報提供方法及びコンピュータープログラム
KR20210035622A (ko) * 2019-09-24 2021-04-01 주식회사 디셈버앤컴퍼니자산운용 시계열 데이터 유사도 계산 시스템 및 방법
WO2023144967A1 (ja) * 2022-01-27 2023-08-03 日本電信電話株式会社 処理装置、処理方法およびプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8407221B2 (en) * 2010-07-09 2013-03-26 International Business Machines Corporation Generalized notion of similarities between uncertain time series
JP5963310B2 (ja) * 2013-01-30 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、及び、情報処理プログラム
US9886422B2 (en) * 2014-08-06 2018-02-06 International Business Machines Corporation Dynamic highlighting of repetitions in electronic documents
JP5936240B2 (ja) * 2014-09-12 2016-06-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation データ処理装置、データ処理方法、およびプログラム
US9875228B1 (en) * 2015-03-06 2018-01-23 Google Llc Systems and methods for preserving conditional styles when copying and pasting between applications
WO2018235841A1 (ja) * 2017-06-20 2018-12-27 日本電気株式会社 グラフ構造解析装置、グラフ構造解析方法、及びコンピュータ読み取り可能な記録媒体
US11106664B2 (en) * 2018-05-03 2021-08-31 Thomson Reuters Enterprise Centre Gmbh Systems and methods for generating a contextually and conversationally correct response to a query
US11144734B2 (en) * 2019-06-12 2021-10-12 International Business Machines Corporation Self-learning natural-language generation rules engine with diachronic linguistic analysis

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JPH1125169A (ja) * 1997-06-30 1999-01-29 Toshiba Corp 相関関係抽出方法
JP2002251590A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 文書分析装置
JP2002351897A (ja) * 2001-05-22 2002-12-06 Fujitsu Ltd 情報利用頻度予測プログラム、情報利用頻度予測装置および情報利用頻度予測方法
JP2004206391A (ja) * 2002-12-25 2004-07-22 Mitsubishi Electric Corp 文書情報分析装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6598054B2 (en) * 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US6834266B2 (en) * 2001-10-11 2004-12-21 Profitlogic, Inc. Methods for estimating the seasonality of groups of similar items of commerce data sets based on historical sales data values and associated error information
US7570262B2 (en) * 2002-08-08 2009-08-04 Reuters Limited Method and system for displaying time-series data and correlated events derived from text mining
US20050171948A1 (en) * 2002-12-11 2005-08-04 Knight William C. System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space
US6871165B2 (en) * 2003-06-20 2005-03-22 International Business Machines Corporation Method and apparatus for classifying time series data using wavelet based approach
JP4773680B2 (ja) * 2003-08-07 2011-09-14 ソニー株式会社 情報処理装置および方法、プログラム記録媒体、並びにプログラム
US20060173668A1 (en) * 2005-01-10 2006-08-03 Honeywell International, Inc. Identifying data patterns
JP4772378B2 (ja) * 2005-05-26 2011-09-14 株式会社東芝 Webページから時系列データを生成する方法及び装置
JP5067556B2 (ja) * 2005-09-30 2012-11-07 日本電気株式会社 トレンド評価装置と、その方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JPH1125169A (ja) * 1997-06-30 1999-01-29 Toshiba Corp 相関関係抽出方法
JP2002251590A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 文書分析装置
JP2002351897A (ja) * 2001-05-22 2002-12-06 Fujitsu Ltd 情報利用頻度予測プログラム、情報利用頻度予測装置および情報利用頻度予測方法
JP2004206391A (ja) * 2002-12-25 2004-07-22 Mitsubishi Electric Corp 文書情報分析装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Proceedings of the 15th annual meeting of the Association for Natural Language Processing [CD-ROM], The Association for Natural Language Processing, 02 March 2009", 2 March 2009, article TAKASHI ONISHI ET AL.: "Jikeiretsu Bunseki ni yoru Web Bunsho no Joho Shinraisei Handan Shien: Jikeiretsu Henka Juyo Topic no Chushutsu", pages: 104 - 107 *
AKIHIKO NAKASE ET AL.: "Jikeiretsu Data Mining ni Okeru Sokan Kankei Hakken Hoshiki", ADVANCED DATABASE SYMPOSIUM '97, vol. 97, no. 11, 15 December 1997 (1997-12-15), pages 159 - 164 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103262079B (zh) * 2011-02-25 2015-04-01 乐天株式会社 检索装置及检索方法
JP2012178026A (ja) * 2011-02-25 2012-09-13 Rakuten Inc 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
CN103262079A (zh) * 2011-02-25 2013-08-21 乐天株式会社 检索装置、检索方法、检索程序、及存储该程序的计算机可读取记录介质
KR101346927B1 (ko) * 2011-02-25 2014-01-03 라쿠텐 인코포레이티드 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
WO2012115254A1 (ja) * 2011-02-25 2012-08-30 楽天株式会社 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
US10140361B2 (en) 2012-08-31 2018-11-27 Nec Corporation Text mining device, text mining method, and computer-readable recording medium
JPWO2014034557A1 (ja) * 2012-08-31 2016-08-08 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びプログラム
WO2014034557A1 (ja) * 2012-08-31 2014-03-06 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体
JP2014085862A (ja) * 2012-10-24 2014-05-12 Kddi Corp 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
WO2014184928A1 (ja) * 2013-05-16 2014-11-20 株式会社日立製作所 検出装置、検出方法、および記録媒体
GB2528792A (en) * 2013-05-16 2016-02-03 Hitachi Ltd Detection device, detection method, and recording medium
JPWO2014184928A1 (ja) * 2013-05-16 2017-02-23 株式会社日立製作所 検出装置、検出方法、および記録媒体
JP2018181296A (ja) * 2017-04-10 2018-11-15 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報提供装置、情報提供方法及びコンピュータープログラム
JP7080029B2 (ja) 2017-04-10 2022-06-03 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報提供装置、情報提供方法及びコンピュータープログラム
KR20210035622A (ko) * 2019-09-24 2021-04-01 주식회사 디셈버앤컴퍼니자산운용 시계열 데이터 유사도 계산 시스템 및 방법
KR102536201B1 (ko) * 2019-09-24 2023-05-24 주식회사 디셈버앤컴퍼니자산운용 시계열 데이터 유사도 계산 시스템 및 방법
WO2023144967A1 (ja) * 2022-01-27 2023-08-03 日本電信電話株式会社 処理装置、処理方法およびプログラム

Also Published As

Publication number Publication date
US20110153601A1 (en) 2011-06-23
JPWO2010035455A1 (ja) 2012-02-16
JP5387578B2 (ja) 2014-01-15

Similar Documents

Publication Publication Date Title
JP5387578B2 (ja) 情報分析装置、情報分析方法、及びプログラム
Shu et al. Beyond news contents: The role of social context for fake news detection
Mandal et al. Measuring similarity among legal court case documents
US7788086B2 (en) Method and apparatus for processing sentiment-bearing text
Wang et al. Automatic online news topic ranking using media focus and user attention based on aging theory
US9251249B2 (en) Entity summarization and comparison
US20060200342A1 (en) System for processing sentiment-bearing text
WO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
WO2017013667A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
CN101692223A (zh) 响应于用户输入精炼搜索空间
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
Moghaddam et al. Opinion polarity identification through adjectives
CN105975459A (zh) 一种词项的权重标注方法和装置
US9245023B2 (en) Reputation analysis system and reputation analysis method
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
Velmurugan et al. Mining implicit and explicit rules for customer data using natural language processing and apriori algorithm
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
Venkataraman et al. Classifying the sentiment polarity of Amazon mobile phone reviews and their ratings
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
Setievi et al. A Comparative Study of Supervised Machine Learning Algorithms for Fake Review Detection
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
KR101614551B1 (ko) 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법
US20170249317A1 (en) Search-based recommendation engine
Elavarasan et al. Effective Mining Approach to Produce Quality Search Results Using Proposed Approach.
US11928427B2 (en) Linguistic analysis of seed documents and peer groups

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09815877

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13060572

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010530725

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09815877

Country of ref document: EP

Kind code of ref document: A1