WO2009116342A1 - 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体 - Google Patents

動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体 Download PDF

Info

Publication number
WO2009116342A1
WO2009116342A1 PCT/JP2009/052630 JP2009052630W WO2009116342A1 WO 2009116342 A1 WO2009116342 A1 WO 2009116342A1 JP 2009052630 W JP2009052630 W JP 2009052630W WO 2009116342 A1 WO2009116342 A1 WO 2009116342A1
Authority
WO
WIPO (PCT)
Prior art keywords
information source
source type
topic
storage means
data
Prior art date
Application number
PCT/JP2009/052630
Other languages
English (en)
French (fr)
Inventor
聡 森永
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2010503801A priority Critical patent/JP5397370B2/ja
Publication of WO2009116342A1 publication Critical patent/WO2009116342A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to a dynamic topic analysis system, a dynamic topic analysis method, and a medium on which a dynamic topic analysis program is recorded.
  • a system that analyzes how and when a topic is excited about a text data set with a time stamp is called a dynamic topic analysis system.
  • the “degree of excitement at a certain point in time for a certain topic” is referred to as the degree of activity of the topic at that point in time.
  • the dynamic topic analysis system includes a computer 1, text data input means 2, and result output means 4 as shown in FIG.
  • the computer 1 includes text data input means 2, text data storage means 101, text grouping means 102, grouping result storage means 103, time stamp counting means 104, counting result storage means 105, and result output means 4.
  • the dynamic topic analysis system having such a configuration operates as follows.
  • the text data input means 2 inputs a text data set with a time stamp
  • the text grouping means 102 groups the text data set into those containing similar contents / topics.
  • the time stamp data of the text data belonging to each group is totaled for each period, thereby analyzing when and how much text data belongs to the group.
  • the result output means 4 the time stamp totaling means The analysis result by 104 is output as the topic activity of “what topic was excited when and how much”.
  • the text grouping means 102 is generally implemented by a text clustering technique, and operates on the principle that texts with similar expressions are included in the same group.
  • the text grouping means 102 may be implemented by a text classification technique, and operates on the principle of determining which group each text belongs to in accordance with a predetermined text classification rule. As a special case, a group to which only a word is present may be determined, such as “a text including a certain word belongs to this group”. In the text grouping means 102, one text may belong to an arbitrary number of groups including zero. Furthermore, a certain text is not a binary value indicating whether or not it belongs to a certain group, but is often subjected to a multi-valued determination such as “slightly belongs” or “a third belongs”.
  • time stamp counting means 104 from the result of the text grouping means 102 and the time stamp data of each text, which group has how many texts in each time period with respect to a time period time period such as daily or weekly. Whether it is included is counted. In addition to counting the number of simple texts, a relative number such as the ratio of the number of texts belonging to the group to the total number of texts in the period may be counted. There are also cases where time series processing such as moving average, median filter, and difference is performed on the aggregation results.
  • each topic obtained as a result of grouping by the text grouping means 102
  • the result of counting by the time stamp counting means 104 will be referred to as the activity of the topic.
  • Patent Documents 1 to 4 Examples of dynamic topic analysis systems are described in Patent Documents 1 to 4 and Non-Patent Document 1.
  • An information filtering device disclosed in Japanese Patent Application Laid-Open No. 2000-227920 discloses an input of a threshold value for determining a difference between a feature related to a topic in which a user is interested and another topic, and a shared topic
  • a means for outputting shared information in accordance with the above a means for searching for information that may be shared between users on the network, a database for storing information shared with user input information, between topics and topics Means to determine similarity between information, means to calculate each topic and the degree of activity indicating whether or not information should be shared, and to exclude and share information that does not match the topic shared by the activity
  • the control means which leaves only the information according to the topic to be provided is provided.
  • “activity” is used to mean “how much a certain topic is likely to be interested in the user”. It is determined whether or not the user is interested.
  • the “activity” of the present invention is used to mean “a degree of excitement at a certain point in time”, and the present invention is a topic activity of “what topic was excited when and how much”. Are analyzed and output.
  • the topic analysis device of Patent Document 2 Japanese Patent Laid-Open No. 2005-352613 detects a topic while sequentially reading data in a situation where text data is added over time.
  • a learning means to learn the topic generation model online while expressing it as a mixed distribution model and forgetting the past data as hard as the time stamp of the data, and the information criterion in the topic generation model of multiple candidates
  • Model selection means for selecting an optimal topic generation model based on the topic, and the topic is detected as a mixed component thereof.
  • Patent Document 2 divides the text into topics, but is different from the present invention in that there is no mechanism for correcting the input when there is a defect in the input.
  • Patent Document 3 Japanese Patent Laid-Open No. 2006-260052
  • a keyword with a small variation in the number of times of input is set as a stable word, and the number of times of input of the stable word is compared to determine whether the missing determination target date is a missing date.
  • the total value of the number of keyword inputs per day for four weeks including the week in which the missing date exists is calculated, and the correction coefficient is calculated using the calculated total value.
  • the number of inputs is corrected by multiplying the correction coefficient by the number of input times of each keyword on the missing date.
  • the keyword analysis system of Patent Document 3 uses a relationship between time series of a plurality of topics, and the input data has a certain type of loss method (data for the period to be corrected is not completely lost, If there is an amount that can be obtained and statistically stable estimation is possible), the correction is made and the activity is output.
  • the present invention has means for correcting using a time series of a single topic, and further, when there are a plurality of input data sources, the relationship between them.
  • the present invention is different in that correction can be performed even if data for a period to be corrected is completely lost, and as a special case, activity at a future time point can also be predicted.
  • the handler management system disclosed in Patent Document 4 is a handler management system including a handler and a management server that collects and manages the operation information.
  • the management server records the operating state of the handler.
  • Operation information collecting means for collecting operation information including operation monitoring information in which a time stamp is added to the information is provided.
  • the handler management system disclosed in Patent Document 4 manages factory resources such as semiconductors and is completely different from the dynamic topic analysis system of the present invention.
  • the term “time stamp” is used, the time stamp is a general name, and even if this is common, it is not relevant to the present invention.
  • Non-Patent Document 1 (Morinaga, Yamanishi (S. Morinaga and K. Yamanishi), “Tracking Dynamics of Topic Trends Using a Finite Mixture Model”, Knowledge Discovery and Data Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD2004), (USA), CM Press (ACM Press), 2004 , p. 1-6) Track trending dynamics of topic trends using finite mixture models is important in real time as needed, with as little storage capacity and processing time as possible for text data added over time. Identifies the number of topics, generation and disappearance, and major topics Extracting features, whereby even if the contents of a single topic is changed, a topic analysis method has to be able to know it.
  • Non-Patent Document 1 divides the text into topics, but there is no mechanism for correcting when there is a deficiency in the input. This is different from the present invention.
  • the problem with the dynamic topic analysis system described above is that it is necessary to input all the periods and texts that are to be subjected to dynamic topic analysis, and dynamic topic analysis is performed only on the input text data. It is not possible.
  • the reason is that tabulation is performed based on the grouping result of the input text with time stamp.
  • An object of the present invention is to provide a dynamic topic analysis system and a dynamic topic that can estimate and output the topic activity when all the periods and texts to be subjected to dynamic topic analysis are input without inputting them.
  • An object is to provide a medium in which an analysis method and a dynamic topic analysis program are recorded.
  • the dynamic topic analysis system of the present invention includes a text data storage unit that stores a text group with a time stamp as text data, a text data input unit that inputs a text group with a time stamp as text data into the text data storage unit, and a text Text grouping means for reading out text data stored in the data storage means, grouping the text data into groups of those containing similar contents or topics, and outputting each group as a topic to the grouping result storage means, and Grouping result storage means for storing a group as each topic, each topic stored in the grouping result storage means, and text data stored in the text data storage means are read, and text belonging to each topic
  • a time stamp that outputs the activity time-series data of each topic to the aggregation result storage means with the degree of excitement at a certain point in time as the activity level at that point in time for the topic.
  • Totaling means totaling result storage means for storing activity time-series data for each topic, and information on data and periods that are not input from the text data input means in the text data and periods to be subjected to dynamic topic analysis ,
  • Deficiency status input means for inputting data to the deficiency status storage means, deficiency status storage means for storing data deficiency status, and activity time-series data and deficiencies for each topic stored in the summary result storage means
  • Time series interpolation prediction means that performs interpolation and prediction on the data, estimates the value of activity time series data of each topic when there is no missing data, and outputs to the interpolation prediction result storage means, and each topic Interpolation prediction result storage means for storing the estimation results of the activity time-series data, and result output means for reading out and outputting the estimation results of the activity time-series data of each topic stored in the interpolation prediction result storage means
  • a text data input unit inputs a text group with a time stamp to the text data storage unit as text data
  • a text data storage unit uses the text group with a time stamp.
  • a text data storage step for storing as text data, and a text grouping means reads the text data stored in the text data storage means, groups the text data into groups containing similar contents or topics, and each group
  • the stage reads each topic stored in the grouping result storage means and the text data stored in the text data storage means, totals the text data belonging to each topic for each period, and at a certain point in time for a certain topic
  • the time stamp counting step for outputting the activity time series data of each topic to the counting result storing means, and the counting result storing means are the activity time series of each topic.
  • Data storage step and data missing period input means the text data or period that the missing condition input means wants to be the subject of dynamic topic analysis.
  • the stage includes a missing situation storage step for storing the missing situation of the data, and a time series interpolation prediction means for the activity time series data of each topic stored in the total result storage means and the data stored in the missing situation storage means.
  • a time series interpolation prediction step for outputting to the interpolation prediction result storage means, an interpolation prediction result storage means, an interpolation prediction result storage step for storing the estimation result of the activity time series data of each topic, and a result output means And a result output step of reading out and outputting the estimation result of the activity time series data of each topic stored in the interpolation prediction result storage means.
  • a computer inputs text data storage means for storing a time-stamped text group as text data and text data storage means for storing the time-stamped text group as text data.
  • Reads text data stored in the text data input means and text data storage means groups the text data into groups containing similar contents or topics, and outputs each group as a topic to the grouping result storage means
  • Text grouping means, grouping result storage means for storing each group as a topic, each topic stored in the grouping result storage means, and text data stored in the text data storage means
  • the text data belonging to each topic is aggregated for each period, and the degree of excitement at a certain point in time for a topic is used as the degree of activity at that point in time, and the activity time series data for each topic is stored as a result of aggregation.
  • Timestamp totaling means for outputting to means, totaling result storing means for storing activity time series data of each topic, and text data to be subjected to dynamic topic analysis, and text data that was not input from the text data input means
  • Activity of each topic stored in the deficiency status input means for inputting data and information relating to the period to the deficiency status, the deficiency status storage means for storing data deficiency status, and the total result storage means
  • Time series interpolation prediction means, interpolation prediction result storage means for storing activity time series data estimation results for each topic, and activity time series data estimation results for each topic stored in the interpolation prediction result storage means
  • a dynamic topic analysis program for reading out, outputting
  • the present invention outputs the topic activity by complementing or predicting data from the topic activity time series data in the input text. Therefore, the entire period / text to be subjected to dynamic topic analysis is input. Even if it is not, the topic activity can be output by compensating for the topic activity in the text data not input.
  • the first embodiment of the present invention is a computer (central processing unit; processor; data processing unit; storage unit) 1 that operates by program control, text data input means 2, and missing situation input. It comprises means 3 and result output means 4.
  • a computer (central processing unit; processor; data processing unit; storage device) 1 includes a text grouping unit 102, a text data storage unit 101, a text grouping unit 102, a grouping result storage unit 103, a time stamp totaling unit 104, and a totaling result storage unit. 105, a deficiency situation storage means 106, a time series complementary prediction means 107, and a complementary prediction result storage means 108.
  • the computer 1 takes in a text group with a time stamp through a text data input means 2 constituted by a user information input device such as a communication device, a storage device, and a keyboard. Similarly, a user such as a communication device, a storage device, a keyboard, etc.
  • the text data desired to be subject to topic analysis and the data not inputted from the text data input means 2 in the period are taken in via the deficiency situation input means 3 constituted by an information input device or the like, and the information related to the period will be described below.
  • the dynamic topic analysis result is output to the result output means 4 configured by a user information output / presentation device such as a communication device, a storage device, and a display.
  • the text group with the time stamp input from the text data input means 2 is stored as text data 101 in the storage device of the computer 1.
  • the text grouping means 102 divides the stored text data 101 by a known text division technique such as text clustering or text classification. Each result of this division is called a topic.
  • the input text group is divided into topics 1 related to a topic, divided into topics 2 related to another topic, or satisfying certain conditions such as the presence or absence of a specific word. Is divided into Topic 1 and those satisfying the condition such as the presence or absence of another word are divided into Topic 2, and so on.
  • one text may belong to any number of topics including zero. Further, instead of the binary of whether or not a certain text belongs to a certain topic, a soft determination such as “slightly belongs” or “one third belongs” may be performed.
  • the output of the text grouping means 102 is accumulated as a grouping result 103 in the storage device of the computer 1.
  • time stamp totaling means 104 from the grouping result 103 and the time stamp data of each text of the text data 101, which topic has how many texts in each time period with respect to the time period time period such as daily or weekly. Are included.
  • a relative number such as the ratio of the number of texts belonging to the topic in the total number of texts in the period may be counted.
  • time series processing such as moving average, median filter, and difference is performed on the aggregation results.
  • the output of the time stamp counting means 104 is time series data indicating which topic has how much activity in which period, and is accumulated as a counting result 105 in the storage device of the computer 1.
  • the activity of the topic A accumulated in the tabulation result 105 in the period band t is expressed as X_A (t).
  • the data or period information that is not input from the text data input means 2 is taken into the computer 1 from the missing situation input means 3 and is lost in the storage device of the computer 1.
  • the missing situation includes a period / period in which text data is not entered, a period in which text data is not entered at all, and a coverage ratio / missing rate of input text data in that period (target of dynamic topic analysis) Information such as the ratio of text data input / not input) with respect to the text data desired to be stored.
  • the period of data that is missing in the text data 101 is found without being input from the missing situation input means 3, it may be accumulated as the missing situation 106.
  • the time-series interpolation predicting means 107 identifies a period in which (all of) the text data is not input from the missing situation 106, and also uses the information when the coverage ratio and missing percentage are accumulated in the missing situation 106. Thus, interpolation or prediction is performed on the activity time series data for the specified period from the time series data accumulated in the total result 106. This interpolation and prediction is based on known time series data interpolation and prediction techniques. For example, if the input text data is missing in a certain period, the activity of each topic in the tabulation result 105 is different from that in the period when it is not missing. It is obtained by linear interpolation or the like from the activity time series of the period before and after the missing period. Further, when input text data after a certain point in time is not input at all, the activity of the period is obtained using a linear predictor from the activity time series data before that.
  • the time series interpolation prediction unit 107 may perform parameter adjustment or more generally learning of distribution or the like adaptively from the data of the aggregation result 105, instead of performing interpolation or prediction by a predetermined method.
  • interpolation or prediction parameters are obtained using activity time series data during a period when input text data is available, and are used for interpolation or prediction of activity time series data during a period when input text data is missing. And so on.
  • topic A activity time-series data for interpolation and prediction of topic A activity time-series
  • learning can be performed using activity time-series data of other topics. Good. This corresponds to expecting that the activity time-series pattern of the topic is similar in the meaning of the time-series interpolation prediction means 107.
  • the time series data obtained by interpolating and predicting the time series data of the total result 105 by the time series interpolation prediction means 107 is stored as the interpolation prediction result 108 in the storage device of the computer 1.
  • Accumulated in the interpolation prediction result 108 is a prediction of the activity of each topic when all text data for the period desired to be subjected to dynamic topic analysis is input.
  • the activity of the topic A accumulated in the interpolation prediction result 108 in the period band t is represented as Y_A (t).
  • the activity time series data of each topic accumulated in the interpolation prediction result 108 is a result output means as an estimation result of the activity of each topic when all text data of a period desired to be subjected to dynamic topic analysis is input. 4 is output.
  • a text group with a time stamp is taken into the computer 1 from the text data input means 2 and stored as text data 101 (step S1-1 in FIG. 3).
  • the stored text data is grouped by the text grouping means 102, and which text belongs to which topic is stored as a grouping result 103 (step S1-2).
  • the time stamp totaling unit 104 totals which topic contains how much text in each period of the time axis, and the time series data of the activity level of each topic is the totaled result. 105 is stored (step S1-3).
  • the text data or period to be subjected to the dynamic topic analysis is a period / period in which text data is not input, a period that is not all, or a period in which it is not input.
  • Information such as the coverage ratio / missing rate of input text data (the ratio of text data input / not input with respect to the text data to be subjected to dynamic topic analysis), etc. (Step S1-4).
  • the time series interpolation predicting means 107 identifies a period in which (all of) the text data is not input from the missing situation 106, and information on the case where the coverage rate and missing rate are accumulated in the missing situation 106 as well. Is also used to perform interpolation and prediction related to the period specified for the activity time series data accumulated in the total result 106, accumulate as the interpolation prediction result 108, and output to the result output unit 4. (Step S1-5).
  • step S1-4 does not depend on the processing of steps S1-1, S1-2, and S1-3, S1-4 may be executed at any timing before S1-5.
  • next step is executed after each step is completed.
  • pipeline processing that is, for all texts, is performed.
  • counting by a time stamp may be started.
  • the text grouping means 102 and the time stamp counting means 104 may be simultaneously performed without separating them by a method such as directly counting the time stamps without accumulating the grouping result 103.
  • text grouping may be performed simultaneously with text input. The same applies to the result output and others.
  • the time series interpolation prediction unit 107 is configured to correct the total result in accordance with the text input missing situation, so that the period to be the target of the dynamic topic analysis Without inputting all the text data, it is possible to estimate and output the activity time series data when they are input.
  • the second embodiment of the present invention is a computer (central processing unit; processor; data processing unit; storage unit) 1 that operates by program control, text data input means 2, and missing situation input. It comprises means 3 and result output means 4.
  • a computer (central processing unit; processor; data processing unit; storage unit) 1 includes a text grouping unit 102, a text data storage unit 101-2, a text grouping unit 102, a grouping result storage unit 103, and a time stamp totaling unit for each information source type.
  • 104-2 information source type totaling result storage unit 105-2, information source type deficiency status storage unit 106-2, time series complementary prediction unit 107-2, information source type complementary prediction result storage unit 109, recounting Means 110 and complementary prediction result storage means 108.
  • the computer 1 takes in a text group having a time stamp and information source type distinction via a text data input means 2 configured by a user information input device such as a communication device, a storage device, and a keyboard.
  • the dynamic topic analysis result is output to the result output means 4 constituted by a user information presentation device such as a communication device, storage device, display, etc. Output.
  • the text group input from the text data input means 2 and distinguished from the time stamp and the information source type is stored as text data 101-2 in the storage device of the computer 1.
  • each text is accompanied by a time stamp.
  • each text is accompanied by a distinction of information source type.
  • the distinction of information source type means, for example, the origin of the text data, whether each input text was obtained from a "news site” or from a "company press release”. Whether it was a “blog of blogger YY” or not.
  • the information source type is not distinguished by the content of the source as in the above example, but from the text acquired from “sites established before 2005”, “sites linked from more than 100 sites” The distinction may be based on attributes other than the content such as the acquired text.
  • the text grouping means 102 operates in the same manner as that in the first embodiment. That is, the stored text data 101-2 is divided by a known text division technique such as text clustering or text classification. The output of the text grouping means 102 is accumulated as a grouping result 103 in the storage device of the computer 1.
  • the grouping result 103 and the time stamp data of each text of the text data 101-2 are distinguished from the information source type, so that the time stamp period such as daily or weekly is displayed.
  • the time stamp period such as daily or weekly is displayed.
  • each period which topic contains how many texts is tabulated for each type of information source.
  • the information source type represents the source of the text data in the above example
  • the text belonging to topic A is X in period t
  • the output of the time stamp totaling means 104-2 for each information source type is time-series data indicating which topic has how much activity in which time period for each distinction of each information source type. Is stored as the total result 105-2 for each information source type.
  • the activity level of the topic A in the period band t in the information source type j stored in the total result 105-2 for each information source type is expressed as X ⁇ j_A (t).
  • the information regarding the distinction of the information source type and the period of the data not input from the text data input means 2 is taken into the computer 1 from the missing situation input means 3 and the computer 1
  • the information is stored as the information source type deficiency situation 106-2 in one storage device.
  • the information source type deficiency situation 106-2 includes a period / period in which text data having a distinction of a specific information source type has not been input, a period in which text data has not been input, but not all, Coverage rate / missing rate of input text data with distinction of the information source type (text of the information source type input / not input for the text data of the information source type to be subjected to dynamic topic analysis) Information such as the ratio of data) is accumulated.
  • the time-series interpolation predicting means 107-2 identifies a period during which (all of) the text data for each information source type is not input from the information source type missing situation 106-2, and similarly, the information source type missing situation 106- When the coverage rate and loss rate of the information source type are accumulated in 2, the information is also used, and the multidimensional time-series data accumulated in the total result 105-2 by information source type is Interpolation and prediction are performed for the specified period of each information source type. This interpolation and prediction is based on known time series data interpolation and prediction techniques.
  • the difference between the time series interpolation prediction means in the first embodiment and the second embodiment is that the time series used for interpolation and prediction of the activity time series of a topic is one-dimensional in the first embodiment. In the second embodiment, it is N-dimensional.
  • the activity time series before interpolation and prediction is coarse-grained information that is totaled, but in the second embodiment, the information source Since the activity time series for each type can be used, it can be expected that more accurate interpolation and prediction can be realized.
  • the activity of the information source type in this period is determined as the previous or next missing data.
  • the activity of the information source type is strongly dependent on the activity of another information source type ( If there is a large negative correlation)
  • the activity of the missing information source type during the period can be obtained by linear regression or the like using the activity of the other information source type.
  • using a linear predictor that reflects the time delay relationship between information source types from the previous N-dimensional activity time series by information source type The activity for each information source type during the period is obtained.
  • the time-series interpolation prediction unit 107-2 does not perform interpolation or prediction by a predetermined method, but adaptively sets the parameter based on the data of the total result 105-2 for each information source type. It may be one that performs adjustment or learning of distribution in general. For example, interpolation or prediction parameters are obtained using activity time series data during a period when necessary input text data is available for a certain information source type, and the input text data for that information source type is lost. It is used for interpolation and prediction of activity time series data during a certain period. In this case, it is not always necessary to use topic A activity time-series data for interpolation and prediction of topic A activity time-series, and learning can be performed using activity time-series data of other topics. Good. This corresponds to the expectation that the activity time-series pattern of the topic is similar in the meaning of the time-series interpolation prediction means 107-2.
  • the time series data obtained by interpolating / predicting the time series data of the total results 105-2 for each information source type by the time series interpolation prediction means 107-2 is stored in the storage device of the computer 1 as the interpolation prediction result 109 for each information source type. Accumulated. What is stored in the interpolation prediction result 109 for each information source type is a prediction of the activity level of each topic for each type of information source type when all text data for the period to be subjected to dynamic topic analysis is input. It is.
  • the re-aggregation unit 110 calculates the total activity of the information source type-specific interpolation prediction result 109 in the direction of the information source type, obtains the overall activity without distinguishing the information source type, and performs interpolation prediction on the storage device of the computer 1. Accumulate as result 108.
  • Y_A (t) Y ⁇ , where Y_A (t) is the activity level of topic A in period t when all text data for the period to be subjected to dynamic topic analysis is input without distinction of information source type. 1_A (t) +,... + Y ⁇ N_A (t). For each A and t, Y_A (t) is accumulated as the interpolation prediction result 108. Further, the recounting unit 110 can calculate partial activity time series data of each topic that does not distinguish only a specific information source type.
  • the activity time series data of each topic accumulated in the interpolation prediction result 108 is output to the result output means 4 as the activity of each topic when all the text data of the period to be subjected to the dynamic topic analysis is input. Is done. However, when it is desired to output the information source type-specific interpolation prediction result 109 itself before recalculation, it may be output.
  • the interpolation prediction result 109 for each information source type is an estimate of “what information source type and what is exciting” even though there is missing data.
  • a text group with a time stamp is taken into the computer 1 from the text data input means 2 and stored as text data 101-2 (step S2-1 in FIG. 5).
  • the stored text data is grouped by the text grouping means 102, and which text belongs to which topic is stored as a grouping result 103 (step S2-2).
  • the grouping result 103 is aggregated according to the type of information source by the time stamp totaling means 104-2 for each information source type, and for each period of the time axis, which topic contains how much text is classified according to the type of information source.
  • the time series data of the activity level of each topic is accumulated as the total result 105-2 for each information source type (step S2-3).
  • the missing situation input means 3 in the text data or period to be subjected to the dynamic topic analysis, the period / period in which the text data for each information source type is not input, Coverage rate / missing rate of input text data for each information source type during that period (the information source that has been entered / not entered for the text data of each information source type to be subjected to dynamic topic analysis)
  • the information such as the ratio of the text data of the type is taken in and stored in the computer 1 as the information source type deficiency situation 106-2 (step S2-4).
  • the time series interpolation prediction means 107-2 identifies a period during which (all of) the text data for each information source type is not input from the information source type deficiency situation 106-2, and also the information source type deficiency.
  • the coverage rate and the loss rate of the information source type are accumulated in the situation 106-2, the information is also used, and the multidimensional time series data accumulated in the total result 105-2 for each information source type is used.
  • the interpolation and prediction of the activity during the specified period of each information source type is performed and accumulated in the computer 1 as the information source type-specific interpolation prediction result 109 (step S2-5).
  • the recalculation means 110 sums up the interpolation prediction result 109 for each information source type in the direction of the information source type, obtains the total activity for each topic without distinguishing the information source type, and the interpolation prediction result 108. And output to the result output means 4 (step S2-6).
  • ⁇ S2-4 can be executed at any timing before S2-5.
  • the activity level is calculated for each information source type by the information source type time stamp counting means, and fine interpolation and prediction are performed based on a multi-dimensional activity time series. Because it is configured in this way, even if you do not input all text data for the period you want to be the target of dynamic topic analysis, when you estimate and output the activity time series data when they are input, The accuracy of the estimation can be increased. In addition, when outputting the activity level for each information source type, it is not necessary to input all text data for the period to be subjected to dynamic topic analysis. Time series data can be estimated and output.
  • the third embodiment of the present invention is a computer (central processing unit; processor; data processing unit; storage unit) 1 that operates by program control, text data input means 2, and missing situation input. It comprises means 3, result output means 4, and information source type upper hierarchy output means 5.
  • a computer (central processing unit; processor; data processing unit; storage unit) 1 includes a text grouping unit 102, a text data storage unit 101-2, a text grouping unit 102, a grouping result storage unit 103, and a time stamp totaling unit for each information source type.
  • 104-2 information source type-by-information source totaling result storage unit 105-2, information source type-by-information source defect state storage unit 106-2, time-series complementary prediction unit 107-3, information source type-by-information source type complementary prediction result storage unit 109, recounting Means 110, complementary prediction result storage means 108, interpolation prediction parameter storage means 111, information source type upper hierarchy definition means 112, and definition result storage means 113.
  • the computer 1 takes in a text group having a time stamp and information source type distinction via a text data input means 2 configured by a user information input device such as a communication device, a storage device, and a keyboard.
  • the information source type upper layer output unit 5 configured I, outputs the upper hierarchy definition result of the information source type.
  • the text group input from the text data input means 2 and distinguished from the time stamp and the information source type is stored as text data 101-2 in the storage device of the computer 1.
  • the information source type is associated with each text in addition to the time stamp.
  • the distinction of information source type means, for example, the origin of the text data, whether each input text was obtained from a "news site” or from a "company press release”. Whether it was a “blog of blogger YY” or not.
  • the information source type is not distinguished by the content of the source as in the above example, but from the text acquired from “sites established before 2005”, “sites linked from more than 100 sites” The distinction may be based on attributes other than the content such as the acquired text.
  • the text grouping means 102 operates in the same manner as that in the first embodiment and the second embodiment. That is, the stored text data 101-2 is divided by a known text division technique such as text clustering or text classification. The output of the text grouping means is stored as a grouping result 103 in the storage device of the computer 1.
  • the grouping result 103 and the time stamp data of each text of the text data 101-2 are distinguished from the information source type, so that the time stamp period such as daily or weekly is displayed.
  • the definition result 113 may also be used as information source type distinction.
  • the information source type represents the source of the text data in the above example
  • the text belonging to topic A is X in period t
  • the output of the time stamp totaling means 104-3 for each information source type is time-series data indicating which topic has how much activity in which time period for each distinction of each information source type. Is stored as the total result 105-2 for each information source type.
  • the activity level of the topic A in the period band t in the information source type j stored in the total result 105-2 for each information source type is expressed as X ⁇ j_A (t).
  • the information regarding the distinction of the information source type and the period of the data not input from the text data input means 2 is taken into the computer 1 from the missing situation input means 3 and the computer 1
  • the information is stored as the information source type deficiency situation 106-2 in one storage device.
  • the information source type deficiency situation 106-2 includes a period / period in which text data having a distinction of a specific information source type has not been input, a period in which text data has not been input, but not all, Coverage rate / missing rate of input text data with distinction of the information source type (text of the information source type input / not input for the text data of the information source type to be subjected to dynamic topic analysis) Information such as the ratio of data) is accumulated.
  • the time-series interpolation predicting means 107-3 specifies a period in which the text data (all of the information source types) are not input from the information source type missing situation 106-2. Similarly, when the coverage rate and the loss rate of the information source type are stored in the information source type deficiency situation 106-2, the information is also used to store the information source type total result 105-2. Interpolation or prediction is performed on the specified time period of each information source type for the existing multidimensional time series data. This interpolation and prediction is based on known time series data interpolation and prediction techniques.
  • the time-series interpolation prediction unit 107-3 does not perform interpolation or prediction by a predetermined method, but adaptively adjusts parameters or more generally learns distributions or the like from the data of the total results 105-2 by information source type. It may be something to do. For example, interpolation or prediction parameters are obtained using activity time series data during a period when necessary input text data is available for a certain information source type, and the input text data for that information source type is lost. It is used for interpolation and prediction of activity time series data during a certain period. In this case, it is not always necessary to use topic A activity time-series data for interpolation and prediction of topic A activity time-series, and learning can be performed using activity time-series data of other topics. Good. This corresponds to the expectation that the activity time series pattern of the topic is similar in the meaning of the time series interpolation prediction means 107-3.
  • the learning results of the interpolation and prediction parameters, the distribution, etc. used by the time-series interpolation prediction means 107-3, stored in the storage device of the computer 1, are used. Further, an amount that can be calculated from them is referred to as an interpolation prediction parameter 111.
  • the time series interpolation prediction means 107-3 is one that performs adaptive or distribution learning in the above sense, the interpolation prediction parameter 111 may change over time.
  • the time-series data obtained by interpolating / predicting the time-series data of the total result 105-2 by the time-series interpolation prediction unit 107-3 is stored as the interpolation prediction result 109 for each information source type in the storage device of the computer 1.
  • the information stored in the interpolation prediction results for each source type is an estimate of the activity of each topic for each source type distinction when all text data for the period of interest for dynamic topic analysis is entered. is there.
  • the activity in the period band t of the topic A in the information source type j accumulated in the information source type-specific interpolation prediction result 109 is expressed as Y ⁇ j_A (t).
  • j 1,...
  • the re-aggregation unit 110 calculates the total activity of the information source type-specific interpolation prediction result 109 in the direction of the information source type, obtains the overall activity without distinguishing the information source type, and performs interpolation prediction on the storage device of the computer 1. Accumulate as result 108.
  • Y_A (t) Y ⁇ , where Y_A (t) is the activity level of topic A in period t when all text data for the period to be subjected to dynamic topic analysis is input without distinction of information source type. 1_A (t) +, ..., + Y ⁇ N_A (t). For each A and t, Y_A (t) is accumulated as the interpolation prediction result 108.
  • the activity time series data of each topic accumulated in the interpolation prediction result 108 is output to the result output means 4 as the activity of each topic when all the text data of the period to be subjected to the dynamic topic analysis is input. Is done. However, when it is desired to output the information source type-specific interpolation prediction result 109 itself before recalculation, it may be output.
  • the interpolation prediction result 109 for each information source type is an estimate of “what information source type and what is exciting” even though there is missing data.
  • the information source type upper layer definition means 112 defines several information source types as one new information source type, and is newly defined as the original information source type.
  • the correspondence relationship between the information source types is stored as a definition result 113 in the storage device of the computer 1. For example, several types of information sources that have a strong influence on the prediction of activity at a future time are newly defined as “influencers”, and the correspondence of which of the original information source types is “influencers”
  • the definition result 113 is accumulated. There is no need to define one new information source type, and a plurality of information source types may be defined simultaneously.
  • the correspondence relationship between the original information source type stored in the definition result 113 and the newly defined information source type is defined as a new information source type that classifies each information source type from the viewpoint of the role in the dynamics of the topic.
  • the information source type is output to the upper hierarchy output means 5.
  • the information source type time stamp totaling unit 104-2 may use it as the information source type when totaling. In this case, since the information source type defined based on the nature of the activity time series interpolation and prediction is used for the subsequent interpolation and prediction, it can be expected that the accuracy of the interpolation and prediction is improved.
  • the information source type upper layer definition means 112 analyzes the role of each information source type in activity time series interpolation and prediction based on the interpolation prediction parameter 111. For example, it is determined how much influence the information source type has on the prediction of activity at a future time (step S3-1 in FIG. 6).
  • step S3-2 information source types that are assumed to have a certain role are picked up, and these are collectively defined as a higher hierarchy of new information source types.
  • the correspondence relationship between the original information source type and the newly defined information source type is stored as a definition result 113 in the storage device of the computer 1 and is output via the information source type upper level output means 5 (step S3). -3).
  • the definition result 113 may be used as the information source type when the information source type time stamp totaling means 104-2 performs aggregation (step S3-4).
  • the information source type upper layer definition means 5 analyzes the role in interpolation and prediction of the activity time series of each information source type, and the information source assumed to have a certain role Since a new information source type is defined with respect to the type, each information source type can be classified and output as a definition of a new information source type from the viewpoint of a role in the dynamics of the topic. Further, by using the new definition for interpolation and prediction, it is possible to estimate the activity time series with high accuracy.
  • the fourth embodiment of the present invention is a configuration diagram of a computer operated by a program when the first embodiment is configured by a program.
  • the program is read into a computer (central processing unit; processor; data processing unit) 1 and controls the operation of the computer 1.
  • the computer 1 executes the same processing as the computer 1 in the first embodiment under the control of the dynamic topic analysis program 6.
  • the best mode by the corresponding dynamic topic analysis program is configured for the second embodiment and the third embodiment as well.
  • the activity in the period A of the topic A in the information source type j is expressed as X ⁇ j_A (t). .
  • This value is accumulated in the total result 105-2 for each information source type.
  • FIG. 9 shows a graph of the tabulated results by information source type for a certain A.
  • the estimated value of the activity in the time zone t of the topic A in the information source type j as a result of the interpolation prediction performed by the time series interpolation prediction unit 107-3 is expressed as Y ⁇ j_A (t).
  • This value is accumulated in the interpolation prediction result 109 for each information source type.
  • Y ⁇ 2_A (4) 6.5 ⁇ X ⁇ 1_A (4)
  • linear predictor is used as an example for explanation.
  • Y ⁇ 1_A (t) 0.2 * X ⁇ 1_A (t-1) + 3.5 * X ⁇ 3_A (t-1)
  • Y ⁇ 2_A (t) 0.1 * X ⁇ 2_A (t-1) + 7.5 * X ⁇ 4_A (t-2)
  • Y ⁇ 3_A (t) 0.3 ⁇ X ⁇ 3_A (t ⁇ 1)
  • Y ⁇ 4_A (t) 0.2 ⁇ X ⁇ 4_A (t-1)
  • Y ⁇ 5_A (t) 0.5 ⁇ X ⁇ 5_A (t-1) (1)
  • the recursion formula is applied recursively to create an interpolation prediction result 109 for each information source type.
  • FIG. 10 shows a graph of the interpolated prediction results 109 for each information source type corresponding to each of the above-described deficiency situations.
  • the activity time series is calculated by the re-aggregation means 110 without distinction of the information source type, accumulated as the interpolation prediction result 108, and output from the result output means 4.
  • Y_A (t) Y ⁇ 1_A (t) + Y ⁇ 2_A (t) + Y ⁇ 3_A (t) + Y ⁇ 4_A (t) + Y ⁇ 5_A (t)
  • FIG. 11 is a graph showing the interpolated prediction results 108 corresponding to each of the above-described deficiency situations.
  • FIG. 11 shows an output example from the result output means 4.
  • various parameter adjustments and learning of the distribution necessary for performing interpolation and prediction of the activity A time series of topic A do not necessarily use the activity A time series data of topic A.
  • the activity time series data of the topic may be used.
  • Interpolation prediction parameter 111 is a coefficient of each X on the right side of the above formula (1) in this embodiment.
  • the information source type upper layer defining means 112 analyzes the role in interpolation and prediction of the activity time series of each information source type from the interpolation prediction parameter 111.
  • role 1 “Does the activity of the information source type directly affect the activity of other information source types at a future time point”
  • role 2 Activity of the information source type at a future time point”
  • the degree is directly influenced by the activity of other information source types.
  • Role 1 is applicable if the activity of the information source type appears in the recurrence formula of the activity of other information source types.
  • Role 2 is applicable if the activity of another information source type appears in the recurrence formula of the activity of that information source type.
  • the information source types 3 and 4 correspond to the role 1
  • the information source types 1 and 2 correspond to the role 2.
  • the information source type upper hierarchy defining means 112 defines, for example, the information source type corresponding to the role 1 as a new type “influencer” and defines the information source type corresponding to the role 2 as a new “follower”.
  • the definition result 113 may be used as the information source type by the time stamp counting means 104-3 by information source type in the future dynamic topic analysis.
  • a topic analysis device for analyzing / predicting what is being talked about on the Internet and what is likely to be talked about in the future, news content such as television and newspapers, etc. It can also be applied to applications such as clipping devices, and information source discriminating devices that determine which information sources respond quickly to topics and which information sources can be used to catch ups and downs of topics. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 動的トピック分析の対象としたい期間・テキストの全てを入力しなくても、全てを入力した場合のトピック活性度を推定して出力できる動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体を提供する。  動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段2から入力されなかったデータや期間に関する情報を欠損状況記憶手段106に入力する欠損状況入力手段3と、各トピックの活性度時系列データとデータの欠損状況とを読み出し、データに欠損がある期間の各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段108に出力する時系列補間予測手段107とを備える。

Description

動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体
 本発明は動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体に関する。
 タイムスタンプつきのテキストデータ集合に対して、どんなトピックがいつごろ、どれくらい盛り上がっていたかを分析するシステムを、動的トピック分析システムとよぶことにする。以下「あるトピックのある時点での盛り上がり度合い」を、そのトピックのその時点での活性度とよぶことにする。
 基本的に動的トピック分析システムは、図1に示すように、コンピュータ1と、テキストデータ入力手段2と、結果出力手段4とから構成されている。
 コンピュータ1は、テキストデータ入力手段2、テキストデータ記憶手段101、テキストグルーピング手段102、グルーピング結果記憶手段103、タイムスタンプ集計手段104、集計結果記憶手段105、結果出力手段4を含む。
 このような構成を有する動的トピック分析システムは次のように動作する。
 すなわち、テキストデータ入力手段2においては、タイムスタンプつきのテキストデータ集合が入力され、テキストグルーピング手段102では、当該テキストデータ集合が同じような内容・トピックを含むもの同士にグループ分けされ、タイムスタンプ集計手段104においては、各グループに属するテキストデータのタイムスタンプデータを期間帯毎に集計することで、当該グループに属するテキストデータがいつごろ、どれくらいあったかが分析され、結果出力手段4では、タイムスタンプ集計手段104による分析結果を、「どんなトピックがいつごろ、どれくらい盛り上がっていたか」のトピック活性度として出力する。
 テキストグルーピング手段102は、一般的にテキストクラスタリング技術によって実装され、含まれる表現が似通っているテキスト同士を同一のグループに属するようにするといった原理で動作する。また、テキストグルーピング手段102はテキスト分類技術によって実装されることもあり、事前に定められたテキスト分類ルールに従って、各テキストをどのグループに属するか判別するという原理で動作する。その特別の場合として「ある単語を含むテキストは、このグループに属する」のように、単語の有無のみで属するグループを決定する場合もある。テキストグルーピング手段102においては、ひとつのテキストは0個を含め任意の個数のグループに属しても良い。さらに、あるテキストはあるグループに属するか否かの二値ではなく、「やや属する」「3分の1属する」といった多値判定されることも多い。
 タイムスタンプ集計手段104では、テキストグルーピング手段102の結果と、各テキストのタイムスタンプデータから、日次や週次といった時間軸の期間帯に対して、各期間帯において、どのグループが幾つのテキストを含んでいるかが集計される。単純なテキスト数の集計以外に、当該期間帯における全テキスト数に占めるそのグループに属するテキスト数の割合といった相対数の集計をする場合もある。集計結果に対して移動平均やメディアンフィルタ、差分といった時系列処理を行う場合もある。
 以下、テキストグルーピング手段102によるグルーピングの結果の各グループを各トピックと呼ぶことにし、タイムスタンプ集計手段104の集計結果を当該トピックの活性度とよぶことにする。
 動的トピック分析システムの一例が、特許文献1~4、非特許文献1に記載されている。
 特許文献1(特開2000-227920号公報)の情報フィルタリング装置は、ユーザが興味を持つ話題に関する特徴と他の話題との差異を判断するためのしきい値の入力、及び、共有された話題に即した共有情報の出力を行う手段、ネットワーク上から、ユーザ間で共有される可能性のある情報を検索する手段、ユーザの入力情報と共有される情報を格納するデータベース、話題間及び話題と情報間の類似性を判別する手段、各話題及び情報が共有されるべきか否かの度合いを示す活性度を計算する手段、活性度により、共有する話題にそぐわない内容の情報を排除し、共有する話題に即した情報のみを残す制御手段を設けている。
 しかし、特許文献1の情報フィルタリング装置では、「活性度」は「ある話題が、そのユーザにどれくらい興味を持たれそうか」の意味で使われており、情報フィルタリング装置は、各話題が特定のユーザに興味を持たれるかどうかを判定するものである。これに対し、本発明の「活性度」は「あるトピックのある時点での盛り上がり度合い」の意味で使われており、本発明は「どんなトピックがいつごろ、どれくらい盛り上がっていたか」のトピック活性度を分析出力するものである。
 特許文献2(特開2005-352613号公報)のトピック分析装置は、テキストデータが時間とともに追加されていくような状況で、データを順次読み込みつつトピックを検出するものであり、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながらトピックの生成モデルをオンラインで学習する学習手段と、複数の候補となるトピックの生成モデルの中で情報量基準に基づいて最適なトピックの生成モデルを選択するモデル選択手段とを含み、その混合成分としてトピックを検出するようにしている。
 しかし、特許文献2のトピック分析装置は、テキストをトピックごとに分割するものであるが、入力に欠損がある場合に、その補正をする仕組みがない点で本発明と異なるものである。
 特許文献3(特開2006-260052号公報)のキーワード分析システムは、入力されたキーワード及びキーワードの入力回数を示す入力データを取得し、記憶する。記憶された入力データの中から入力回数の変動が少ないキーワードを安定ワードに設定し、安定ワードの入力回数を比較して、欠損判定対象日が欠損日か否かを判定する。欠損日と判定された場合には、欠損日が存在する週を含む4週間の1日毎におけるキーワードの入力回数の合計値を算出し、算出された合計値を用いて補正係数を算出する。補正係数を欠損日における各キーワードの入力回数に乗算することにより、入力回数の補正をする。
 特許文献3のキーワード分析システムは、複数のトピックの時系列間の関係を用いて、入力データにおいて、ある種類の欠損の仕方(補正したい期間のデータがまったく欠損しているわけではなく、ある程度の量は取得できて、統計的に安定した推定ができる程度はある)が起きている場合に、その補正をして活性度を出力する。これに対し、本発明は、単一トピックの時系列、さらに、複数入力データ源がある場合は、その間の関係を用いて、補正をする手段を有する。本発明は、補正をしたい期間のデータがまったく欠損していても補正ができ、その特別の場合として、将来の時点での活性度も予測できる点で異なるものである。
 特許文献4(特開2007-94489号公報)のハンドラー管理システムは、ハンドラーと、その稼動情報を収集して管理する管理サーバよりなるハンドラー管理システムにおいて、管理サーバは、ハンドラーの動作状態を記録した情報にタイムスタンプを付加した動作監視情報を含む稼動情報を収集する稼動情報収集手段を備えている。
 しかし、特許文献4のハンドラー管理システムは、半導体などの工場のリソースを管理するもので、本発明の動的トピック分析システムとはまったく異なるものである。タイムスタンプという言葉は使われているものの、タイムスタンプは一般的な名称であり、これが共通していても本発明には関係ないものである。
 非特許文献1(森永、山西(S.Morinaga and K.Yamanishi),「有限混合モデルを用いたトピックトレンドのトラックキングダイナミックス(Tracking Dynamics of Topic Trends Using a Finite Mixture Model)」,知識発見とデータマイニングに関する第10回ACM SIGKDD 国際会議のプロシーディング(ケィデーデー2004)(Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD2004)),(米国),エィシーエム・プレス(ACM Press), 2004年,p.1-6)の有限混合モデルを用いたトピックトレンドのトラックキングダイナミックスは、時間的に追加されていくテキストデータに対して、なるべく少ない記憶容量と処理時間で、随時、リアルタイムに主要トピックの個数および生成と消滅を同定し、また主要トピックの特徴を抽出し、それによって単一トピックの内容が変化した場合にも、それを知ることが出来るようにしたトピック分析方式である。
 しかし、非特許文献1の有限混合モデルを用いたトピックトレンドのトラックキングダイナミックスは、テキストをトピックごとに分割するものであるが、入力に欠損がある場合に、その補正をする仕組みがない点で本発明と異なるものである。
 他にも、Topic Tracking and Detection といった分野で、動的トピック分析技術が多く提案されている。
 これらは、入力されたタイムスタンプつきテキスト集合における各トピックの活性度を出力するものである。
特開2000-227920号公報 特開2005-352613号公報 特開2006-260052号公報 特開2007-94489号公報 森永、山西(S.Morinaga and K.Yamanishi),「有限混合モデルを用いたトピックトレンドのトラックキングダイナミックス(Tracking Dynamics of Topic Trends Using a Finite Mixture Model)」,知識発見とデータマイニングに関する第10回ACM SIGKDD 国際会議のプロシーディング(ケィデーデー2004)(Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD2004)),(米国),エィシーエム・プレス(ACM Press), 2004年,p.1-6
 上述した動的トピック分析システムの問題点は、動的トピック分析の対象としたい期間・テキストのすべてを入力する必要があり、入力されたテキストデータに対してのみしか動的トピック分析を実行することができないということである。
 その理由は、入力されたタイムスタンプつきテキストのグルーピング結果に基づいて、集計が行われるためである。
 しかしながら、動的トピック分析の対象としたい期間・テキストのすべてを入力するのは、データ取得や転送、分析のコストの問題で難しい場合がある。特に、将来の期間に対して動的トピック分析をしたい場合、すなわち「どんなトピックがいつごろ、どれくらい盛り上がるか」を予測したい場合には、当該期間のテキストを準備することはできない。また、データの量が多い場合は、すべてを入力すると分析の負荷が大きくなる。さらにまた、インターネットから取得したデータを動的トピック分析の対象とする場合は、通信や処理のトラブルから幾つかのデータの取得に失敗する場合もある。
 上述した従来の動的トピック分析に対して、このように動的トピック分析の対象としたい期間・テキストの一部のみを入力すると、それに基づいて処理が行われ、動的トピック分析の対象としたい期間・テキストの全部を入力した場合とは乖離したトピック活性度が出力されてしまう。
 本発明の目的は、動的トピック分析の対象としたい期間・テキストの全てを入力しなくても、全てを入力した場合のトピック活性度を推定して出力できる動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体を提供することにある。
 本発明の動的トピック分析システムは、タイムスタンプつきテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、タイムスタンプつきテキスト群をテキストデータとしてテキストデータ記憶手段に入力するテキストデータ入力手段と、テキストデータ記憶手段に記憶されたテキストデータを読み出し、テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、各グループを各トピックとして記憶するグルーピング結果記憶手段と、グルーピング結果記憶手段に記憶された各トピックと、テキストデータ記憶手段に記憶されたテキストデータとを読み出し、各トピックに属するテキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計手段と、各トピックの活性度時系列データを記憶する集計結果記憶手段と、動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力手段と、データの欠損状況を記憶する欠損状況記憶手段と、集計結果記憶手段に記憶された各トピックの活性度時系列データと欠損状況記憶手段に記憶されたデータの欠損状況とを読み出し、データに欠損がある期間の各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測手段と、各トピックの活性度時系列データの推定結果を記憶する補間予測結果記憶手段と、補間予測結果記憶手段に記憶された各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段とを備える。
 本発明の動的トピック分析方法は、テキストデータ入力手段が、タイムスタンプつきテキスト群をテキストデータとしてテキストデータ記憶手段に入力するテキストデータ入力ステップと、テキストデータ記憶手段が、タイムスタンプつきテキスト群をテキストデータとして記憶するテキストデータ記憶ステップと、テキストグルーピング手段が、テキストデータ記憶手段に記憶されたテキストデータを読み出し、テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピングステップと、グルーピング結果記憶手段が、各グループを各トピックとして記憶するグルーピング結果記憶ステップと、タイムスタンプ集計手段が、グルーピング結果記憶手段に記憶された各トピックと、テキストデータ記憶手段に記憶されたテキストデータとを読み出し、各トピックに属するテキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計ステップと、集計結果記憶手段が、各トピックの活性度時系列データを記憶する集計結果記憶ステップと、欠損状況入力手段が、動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力ステップと、欠損状況記憶手段が、データの欠損状況を記憶する欠損状況記憶ステップと、時系列補間予測手段が、集計結果記憶手段に記憶された各トピックの活性度時系列データと欠損状況記憶手段に記憶されたデータの欠損状況とを読み出し、データに欠損がある期間の各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測ステップと、補間予測結果記憶手段が、各トピックの活性度時系列データの推定結果を記憶する補間予測結果記憶ステップと、結果出力手段が、補間予測結果記憶手段に記憶された各トピックの活性度時系列データの推定結果を読み出し、出力する結果出力ステップとからなる。
 本発明の動的トピック分析プログラムを記録した媒体は、コンピュータを、タイムスタンプつきテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、タイムスタンプつきテキスト群をテキストデータとしてテキストデータ記憶手段に入力するテキストデータ入力手段と、テキストデータ記憶手段に記憶されたテキストデータを読み出し、テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、各グループを各トピックとして記憶するグルーピング結果記憶手段と、グルーピング結果記憶手段に記憶された各トピックと、テキストデータ記憶手段に記憶されたテキストデータとを読み出し、各トピックに属するテキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計手段と、各トピックの活性度時系列データを記憶する集計結果記憶手段と、動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力手段と、データの欠損状況を記憶する欠損状況記憶手段と、集計結果記憶手段に記憶された各トピックの活性度時系列データと欠損状況記憶手段に記憶されたデータの欠損状況とを読み出し、データに欠損がある期間の各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測手段と、各トピックの活性度時系列データの推定結果を記憶する補間予測結果記憶手段と、補間予測結果記憶手段に記憶された各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段として機能させるための、動的トピック分析プログラムを記録する。
 本発明は、入力できたテキストにおけるトピック活性度の時系列データから、データの補完や予測を行ってトピック活性度を出力するため、動的トピック分析の対象としたい期間・テキストの全てを入力しなくても、入力されなかったテキストデータにおけるトピック活性度の分を補償して、トピック活性度を出力できる。
関連する動的トピック分析システムの構成を示すブロック図である。 本発明の第1の実施の形態の構成を示すブロック図である。 本発明の第1の実施の形態の動作のフローチャートを示す図である。 本発明の第2の実施の形態の構成を示すブロック図である。 本発明の第2の実施の形態の動作のフローチャートを示す図である。 本発明の第3の実施の形態の構成を示すブロック図である。 本発明の第3の実施の形態の動作のフローチャートを示す図である。 本発明の第4の実施の形態の構成を示すブロック図である。 本発明の実施例における、情報源種別別タイムスタンプ集計結果をグラフ化した図である。 本発明の実施例における、情報源種別別補間予測結果をグラフ化した図である。 本発明の実施例における、補間予測結果をグラフ化した図である。
符号の説明
 1  コンピュータ(中央処理装置;プロセッサ;データ処理装置)
 2  テキストデータ入力手段
 3  欠損状況入力手段
 4  結果出力手段
 5  情報源種別上位階層出力手段
 6  動的トピック分析プログラムが記録された記録媒体
 101、101-2  テキストデータ記憶手段
 102  テキストグルーピング手段
 103  グルーピング結果記憶手段
 104  タイムスタンプ集計手段
 104-2、104-3  情報源種別別タイムスタンプ集計手段
 105  集計結果記憶手段
 105-2  情報源種別別集計結果記憶手段
 106  欠損状況記憶手段
 106-2  情報源種別別欠損状況記憶手段
 107、107-2、107-3  時系列補間予測手段
 108  補間予測結果記憶手段
 109  情報源種別別補間予測結果記憶手段
 110  再集計手段
 111  補間予測パラメータ記憶手段
 112  情報源種別上位階層定義手段
 113  定義結果記憶手段
 次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
(本発明の第1の実施の形態)
 図2を参照すると、本発明の第1の実施の形態は、プログラム制御により動作するコンピュータ(中央処理装置;プロセッサ;データ処理装置;記憶装置)1と、テキストデータ入力手段2と、欠損状況入力手段3と、結果出力手段4とから構成されている。
 コンピュータ(中央処理装置;プロセッサ;データ処理装置;記憶装置)1は、テキストグルーピング手段102、テキストデータ記憶手段101、テキストグルーピング手段102、グルーピング結果記憶手段103、タイムスタンプ集計手段104、集計結果記憶手段105、欠損状況記憶手段106、時系列補完予測手段107、補完予測結果記憶手段108を含む。
 これらの手段はそれぞれ概略次のように動作する。
 コンピュータ1は、通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成されるテキストデータ入力手段2を介して、タイムスタンプつきテキスト群をとりこみ、同じく通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成される欠損状況入力手段3を介して、トピック分析の対象としたいテキストデータや期間においてテキストデータ入力手段2から入力されなかったデータや期間に関する情報をとりこみ、下記に説明する処理を実施した上で、通信装置や記憶装置、ディスプレイ等のユーザー情報出力/提示装置等によって構成される結果出力手段4に動的トピック分析結果を出力する。
 テキストデータ入力手段2から入力されたタイムスタンプつきテキスト群は、コンピュータ1の記憶装置にテキストデータ101として蓄積される。
 テキストグルーピング手段102は、蓄積されているテキストデータ101を、テキストクラスタリングやテキスト分類といった公知のテキスト分割技術によって分割する。この分割の各結果をトピックと呼ぶことにする。例えば、入力されたテキスト群のうち、ある話題に関するものはトピック1に、別の話題に関するものはトピック2に、、、、といったように分割されたり、特定単語の有無等のある条件を満たすものはトピック1に、また別の単語の有無等の条件を満たすものはトピック2に、、、、、といった具合に分割されることになる。
 すなわち、入力された各テキストに対して、どのトピックに属するかが決定されることになる。この「各テキストがどのトピックに属するか」がテキストグルーピング手段102の出力である。
 テキストグルーピング手段102においては、ひとつのテキストは0を含め任意の個数のトピックに属しても良い。さらに、あるテキストはあるトピックに属するか否かの二値ではなく、「やや属する」「3分の1属する」といったソフト判定をおこなうのでもよい。
 テキストグルーピング手段102の出力は、コンピュータ1の記憶装置にグルーピング結果103として蓄積される。
 タイムスタンプ集計手段104では、グルーピング結果103と、テキストデータ101の各テキストのタイムスタンプデータから、日次や週次といった時間軸の期間帯に対して、各期間帯において、どのトピックが幾つのテキストを含んでいるかが集計される。単純なテキスト数の集計以外に、当該期間帯における全テキスト数に占めるそのトピックに属するテキスト数の割合といった相対数の集計をする場合もある。集計結果に対して移動平均やメディアンフィルタ、差分といった時系列処理を行う場合もある。
 タイムスタンプ集計手段104の出力は、どのトピックがどの期間帯でどれくらいの活性度を持っていたかの時系列データであり、コンピュータ1の記憶装置に集計結果105として蓄積される。以下、集計結果105に蓄積されているトピックAの期間帯tでの活性度をX_A(t)とあらわす。
 動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段2から入力されなかったデータや期間に関する情報は、欠損状況入力手段3からコンピュータ1に取り込まれ、コンピュータ1の記憶装置に欠損状況106として蓄積される。例えば、欠損状況としては、テキストデータが入力されていない期間/いる期間や、入力されていたとしても全てではない期間、その期間における入力テキストデータのカバー率/欠損率(動的トピック分析の対象としたいテキストデータに対して、入力された/されなかったテキストデータの割合)などの情報が蓄積される。
 また、欠損状況入力手段3から入力するまでもなくテキストデータ101において欠損しているデータの期間等が判明する場合は、それを欠損状況106として蓄積しても良い。
 例えば、「ある特定の曜日はテキストデータを入力しない/半分だけ入力することになっている」場合などは、その曜日に該当する期間はテキストデータを入力されていない/半分だけ入力されている旨を、欠損状況106として蓄積することになる。あるいは、前記のような事前知識がない場合でも、テキストデータ101において特定期間のデータが存在していなければ、それを欠損状況106として蓄積する等の推定に基づくものであっても良い。
 時系列補間予測手段107は、欠損状況106からテキストデータ(の全て)が入力されていない期間を特定し、同じく欠損状況106にカバー率や欠損率が蓄積されている場合はその情報も利用して、集計結果106に蓄積されている時系列データから、特定された当該期間の活性度時系列データに対して補間や予測を行う。この補間や予測は公知の時系列データの補間や予測技術に基づく。例えば、ある特定の期間において入力テキストデータが欠損していると、集計結果105においては当該期間において各トピックの活性度は、欠損していない場合と異なる値になるが、この期間の活性度を前後の欠損していない期間の活性度時系列から線形補間などによって求める。また、ある時点以降の入力テキストデータがまったく入力されていない場合は、それ以前の活性度時系列データから線形予測子を用いて当該期間の活性度をもとめる等をする。
 時系列補間予測手段107は、あらかじめ定められた方法で補間や予測を行うのではなく、集計結果105のデータから適応的にパラメータ調整やもっと一般に分布等の学習をおこなうものであってもよい。例えば、入力テキストデータが揃っている期間の活性度時系列データを用いて補間や予測のパラメータを求め、それを入力テキストデータが欠損している期間の活性度時系列データの補間や予測に用いるというもの等である。この場合、トピックAの活性度時系列の補間や予測のための学習はトピックAの活性度時系列データを用いる必要は必ずしもなく、ほかのトピックの活性度時系列データを用いて学習してもよい。これは、そのトピックの活性度時系列のパターンが上記時系列補間予測手段107の意味で似ていることを期待していることに相当する。
 集計結果105の時系列データを、時系列補間予測手段107により補間や予測した結果の時系列データは、コンピュータ1の記憶装置に補間予測結果108として蓄積される。補間予測結果108に蓄積されているのは、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合の各トピックの活性度を予測したものである。以下、補間予測結果108に蓄積されているトピックAの期間帯tでの活性度をY_A(t)とあらわす。
 補間予測結果108に蓄積されている各トピックの活性度時系列データは、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合の各トピックの活性度の推定結果として、結果出力手段4に出力される。
 次に、図2及び図3のフローチャートを参照して本発明の第1の実施の形態の全体の動作について詳細に説明する。
 まず、テキストデータ入力手段2からタイムスタンプつきテキスト群がコンピュータ1にとりこまれ、テキストデータ101として蓄積される(図3のステップS1-1)。
 次に、蓄積されているテキストデータがテキストグルーピング手段102によってグループ分けされ、どのテキストがどのトピックに属するかがグルーピング結果103として蓄積される(ステップS1-2)。
 さらに、グルーピング結果103を用いて、タイムスタンプ集計手段104によって、上記時間軸の各期間帯において、どのトピックがどれくらいテキストを含んでいるかが集計され、各トピックの活性度の時系列データが集計結果105として蓄積される(ステップS1-3)。
 一方、欠損状況入力手段3からは、動的トピック分析の対象としたいテキストデータや期間において、テキストデータが入力されていない期間/いる期間や、入力されていたとしても全てではない期間、その期間における入力テキストデータのカバー率/欠損率(動的トピック分析の対象としたいテキストデータに対して、入力された/されなかったテキストデータの割合)などの情報がとりこまれ、欠損状況106としてコンピュータ1に蓄積される(ステップS1-4)。
 最後に、時系列補間予測手段107によって、欠損状況106からテキストデータ(の全て)が入力されていない期間が特定され、同じく欠損状況106にカバー率や欠損率が蓄積されている場合はその情報も利用されて、集計結果106に蓄積されている活性度時系列データに対して特定された当該期間に関する補間や予測が行われ、補間予測結果108として蓄積され、結果出力手段4へと出力される(ステップS1-5)。
 ステップS1-1、S1-2、S1-3の処理にステップS1-4は依存しないため、S1-4はS1-5以前のどのタイミングで実行してもよい。
 また、本発明の第1の実施の形態および後記の各実施の形態の説明では、各ステップが終了してから次のステップを実行しているが、パイプライン処理、すなわち、全てのテキストに対してグループ分けが終了する前に、タイムスタンプによる集計を開始する等をしてもよい。その場合、グルーピング結果103を蓄積せずに直接タイムスタンプ集計を行うなどの方法で、テキストグルーピング手段102とタイムスタンプ集計手段104を分離せずに同時に行う等としてもよい。同様に、テキスト入力と同時にテキストグルーピングを行う等としてもよい。結果出力、その他に関しても同様である。
 次に、本発明の第1の実施の形態の効果について説明する。
 本発明の第1の実施の形態では、時系列補間予測手段107により、テキスト入力の欠損状況に応じて集計結果の補正をするように構成されているため、動的トピック分析の対象としたい期間の全てのテキストデータを入力しなくても、それらが入力された場合の活性度時系列データを推定して出力できる。
(本発明の第2の実施の形態)
 次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
 図4を参照すると、本発明の第2の実施の形態は、プログラム制御により動作するコンピュータ(中央処理装置;プロセッサ;データ処理装置;記憶装置)1と、テキストデータ入力手段2と、欠損状況入力手段3と、結果出力手段4とから構成されている。
 コンピュータ(中央処理装置;プロセッサ;データ処理装置;記憶装置)1は、テキストグルーピング手段102、テキストデータ記憶手段101-2、テキストグルーピング手段102、グルーピング結果記憶手段103、情報源種別別タイムスタンプ集計手段104-2、情報源種別別集計結果記憶手段105-2、情報源種別別欠損状況記憶手段106-2、時系列補完予測手段107-2、情報源種別別補完予測結果記憶手段109、再集計手段110、補完予測結果記憶手段108を含む。
 これらの手段はそれぞれ概略つぎのように動作する。
 コンピュータ1は、通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成されるテキストデータ入力手段2を介して、タイムスタンプと情報源種別の区別がついたテキスト群をとりこみ、同じく通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成される欠損状況入力手段3を介して、トピック分析の対象としたいテキストデータや期間においてテキストデータ入力手段2から入力されなかったデータの情報源種別の区別や期間に関する情報をとりこみ、下記に説明する処理を実施した上で、通信装置や記憶装置、ディスプレイ等のユーザー情報提示装置等によって構成される結果出力手段4に動的トピック分析結果を出力する。
 テキストデータ入力手段2から入力された、タイムスタンプと情報源種別の区別がついたテキスト群は、コンピュータ1の記憶装置にテキストデータ101-2として蓄積される。
 第1の実施の形態では、各テキストにタイムスタンプが付随しているとしたが、本第2の実施の形態では、さらに各テキストに情報源種別の区別を付随させるとする。ここでいう情報源種別の区別とは、例えば当該テキストデータの出所を表すものとすると、入力された各テキストが「ニュースサイト」から取得されたものなのか、「企業のプレスリリース」からであったのか、「ブロガーYYのブログ」だったのか等の区別のことである。他にも情報源種別としては上記例のような出所の内容による区別ではなく、「2005年以前に開設されたサイト」から取得されたテキスト、「100以上のサイトからリンクされているサイト」から取得されたテキストといった内容以外の属性に基づく区別であってもよい。
 テキストグルーピング手段102は、第1の実施の形態のそれと同様に動作する。すなわち、蓄積されているテキストデータ101-2を、テキストクラスタリングやテキスト分類といった公知のテキスト分割技術によって分割する。テキストグルーピング手段102の出力は、コンピュータ1の記憶装置にグルーピング結果103として蓄積される。
 情報源種別別タイムスタンプ集計手段104-2では、グルーピング結果103と、テキストデータ101-2の各テキストのタイムスタンプデータと情報源種別の区別から、日次や週次といった時間軸の期間帯に対して、各期間帯において、どのトピックが幾つのテキストを含んでいるかが情報源種別の区別ごとに集計される。特定の情報源種別に着目すると、その動作は第1の実施の形態のタイムスタンプ集計手段104と同様である。たとえば、情報源種別が前記例の当該テキストデータの出所をあらわすものとすると、「ニュースサイト」から取得されたテキストにおいては、トピックAに属するテキストは期間帯tでX件、「企業のプレスリリース」からは同トピック同期間帯でX’件、「ブロガーYYのブログ」では同X’’件といった具合である。
 情報源種別別タイムスタンプ集計手段104-2の出力は、各情報源種別の区別ごとに、どのトピックがどの期間帯でどれくらいの活性度を持っていたかの時系列データであり、コンピュータ1の記憶装置に情報源種別別集計結果105-2として蓄積される。以下、情報源種別別集計結果105-2に蓄積されている情報源種別jにおけるトピックAの期間帯tでの活性度をX^j_A(t)とあらわす。N種類の情報源種別があるとすると、情報源種別別集計結果は、各トピックに対してN次元の時系列データであり、j=1、、、Nである。
 動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段2から入力されなかったデータの情報源種別の区別や期間に関する情報は、欠損状況入力手段3からコンピュータ1に取り込まれ、コンピュータ1の記憶装置に情報源種別別欠損状況106-2として蓄積される。例えば、情報源種別別欠損状況106-2としては、特定の情報源種別の区別をもつテキストデータが入力されていない期間/いる期間や、入力されていたとしても全てではない期間、その期間におけるその情報源種別の区別をもつ入力テキストデータのカバー率/欠損率(動的トピック分析の対象としたい当該情報源種別のテキストデータに対して、入力された/されなかった当該情報源種別のテキストデータの割合)などの情報が蓄積される。
 時系列補間予測手段107-2は、情報源種別別欠損状況106-2から各情報源種別におけるテキストデータ(の全て)が入力されていない期間を特定し、同じく情報源種別別欠損状況106-2に前記当該情報源種別のカバー率や欠損率が蓄積されている場合はその情報も利用して、情報源種別別集計結果105-2に蓄積されている多次元時系列データに対して、各情報源種別の特定された当該期間に関する補間や予測を行う。この補間や予測は公知の時系列データの補間や予測技術に基づく。
 第1の実施の形態と本第2の実施の形態での時系列補間予測手段の違いは、あるトピックの活性度時系列の補間や予測に用いる時系列が第1の実施の形態では1次元、第2の実施の形態ではN次元であることである。第1の実施の形態では補間や予測をする前の活性度時系列は、全体を集計してしまった粗視的な情報になってしまっているが、第2の実施の形態では情報源の種別別の活性度時系列を用いることができるため、より精度の高い補間や予測を実現できることが期待できる。
 時系列補間予測手段107-2においては、例えば、特定の期間において、ある情報源種別の入力テキストデータが欠損している場合に、この期間の当該情報源種別の活性度を、前後の欠損していない期間の当該情報源種別の活性度時系列から線形補間などによって求めることができることに加えて、もし、その情報源種別の活性度が、別の情報源種別の活性度に強い依存性(大きな負の相関など)を有している場合は、上記別の情報源種別の活性度を用いて、上記欠損している情報源種別の当該期間の活性度を線形回帰などによって求めることができる。あるいはある時点以降の入力テキストデータがまったく入力されていない場合に、それ以前の情報源種別別のN次元活性度時系列から、情報源種別間の時間遅れ関係を反映した線形予測子を用いて当該期間の各情報源種別別の活性度をもとめる等をする。
 本第2の実施の形態でも、時系列補間予測手段107-2は、あらかじめ定められた方法で補間や予測を行うのではなく、情報源種別別集計結果105-2のデータから適応的にパラメータ調整やもっと一般に分布等の学習をおこなうものであってもよい。例えば、ある情報源種別に対して必要な入力テキストデータが揃っている期間の活性度時系列データを用いて補間や予測のパラメータを求め、それを当該情報源種別の入力テキストデータが欠損している期間の活性度時系列データの補間や予測に用いるというもの等である。この場合、トピックAの活性度時系列の補間や予測のための学習はトピックAの活性度時系列データを用いる必要は必ずしもなく、ほかのトピックの活性度時系列データを用いて学習してもよい。これは、そのトピックの活性度時系列のパターンが上記時系列補間予測手段107-2の意味で似ていることを期待していることに相当する。
 情報源種別別集計結果105-2の時系列データを、時系列補間予測手段107-2により補間/予測した結果の時系列データは、コンピュータ1の記憶装置に情報源種別別補間予測結果109として蓄積される。情報源種別別補間予測結果109に蓄積されているのは、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合の情報源種別の区別ごとの各トピックの活性度を予測したものである。以下、情報源種別別補間予測結果109に蓄積されている情報源種別jにおけるトピックAの期間帯tでの活性度をY^j_A(t)とあらわす。ただし、j=1、、、Nとする。
 再集計手段110は、情報源種別別補間予測結果109を情報源種別の方向に総和を計算して、情報源種別の区別をなくした全体の活性度を求め、コンピュータ1の記憶装置に補間予測結果108として蓄積する。情報源種別の区別なく、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合のトピックAの期間帯tでの活性度をY_A(t)とすると、Y_A(t)=Y^1_A(t)+、、、+Y^N_A(t)である。各Aとtに対して、Y_A(t)が補間予測結果108として蓄積される。また、再集計手段110は、特定の情報源種別のみ区別をしない各トピックの部分的な活性度時系列データを計算することもできる。
 補間予測結果108に蓄積されている各トピックの活性度時系列データは、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合の各トピックの活性度として、結果出力手段4に出力される。ただし、再集計する前の情報源種別別補間予測結果109自体を出力したい場合は、それを出力してもよい。情報源種別別補間予測結果109は「どの情報源種別で何がいつ盛り上がっているか」を、欠損データがあるにもかかわらず推計したものとなる。
 次に、図4及び図5のフローチャートを参照して本発明の第2の実施の形態の全体の動作について詳細に説明する。
 まず、テキストデータ入力手段2からタイムスタンプつきテキスト群がコンピュータ1にとりこまれ、テキストデータ101-2として蓄積される(図5のステップS2-1)。
 次に、蓄積されているテキストデータがテキストグルーピング手段102によってグループ分けされ、どのテキストがどのトピックに属するかがグルーピング結果103として蓄積される(ステップS2-2)。
 さらに、グルーピング結果103は情報源種別別タイムスタンプ集計手段104-2によって、上記時間軸の各期間帯において、どのトピックがどれくらいテキストを含んでいるかが情報源の種別別に集計され、情報源種別別に各トピックの活性度の時系列データが情報源種別別集計結果105-2として蓄積される(ステップS2-3)。
 一方、欠損状況入力手段3からは、動的トピック分析の対象としたいテキストデータや期間において、情報源種別別のテキストデータが入力されていない期間/いる期間や、入力されていたとしても全てではない期間、その期間における情報源種別別の入力テキストデータのカバー率/欠損率(動的トピック分析の対象としたい各情報源種別のテキストデータに対して、入力された/されなかった当該情報源種別のテキストデータの割合)などの情報がとりこまれ、情報源種別別欠損状況106-2としてコンピュータ1に蓄積される(ステップS2-4)。
 次に、時系列補間予測手段107-2によって、情報源種別別欠損状況106-2から各情報源種別におけるテキストデータ(の全て)が入力されていない期間が特定され、同じく情報源種別別欠損状況106-2に上記当該情報源種別のカバー率や欠損率が蓄積されている場合はその情報も利用されて、情報源種別別集計結果105-2に蓄積されている多次元時系列データに対して、各情報源種別の特定された当該期間における活性度の補間や予測が行われ、情報源種別別補間予測結果109としてコンピュータ1に蓄積される(ステップS2-5)。
 最後に、再集計手段110によって、情報源種別別補間予測結果109が情報源種別の方向に総和計算され、情報源種別の区別をなくした全体の活性度がトピック別に求められ、補間予測結果108として蓄積、結果出力手段4へと出力される(ステップS2-6)。
 S2-4はS2-5以前のどのタイミングで実行してもよい。
 次に、本発明の第2の実施の形態の効果について説明する。
 本発明の第2の実施の形態では、情報源種別別タイムスタンプ集計手段により、情報源種別の区別ごとに活性度が計算され、多次元の活性度時系列に基づいてきめ細かく補間や予測を行うように構成されているため、動的トピック分析の対象としたい期間の全てのテキストデータを入力しなくても、それらが入力された場合の活性度時系列データを推定して出力する場合に、その推定の精度を高くすることができる。また、情報源種別別の活性度を出力する場合にも、動的トピック分析の対象としたい期間の全てのテキストデータを入力しなくても、それらが入力された場合の情報源種別別の活性度時系列データを推定して出力することができる。
(本発明の第3の実施の形態)
 次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。
 図6を参照すると、本発明の第3の実施の形態は、プログラム制御により動作するコンピュータ(中央処理装置;プロセッサ;データ処理装置;記憶装置)1と、テキストデータ入力手段2と、欠損状況入力手段3と、結果出力手段4と、情報源種別上位階層出力手段5とから構成されている。
 コンピュータ(中央処理装置;プロセッサ;データ処理装置;記憶装置)1は、テキストグルーピング手段102、テキストデータ記憶手段101-2、テキストグルーピング手段102、グルーピング結果記憶手段103、情報源種別別タイムスタンプ集計手段104-2、情報源種別別集計結果記憶手段105-2、情報源種別別欠損状況記憶手段106-2、時系列補完予測手段107-3、情報源種別別補完予測結果記憶手段109、再集計手段110、補完予測結果記憶手段108、補間予測パラメータ記憶手段111、情報源種別上位階層定義手段112、定義結果記憶手段113を含む。
 これらの手段はそれぞれ概略つぎのように動作する。
 コンピュータ1は、通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成されるテキストデータ入力手段2を介して、タイムスタンプと情報源種別の区別がついたテキスト群をとりこみ、同じく通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成される欠損状況入力手段3を介して、トピック分析の対象としたいテキストデータや期間においてテキストデータ入力手段2から入力されなかったデータの情報源種別の区別や期間に関する情報をとりこみ、下記に説明する処理を実施した上で、通信装置や記憶装置、ディスプレイ等のユーザー情報提示装置等によって構成される結果出力手段4に動的トピック分析結果を、同じく通信装置や記憶装置、ディスプレイ等のユーザー情報提示装置等によって構成される情報源種別上位階層出力手段5に、情報源種別の上位階層定義結果を出力する。
 テキストデータ入力手段2から入力された、タイムスタンプと情報源種別の区別がついたテキスト群は、コンピュータ1の記憶装置にテキストデータ101-2として蓄積される。
 本発明の第3の実施の形態では、第2の実施の形態と同様、タイムスタンプに加えて各テキストに情報源種別の区別を付随させるとする。ここでいう情報源種別の区別とは、例えば当該テキストデータの出所をあらわすものとすると、入力された各テキストが「ニュースサイト」から取得されたものなのか、「企業のプレスリリース」からであったのか、「ブロガーYYのブログ」だったのか等の区別のことである。他にも情報源種別としては上記例のような出所の内容による区別ではなく、「2005年以前に開設されたサイト」から取得されたテキスト、「100以上のサイトからリンクされているサイト」から取得されたテキストといった内容以外の属性に基づく区別であってもよい。
 テキストグルーピング手段102は、第1の実施の形態、第2の実施の形態のそれと同様に動作する。すなわち、蓄積されているテキストデータ101-2を、テキストクラスタリングやテキスト分類といった公知のテキスト分割技術によって分割する。テキストグルーピング手段の出力は、コンピュータ1の記憶装置にグルーピング結果103として蓄積される。
 情報源種別別タイムスタンプ集計手段104-3では、グルーピング結果103と、テキストデータ101-2の各テキストのタイムスタンプデータと情報源種別の区別から、日次や週次といった時間軸の期間帯に対して、各期間帯において、どのトピックが幾つのテキストを含んでいるかが情報源種別の区別ごとに集計される。また、この集計を行う際に、定義結果113も情報源種別の区別として用いても良い。特定の情報源種別に着目すると、その動作は第1の実施の形態のタイムスタンプ集計手段104と同様である。たとえば、情報源種別が上記例の当該テキストデータの出所をあらわすものとすると、「ニュースサイト」から取得されたテキストにおいては、トピックAに属するテキストは期間帯tでX件、「企業のプレスリリース」からは同トピック同期間帯でX’件、「ブロガーYYのブログ」では同X’’件といった具合である。
 情報源種別別タイムスタンプ集計手段104-3の出力は、各情報源種別の区別ごとに、どのトピックがどの期間帯でどれくらいの活性度を持っていたかの時系列データであり、コンピュータ1の記憶装置に情報源種別別集計結果105-2として蓄積される。以下、情報源種別別集計結果105-2に蓄積されている情報源種別jにおけるトピックAの期間帯tでの活性度をX^j_A(t)とあらわす。N種類の情報源種別があるとすると、情報源種別別集計結果は、各トピックに対してN次元の時系列データであり、j=1、、、Nである。
 動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段2から入力されなかったデータの情報源種別の区別や期間に関する情報は、欠損状況入力手段3からコンピュータ1に取り込まれ、コンピュータ1の記憶装置に情報源種別別欠損状況106-2として蓄積される。例えば、情報源種別別欠損状況106-2としては、特定の情報源種別の区別をもつテキストデータが入力されていない期間/いる期間や、入力されていたとしても全てではない期間、その期間におけるその情報源種別の区別をもつ入力テキストデータのカバー率/欠損率(動的トピック分析の対象としたい当該情報源種別のテキストデータに対して、入力された/されなかった当該情報源種別のテキストデータの割合)などの情報が蓄積される。
 第2の実施の形態と同様に、時系列補間予測手段107-3は、情報源種別別欠損状況106-2から各情報源種別におけるテキストデータ(の全て)が入力されていない期間を特定し、同じく情報源種別別欠損状況106-2に上記当該情報源種別のカバー率や欠損率が蓄積されている場合はその情報も利用して、情報源種別別集計結果105-2に蓄積されている多次元時系列データに対して、各情報源種別の特定された当該期間に関する補間や予測を行う。この補間や予測は公知の時系列データの補間や予測技術に基づく。
 時系列補間予測手段107-3は、あらかじめ定められた方法で補間や予測を行うのではなく、情報源種別別集計結果105-2のデータから適応的にパラメータ調整やもっと一般に分布等の学習をおこなうものであってもよい。例えば、ある情報源種別に対して必要な入力テキストデータが揃っている期間の活性度時系列データを用いて補間や予測のパラメータを求め、それを当該情報源種別の入力テキストデータが欠損している期間の活性度時系列データの補間や予測に用いるというもの等である。この場合、トピックAの活性度時系列の補間や予測のための学習はトピックAの活性度時系列データを用いる必要は必ずしもなく、ほかのトピックの活性度時系列データを用いて学習してもよい。これは、そのトピックの活性度時系列のパターンが上記時系列補間予測手段107-3の意味で似ていることを期待していることに相当する。
 また、本発明の第3の実施の形態においては、コンピュータ1の記憶装置に蓄積されている、時系列補間予測手段107-3が用いている補間や予測のパラメータ、前記分布等の学習の結果、さらには、それらから計算可能な量などを、補間予測パラメータ111とよぶことにする。時系列補間予測手段107-3が上記の意味で適応的もしくは分布の学習を行うもの等である場合は、補間予測パラメータ111は時間を追って変化することもある。
 集計結果105-2の時系列データを、時系列補間予測手段107-3により補間/予測した結果の時系列データは、コンピュータ1の記憶装置に情報源種別別補間予測結果109として蓄積される。情報源種別別補間予測結果に蓄積されているのは、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合の情報源種別の区別ごとの各トピックの活性度を推定したものである。以下、情報源種別別補間予測結果109に蓄積されている情報源種別jにおけるトピックAの期間帯tでの活性度をY^j_A(t)とあらわす。ただし、j=1、、、Nとする。
 再集計手段110は、情報源種別別補間予測結果109を情報源種別の方向に総和を計算して、情報源種別の区別をなくした全体の活性度を求め、コンピュータ1の記憶装置に補間予測結果108として蓄積する。情報源種別の区別なく、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合のトピックAの期間帯tでの活性度をY_A(t)とすると、Y_A(t)=Y^1_A(t) +、、、+Y^N_A(t)である。各Aとtに対して、Y_A(t)が補間予測結果108として蓄積される。
 補間予測結果108に蓄積されている各トピックの活性度時系列データは、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合の各トピックの活性度として、結果出力手段4に出力される。ただし、再集計する前の情報源種別別補間予測結果109自体を出力したい場合は、それを出力してもよい。情報源種別別補間予測結果109は「どの情報源種別で何がいつ盛り上がっているか」を、欠損データがあるにもかかわらず推計したものとなる。
 情報源種別上位階層定義手段112は、補間予測パラメータ111に基づいて、幾つかの情報源種別を新たにひとつの情報源種別としておおくくりに定義し、もとの情報源種別と新しく定義された情報源種別の対応関係はコンピュータ1の記憶装置に定義結果113として蓄積される。例えば、将来時点の活性度の予測に強い影響をもつ幾つかの情報源種別を新しく「インフルエンサ」と定義し、もとの情報源種別のどれが「インフルエンサ」であるかの対応関係を定義結果113として蓄積するという具合である。新たに定義する情報源種別はひとつである必要はなく、同時に複数定義しても良い。
 定義結果113に蓄積されているもとの情報源種別と新しく定義された情報源種別の対応関係は、話題盛り上がりのダイナミクスにおける役割の観点から各情報源種別を区分した新しい情報源種別の定義として、情報源種別上位階層出力手段5に出力される。あるいは、情報源種別別タイムスタンプ集計手段104-2において、集計する際の情報源種別として用いても良い。この場合、活性度時系列の補間や予測における性質に基づいて定義された情報源種別が、その後の補間や予測に用いられることになるため、補間や予測の精度が向上することも期待できる。
 次に、図6及び図7のフローチャートを参照して本発明の第3の実施の形態の情報源種別上位階層定義の部分の動作について詳細に説明する。なお、それ以外の動作は第2の実施の形態と同一であるため、説明を省略する。
 まず、情報源種別上位階層定義手段112により、補間予測パラメータ111に基づいて、各情報源種別の活性度時系列の補間や予測における役割が分析される。例えば、当該情報源種別が将来時点の活性度の予測にどれくらいの影響度をもつかの判定などが行われる(図6のステップS3-1)。
 次に、上記役割分析の結果から、一定の役割をもつとされた情報源種別のピックアップが行われ、それらをまとめて新しい情報源種別の上位階層として定義される(ステップS3-2)。
 そして、もとの情報源種別と新しく定義された情報源種別の対応関係はコンピュータ1の記憶装置に定義結果113として蓄積され、情報源種別上位階層出力手段5を介して出力される(ステップS3-3)。
 また、定義結果113は情報源種別別タイムスタンプ集計手段104-2において、集計する際の情報源種別として用いられる場合もある(ステップS3-4)。
 これらのステップは動的トピック分析を行うたびに実施される必要はなく、事前に決められているスケジュールに基づいて間欠的に実施されたり、外部から要求があった場合にのみ実施されたりするのでもよい。
 次に、本発明の第3の実施の形態の効果について説明する。
 本発明の第3の実施の形態では、情報源種別上位階層定義手段5により、各情報源種別の活性度時系列の補間や予測における役割が分析され、一定の役割をもつとされた情報源種別に対して新しい情報源種別が定義されるため、話題盛り上がりのダイナミクスにおける役割の観点から各情報源種別を区分して、新しい情報源種別の定義として出力することができる。さらに、新しい定義を補間や予測に用いることにより、精度の高い活性度時系列の推定が行うことが出来る。
(本発明の第4の実施の形態)
 次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。
 図8を参照すると、本発明の第4の実施の形態は、第1の実施の形態をプログラムにより構成した場合に、そのプログラムにより動作されるコンピュータの構成図である。
 当該プログラムは、コンピュータ(中央処理装置;プロセッサ;データ処理装置)1に読み込まれ、コンピュータ1の動作を制御する。コンピュータ1は動的トピック分析プログラム6の制御により、第1の実施の形態におけるコンピュータ1と同一の処理を実行する。
 第2の実施の形態、第3の実施の形態に対しても、同様に対応する動的トピック分析プログラムによる最良の形態が構成される。
 次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。
 なお、本発明においては、第3の実施の形態が、他の実施の形態の各要素を含むので、ここでは第3の実施の形態を例にとって説明する。
 情報源種別は五つ(j=1,2,3,4,5)で、各情報源種別に属するテキストデータがタイムスタンプつきでテキストデータ入力手段2から入力されているとする。
 テキストグルーピング手段102によるグルーピングと、情報源種別別タイムスタンプ集計手段104-3の結果、求められた、情報源種別jにおけるトピックAの期間帯tでの活性度をX^j_A(t)と表す。
 この値が、情報源種別別集計結果105-2に蓄積されていることになる。
 例えば、あるAに対して、情報源種別別集計結果をグラフ化したものは、図9のようになる。
 欠損状況入力手段3からは、情報源種別別の欠損状況として、
 欠損状況1:情報源種別j=1に関しては、t=2,3において、80%の入力テキストが欠損している(カバー率20%)。
 欠損状況2:情報源種別j=2に関しては、t=4において、全てのテキストが欠損している。
 欠損状況3:全ての情報源種別において、t=7、8,9,10の全てのテキストが欠損している。
が入力され、情報源種別別欠損状況106-2として蓄積されているとする。
 時系列補間予測手段107-3は、欠損状況1に対応するために、例えば情報源種別j=1のt=2、t=3での値を5倍して、当該情報源種別の補間予測結果とする。
 すなわち、
Y^1_A(2)=5 × X^1_A(2)
Y^1_A(3)=5 × X^1_A(3)
である。
 ただし、時系列補間予測手段107-3が補間予測を行った結果の、情報源種別jにおけるトピックAの期間帯tでの活性度の推定値をY^j_A(t)とあらわすことにする。
 この値が、情報源種別別補間予測結果109に蓄積されることになる。
 欠損状況2に対応するためには、欠損していない前後のデータから補間したり、他の情報源種別のデータとの相関などから推定したりすることなどが想定できる。
 ここでは、後者を例にとる。
 例えば、テキストの欠損がない状況で情報源1と2の間に大きな相関を持つことが観察されており、
X^2_A(t)=6.5 × X^1_A(t)+小さなノイズ
なる関係が観察されている場合は、時系列補間予測手段107-3では欠損状況2への対応として、例えば、
Y^2_A(4)=6.5 × X^1_A(4)
とする。
 上記情報源種別間のデータの相関や、値の間の関係式は公知の技術を用いて得ることができる。
 欠損状況3に対応するためには、テキスト欠損がない状況でのXの時系列ダイナミクスを学習しておき、それに基づいて推定した値をYとすること等が考えられる。
 ここでは例として、線形予測子を用いて説明する。
 テキスト欠損がない状況で、各情報源種別別の活性度の値は、それらの過去の値との間に、
X^1_A(t)=0.2 × X^1_A(t-1)+ 3.5 × X^3_A(t-1) + ノイズ
X^2_A(t)=0.1 × X^2_A(t-1)+ 7.5 × X^4_A(t-2) + ノイズ
X^3_A(t)=0.3 × X^3_A(t-1)+ ノイズ
X^4_A(t)=0.2 × X^4_A(t-1)+ ノイズ
X^5_A(t)=0.5 × X^5_A(t-1) + ノイズ
なる関係が観察されていたとする。
 この場合、時系列補間予測手段107-3では欠損状況3への対応として、t=7、8,9,10に対して例えば、
Y^1_A(t)=0.2 × X^1_A(t-1)+ 3.5 × X^3_A(t-1)
Y^2_A(t)=0.1 × X^2_A(t-1)+ 7.5 × X^4_A(t-2)
Y^3_A(t)=0.3 × X^3_A(t-1)
Y^4_A(t)=0.2 × X^4_A(t-1)
Y^5_A(t)=0.5 × X^5_A(t-1) ・・・・(1)
という漸化式を再帰的に適用して情報源種別別補間予測結果109を作成する。
 ここで、右辺でXの情報源種別とトピック、期間帯に該当するYが存在する場合は、Xの代わりにYの値を用いるとする。
 これらの上記関係式も公知の技術を用いて得ることができる。
 上記の各欠損状況への対応の情報源種別別補間予測結果109をまとめてグラフ化したものが、図10である。
 動的トピック分析の対象としたい期間の全てのテキストデータを入力しなくても、それらが入力された場合の活性度時系列データを情報源種別別に推定して出力した結果である。
 上記で得られたYが、情報源種別別補間予測結果109として、コンピュータ1に蓄積される。
 さらに、再集計手段110によって、情報源種別の区別なく活性度時系列が計算され、補間予測結果108として蓄積、結果出力手段4から出力される。
 補間予測結果108に蓄積される、トピックAの期間帯tでの活性度をY_A(t)と書くことにすると、本実施例では、
Y_A(t)=Y^1_A(t)+ Y^2_A(t) + Y^3_A(t)+ Y^4_A(t) + Y^5_A(t)
で計算される。
 上記の各欠損状況への対応の補間予測結果108をまとめてグラフ化したものが、図11であり、これが結果出力手段4からの出力例である。
 これは、動的トピック分析の対象としたい期間の全てのテキストデータを入力しなくても、それらが入力された場合の活性度時系列データを推定して出力した結果である。
 本実施例で説明した以外にも、多次元時系列データに対する補間や予測以外の手法は多く公知となっており、それらは全て本発明で利用可能である。
 また、前述したようにトピックAの活性度時系列の補間や予測を行うために必要な各種のパラメータ調整や分布の学習は、必ずしもトピックAの活性度時系列のデータを用いる必要はなく、別のトピックの活性度時系列のデータを用いてもよい。
 補間予測パラメータ111は本実施例では上記式(1)の右辺における、各Xの係数である。
 情報源種別上位階層定義手段112は、補間予測パラメータ111から、各情報源種別の活性度時系列の補間や予測における役割が分析される。
 例えば、本実施例では、役割1「その情報源種別の活性度が、他の情報源種別の将来時点の活性度に直接影響をもつか」、役割2「その情報源種別の将来時点の活性度が、他の情報源種別の活性度から直接影響をうけているか」の二つの役割に関して分析するとする。
 役割1は、その情報源種別の活性度が、他の情報源種別の活性度の漸化式に現れていたら該当する。役割2はその情報源種別の活性度の漸化式に、他の情報源種別の活性度が現れていたら該当する。
 すなわち、本実施例では式(1)を参照すると、役割1に該当するのは情報源種別3と4、役割2に該当するのは情報源種別1と2である。
 情報源種別上位階層定義手段112は、例えば役割1に該当する情報源種別を新しく「インフルエンサ」という種別であると定義し、役割2に該当する情報源種別を新しく「フォロワ」と定義する。
 その上で、新旧の対応関係、この例では「情報源3と4はインフルエンサ」「情報源1と2はフォロワ」という対応関係を、定義結果113としてコンピュータ1に蓄積し、情報源種別上位階層出力手段5から出力する。
 さらに、定義結果113は、今後の動的トピック分析において、情報源種別として情報源種別別タイムスタンプ集計手段104-3で用いられてもよい。
 以上、実施の形態及び実施例を参照して本発明を説明したが、本発明は上記実施の形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2008年3月18日に出願された日本出願特願2008-069576を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明によれば、ブログ書き込み等、インターネット上で何が話題になっているか、これから何が話題になりそうかを分析/予測する話題分析装置といった用途や、テレビや新聞などのニュースの内容のクリッピング装置といった用途、どの情報源が話題に俊敏に反応し、どの情報源をみておけば話題の盛り上がり/盛り下がりの様子を捉えることができるのかを判別する情報源判別装置といった用途にも適用できる。
 

Claims (24)

  1.  タイムスタンプつきテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、
     前記タイムスタンプつきテキスト群をテキストデータとして前記テキストデータ記憶手段に入力するテキストデータ入力手段と、
     前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、
     前記各グループを各トピックとして記憶する前記グルーピング結果記憶手段と、
     前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計手段と、
     前記各トピックの活性度時系列データを記憶する前記集計結果記憶手段と、
     動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力手段と、
     前記データの欠損状況を記憶する前記欠損状況記憶手段と、
     前記集計結果記憶手段に記憶された前記各トピックの活性度時系列データと欠損状況記憶手段に記憶された前記データの欠損状況とを読み出し、データに欠損がある期間の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測手段と、
     前記各トピックの活性度時系列データの推定結果を記憶する前記補間予測結果記憶手段と、
     前記補間予測結果記憶手段に記憶された前記各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段とを備えた、動的トピック分析システム。
  2.  タイムスタンプと情報源種別の区別がついたテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、
     前記タイムスタンプと情報源種別の区別がついたテキスト群をテキストデータとして前記テキストデータ記憶手段に入力するテキストデータ入力手段と、
     前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、
     前記各グループを各トピックとして記憶する前記グルーピング結果記憶手段と、
     前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する情報源種別別タイムスタンプ集計手段と、
     前記情報源種別別の前記各トピックの活性度時系列データを記憶する前記情報源種別別集計結果記憶手段と、
     動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、情報源種別別のデータの欠損状況として情報源種別別欠損状況記憶手段に入力する欠損状況入力手段と、
     前記情報源種別別のデータの欠損状況を記憶する前記情報源種別別欠損状況記憶手段と、
     前記情報源種別別集計結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データと前記情報源種別別欠損状況記憶手段に記憶された前記情報源種別別のデータの欠損状況とを読み出し、データに欠損がある期間の前記情報源種別別の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記情報源種別別の前記各トピックの活性度時系列データの値を推定して、情報源種別別補間予測結果記憶手段に出力する時系列補間予測手段と、
     前記情報源種別別の前記各トピックの活性度時系列データの推定結果を記憶する前記情報源種別別補間予測結果記憶手段と、
     前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段とを、備えた、動的トピック分析システム。
  3.  請求項2記載の動的トピック分析システムにおいて、
     前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データを読み出し、情報源種別の区別をしないトータルの前記各トピックの活性度時系列データや、特定の情報源種別のみ区別をしない前記各トピックの部分的な活性度時系列データを計算して、補間予測結果記憶手段に出力する、再集計手段と、
     前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを記憶する前記補間予測結果記憶手段と、
     前記補間予測結果記憶手段に記憶された前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを読み出し、出力する、結果出力手段とを、さらに備えた、動的トピック分析システム。
  4.  請求項2または請求項3に記載の動的トピック分析システムにおいて、
     前記時系列補間予測手段は、時系列補間予測で用いている補間や予測のパラメータ、または、前記情報源種別別の前記各トピックの活性度時系列データの分布の学習結果、または、該学習結果から計算可能な量を、補間予測パラメータ記憶手段に出力し、
     前記動的トピック分析システムは、さらに、
     前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を、記憶する前記補間予測パラメータ記憶手段と、
     前記補間予測パラメータ記憶手段に記憶された前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を読み出し、各情報源種別の補間や予測における性質を抽出し、前記性質を持つ情報源種別を選りだし、選りだされた情報源種別をおおくくりにして一つの新しい情報源種別の上位階層を定義し、定義された上位階層と前記選りだされた情報源種別の対応関係を定義結果記憶手段に出力する、情報源種別上位階層定義手段と、
     前記定義された上位階層と前記選りだされた情報源種別の対応関係を記憶する前記定義結果記憶手段と、
     前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係を読み出し、出力する情報源種別上位階層出力手段とを備えた、動的トピック分析システム。
  5.  請求項4記載の動的トピック分析システムにおいて、
     前記情報源種別別タイムスタンプ集計手段は、前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータと、前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係とを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する、動的トピック分析システム。
  6.  請求項1に記載の動的トピック分析システムにおいて、
     前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
     前記テキストグルーピング手段と、前記タイムスタンプ集計手段と、前記時系列補完予測手段とは、中央処理装置であり、
     前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記集計結果記憶手段と、前記欠損状況記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
     前記結果出力手段は、出力装置である、動的トピック分析システム。
  7.  請求項2に記載の動的トピック分析システムにおいて、
     前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
     前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段とは、中央処理装置であり、
     前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
     前記結果出力手段は、出力装置である、動的トピック分析システム。
  8.  請求項3に記載の動的トピック分析システムにおいて、
     前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
     前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段と、再集計手段とは、中央処理装置であり、
     前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記情報源種別別補完予測結果記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
     前記結果出力手段は、出力装置である、動的トピック分析システム。
  9.  請求項4または請求項5に記載の動的トピック分析システムにおいて、
     前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
     前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段と、前記情報源種別上位階層定義手段と、再集計手段とは、中央処理装置であり、
     前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記補間予測パラメータ記憶手段と、前記定義結果記憶手段と、前記情報源種別別補完予測結果記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
     前記結果出力手段と、前記情報源種別上位階層出力手段とは、出力装置である、動的トピック分析システム。
  10.  タイムスタンプと情報源種別jの区別がついたテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、
     前記タイムスタンプと情報源種別jの区別がついたテキスト群をテキストデータとして前記テキストデータ記憶手段に入力するテキストデータ入力手段と、
     前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックA,B,C…としてグルーピング結果記憶手段に出力するテキストグルーピング手段と、
     前記各グループを各トピックA,B,C…として記憶する前記グルーピング結果記憶手段と、
     前記グルーピング結果記憶手段に記憶された前記各トピックA,B,C…と、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、情報源種別j別に前記各トピックA,B,C…に属する前記テキストデータを期間帯tごとに集計し、あるトピックAのある時点での盛り上がり度合いを、そのトピックAのその時点tでの活性度X^j_A(t)として、前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データX^j_A(t), X^j_B(t), X^j_C(t)…を情報源種別別集計結果記憶手段に出力する情報源種別別タイムスタンプ集計手段と、
     前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データX^j_A(t), X^j_B(t), X^j_C(t)…を記憶する前記情報源種別別集計結果記憶手段と、
     動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、情報源種別j別のデータの欠損状況として情報源種別別欠損状況記憶手段に入力する欠損状況入力手段と、
     前記情報源種別別のデータの欠損状況を記憶する前記情報源種別別欠損状況記憶手段と、
     前記情報源種別別集計結果記憶手段に記憶された前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データX^j_A(t), X^j_B(t), X^j_C(t)…と前記情報源種別別欠損状況記憶手段に記憶された前記情報源種別j別のデータの欠損状況とを読み出し、データに欠損がある期間の前記情報源種別別の前記各トピックA,B,C…の活性度時系列データX^j_A(t), X^j_B(t), X^j_C(t)…に対して補間や予測を行って、データに欠損がない場合の前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データY^j_A(t), Y^j_B(t), Y^j_C(t)…の値を推定して、情報源種別別補間予測結果記憶手段に出力する時系列補間予測手段と、
     前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データの推定結果Y^j_A(t), Y^j_B(t), Y^j_C(t)…を記憶する前記情報源種別別補間予測結果記憶手段と、
     前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データの推定結果Y^j_A(t), Y^j_B(t), Y^j_C(t)…を読み出し、出力する、結果出力手段とを、備えた、動的トピック分析システム。
  11.  テキストデータ入力手段が、タイムスタンプつきテキスト群をテキストデータとしてテキストデータ記憶手段に入力するテキストデータ入力ステップと、
     前記テキストデータ記憶手段が、前記タイムスタンプつきテキスト群を前記テキストデータとして記憶するテキストデータ記憶ステップと、
     テキストグルーピング手段が、前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピングステップと、
     前記グルーピング結果記憶手段が、前記各グループを各トピックとして記憶するグルーピング結果記憶ステップと、
     タイムスタンプ集計手段が、前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計ステップと、
     前記集計結果記憶手段が、前記各トピックの活性度時系列データを記憶する集計結果記憶ステップと、
     欠損状況入力手段が、動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力ステップと、
     前記欠損状況記憶手段が、前記データの欠損状況を記憶する欠損状況記憶ステップと、
     時系列補間予測手段が、前記集計結果記憶手段に記憶された前記各トピックの活性度時系列データと欠損状況記憶手段に記憶された前記データの欠損状況とを読み出し、データに欠損がある期間の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測ステップと、
     前記補間予測結果記憶手段が、前記各トピックの活性度時系列データの推定結果を記憶する補間予測結果記憶ステップと、
     結果出力手段が、前記補間予測結果記憶手段に記憶された前記各トピックの活性度時系列データの推定結果を読み出し、出力する結果出力ステップとからなる、動的トピック分析方法。
  12.  テキストデータ入力手段が、タイムスタンプと情報源種別の区別がついたテキスト群をテキストデータとしてテキストデータ記憶手段に入力するテキストデータ入力ステップと、
     前記テキストデータ記憶手段が、前記タイムスタンプと情報源種別の区別がついたテキスト群を前記テキストデータとして記憶するテキストデータ記憶ステップと、
     テキストグルーピング手段が、前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピングステップと、
     前記グルーピング結果記憶手段が、前記各グループを各トピックとして記憶するグルーピング結果記憶ステップと、
     情報源種別別タイムスタンプ集計手段が、前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する情報源種別別タイムスタンプ集計ステップと、
     前記情報源種別別集計結果記憶手段が、前記情報源種別別の前記各トピックの活性度時系列データを記憶する情報源種別別集計結果記憶ステップと、
     欠損状況入力手段が、動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、情報源種別別のデータの欠損状況として情報源種別別欠損状況記憶手段に入力する欠損状況入力ステップと、
     前記情報源種別別欠損状況記憶手段が、前記情報源種別別のデータの欠損状況を記憶する情報源種別別欠損状況記憶ステップと、
     時系列補間予測手段が、前記情報源種別別集計結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データと前記情報源種別別欠損状況記憶手段に記憶された前記情報源種別別のデータの欠損状況とを読み出し、データに欠損がある期間の前記情報源種別別の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記情報源種別別の前記各トピックの活性度時系列データの値を推定して、情報源種別別補間予測結果記憶手段に出力する時系列補間予測ステップと、
     前記情報源種別別補間予測結果記憶手段が、前記情報源種別別の前記各トピックの活性度時系列データの推定結果を記憶する情報源種別別補間予測結果記憶ステップと、
     結果出力手段が、前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データの推定結果を読み出し、出力する結果出力ステップとからなる、動的トピック分析方法。
  13.  請求項12記載の動的トピック分析方法において、さらに、
     再集計手段が、前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データを読み出し、情報源種別の区別をしないトータルの前記各トピックの活性度時系列データや、特定の情報源種別のみ区別をしない前記各トピックの部分的な活性度時系列データを計算して、補間予測結果記憶手段に出力する、再集計ステップと、
     前記補間予測結果記憶手段が、前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを記憶する補間予測結果記憶ステップと、
     結果出力手段が、前記補間予測結果記憶手段に記憶された前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを読み出し、出力する結果出力ステップとからなる、動的トピック分析方法。
  14.  請求項12または請求項13に記載の動的トピック分析方法において、
     前記時系列補間予測手段は、時系列補間予測で用いている補間や予測のパラメータ、または、前記情報源種別別の前記各トピックの活性度時系列データの分布の学習結果、または、該学習結果から計算可能な量を、補間予測パラメータ記憶手段に出力するステップを有し、
     前記動的トピック分析方法は、さらに、
     前記補間予測パラメータ記憶手段が、前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を、記憶する補間予測パラメータ記憶ステップと、
     情報源種別上位階層定義手段が、前記補間予測パラメータ記憶手段に記憶された前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を読み出し、各情報源種別の補間や予測における性質を抽出し、前記性質を持つ情報源種別を選りだし、選りだされた情報源種別をおおくくりにして一つの新しい情報源種別の上位階層を定義し、定義された上位階層と前記選りだされた情報源種別の対応関係を定義結果記憶手段に出力する、情報源種別上位階層定義ステップと、
     前記定義結果記憶手段が、前記定義された上位階層と前記選りだされた情報源種別の対応関係を記憶する定義結果記憶ステップと、
     情報源種別上位階層出力手段が、前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係を読み出し、出力する情報源種別上位階層出力ステップとからなる、動的トピック分析方法。
  15.  請求項14記載の動的トピック分析方法において、
     前記情報源種別別タイムスタンプ集計手段は、前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータと、前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係とを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する、ステップを有する、動的トピック分析方法。
  16.  請求項11に記載の動的トピック分析方法において、
     前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
     前記テキストグルーピング手段と、前記タイムスタンプ集計手段と、前記時系列補完予測手段とは、中央処理装置であり、
     前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記集計結果記憶手段と、前記欠損状況記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
     前記結果出力手段は、出力装置である、動的トピック分析方法。
  17.  請求項12に記載の動的トピック分析方法において、
     前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
     前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段とは、中央処理装置であり、
     前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
     前記結果出力手段は、出力装置である、動的トピック分析方法。
  18.  請求項13に記載の動的トピック分析方法において、
     前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
     前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段と、再集計手段とは、中央処理装置であり、
     前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記情報源種別別補完予測結果記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
     前記結果出力手段は、出力装置である、動的トピック分析方法。
  19.  請求項14または請求項15に記載の動的トピック分析方法において、
     前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
     前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段と、前記情報源種別上位階層定義手段と、再集計手段とは、中央処理装置であり、
     前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記補間予測パラメータ記憶手段と、前記定義結果記憶手段と、前記情報源種別別補完予測結果記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
     前記結果出力手段と、前記情報源種別上位階層出力手段とは、出力装置である、動的トピック分析方法。
  20.  コンピュータを、
     タイムスタンプつきテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、
     前記タイムスタンプつきテキスト群をテキストデータとして前記テキストデータ記憶手段に入力するテキストデータ入力手段と、
     前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、
     前記各グループを各トピックとして記憶する前記グルーピング結果記憶手段と、
     前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計手段と、
     前記各トピックの活性度時系列データを記憶する前記集計結果記憶手段と、
     動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力手段と、
     前記データの欠損状況を記憶する前記欠損状況記憶手段と、
     前記集計結果記憶手段に記憶された前記各トピックの活性度時系列データと欠損状況記憶手段に記憶された前記データの欠損状況とを読み出し、データに欠損がある期間の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測手段と、
     前記各トピックの活性度時系列データの推定結果を記憶する前記補間予測結果記憶手段と、
     前記補間予測結果記憶手段に記憶された前記各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段として機能させるための、動的トピック分析プログラムを記録した媒体。
  21.  コンピュータを、
     タイムスタンプと情報源種別の区別がついたテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、
     前記タイムスタンプと情報源種別の区別がついたテキスト群をテキストデータとして前記テキストデータ記憶手段に入力するテキストデータ入力手段と、
     前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、
     前記各グループを各トピックとして記憶する前記グルーピング結果記憶手段と、
     前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する情報源種別別タイムスタンプ集計手段と、
     前記情報源種別別の前記各トピックの活性度時系列データを記憶する前記情報源種別別集計結果記憶手段と、
     動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、情報源種別別のデータの欠損状況として情報源種別別欠損状況記憶手段に入力する欠損状況入力手段と、
     前記情報源種別別のデータの欠損状況を記憶する前記情報源種別別欠損状況記憶手段と、
     前記情報源種別別集計結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データと前記情報源種別別欠損状況記憶手段に記憶された前記情報源種別別のデータの欠損状況とを読み出し、データに欠損がある期間の前記情報源種別別の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記情報源種別別の前記各トピックの活性度時系列データの値を推定して、情報源種別別補間予測結果記憶手段に出力する時系列補間予測手段と、
     前記情報源種別別の前記各トピックの活性度時系列データの推定結果を記憶する前記情報源種別別補間予測結果記憶手段と、
     前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段として機能させるための、動的トピック分析プログラムを記録した媒体。
  22.  請求項21記載の動的トピック分析プログラムを記録した媒体において、
     コンピュータを、さらに、
     前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データを読み出し、情報源種別の区別をしないトータルの前記各トピックの活性度時系列データや、特定の情報源種別のみ区別をしない前記各トピックの部分的な活性度時系列データを計算して、補間予測結果記憶手段に出力する、再集計手段と、
     前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを記憶する前記補間予測結果記憶手段と、
     前記補間予測結果記憶手段に記憶された前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを読み出し、出力する、結果出力手段として機能させるための、動的トピック分析プログラムを記録した媒体。
  23.  請求項21または請求項22に記載の動的トピック分析プログラムを記録した媒体において、
     前記時系列補間予測手段は、時系列補間予測で用いている補間や予測のパラメータ、または、前記情報源種別別の前記各トピックの活性度時系列データの分布の学習結果、または、該学習結果から計算可能な量を、補間予測パラメータ記憶手段に出力し、
     前記動的トピック分析プログラムは、さらに、
     コンピュータを、さらに、
     前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を、記憶する前記補間予測パラメータ記憶手段と、
     前記補間予測パラメータ記憶手段に記憶された前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を読み出し、各情報源種別の補間や予測における性質を抽出し、前記性質を持つ情報源種別を選りだし、選りだされた情報源種別をおおくくりにして一つの新しい情報源種別の上位階層を定義し、定義された上位階層と前記選りだされた情報源種別の対応関係を定義結果記憶手段に出力する、情報源種別上位階層定義手段と、
     前記定義された上位階層と前記選りだされた情報源種別の対応関係を記憶する前記定義結果記憶手段と、
     前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係を読み出し、出力する情報源種別上位階層出力手段として機能させるための、動的トピック分析プログラムを記録した媒体。
  24.  請求項23記載の動的トピック分析プログラムを記録した媒体において、
     前記情報源種別別タイムスタンプ集計手段は、前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータと、前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係とを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する、動的トピック分析プログラムを記録した媒体。
     
PCT/JP2009/052630 2008-03-18 2009-02-17 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体 WO2009116342A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010503801A JP5397370B2 (ja) 2008-03-18 2009-02-17 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-069576 2008-03-18
JP2008069576 2008-03-18

Publications (1)

Publication Number Publication Date
WO2009116342A1 true WO2009116342A1 (ja) 2009-09-24

Family

ID=41090750

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/052630 WO2009116342A1 (ja) 2008-03-18 2009-02-17 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体

Country Status (2)

Country Link
JP (1) JP5397370B2 (ja)
WO (1) WO2009116342A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006584A (ja) * 2012-06-21 2014-01-16 Fujitsu Ltd 分析装置、分析方法及び分析プログラム
JP2014029611A (ja) * 2012-07-31 2014-02-13 Hitachi Systems Ltd 予測値評価支援システム、方法及びプログラム
US8983880B2 (en) 2011-11-18 2015-03-17 Nec Corporation Information spread scale prediction device, information spread scale prediction method, and information spread scale prediction program
JP2015127929A (ja) * 2013-12-27 2015-07-09 昭仁 島田 会話を記録された成員から或る主題を討議するのに最適な班構成を判別する方法
JP2019020850A (ja) * 2017-07-12 2019-02-07 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222485A (ja) * 1997-02-12 1998-08-21 Meidensha Corp 決定論的非線形予測装置
JP2005128808A (ja) * 2003-10-24 2005-05-19 Mitsubishi Electric Corp 予測装置
JP2005352613A (ja) * 2004-06-09 2005-12-22 Nec Corp トピック分析方法及びその装置並びにプログラム
JP2007073024A (ja) * 2005-08-11 2007-03-22 Nec Corp マクロ情報生成システム、マクロ情報生成装置、マクロ情報生成方法及びマクロ情報生成プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108865A (ja) * 2000-09-29 2002-04-12 Hitachi Kokusai Electric Inc データ検索システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222485A (ja) * 1997-02-12 1998-08-21 Meidensha Corp 決定論的非線形予測装置
JP2005128808A (ja) * 2003-10-24 2005-05-19 Mitsubishi Electric Corp 予測装置
JP2005352613A (ja) * 2004-06-09 2005-12-22 Nec Corp トピック分析方法及びその装置並びにプログラム
JP2007073024A (ja) * 2005-08-11 2007-03-22 Nec Corp マクロ情報生成システム、マクロ情報生成装置、マクロ情報生成方法及びマクロ情報生成プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIN'YA MOTOYAMA ET AL.: "Tasu no Kessonchi o Motsu Jikeiretsu Data kara no Data Mining Shuho no Ichi Kento", ANNUAL CONFERENCE OF JSAI (DAI 18 KAI) TAIKAI ONLINE PROGRAM [ONLINE], THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, 2004, pages 1F2-01, Retrieved from the Internet <URL:http://www-kasm.nii.ac.jp/jsai2004_schedule/pdf/000268.pdf]> [retrieved on 20090313] *
TAKUYA KANEKO: "Data Mining ni Okeru Atarashii Kessonchi Hokan Hoho no Teian", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J88-D-II, no. 4, 1 April 2005 (2005-04-01), pages 675 - 686 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8983880B2 (en) 2011-11-18 2015-03-17 Nec Corporation Information spread scale prediction device, information spread scale prediction method, and information spread scale prediction program
JP2014006584A (ja) * 2012-06-21 2014-01-16 Fujitsu Ltd 分析装置、分析方法及び分析プログラム
JP2014029611A (ja) * 2012-07-31 2014-02-13 Hitachi Systems Ltd 予測値評価支援システム、方法及びプログラム
JP2015127929A (ja) * 2013-12-27 2015-07-09 昭仁 島田 会話を記録された成員から或る主題を討議するのに最適な班構成を判別する方法
JP2019020850A (ja) * 2017-07-12 2019-02-07 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2009116342A1 (ja) 2011-07-21
JP5397370B2 (ja) 2014-01-22

Similar Documents

Publication Publication Date Title
US20210019211A1 (en) Method and device for determining a performance indicator value for predicting anomalies in a computing infrastructure from values of performance indicators
Klein et al. Representing data quality in sensor data streaming environments
EP2778872B1 (en) Industrial asset event chronology
Ghasemi et al. Optimal condition based maintenance with imperfect information and the proportional hazards model
Liu et al. The causal nexus between energy consumption, carbon emissions and economic growth: New evidence from China, India and G7 countries using convergent cross mapping
Hompes et al. Discovering causal factors explaining business process performance variation
US20210026725A1 (en) Method and device for determining an estimated time before a technical incident in a computing infrastructure from values of performance indicators
Subramaniyan et al. An algorithm for data-driven shifting bottleneck detection
JP5397370B2 (ja) 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体
US10915602B2 (en) Automatic detection of outliers in multivariate data
US20210026719A1 (en) Method and device for determining a technical incident risk value in a computing infrastructure from performance indicator values
Melnyk et al. Making sense of transient responses in simulation studies
Dasu Data glitches: Monsters in your data
AU2008362901B2 (en) Method and apparatus for default rating estimation
CN114169604A (zh) 性能指标的异常检测方法、异常检测装置、电子设备和存储介质
Carriero et al. A Comparison of Methods for the Construction of Composite Coincident and Leading Indexes for the UK
Minh et al. Parallel workload modeling with realistic characteristics
EP3018620A1 (en) Characterising user behaviour
Boyack et al. An improved practical approach to forecasting exceptional growth in research
US20220108196A1 (en) Improved computer-implemented event forecasting and information provision
WO2022269959A1 (ja) ヒューマンライフ・トレーサビリティ装置および改善案提案支援方法
US11943123B1 (en) Timeline framework for time-state analytics
Pointner et al. Anomaly-Based Risk Detection Using Digital News Articles
Wu Efficient Seasonal Forecasting of Application Demand with ELF
JP2022165669A (ja) 異常検出装置、異常検出方法、および異常検出プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09722325

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010503801

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09722325

Country of ref document: EP

Kind code of ref document: A1