WO2016027364A1 - 話題クラスタ選択装置、及び検索方法 - Google Patents

話題クラスタ選択装置、及び検索方法 Download PDF

Info

Publication number
WO2016027364A1
WO2016027364A1 PCT/JP2014/071987 JP2014071987W WO2016027364A1 WO 2016027364 A1 WO2016027364 A1 WO 2016027364A1 JP 2014071987 W JP2014071987 W JP 2014071987W WO 2016027364 A1 WO2016027364 A1 WO 2016027364A1
Authority
WO
WIPO (PCT)
Prior art keywords
topic
topic cluster
information
cluster
clusters
Prior art date
Application number
PCT/JP2014/071987
Other languages
English (en)
French (fr)
Inventor
恵木 正史
川本 真一
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2014/071987 priority Critical patent/WO2016027364A1/ja
Publication of WO2016027364A1 publication Critical patent/WO2016027364A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to a topic cluster selection device that searches posted information.
  • Posting information posted by the user includes not only positive topics but also negative topics that cause damage to companies and the like. Post information tends to spread instantly once posted. For this reason, there is a risk of falling into an irreparable situation when measures by companies or the like on negative posting information are delayed. Therefore, there is an increasing need for monitoring information posted on microblogs, monitoring the occurrence of topics that are risks for companies, and taking measures.
  • post information posted by the user includes topics such as earthquakes and public transport delays experienced by the user, and incidents and accidents that occurred in front of the user.
  • topics such as earthquakes and public transport delays experienced by the user, and incidents and accidents that occurred in front of the user.
  • police, local governments, infrastructure companies, media companies, and the like have a need to monitor information posted on microblogs, monitor the occurrence of such topics, and take measures.
  • Patent Document 1 Japanese Unexamined Patent Application Publication No. 2009-3888 (hereinafter referred to as Patent Document 1) is a technique for extracting a keyword from program guide information of a television program.
  • the gazette of patent document 1 states that “subjects are subdivided into subtopics and keywords representing subtopics are extracted and presented.
  • a keyword analysis means for obtaining a word vector represented by each document;
  • a topic cluster extraction means for extracting a topic cluster belonging to the same topic in a set of documents in the plurality of documents; and a predetermined number of items in descending order of appearance frequency from the topic cluster.
  • a keyword extracting means for extracting keywords as a characteristic keyword group, and subtracting the topic cluster according to a criterion of any of the number of documents, the distribution of dates included in the document, and the C-value value of the keywords included in the document.
  • Topic structurator for determining whether topics can be structured by dividing them into topic clusters.
  • Patent Document 1 extracts popular topics and their temporal changes as keywords and their transitions for news articles on Web pages on the Internet.
  • the number of topics included in microblogs is orders of magnitude higher than the number of topics included in news articles. For this reason, even if a keyword is presented, it is difficult for an administrator to check whether there is a topic that the administrator wants to monitor.
  • the topic of microblogging is diverse and the degree of freedom of expression is very high. For this reason, it is difficult for the administrator to grasp the contents from the presented keywords.
  • An object of the present invention is to provide a topic cluster selection device that extracts a topic desired by an administrator from posted information and displays the extracted topic in a manner that can be easily understood by the administrator.
  • the present invention provides a posting information collection unit that collects a plurality of posted information items, and a topic cluster that manages a topic cluster in which the collected plurality of posted information items are clustered for each topic.
  • a management unit a search condition input reception unit that receives an input of a search condition, a topic cluster selection unit that selects at least one topic cluster that matches the search condition received by the search condition input reception unit, and the topic cluster
  • a summary creation unit that creates a summary of the contents of the search result
  • a search result display unit that displays a summary of at least one topic cluster selected by the topic cluster selection unit as a search result of the search condition.
  • a topic cluster selection device that extracts a topic desired by an administrator from post information such as a microblog and displays the extracted topic in a manner that can be easily understood by the administrator.
  • FIG. 1 is an explanatory diagram of the computer system of the embodiment.
  • the computer system of the present embodiment includes a topic cluster selection device 100, a microblog server 130, and a user terminal 140.
  • the topic cluster selection device 100, the microblog server 130, and the user terminal 140 are connected via a network 150.
  • the user terminal 140 is, for example, a PC (personal computer) or a portable terminal (for example, a smartphone) and the like, receives input of post information from the user, and transmits the post information that has been input to the microblog server 130.
  • the microblog server 130 is a computer that provides a microblog service, and stores post information received from the user terminal 140.
  • the topic cluster selection device 100 collects post information stored in the microblog server 130. Further, the topic cluster selection device 100 clusters collected post information for each of the same topics. A set of post information clustered for each topic is called a topic cluster. Further, the topic cluster selection device 100 receives an input of search conditions, selects a topic cluster that matches the search condition from the topic clusters, and displays a summary of the selected topic cluster on an output device (for example, a display) (not shown). .
  • the topic cluster selection device 100 includes a processor (CPU) 110 and a storage device 120.
  • the processor 110 reads / writes various information stored in the storage device 120 and executes various programs stored in the storage device 120.
  • the storage device 120 is, for example, a memory.
  • the processor 110 includes a posting information collection unit 111, a topic cluster management unit 112, a summary creation unit 113, a search condition input reception unit 114, a topic cluster selection unit 115, and a search result display unit 116. Programs corresponding to these are stored in the storage device 120, and the processor 110 executes the program stored in the storage device 120, thereby providing a posted information collection unit 111, topic cluster management unit 112, summary creation unit 113, search A condition input reception unit 114, a topic cluster selection unit 115, and a search result display unit 116 are realized.
  • the storage device 120 stores a microblog table 121, a topic cluster table 122, a representative microblog table 123, a topic cluster association table 124, and a super topic cluster table 125.
  • the posting information collection unit 111 collects the posting information stored in the microblog server 130 at a predetermined timing.
  • the topic cluster management unit 112 clusters the posting information collected by the posting information collection unit 111 for each topic, and generates a topic cluster.
  • the summary creation unit 113 creates a summary of each topic cluster generated by the topic cluster management unit 112. The processing of the posting information collection unit 111, the topic cluster management unit 112, and the summary creation unit 113 will be described in detail with reference to FIGS.
  • the search condition input receiving unit 114 receives an input of search conditions from an input device (not shown).
  • the search condition may include, for example, a search expression that becomes a keyword and a format (ranking format) for displaying search results.
  • the input device may be, for example, a keyboard and a mouse connected to the topic cluster selection device 100, or a terminal (such as a PC or a portable terminal) connected to the topic cluster selection device 100 via the network 150. Also good.
  • the topic cluster selection unit 115 selects at least one topic cluster that matches the input search condition.
  • the search result display unit 116 displays a search result display screen 1400 (see FIG. 14) including a summary of the topic cluster selected by the topic cluster selection unit 115 on an output device (not shown).
  • the output device may be a display or the like connected to the topic cluster selection device 100, or may be a terminal (such as a PC or a portable terminal) connected to the topic cluster selection device 100 via the network 150.
  • microblog table 121 post information attribute information (post date, post position, contributor, etc.) and post information document information are registered.
  • the microblog table 121 will be described in detail with reference to FIG.
  • topic cluster table 122 the correspondence between the identification information of the topic cluster and the identification information of the microblog (post information) clustered in the topic cluster is registered.
  • the microblog table 121 will be described in detail with reference to FIG.
  • representative microblog table 123 the correspondence between the identification information of the topic cluster and the identification information of the microblog (representative microblog) that summarizes the contents of the topic cluster is registered.
  • the representative microblog table 123 will be described in detail with reference to FIG.
  • topic cluster association table 124 In the topic cluster association table 124, associations between topic clusters corresponding between topic clusters having different time zones are registered. The topic cluster association table 124 will be described in detail with reference to FIG. In the super topic cluster table 125, transitions of corresponding topic clusters across time zones are registered. The super topic cluster table 125 will be described in detail with reference to FIGS. 6A and 6B.
  • FIG. 2 is an explanatory diagram of the microblog table 121 of the embodiment.
  • the microblog table 121 includes a microblog ID 201, a posting date 202, position coordinates 203, a poster 204, and contents 205.
  • microblog ID 201 microblog identification information posted by the user is registered.
  • the posting date 202 the date when the user posted the microblog is registered.
  • the position coordinates 203 the position coordinates of the place where the user posted the microblog is registered.
  • the poster 204 the identification information of the user who posted the microblog is registered.
  • the content 205 document information indicating the content of the microblog posted by the user is registered.
  • the microblog table 121 is updated when the posting information collection unit 111 collects microblogs.
  • FIG. 3 is an explanatory diagram of the topic cluster table 122 of the embodiment.
  • the topic cluster table 122 includes a microblog ID 301 and a topic cluster ID 302.
  • the microblog ID 301 is registered with microblog identification information.
  • topic cluster identification information is registered.
  • “1” is registered in the column corresponding to the identification information of the topic cluster in which the microblog is clustered among the columns of the record of the microblog ID.
  • “1” is registered in the column corresponding to the topic cluster ID “CID001001” of the record of the microblog ID “MID001001”. In this column, “0” is registered.
  • the topic cluster table 122 is updated when the topic cluster management unit 112 clusters microblogs into topic clusters.
  • FIG. 4 is an explanatory diagram of the representative microblog table 123 of the embodiment.
  • the representative microblog table 123 includes a topic cluster ID 401 and a representative microblog ID 402.
  • the topic cluster identification information is registered in the topic cluster ID 401.
  • identification information of a microblog that summarizes the contents of the topic cluster that is, a microblog that represents the topic cluster is registered.
  • the representative microblog table 123 is updated when the summary creation unit 113 determines a microblog that is a summary of the topic cluster.
  • FIG. 5 is an explanatory diagram of the topic cluster association table 124 of the embodiment.
  • the topic cluster association table 124 includes a topic cluster ID (t1 topic cluster ID) 501 in a certain time zone and a topic cluster ID (t2 topic cluster ID) 502 in the next time zone.
  • the topic cluster in the time zone (t2) of the record of the topic cluster in the time zone (t1) “1” is registered in the corresponding column.
  • the topic cluster ID “CID001001” in the time zone (t1) corresponds to the topic cluster ID “CID002001” in the time zone (t2)
  • “1” is registered in the column, and “0” is registered in the other columns.
  • the topic cluster association table 124 is updated when the topic cluster management unit 112 determines that a topic cluster in a certain time zone corresponds to a topic cluster in the next time zone.
  • FIG. 6A is an explanatory diagram of the super topic cluster table 125 of the embodiment.
  • the super topic cluster table 125 includes topic cluster IDs 601A to 601C and super topic cluster IDs 602 for each time period.
  • the super topic cluster is a collection of topic clusters that correspond across time zones.
  • topic cluster identification information for each time zone is registered.
  • the topic cluster identification information of the time zone (t1) is registered in the topic cluster 601A of t1.
  • identification information of the super topic cluster is registered.
  • FIG. 6B is an explanatory diagram of a topic transition for each time zone of a super topic cluster with an embodiment.
  • FIG. 6B explains the transition of the topic of the super topic cluster whose identification information shown in FIG. 6A is “SID00001”.
  • the topic clusters “CID002001” and “CID002002” in the time zone (t2) correspond to the topic cluster “CID001001” in the time zone (t1). That is, the topic of the topic cluster “CID001001” in the time zone (t1) is separated into the topics of the topic clusters “CID002001” and “CID002002” in the time zone (t2).
  • the topic cluster “CID003001” corresponds to the topic cluster “CID002001” in the time zone (t2).
  • the topic cluster “CID003003” corresponds to the topic clusters “CID002002” and “CID002004” in the time period (t2). That is, the topics of the topic clusters “CID002002” and “CID002004” in the time zone (t2) are combined with the topics of the topic cluster “CID003003” in the time zone (t3).
  • the topic clusters “CID001001”, “CID002001”, “CID002002”, “CID002004”, “CID003001”, and “CID003003” are the corresponding topics and are clustered into the super topic cluster “SID0001”.
  • FIG. 7 is a flowchart of the pre-search stage process of the embodiment.
  • the pre-retrieval stage process is a process of the posted information collection unit 111, the topic cluster management unit 112, and the summary creation unit 113.
  • the posting information collection unit 111 collects microblogs posted after the time when the microblog was collected last time from the microblog server 130 at a predetermined timing (701).
  • the predetermined timing is, for example, a timing when a predetermined time has elapsed since the last collection of microblogs.
  • the posted information collection unit 111 registers information about the microblog collected in the process of step 701 in the microblog table 121.
  • the topic cluster management unit 112 clusters the microblogs collected in step 701 for each topic to generate topic clusters, and the summary creation unit 113 generates a summary of topic clusters in which the microblogs are clustered ( 702).
  • the processing in step 702 is called topic cluster generation processing and will be described in detail with reference to FIG.
  • the topic cluster management unit 112 adds the microblog record collected in step 701 to the topic cluster table 122 and registers “1” in the column corresponding to the identification information of the topic cluster into which the microblog is classified. To do.
  • the summary creation unit 113 registers the identification information of the microblog to be the summary in the column of the representative microblog ID 402 of the record of the representative microblog table 123 of the topic cluster for which the summary has been generated in the process of step 702.
  • the topic cluster management unit 112 has a topic whose similarity between the topic cluster generated last time (time zone (t ⁇ 1)) and the topic cluster generated this time (time zone (t)) is larger than the threshold.
  • Cluster combinations are associated (703).
  • the same processing as the processing for generating the topic cluster in the processing in step 702 can be used.
  • the combination of topic clusters having a similarity greater than the threshold between the topic cluster generated last time and the topic cluster generated this time is a combination of topic clusters corresponding across time zones.
  • the topic cluster management unit 112 registers the correspondence between the topic cluster generated last time in the processing of step 703 and the topic cluster generated this time in the topic cluster association table 124.
  • the topic cluster management unit 112 clusters the corresponding topic clusters into super topic clusters across time zones based on the association of the topic clusters from the past to the present (704), and ends the pre-search process To do.
  • the processing in step 704 will be described in detail with reference to FIGS. 12A and 12B.
  • the topic cluster management unit 112 registers the correspondence relationship in the column corresponding to the identification information of the super topic cluster in which the topic cluster is classified in the record of the topic cluster classified as the super topic cluster in the super topic cluster table 125.
  • the pre-retrieval stage processing is executed every time a predetermined time elapses after collecting the microblog until it is canceled when the button for canceling the microblog collection processing of the posting information collection unit 111 is operated. Is done.
  • FIG. 8 is a flowchart of topic cluster generation processing according to the embodiment.
  • the topic cluster management unit 112 calculates a feature vector based on at least one of the document information and attribute information of each microblog collected in step 701 (801).
  • the feature vector calculation process based on the microblog document information will be described in detail with reference to FIG.
  • the topic cluster management unit 112 calculates the similarity of the feature vectors of each microblog calculated in the process of step 801, and clusters the microblogs in which the calculated similarity is larger than the threshold value, A cluster is generated (802).
  • the topic cluster management unit 112 repeatedly executes the process of step 802 until there is no microblog having a similarity greater than the threshold value.
  • a set of microblogs that are clustered when there are no more microblogs whose similarity is greater than a threshold value is called a topic cluster.
  • the processing in step 802 is called clustering processing and will be described in detail with reference to FIG.
  • the summary creation unit 113 selects the representative microblog of the topic cluster generated in the process of step 802, sets the document information of the selected representative microblog as the summary of the topic cluster (803), and generates the topic cluster generation process. Exit.
  • the summary creation unit 113 may select the representative microblog based on the statistic of the feature vector of the microblog clustered into topic clusters. For example, the summary creation unit 113 may select a microblog having a feature vector closest to the center of gravity in the feature space of the feature vectors of the microblog clustered into topic clusters as the representative microblog. Accordingly, the topic cluster or summary creation unit 113 may select the microblog with the latest posting date as the representative microblog among the microblogs clustered into the topic cluster.
  • FIG. 9 is an explanatory diagram of the process for calculating the feature vector of the microblog and the process for calculating the similarity between the microblogs according to the embodiment.
  • FIG. 9 illustrates a case where a feature vector is calculated based on a word included in the document information of the microblog.
  • feature vectors based on words are described.
  • various attribute information post date, position coordinates, etc.
  • post information may be included in the feature vector.
  • N indicates the number of microblogs collected in the process of step 701.
  • L indicates the number of types of words included in the microblog collected in the process of step 701.
  • W ij indicates the number of words j included in the microblog i.
  • Df (w) indicates the number of microblogs including the word w.
  • the feature vector of microblog i is composed of the feature amount shown in Equation 1 in FIG.
  • the feature amount is calculated for each of the L words included in the microblog collected in step 701.
  • the feature amount of each word is calculated based on Equation 2 in FIG.
  • the similarity between the microblog i and the microblog j is calculated based on Equation 3 in FIG.
  • microblog i and microblog j The greater the similarity, the same word is included in microblog i and microblog j, and the topic of microblog i and the topic of microblog j are similar.
  • the similarity between the microblog i and the microblog j is larger than the threshold value, the microblog i and the microblog j are associated with each other.
  • FIG. 10 is a flowchart of the clustering process of the embodiment.
  • the topic cluster C [1] corresponds to the microblog 1.
  • the topic cluster management unit 112 calculates the similarity of all the combinations of the microblogs collected in the process of step 701, and generates a similarity matrix (1002). Note that the degree of similarity between microblogs is calculated based on Equation 3 in FIG.
  • the topic cluster management unit 112 selects a combination of microblogs (microblog i, j) that maximizes the similarity (1003). Then, the topic cluster management unit 112 determines whether or not the similarity between the microblogs i and j selected in step 1003 is larger than a threshold (1004).
  • the topic cluster management unit 112 selects the topic clusters (C [i], C, i, j) corresponding to the two selected microblogs (microblog i, j).
  • C [j]) is set to one topic cluster (C [i])
  • the feature vector (x [i]) of one microblog i and the feature vector (x [i] of the other microblog j are set.
  • j]) is newly set as the feature vector (x [i]) of the one microblog i (1005).
  • the topic cluster management unit 112 deletes the topic cluster (C [j]) corresponding to the other microblog j and the feature vector (x [j]) of the other microblog j (1006), and step Returning to the processing of 1002, the similarity of all combinations of microblogs is calculated again.
  • step 1003 if it is determined in step 1003 that the similarity is equal to or less than the threshold, there is no combination of microblogs whose similarity is greater than the threshold, and there is no microblog that can be clustered into topic clusters. Therefore, the clustering process is terminated.
  • FIG. 11 is an explanatory diagram of the clustering process of the embodiment.
  • microblogs 1 to 5 are collected in the process of step 701 shown in FIG.
  • topic clusters C [1] to C [5] corresponding to the microblogs 1 to 5 are set, and feature vectors x [1] to x [5] of the microblogs 1 to 5 are set. ] Is calculated.
  • feature vectors x [1] to x [5] are plotted on the feature space.
  • microblogs 2 and 5 are selected as the combination of microblogs having the maximum similarity. It is determined that the similarity between the microblogs 2 and 5 is greater than the threshold value, and the union of the topic clusters C [2] and C [5] is set in the topic cluster C [2]. 5 is clustered into the topic cluster C [2], and the addition result of the feature vectors x [2] and x [5] is set to the feature vector x [2]. Further, the topic cluster C [5] and the feature vector x [5] are deleted. Since the value of the feature vector x [2] has been updated, the process returns to step 1002, and the similarity matrix is calculated again.
  • microblogs 2 and 5 are clustered in topic cluster C [2], and topic cluster C [5] is deleted.
  • microblogs 3 and 4 are selected as a combination of microblogs having the maximum similarity.
  • topic clusters C [1] and C [2] are selected as a combination of topic clusters having the maximum similarity.
  • the similarity between the topic clusters C [1] and C [2] is greater than the threshold value, and the union of the topic clusters C [1] and C [2] is set to the topic cluster C [1].
  • the microblogs 1, 2, and 5 are clustered into the topic cluster C [1], and the addition result of the feature vectors x [1] and x [2] is set to the feature vector x [1].
  • the topic cluster C [2] and the feature vector x [2] are deleted. Since the value of the feature vector x [1] has been updated, the process returns to step 1002, and the similarity matrix is calculated again.
  • topic clusters C [1] and C [3] are selected as a combination of topic clusters having the maximum similarity.
  • microblogs 1, 2 and 5 are clustered on the topic cluster C [1]
  • microblogs 3 and 4 are clustered on the topic cluster C [3].
  • FIG. 12A is an explanatory diagram of a process for associating topic clusters across time zones in the embodiment.
  • microblogs 12 to 20 in the time period (t2 to t3) are collected, microblogs 12 to 15, 19, and 20 are clustered into topic cluster C21, and microblogs 16 to 18 are clustered into topic cluster C22.
  • the representative microblog of the topic cluster C21 is the microblog 15, and the representative microblog of the topic cluster C22 is the microblog 17.
  • the microblogs 1, 3, 5, and 8 are clustered into the topic cluster C11
  • the microblogs 2, 4, 7, and 11 are clustered into the topic cluster C12
  • the microblog 6 , 9 and 10 are clustered into the topic cluster C13.
  • the representative microblog of the topic cluster C11 is the microblog 5
  • the representative microblog of the topic cluster C12 is the microblog 4
  • the representative microblog of the topic cluster C13 is the microblog 9.
  • the clustering process shown in FIG. 10 can be used for the process of associating topic clusters across time zones.
  • the similarity of all combinations of topic clusters across time zones is calculated.
  • the similarity of all combinations between the topic clusters C21 and C22 and the topic clusters C11 to C11 is calculated.
  • the feature vector of the topic cluster is a result of adding the feature vectors of microblogs clustered into the topic cluster, and the similarity of the topic cluster is calculated by Equation 3 shown in FIG.
  • a combination of topic clusters that maximizes the similarity is selected, and if the similarity of the selected topic cluster is greater than a threshold value, the selected topic cluster is associated. This process is repeated until the similarity of the topic cluster having the maximum similarity is equal to or less than a threshold value.
  • the corresponding microblogs (or topic clusters) are clustered into one topic cluster, but in the topic cluster association process across time zones, the corresponding topic clusters are clustered into super topic clusters.
  • the feature vector of the topic cluster may be the feature vector of the representative microblog of the topic cluster.
  • the topic cluster C21 corresponds to the topic clusters C11 and C12.
  • the fact that a topic cluster in a certain time zone corresponds to a plurality of past topic clusters means that the topic of a plurality of topic clusters in the past is combined with a topic cluster in a certain time zone.
  • the topic cluster C22 corresponds to the topic cluster C13.
  • topic clusters C31 and C32 are generated in the time period (t3 to t4).
  • the topic cluster C23 corresponds to the topic clusters C31 and C32.
  • Corresponding to a plurality of topic clusters in a time zone with a past topic cluster means that the topics of a past topic cluster are separated into a plurality of topic clusters in a time zone with a topic.
  • FIG. 12B is an explanatory diagram of a super topic cluster in which topic clusters across time zones in the embodiment are clustered.
  • the super topic cluster a series of topic clusters corresponding across time zones are clustered.
  • the topic cluster selection unit 115 selects a topic cluster that matches the search condition
  • the time zone of the selected topic cluster of the super topic cluster in which the selected topic cluster is clustered is selected.
  • the search result display unit 116 includes a summary of topic clusters (matching topic clusters) that match the search condition selected by the topic cluster selection unit 115, and a topic cluster clustered into the same super topic cluster as the topic cluster.
  • a search result display screen 1400 (see FIGS. 14A and 14B) including a summary of topic clusters (time-series-corresponding topic clusters) corresponding to compatible topic clusters across time zones is displayed.
  • the threshold used to determine whether or not a topic cluster corresponds across time zones is larger than the threshold used to determine whether or not a microblog corresponds in the same time zone It may be set to a value.
  • FIG. 13 is a flowchart of the search process of the embodiment.
  • the search condition input reception unit 114 receives an input of search conditions from the user (1301).
  • the search condition includes at least a search expression as a keyword.
  • the search condition may include a ranking method that is an order in which topic clusters that match the search formula are displayed. The search condition will be described in detail with reference to FIG.
  • the topic cluster selection unit 115 selects at least one topic cluster (conforming topic cluster) in which microblogs conforming to the search formula are clustered (1302). For example, the topic cluster selection unit 115 selects a record including a search-type keyword in which the document information registered in the content 205 of the microblog table 121 accepts input, and the microdata registered in the microblog ID 201 of the selected record. Get blog identification information.
  • the topic cluster selection unit 115 selects the topic cluster table 122 as the microblog ID 301.
  • a matching topic cluster in which microblogs matching the search expression are clustered is selected.
  • the topic cluster selection unit 115 corresponds to the matching topic cluster across time zones (hours).
  • a series correspondence topic cluster) is selected (1303).
  • the topic cluster selection unit 115 selects a record in which the identification information of the compatible topic cluster is registered in the topic cluster IDs 601A to 601C of each time zone of the super topic cluster table 125. Then, the topic cluster selection unit 115 stores information registered in the column in which information other than “0” of the selected record is registered, and identification information of the super topic cluster registered in the super topic cluster ID 602 corresponding to the column. To get.
  • the topic cluster selection unit 115 acquires the identification information of the topic cluster.
  • the acquired identification information of the topic cluster is identification information of the topic cluster corresponding to the matching topic cluster among the topic clusters in the time zone immediately before the time zone of the matching topic cluster. Further, the topic cluster selection unit 115, when the information registered in the acquired column is “Connect from topic cluster identification information” or “new”, the topic in the time zone immediately after the time zone of the applicable topic cluster A record in which the identification information of the compatible topic cluster is registered in the column corresponding to the identification information of the super topic cluster acquired by the cluster IDs 601A to 601C is acquired.
  • the topic cluster selection unit 115 acquires topic cluster identification information registered in the topic cluster IDs 601A to 601C in the time zone of the acquired record.
  • the acquired identification information of the topic cluster is identification information of the topic cluster corresponding to the compatible topic cluster among the topic clusters in the time zone immediately after the time zone of the compatible topic cluster.
  • the topic cluster selection unit 115 selects another topic. Also obtains cluster identification information. As a result, even when the topic of the matching topic cluster and the topic of another topic cluster are combined, it can be understood that the other topic cluster corresponds to the matching topic cluster.
  • the topic cluster selection unit 115 selects the summary of the relevant topic cluster and the summary of the time-series-corresponding topic cluster selected in step 1302 (1304). Specifically, the topic cluster selection unit 115 acquires the identification information of the representative microblog registered in the representative microblog ID 402 of the record in which the identification information of the matching topic cluster is registered in the topic cluster ID 401 of the representative microblog table 123. To do. Then, the topic cluster selection unit 115 selects the document information registered in the content 205 of the record in which the identification information of the representative microblog acquired in the microblog ID 201 of the microblog table 121 is registered as the summary of the compatible topic cluster. . Note that the topic cluster selection unit 115 can select the summary of time-series-corresponding topic clusters by the same process.
  • the topic cluster selection unit 115 displays a search result display screen 1400 (see FIGS. 14A and 14B) including a summary of the matching topic clusters selected in the processing of step 1304 and a summary of the time series corresponding topic clusters. .
  • the search result display screen 1400 will be described in detail with reference to FIGS. 14A and 14B.
  • the topic cluster selection unit 115 determines whether or not a predetermined time has elapsed since the matching topic cluster was selected in the process of step 1302 (1306). If it is determined in step 1306 that a predetermined time has elapsed, the process returns to step 1302 and the topic cluster selection unit 115 selects a compatible topic cluster again.
  • the topic cluster selection device 100 can display the summary of the relevant topic cluster and the summary of the time-series-corresponding topic cluster based on the latest microblog information every time a predetermined time elapses.
  • step 1306 determines whether the cancel button 1403 shown in FIG. 14A has been operated (1307). If it is determined in step 1307 that the cancel button 1403 has been operated, the topic cluster selection device 100 ends the search process. On the other hand, if it is determined in step 1307 that the cancel button has not been operated, the process returns to step 1306, and the topic cluster selection unit 115 has passed a predetermined time after the matching topic cluster was selected in step 1302. Determine whether or not.
  • FIG. 14A is an explanatory diagram of a search result display screen 1400 according to the embodiment.
  • the search result display screen 1400 includes a URL display area 1401, a move button 1402, a stop button 1403, a search condition setting area 1410, a search result display area 1420, and a topic change display area 1430.
  • the URL display area 1401 the URL of the currently displayed web page is displayed.
  • the topic cluster selection device 100 displays the Web page of the URL input in the URL display area 1401.
  • the topic cluster selection device 100 closes the search result display screen 1400 and ends the search process shown in FIG.
  • Search conditions are entered in the search condition setting area 1410.
  • the search condition setting area 1410 includes a search expression input area 1411, a ranking method input area 1412, and an execution button 1413.
  • a search expression input area 1411 a search expression as a keyword is input.
  • the ranking method input area 1412 the display order of the relevant topic clusters is input.
  • the ranking method input area 1412 shown in FIG. 14A there are the number of utterances and the utterance increase rate.
  • topic clusters are displayed in descending order of the number of microblogs that match the search formula in a predetermined period. . For the predetermined period, one period is selected from cumulative, the latest 24 hours, and the latest 1 hour.
  • the case where the rate of increase in speech is selected will be described. Subtract the number of microblogs that match the search formula of the previous time zone from the number of microblogs that match the search formula of the time zone with the super topic cluster The number of microblogs that match the search formula of the previous time zone Time zones are selected in descending order of the value divided by (speech increase rate). Then, for each selected time zone, the topic cluster having the maximum number of microblogs that match the search formula is selected. Then, the topic clusters with the largest number of microblogs that match the search formula of the time zone are displayed in descending order of the speech increase rate.
  • search condition input receiving unit 114 When a search formula is input to the search formula input area 1411, a display order is selected by the ranking method 1412, and the execution button 1413 is operated, the search condition input receiving unit 114 performs a search including the search formula and the display order. Accept input of conditions.
  • Hitachi is input as a search expression, and the number of utterances in the most recent hour is selected as the display order.
  • the search result display area 1420 a summary of relevant topic blogs is displayed. Specifically, the search result display area 1420 includes a rank 1421, the number of utterances 1422, a topic summary 1423, and statistical information 1424.
  • the rank of the relevant topic cluster is displayed. For example, when the number of utterances is selected as the display order, the ranking of the matching topic cluster having the largest number of utterances is “1”.
  • the number of utterances 1422 the number of utterances of the matching topic cluster is displayed. For example, the number of utterances is the number of microblogs that match the search formula among the microblogs clustered into the relevant topic blogs.
  • the topic summary 1423 displays a summary of matching topic clusters. For example, the document information of the representative microblog of the matching topic cluster is displayed in the topic summary 1423.
  • the statistical information 1424 the number of microblogs that match the search formula among the topic clusters clustered in the super topic cluster of the compatible topic clusters is displayed in chronological order.
  • FIG. 14B is an explanatory diagram of the topic change display area 1430 included in the search result display screen 1400 of the embodiment.
  • topic change display area 1430 a summary of the time-series-corresponding topic clusters of the applicable topic clusters for which the statistical information 1424 in the search result display area 1420 is operated is displayed.
  • FIG. 14B it is assumed that the statistical information 1424 of the matching topic cluster whose rank 1421 in the search result display area 1420 in FIG. 14A is “1” is selected.
  • the topic change display area 1430 includes a plurality of time zones 1431 to 1433. In each of the time zones 1431 to 1433, a summary of the topic clusters belonging to the time zone 1431 is displayed. The summary of the matching topic cluster for which the statistical information 1424 is operated is displayed as the topic cluster 1431A in the time zone 1431 in FIG. 14B.
  • the topic cluster 1431A is a topic newly generated in the time zone 1431 and corresponds to the topic cluster 1432A in the next time zone 1432.
  • the topic cluster 1431B in the time zone 1431 also corresponds to the topic cluster 1432A in the time zone 1432. That is, the topic of topic cluster 1431A and the topic of 1431B are combined with the topic of topic cluster 1432A in time zone 1432.
  • the topic cluster 1432A in the time zone 1432 corresponds to the topic clusters 1433A and 1433B in the time zone 1433. That is, the topic of the topic cluster 1432A is separated into the topic of the topic cluster 1433A and the topic of the topic cluster 1433B.
  • topic cluster 1431A the summary of the time series corresponding topic clusters (topic clusters 1431B, 1432A, 1433A, and 1433B) of the compatible topic cluster (topic cluster 1431A) is displayed in the topic change display area 1430.
  • the user can grasp the transition of the series.
  • the post information has been described on the premise that the post information is a microblog posted by the user, but other information may be used.
  • the posted information may be news information such as a news distribution site.
  • the topic crystalling unit clustered the posting information such as the microblog into the topic cluster in the process of step 702 shown in FIG. 7, but the posting information may be manually clustered by the administrator or the like.
  • the posted information is indexed, and the posted information with the same index is clustered into the same topic cluster.
  • a topic cluster that matches the search condition is selected from the topic clusters in which the posting information is clustered for each topic, and a summary of the contents of the selected topic cluster is displayed.
  • the topic desired by the administrator can be extracted from the posted information, and the extracted topic can be displayed in a manner that is easy for the administrator to grasp.
  • a feature vector of posted information is calculated, a plurality of similar posted information is selected based on the calculated feature vector, and the selected plurality of posted information is clustered into one topic cluster.
  • similar posting information is clustered into topic clusters, so that posting information of the same topic can be accurately clustered into topic clusters.
  • a summary of the content of the topic cluster is generated by selecting one post information summarizing the content of the topic cluster from the post information clustered into the topic cluster.
  • the statistic of the feature vector of the post information clustered in the topic cluster is calculated, and the post information closest to the calculated statistic is selected as one post information summarizing the content of the topic cluster.
  • the accuracy with which the content of the selected posting information indicates the content of the topic cluster can be improved.
  • topic cluster summaries are displayed in the order of topic clusters having a high degree of matching with the search condition. Thereby, the summary of the topic clusters can be grasped in the order desired by the administrator or the like.
  • the topic cluster that matches the search condition and the topic cluster corresponding to the topic that crosses the time zone are selected as the time-series-corresponding topic cluster, the summary of the topic cluster that meets the selected search condition, and The summary of the selected time series corresponding topic cluster is displayed.
  • this invention is not limited to the above-mentioned Example, Various modifications are included.
  • the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described.
  • a part of the configuration of a certain embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of a certain embodiment.
  • each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit.
  • Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files for realizing each function can be stored in a recording device such as a memory, a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
  • control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.

Abstract

 投稿された複数の投稿情報を収集する投稿情報収集部と、収集された複数の投稿情報が話題ごとにクラスタリングされた話題クラスタを管理する話題クラスタ管理部と、検索条件の入力を受け付ける検索条件入力受付部と、検索条件入力受付部が入力を受け付けた検索条件に適合する少なくとも一つの話題クラスタを選択する話題クラスタ選択部と、話題クラスタの内容の要約を作成する要約作成部と、話題クラスタ選択部によって選択された少なくとも一つの話題クラスタの要約を検索条件の検索結果として表示する検索結果表示部と、を備えることを特徴とする話題クラスタ選択装置。

Description

話題クラスタ選択装置、及び検索方法
 本発明は、投稿情報を検索する話題クラスタ選択装置に関する。
 近年、時々刻々と投稿情報が投稿されるマイクロブログをリアルタイムに監視する技術が注目されている。ユーザが投稿する投稿情報は、ポジティブな話題だけでなく、企業等に損害を与えるようなネガティブな話題も含む。投稿情報はひとたび投稿されると、瞬時に広がる傾向にある。このため、ネガティブな話題の投稿情報への企業等による対策が遅れると、取り返しのつかない事態に陥るリスクがある。そこで、マイクロブログの投稿情報を監視し、企業等のリスクとなる話題の発生を監視し、対策を講じるニーズが増加している。
 また、ユーザが投稿する投稿情報は、ユーザが体験した地震及び公共交通機関の遅延、並びにユーザの目の前で起きた事件及び事故等の話題を含む。警察、自治体、インフラ系企業、及びメディア系企業等には、マイクロブログの投稿情報を監視し、このような話題の発生を監視し、対策を講じるニーズがある。
 テレビ番組の番組表情報等からキーワードを抽出する技術として、特開2009-3888号公報(以下、特許文献1)がある。特許文献1の公報には、「話題をサブ話題に細分化し、サブ話題を代表するキーワードを抽出して提示する。指定期間に入力された複数の文書の各々に含まれるキーワードを解析することにより、各文書が表す単語ベクトルを求めるキーワード解析手段と、前記複数の文書における文書の組において同じ話題に属する話題クラスタを抽出する話題クラスタ抽出手段と、前記話題クラスタから出現頻度の高い順に所定個数のキーワードを特徴的なキーワード群として抽出するキーワード抽出手段と、文書の数、文書に含まれる日付の分散、文書に含まれるキーワードのC-valueの値のいずれかの判定基準によって前記話題クラスタをサブ話題の話題クラスタに分割することにより、話題を構造化可能であるかを判定する話題構造化判定手段と、前記サブ話題クラスタにおいて前記特徴的なキーワード群を日時情報に基づいて並べて提示するキーワード提示手段と、を備える。」と記載されている(要約参照)。
特開2009-3888号公報
 特許文献1に記載された技術は、インターネット上のWebページのニュース記事などを対象に、流行している話題やその時間変化をキーワードとその変遷として抽出する。マイクロブログに含まれる話題の数は、ニュース記事に含まれる話題の数より桁違いに多い。このため、キーワードが提示されたとしても、管理者が監視したい話題の有無を確認することは困難である。また、マイクロブログの話題は多岐に渡り、表現の自由度も非常に高い。このため、管理者が提示されたキーワードから内容を把握することは困難である。
 本発明は、投稿情報から管理者が所望する話題を抽出し、抽出した話題を管理者に把握しやすい態様で表示する話題クラスタ選択装置を提供することを目的とする。
 上記課題を解決するために、本発明は、投稿された複数の投稿情報を収集する投稿情報収集部と、前記収集された複数の投稿情報が話題ごとにクラスタリングされた話題クラスタを管理する話題クラスタ管理部と、検索条件の入力を受け付ける検索条件入力受付部と、前記検索条件入力受付部が入力を受け付けた検索条件に適合する少なくとも一つの話題クラスタを選択する話題クラスタ選択部と、前記話題クラスタの内容の要約を作成する要約作成部と、前記話題クラスタ選択部によって選択された少なくとも一つの話題クラスタの要約を前記検索条件の検索結果として表示する検索結果表示部と、を備える。
 本発明によれば、マイクロブログ等の投稿情報から管理者が所望する話題を抽出し、抽出した話題を管理者に把握しやすい態様で表示する話題クラスタ選択装置を提供できる。
 上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
実施例の計算機システムの説明図である。 実施例のマイクロブログテーブルの説明図である。 実施例の話題クラスタテーブルの説明図である。 実施例の代表マイクロブログテーブルの説明図である。 実施例の話題クラスタ対応付けテーブルの説明図である。 実施例のスーパー話題クラスタテーブルの説明図である。 実施例のあるスーパー話題クラスタの時間帯毎の変遷の説明図である。 実施例の検索前段階処理のフローチャートである。 実施例の話題クラスタ生成処理のフローチャートである。 実施例のマイクロブログの特徴ベクトルの算出処理及びマイクロブログ同士の類似度の算出処理の説明図である。 実施例のクラスタリング処理のフローチャートである。 実施例のクラスタリング処理の説明図である。 実施例の時間帯を跨ぐ話題クラスタの対応付け処理の説明図である。 実施例の時間帯を跨ぐ話題クラスタがクラスタリングされるスーパー話題クラスタの説明図である。 実施例の検索処理のフローチャートである。 実施例の検索結果表示画面の説明図である。 実施例の検索結果表示画面に含まれる話題変化表示領域の説明図である。
 以下、図面を参照しつつ、本発明を実施するための形態を説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。また、各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略されている。
 図1は、実施例の計算機システムの説明図である。
 本実施例の計算機システムは、話題クラスタ選択装置100、マイクロブログサーバ130、及びユーザ端末140を有する。話題クラスタ選択装置100、マイクロブログサーバ130、及びユーザ端末140は、ネットワーク150を介して接続される。
 ユーザ端末140は、例えば、PC(パーソナルコンピュータ)又は携帯端末(例えば、スマートフォン等)等であり、ユーザから投稿情報の入力を受け付け、入力を受け付けた投稿情報をマイクロブログサーバ130に送信する。マイクロブログサーバ130は、マイクロブログのサービスを提供する計算機であり、ユーザ端末140から受信した投稿情報を記憶する。
 話題クラスタ選択装置100は、マイクロブログサーバ130に記憶された投稿情報を収集する。また、話題クラスタ選択装置100は、収集した投稿情報を同じ話題ごとにクラスタリングする。話題ごとにクラスタリングされた投稿情報の集合を話題クラスタという。また、話題クラスタ選択装置100は、検索条件の入力を受け付け、話題クラスタから検索条件に適合する話題クラスタを選択し、選択した話題クラスタの要約を図示しない出力デバイス(例えば、ディスプレイ等)に表示する。
 話題クラスタ選択装置100の詳細について説明する。話題クラスタ選択装置100は、プロセッサ(CPU)110及び記憶装置120を有する。
 プロセッサ110は、記憶装置120に記憶された各種情報を読み書きし、記憶装置120に記憶された各種プログラムを実行する。記憶装置120は例えばメモリ等である。プロセッサ110は、投稿情報収集部111、話題クラスタ管理部112、要約作成部113、検索条件入力受付部114、話題クラスタ選択部115、及び検索結果表示部116を有する。記憶装置120にはこれらに対応するプログラムが記憶され、プロセッサ110は、記憶装置120に記憶されたプログラムを実行することによって、投稿情報収集部111、話題クラスタ管理部112、要約作成部113、検索条件入力受付部114、話題クラスタ選択部115、及び検索結果表示部116が実現される。
 また、記憶装置120には、マイクロブログテーブル121、話題クラスタテーブル122、代表マイクロブログテーブル123、話題クラスタ対応付けテーブル124、及びスーパー話題クラスタテーブル125が記憶される。
 投稿情報収集部111は、マイクロブログサーバ130に記憶された投稿情報を所定のタイミングで収集する。話題クラスタ管理部112は、投稿情報収集部111が収集した投稿情報を話題ごとにクラスタリングし、話題クラスタを生成する。要約作成部113は、話題クラスタ管理部112によって生成された各話題クラスタの要約を作成する。投稿情報収集部111、話題クラスタ管理部112、及び要約作成部113の処理は、図7~図12Bで詳細に説明する。
 検索条件入力受付部114は、図示しない入力デバイスから検索条件の入力を受け付ける。検索条件は、例えば、キーワードとなる検索式を含み、検索結果を表示する形式(ランキング形式)を含んでもよい。入力デバイスは、話題クラスタ選択装置100に接続された例えばキーボード及びマウス等であってもよいし、話題クラスタ選択装置100にネットワーク150を介して接続された端末(PC又は携帯端末等)であってもよい。
 話題クラスタ選択部115は、入力された検索条件に適合する少なくとも一つの話題クラスタを選択する。検索結果表示部116は、話題クラスタ選択部115によって選択された話題クラスタの要約を含む検索結果表示画面1400(図14参照)を図示しない出力デバイスに表示する。出力デバイスは、話題クラスタ選択装置100に接続されたディスプレイ等であってもよいし、話題クラスタ選択装置100にネットワーク150を介して接続された端末(PC又は携帯端末等)であってもよい。
 マイクロブログテーブル121には、投稿情報の属性情報(投稿日時、投稿位置、投稿者等)及び投稿情報の文書情報が登録される。マイクロブログテーブル121は、図2で詳細に説明する。話題クラスタテーブル122には、話題クラスタの識別情報と当該話題クラスタにクラスタリングされたマイクロブログ(投稿情報)の識別情報との対応付けが登録される。マイクロブログテーブル121は、図3で詳細に説明する。代表マイクロブログテーブル123には、話題クラスタの識別情報と当該話題クラスタの内容を要約するマイクロブログ(代表マイクロブログ)の識別情報との対応付けが登録される。代表マイクロブログテーブル123は、図4で詳細に説明する。
 話題クラスタ対応付けテーブル124には、時間帯が異なる話題クラスタ間で対応する話題クラスタ同士の対応付けが登録される。話題クラスタ対応付けテーブル124は、図5で詳細に説明する。スーパー話題クラスタテーブル125には、時間帯を跨いで対応する話題クラスタの変遷が登録される。スーパー話題クラスタテーブル125は、図6A及び図6Bで詳細に説明する。
 図2は、実施例のマイクロブログテーブル121の説明図である。
 マイクロブログテーブル121は、マイクロブログID201、投稿日時202、位置座標203、投稿者204、及び内容205を含む。
 マイクロブログID201には、ユーザが投稿したマイクロブログの識別情報が登録される。投稿日時202には、ユーザがマイクロブログを投稿した日時が登録される。位置座標203には、ユーザがマイクロブログを投稿した場所の位置座標が登録される。投稿者204には、マイクロブログを投稿したユーザの識別情報が登録される。内容205には、ユーザが投稿したマイクロブログの内容を示す文書情報が登録される。
 マイクロブログテーブル121は、投稿情報収集部111がマイクロブログを収集した場合に更新される。
 図3は、実施例の話題クラスタテーブル122の説明図である。
 話題クラスタテーブル122は、マイクロブログID301、及び話題クラスタID302を含む。
 マイクロブログID301にはマイクロブログの識別情報が登録される。話題クラスタID302には話題クラスタの識別情報が登録される。あるマイクロブログがある話題クラスタにクラスタリングされる場合、当該マイクロブログIDのレコードのカラムのうちマイクロブログがクラスタリングされた話題クラスタの識別情報に対応するカラムに「1」が登録される。例えば、マイクロブログID「MID001001」は話題クラスタID「CID001001」にクラスタリングされるため、マイクロブログID「MID001001」のレコードの話題クラスタID「CID001001」に対応するカラムには「1」が登録され、他のカラムには「0」が登録される。
 話題クラスタテーブル122は、話題クラスタ管理部112がマイクロブログを話題クラスタにクラスタリングした場合に更新される。
 図4は、実施例の代表マイクロブログテーブル123の説明図である。
 代表マイクロブログテーブル123は、話題クラスタID401、及び代表マイクロブログID402を含む。
 話題クラスタID401には話題クラスタの識別情報が登録される。代表マイクロブログID402には話題クラスタの内容を要約するマイクロブログ、すなわち、話題クラスタを代表するマイクロブログの識別情報が登録される。
 代表マイクロブログテーブル123は、要約作成部113が話題クラスタの要約となるマイクロブログを決定した場合に更新される。
 図5は、実施例の話題クラスタ対応付けテーブル124の説明図である。
 話題クラスタ対応付けテーブル124は、ある時間帯の話題クラスタID(t1の話題クラスタID)501、及びある時間帯の次の時間帯の話題クラスタID(t2の話題クラスタID)502を含む。
 ある時間帯(t1)のある話題クラスタと次の時間帯(t2)のある話題クラスタとが対応する場合、時間帯(t1)の当該話題クラスタのレコードの時間帯(t2)の当該話題クラスタに対応するカラムに「1」が登録される。例えば、時間帯(t1)の話題クラスタID「CID001001」は時間帯(t2)の話題クラスタID「CID002001」と対応するため、話題クラスタID「CID001001」のレコードの話題クラスタID「CID002001」に対応するカラムには「1」が登録され、他のカラムには「0」が登録される。
 話題クラスタ対応付けテーブル124は、話題クラスタ管理部112がある時間帯の話題クラスタが次の時間帯の話題クラスタと対応すると判定した場合に更新される。
 図6Aは、実施例のスーパー話題クラスタテーブル125の説明図である。
 スーパー話題クラスタテーブル125は、各時間帯の話題クラスタID601A~601C、及びスーパー話題クラスタID602を含む。
 スーパー話題クラスタは、時間帯を跨いで対応する話題クラスタを集約したものである。各時間帯の話題クラスタID601A~601Cには、各時間帯の話題クラスタの識別情報が登録される。例えば、t1の話題クラスタ601Aには、時間帯(t1)の話題クラスタの識別情報が登録される。スーパー話題クラスタID602には、スーパー話題クラスタの識別情報が登録される。
 各時間帯に属する話題クラスタID601A~601Cのレコードのスーパー話題クラスタID602に対応するカラムには、各話題クラスタとスーパー話題クラスタとの関係を示す情報が登録される。当該カラムに「new」が登録された場合、当該カラムに対応するスーパー話題クラスタの識別情報内で新たな話題が当該レコードの話題クラスタによって発生したことを示す。また、当該カラムに「Connect from 話題クラスタの識別情報」等が登録された場合、当該レコードの話題クラスタと当該カラムに登録された話題クラスタの識別情報によって識別される話題クラスタとが対応し、これらの話題クラスタは同じスーパー話題クラスタにクラスタリングされることを示す。また、当該カラムに「0」が登録された場合、当該レコードの話題クラスタは、当該カラムに対応するスーパー話題クラスタにはクラスタリングされていないことを示す。
 図6Bは、実施例のあるスーパー話題クラスタの時間帯毎の話題の変遷の説明図である。
 図6Bでは、図6Aに示す識別情報が「SID00001」であるスーパー話題クラスタの話題の変遷について説明する。
 図6Aに示す時間帯(t1)では、話題クラスタ「CID001001」のレコードのスーパー話題クラスタ「SID00001」に対応するカラムに「new」が登録されている。このため、時間帯(t1)で新たな話題が発生する。
 次に、図6Aに示す時間帯(t2)では、話題クラスタ「CID002001」及び「CID002002」のレコードのスーパー話題クラスタ「SID00001」に対応するカラムに「Connect from CID001001」が登録されている。このため、時間帯(t2)の話題クラスタ「CID002001」及び「CID002002」は、時間帯(t1)の話題クラスタ「CID001001」と対応する。すなわち、時間帯(t1)の話題クラスタ「CID001001」の話題は、時間帯(t2)で話題クラスタ「CID002001」及び「CID002002」の話題に分離する。
 また、図6Aに示す時間帯(t2)では、話題クラスタ「CID002004」のレコードのスーパー話題クラスタ「SID00001」に対応するカラムに「new」が登録されている。このため、時間帯(t2)で新たな話題が発生する。
 また、同様に、図6Aに示す時間帯(t3)では、話題クラスタ「CID003001」は、時間帯(t2)の話題クラスタ「CID002001」と対応する。また、話題クラスタ「CID003003」は、時間帯(t2)の話題クラスタ「CID002002」及び「CID002004」と対応する。すなわち、時間帯(t2)の話題クラスタ「CID002002」及び「CID002004」の話題は、時間帯(t3)で話題クラスタ「CID003003」の話題に結合する。
 話題クラスタ「CID001001」、「CID002001」、「CID002002」、「CID002004」、「CID003001」、及び「CID003003」は、対応する話題であり、スーパー話題クラスタ「SID0001」にクラスタリングされる。
 図7は、実施例の検索前段階処理のフローチャートである。
 検索前段階処理は、投稿情報収集部111、話題クラスタ管理部112、及び要約作成部113の処理である。
 まず、投稿情報収集部111は、所定のタイミングで、マイクロブログを前回収集した時刻以降に投稿されたマイクロブログをマイクロブログサーバ130から収集する(701)。所定のタイミングは、例えば、マイクロブログを前回収集してから所定時間経過したタイミングである。投稿情報収集部111は、ステップ701の処理で収集したマイクロブログに関する情報をマイクロブログテーブル121に登録する。
 次に、話題クラスタ管理部112はステップ701の処理で収集したマイクロブログを話題ごとにクラスタリングし、話題クラスタを生成し、要約作成部113はマイクロブログがクラスタリングされた話題クラスタの要約を生成する(702)。ステップ702の処理は、話題クラスタ生成処理といい、図8で詳細を説明する。話題クラスタ管理部112は、ステップ701の処理で収集されたマイクロブログのレコードを話題クラスタテーブル122に追加し、当該マイクロブログが分類された話題クラスタの識別情報に対応するカラムに「1」を登録する。また、要約作成部113は、ステップ702の処理で要約が生成された話題クラスタの代表マイクロブログテーブル123のレコードの代表マイクロブログID402のカラムに、要約となるマイクロブログの識別情報を登録する。
 次に、話題クラスタ管理部112は、前回(時間帯(t-1))生成した話題クラスタと今回(時間帯(t))生成した話題クラスタとの間で類似度がしきい値より大きい話題クラスタの組み合わせを対応付ける(703)。ステップ703の処理は、ステップ702の処理の話題クラスタを生成する処理と同様の処理を用いることができる。ここで、前回生成された話題クラスタと今回生成された話題クラスタとの間で類似度がしきい値より大きい話題クラスタの組み合わせとは、時間帯を跨いで対応する話題クラスタの組み合わせである。
 なお、話題クラスタ管理部112は、ステップ703の処理で前回生成された話題クラスタと今回生成された話題クラスタとの対応付けを話題クラスタ対応付けテーブル124に登録する。
 次に、話題クラスタ管理部112は、過去から現在までの話題クラスタの対応付けに基づいて、時間帯を跨いで対応する話題クラスタをスーパー話題クラスタにクラスタリングし(704)、検索前段階処理を終了する。ステップ704の処理は、図12A及び図12Bで詳細に説明する。話題クラスタ管理部112は、スーパー話題クラスタテーブル125のスーパー話題クラスタに分類された話題クラスタのレコードの、当該話題クラスタが分類されたスーパー話題クラスタの識別情報に対応するカラムに対応関係を登録する。
 なお、検索前段階処理は、投稿情報収集部111のマイクロブログの収集処理を中止するボタン等が操作された場合には中止されるまで、マイクロブログを収集してから所定時間経過するたびに実行される。
 図8は、実施例の話題クラスタ生成処理のフローチャートである。
 話題クラスタ管理部112は、ステップ701の処理で収集された各マイクロブログの文書情報、及び属性情報の少なくとも一つに基づいて特徴ベクトルを算出する(801)。マイクロブログの文書情報に基づく特徴ベクトルの算出処理は、図9で詳細に説明する。
 次に、話題クラスタ管理部112は、ステップ801の処理で算出された各マイクロブログの特徴ベクトルの類似度を算出し、算出した類似度がしきい値より大きいマイクロブログをクラスタリングすることによって、話題クラスタを生成する(802)。話題クラスタ管理部112は、類似度がしきい値より大きいマイクロブログが存在しなくなるまで、ステップ802の処理を繰り返し実行する。類似度がしきい値より大きいマイクロブログが存在しなくなった時点でクラスタリングされているマイクロブログの集合を話題クラスタという。ステップ802の処理はクラスタリング処理といい、図10で詳細に説明する。
 次に、要約作成部113は、ステップ802の処理で生成された話題クラスタの代表マイクロブログを選択し、選択した代表マイクロブログの文書情報を当該話題クラスタの要約とし(803)、話題クラスタ生成処理を終了する。
 代表マイクロブログの選択方法について説明する。要約作成部113は、話題クラスタにクラスタリングされたマイクロブログの特徴ベクトルの統計量に基づいて代表マイクロブログを選択してもよい。例えば、要約作成部113は、話題クラスタにクラスタリングされたマイクロブログの特徴ベクトルの特徴空間において重心に最も近い特徴ベクトルのマイクロブログを代表マイクロブログとして選択してもよい。これによって、話題クラスタまた、要約作成部113は、話題クラスタにクラスタリングされたマイクロブログのうち投稿日時が最新のマイクロブログを代表マイクロブログとして選択してもよい。
 図9は、実施例のマイクロブログの特徴ベクトルの算出処理及びマイクロブログ同士の類似度の算出処理の説明図である。
 まず、マイクロブログの特徴ベクトルの算出処理について説明する。図9では、特徴ベクトルをマイクロブログの文書情報に含まれる単語に基づいて特徴ベクトルを算出する場合について説明する。なお、本実施例では単語に基づいた特徴ベクトルを説明しているが、特徴ベクトルに投稿情報の各種属性情報(投稿日時、位置座標など)を含めても良い。
 図9では、「N」はステップ701の処理で収集されたマイクロブログの数を示す。「L」はステップ701の処理で収集されたマイクロブログに含まれる単語の種数を示す。「Wij」は、マイクロブログiに含まれる単語jの数を示す。「df(w)」は単語wを含むマイクロブログの数を示す。
 マイクロブログiの特徴ベクトルは、図9の数式1に示す特徴量によって構成される。特徴量はステップ701の処理で収集されたマイクロブログに含まれるL個の単語それぞれについて算出される。各単語の特徴量は、図9の数式2に基づいて算出される。また、マイクロブログiとマイクロブログjとの類似度は、図9の数式3に基づいて算出される。
 類似度が大きければ大きいほど、マイクロブログiとマイクロブログjとに同じ単語が含まれることを示し、マイクロブログiの話題とマイクロブログjの話題とが類似することを示す。本実施例では、マイクロブログiとマイクロブログjとの類似度がしきい値より大きい場合、マイクロブログiとマイクロブログjとが対応付けられる。
 図10は、実施例のクラスタリング処理のフローチャートである。
 まず、話題クラスタ管理部112は、ステップ701の処理で収集されたマイクロブログの数をNに設定し、ステップ801の処理で算出された各マイクロブログの特徴ベクトルをx[1],・・・,x[N]に設定し、各マイクロブログに対応する話題クラスタ(C[1]={1},・・・,C[N]={N})を設定する(1001)。例えば、話題クラスタC[1]はマイクロブログ1に対応する。
 次に、話題クラスタ管理部112は、ステップ701の処理で収集されたマイクロブログの全ての組み合わせの類似度を算出し、類似度行列を生成する(1002)。なお、マイクロブログ同士の類似度は、図9の数式3に基づいて算出される。
 次に、話題クラスタ管理部112は、類似度が最大となるマイクロブログの組み合わせ(マイクロブログi,j)を選択する(1003)。そして、話題クラスタ管理部112は、ステップ1003の処理で選択されたマイクロブログi及びjの類似度がしきい値より大きいか否かを判定する(1004)。
 ステップ1004の処理で類似度がしきい値より大きいと判定された場合、話題クラスタ管理部112は、選択した二つのマイクロブログ(マイクロブログi,j)に対応する話題クラスタ(C[i],C[j])の和集合を一方の話題クラスタ(C[i])に設定し、当該一方のマイクロブログiの特徴ベクトル(x[i])と他方のマイクロブログjの特徴ベクトル(x[j])との加算結果を当該一方のマイクロブログiの特徴ベクトル(x[i])に新たに設定する(1005)。選択した二つのマイクロブログに対応する話題クラスタの和集合を一方の話題クラスタに設定することによって、選択した二つのマイクロブログが話題クラスタにクラスタリングされる。
 次に、話題クラスタ管理部112は、他方のマイクロブログjに対応する話題クラスタ(C[j])及び当該他方のマイクロブログjの特徴ベクトル(x[j])を削除し(1006)、ステップ1002の処理に戻り、マイクロブログの全ての組み合わせの類似度を再度算出する。
 一方、ステップ1003の処理で類似度がしきい値以下であると判定された場合、類似度がしきい値より大きくなるマイクロブログの組み合わせが存在せず、話題クラスタにクラスタリングできるマイクロブログが存在しないため、クラスタリング処理を終了する。
 図11は、実施例のクラスタリング処理の説明図である。
 図7に示すステップ701の処理でマイクロブログ1~5が収集されたものとする。図10に示すステップ1001の処理で、マイクロブログ1~5に対応する話題クラスタC[1]~C[5]が設定され、各マイクロブログ1~5の特徴ベクトルx[1]~x[5]が算出される。図11に示す(a)では、特徴ベクトルx[1]~x[5]が特徴空間上にプロットされている。
 図11に示す(a)では類似度が最大となるマイクロブログの組み合わせとしてマイクロブログ2及び5が選択される。マイクロブログ2及び5の類似度がしきい値より大きいと判定され、話題クラスタC[2]に話題クラスタC[2]及びC[5]の和集合が設定されることによって、マイクロブログ2及び5が話題クラスタC[2]にクラスタリングされ、特徴ベクトルx[2]に特徴ベクトルx[2]及びx[5]の加算結果が設定される。また、話題クラスタC[5]及び特徴ベクトルx[5]が削除される。特徴ベクトルx[2]の値が更新されたので、ステップ1002の処理に戻り、再度類似度行列が算出される。
 図11に示す(b)では、話題クラスタC[2]にはマイクロブログ2及び5がクラスタリングされ、話題クラスタC[5]が削除されている。(b)では、類似度が最大となるマイクロブログの組み合わせとしてマイクロブログ3及び4が選択される。
 マイクロブログ3及び4の類似度がしきい値より大きいと判定され、話題クラスタC[3]に話題クラスタC[3]及びC[4]の和集合が設定されることによって、マイクロブログ3及び4が話題クラスタC[3]にクラスタリングされ、特徴ベクトルx[3]に特徴ベクトルx[3]及びx[4]の加算結果が設定される。また、話題クラスタC[4]及び特徴ベクトルx[4]が削除される。特徴ベクトルx[3]の値が更新されたので、ステップ1002の処理に戻り、再度類似度行列が算出される。
 図11に示す(c)では、話題クラスタC[3]にはマイクロブログ3及び4がクラスタリングされ、話題クラスタC[4]が削除されている。(c)では、類似度が最大となる話題クラスタの組み合わせとして話題クラスタC[1]及びC[2]が選択される。
 話題クラスタC[1]及びC[2]の類似度がしきい値より大きいと判定され、話題クラスタC[1]に話題クラスタC[1]及びC[2]の和集合が設定されることによって、マイクロブログ1、2及び5が話題クラスタC[1]にクラスタリングされ、特徴ベクトルx[1]に特徴ベクトルx[1]及びx[2]の加算結果が設定される。また、話題クラスタC[2]及び特徴ベクトルx[2]が削除される。特徴ベクトルx[1]の値が更新されたので、ステップ1002の処理に戻り、再度類似度行列が算出される。
 図11に示す(d)では、話題クラスタC[1]にはマイクロブログ1、2及び5がクラスタリングされ、話題クラスタC[2]が削除されている。(d)では、類似度が最大となる話題クラスタの組み合わせとして話題クラスタC[1]及びC[3]が選択される。
 話題クラスタC[1]及びC[3]の類似度がしきい値以下であると判定され、クラスタリングできるマイクロブログが存在せず、クラスタリング処理を終了する。
 以上によって、話題クラスタC[1]にマイクロブログ1、2及び5がクラスタリングされ、話題クラスタC[3]にマイクロブログ3及び4がクラスタリングされる。
 次に、図12A及び図12Bを用いて、時間帯を跨いだ話題クラスタの対応付け処理について説明する。図12Aは、実施例の時間帯を跨ぐ話題クラスタの対応付け処理の説明図である。
 例えば、時間帯(t2~t3)のマイクロブログ12~20が収集され、マイクロブログ12~15、19、及び20は話題クラスタC21にクラスタリングされ、マイクロブログ16~18は話題クラスタC22にクラスタリングされたものとする。話題クラスタC21の代表マイクロブログはマイクロブログ15であり、話題クラスタC22の代表マイクロブログはマイクロブログ17である。
 一方、時間帯(t1~t2)では、マイクロブログ1、3、5、及び8が話題クラスタC11にクラスタリングされ、マイクロブログ2、4、7、及び11が話題クラスタC12にクラスタリングされ、マイクロブログ6、9及び10が話題クラスタC13にクラスタリングされている。話題クラスタC11の代表マイクロブログはマイクロブログ5であり、話題クラスタC12の代表マイクロブログはマイクロブログ4であり、話題クラスタC13の代表マイクロブログはマイクロブログ9である。
 時間帯を跨ぐ話題クラスタの対応付け処理は、図10に示すクラスタリング処理を用いることができる。
 まず、時間帯を跨ぐ話題クラスタの全ての組み合わせの類似度を算出する。図12Aでは、話題クラスタC21及びC22と、話題クラスタC11~C11との間の全ての組み合わせの類似度が算出される。例えば、話題クラスタの特徴ベクトルは、話題クラスタにクラスタリングされたマイクロブログの特徴ベクトルの加算結果であり、話題クラスタの類似度は、図9に示す数式3によって算出される。類似度が最大となる話題クラスタの組み合わせが選択され、選択された話題クラスタの類似度がしきい値より大きければ、選択された話題クラスタが対応付けられる。この処理を類似度が最大となる話題クラスタの類似度がしきい値以下となるまで繰り返し実行される。
 図11では、対応するマイクロブログ(又は話題クラスタ)を一つの話題クラスタにクラスタリングしたが、時間帯を跨ぐ話題クラスタの対応付け処理では、対応する話題クラスタはスーパー話題クラスタにクラスタリングされる。
 なお、話題クラスタの特徴ベクトルは、話題クラスタの代表マイクロブログの特徴ベクトルを用いてもよい。
 図12Aでは、話題クラスタC21は話題クラスタC11及びC12に対応する。ある時間帯の話題クラスタが過去の複数の話題クラスタに対応することは、過去の複数の話題クラスタの話題がある時間帯の話題クラスタの話題に結合したことを意味する。話題クラスタC22は話題クラスタC13に対応する。
 時間帯(t3~t4)では、話題クラスタC31及びC32が生成されたものとする。話題クラスタC23は話題クラスタC31及びC32に対応する。過去の話題クラスタがある時間帯の複数の話題クラスタに対応することは、過去の話題クラスタの話題がある時間帯の複数の話題クラスタの話題に分離したことを意味する。
 また、時間帯(t3~t4)には、話題クラスタC21に対応する話題クラスタが存在しない。これは、話題クラスタC21の話題が時間帯(t3~t4)で消滅したことを意味する。
 図12Bは、実施例の時間帯を跨ぐ話題クラスタがクラスタリングされるスーパー話題クラスタの説明図である。スーパー話題クラスタには、時間帯を跨いで対応する一連の話題クラスタがクラスタリングされる。図13~図14Bで詳細に説明するが、話題クラスタ選択部115は、検索条件に適合する話題クラスタを選択すると、選択した話題クラスタがクラスタリングされたスーパー話題クラスタの当該選択した話題クラスタの時間帯の前後の時間帯の話題クラスタを選択する。そして、検索結果表示部116は、話題クラスタ選択部115が選択した検索条件に適合する話題クラスタ(適合話題クラスタ)の要約と、当該話題クラスタと同じスーパー話題クラスタにクラスタリングされた話題クラスタのうち、時間帯を跨いで適合話題クラスタに対応する話題クラスタ(時系列対応話題クラスタ)の要約とを含む検索結果表示画面1400(図14A及び図14B参照)を表示する。
 なお、話題クラスタ1201が話題クラスタ1202に対応すると判定された場合、話題クラスタ1202がクラスタリングされるスーパー話題クラスタAと話題クラスタ1201がクラスタリングされるスーパー話題クラスタBとが同じスーパー話題クラスタとなり、対応しない話題の話題クラスタまでも同じスーパー話題クラスタにクラスタリングされてしまう。これを防止するために、時間帯を跨いで話題クラスタが対応するか否かの判定に用いるしきい値を、同じ時間帯でマイクロブログが対応するか否かの判定に用いるしきい値より大きな値に設定してもよい。
 図13は、実施例の検索処理のフローチャートである。
 まず、検索条件入力受付部114は、ユーザから検索条件の入力を受け付ける(1301)。検索条件はキーワードとなる検索式を少なくとも含む。なお、検索条件は、検索式に適合する話題クラスタを表示する順序であるランキング方式を含んでもよい。検索条件については図14で詳細に説明する。
 次に、話題クラスタ選択部115は、検索式に適合するマイクロブログがクラスタリングされた少なくとも一つの話題クラスタ(適合話題クラスタ)を選択する(1302)。例えば、話題クラスタ選択部115は、マイクロブログテーブル121の内容205に登録された文書情報が入力を受け付けた検索式のキーワードを含むレコードを選択し、選択したレコードのマイクロブログID201に登録されたマイクロブログの識別情報を取得する。
 次に、話題クラスタ選択部115は、話題クラスタテーブル122をマイクロブログID301に選択したマイクロブログの識別情報が登録されたレコードのカラムに「1」が登録された話題クラスタID302に登録された話題クラスタの識別情報を取得する。これによって、検索式に適合するマイクロブログがクラスタリングされた適合話題クラスタが選択される。
 次に、話題クラスタ選択部115は、ステップ1302の処理で選択された適合話題クラスタと同じスーパー話題クラスタにクラスタリングされた話題クラスタのうち、適合話題クラスタに時間帯を跨いで対応する話題クラスタ(時系列対応話題クラスタ)を選択する(1303)。
 例えば、話題クラスタ選択部115は、スーパー話題クラスタテーブル125の各時間帯の話題クラスタID601A~601Cに適合話題クラスタの識別情報が登録されたレコードを選択する。そして、話題クラスタ選択部115は、選択したレコードの「0」以外の情報が登録されたカラムに登録された情報、及び当該カラムに対応するスーパー話題クラスタID602に登録されたスーパー話題クラスタの識別情報を取得する。
 話題クラスタ選択部115は、取得したカラムに登録された情報が「Connect from 話題クラスタの識別情報」である場合、当該話題クラスタの識別情報を取得する。取得した話題クラスタの識別情報は、適合話題クラスタの時間帯の一つ前の時間帯の話題クラスタのうち、適合話題クラスタに対応する話題クラスタの識別情報である。また、話題クラスタ選択部115は、取得したカラムに登録された情報が「Connect from 話題クラスタの識別情報」又は「new」である場合、適合話題クラスタの時間帯の一つ後の時間帯の話題クラスタID601A~601Cの取得したスーパー話題クラスタの識別情報に対応するカラムに、適合話題クラスタの識別情報が登録されたレコードを取得する。そして、話題クラスタ選択部115は、取得したレコードの時間帯の話題クラスタID601A~601Cに登録された話題クラスタの識別情報を取得する。取得した話題クラスタの識別情報は、適合話題クラスタの時間帯の一つ後の時間帯の話題クラスタのうち、適合話題クラスタに対応する話題クラスタの識別情報である。なお、取得したレコードの適合話題クラスタのスーパー話題クラスタに対応するカラムに、適合話題クラスタの識別情報と他の話題クラスタの識別情報が登録されている場合、話題クラスタ選択部115は、他の話題クラスタの識別情報も取得する。これによって、適合話題クラスタの話題と他の話題クラスタの話題とが結合した場合であっても、適合話題クラスタに当該他の話題クラスタが対応することを把握できる。
 次に、話題クラスタ選択部115は、ステップ1302の処理で選択された適合話題クラスタの要約、及び時系列対応話題クラスタの要約を選択する(1304)。具体的には、話題クラスタ選択部115は、代表マイクロブログテーブル123の話題クラスタID401に適合話題クラスタの識別情報が登録されたレコードの代表マイクロブログID402に登録された代表マイクロブログの識別情報を取得する。そして、話題クラスタ選択部115は、マイクロブログテーブル121のマイクロブログID201に取得した代表マイクロブログの識別情報が登録されたレコードの内容205に登録された文書情報を、適合話題クラスタの要約として選択する。なお、話題クラスタ選択部115は、時系列対応話題クラスタの要約についても同じ処理で選択できる。
 次に、話題クラスタ選択部115は、ステップ1304の処理で選択された適合話題クラスタの要約、及び時系列対応話題クラスタの要約を含む検索結果表示画面1400(図14A及び図14B参照)を表示する。検索結果表示画面1400は、図14A及び図14Bで詳細に説明する。
 次に、話題クラスタ選択部115は、ステップ1302の処理で適合話題クラスタが選択されてから所定時間経過したか否かを判定する(1306)。ステップ1306の処理で所定時間経過したと判定された場合、ステップ1302の処理に戻り、話題クラスタ選択部115は、再度適合話題クラスタを選択する。これによって、話題クラスタ選択装置100は、所定時間経過するたびに最新のマイクロブログの情報に基づいて適合話題クラスタの要約及び時系列対応話題クラスタの要約を表示することができる。
 一方、ステップ1306の処理で所定時間経過していないと判定された場合、検索条件入力受付部114は、図14Aに示す中止ボタン1403が操作されたか否かを判定する(1307)。ステップ1307の処理で中止ボタン1403が操作されたと判定された場合、話題クラスタ選択装置100は検索処理を終了する。一方、ステップ1307の処理で中止ボタンが操作されていないと判定された場合、ステップ1306の処理に戻り、話題クラスタ選択部115は、ステップ1302の処理で適合話題クラスタが選択されてから所定時間経過したか否かを判定する。
 図14Aは、実施例の検索結果表示画面1400の説明図である。
 検索結果表示画面1400は、URL表示領域1401、移動ボタン1402、中止ボタン1403、検索条件設定領域1410、検索結果表示領域1420、及び話題変化表示領域1430を含む。
 URL表示領域1401には現在表示されているWebページのURLが表示される。また、URL表示領域1401にURLが入力され、移動ボタン1402が操作された場合、話題クラスタ選択装置100は、URL表示領域1401に入力されたURLのWebページを表示する。中止ボタン1403が操作されると、話題クラスタ選択装置100は、検索結果表示画面1400を閉じ、図13に示す検索処理を終了する。
 検索条件設定領域1410には検索条件が入力される。検索条件設定領域1410は、検索式入力領域1411、ランキング方式入力領域1412、及び実行ボタン1413を含む。検索式入力領域1411には、キーワードとなる検索式が入力される。ランキング方式入力領域1412には、適合話題クラスタの表示順序が入力される。図14Aに示すランキング方式入力領域1412には、発言数及び発言増加率があり、発言数が選択された場合、所定の期間における検索式に適合するマイクロブログの数が多い順に話題クラスタを表示する。所定の期間については、累積、直近24時間、及び直近1時間の中から一つの期間が選択される。
 発言増加率が選択された場合について説明する。スーパー話題クラスタのある時間帯の検索式に適合するマイクロブログの数から前の時間帯の検索式に適合するマイクロブログの数の減算値を前の時間帯の検索式に適合するマイクロブログの数で除算した値(発言増加率)が大きい順に時間帯が選択される。そして、選択した時間帯ごとに、検索式に適合するマイクロブログの数が最大の話題クラスタが選択される。そして、発言増加率が大きい順に時間帯の検索式に適合するマイクロブログの数が最大の話題クラスタが表示される。
 なお、検索式入力領域1411に検索式が入力され、ランキング方式1412で表示順序が選択されて、実行ボタン1413が操作されると、検索条件入力受付部114は、検索式及び表示順序を含む検索条件の入力を受け付ける。図14Aでは、検索式として日立が入力され、表示順序として直近1時間における発言数が選択される。
 検索結果表示領域1420には、適合話題ブログの要約が表示される。具体的には、検索結果表示領域1420は、順位1421、発言数1422、話題の要約1423、及び統計情報1424を含む。
 順位1421には、適合話題クラスタの順位が表示される。例えば、表示順序として発言数が選択された場合、最も発言数が多い適合話題クラスタの順位が「1」となる。発言数1422には、適合話題クラスタの発言数が表示される。例えば、発言数は、適合話題ブログにクラスタリングされたマイクロブログのうち検索式に適合するマイクロブログの数である。話題の要約1423には、適合話題クラスタの要約が表示される。例えば、適合話題クラスタの代表マイクロブログの文書情報が話題の要約1423に表示される。統計情報1424には、適合話題クラスタのスーパー話題クラスタにクラスタリングされた話題クラスタのうち検索式に適合するマイクロブログの数が時系列順に表示される。
 図14Bは、実施例の検索結果表示画面1400に含まれる話題変化表示領域1430の説明図である。
 話題変化表示領域1430には、検索結果表示領域1420の統計情報1424が操作された適合話題クラスタの時系列対応話題クラスタの要約が表示される。図14Bでは、図14Aで検索結果表示領域1420の順位1421が「1」である適合話題クラスタの統計情報1424が選択されたものとする。
 話題変化表示領域1430は、複数の時間帯1431~1433を含む。それぞれの時間帯1431~1433には、時間帯1431に属する話題クラスタの要約が表示される。統計情報1424が操作された適合話題クラスタの要約は、図14Bでは時間帯1431の話題クラスタ1431Aとして表示される。話題クラスタ1431Aは時間帯1431で新たに発生した話題であり、次の時間帯1432の話題クラスタ1432Aに対応する。また、時間帯1431の話題クラスタ1431Bも時間帯1432の話題クラスタ1432Aに対応する。すなわち、話題クラスタ1431Aの話題及び1431Bの話題は時間帯1432で話題クラスタ1432Aの話題に結合する。時間帯1432の話題クラスタ1432Aは、時間帯1433の話題クラスタ1433A及び1433Bに対応する。すなわち、話題クラスタ1432Aの話題は、話題クラスタ1433Aの話題及び話題クラスタ1433Bの話題に分離する。
 これによって、適合話題クラスタ(話題クラスタ1431A)の時系列対応話題クラスタ(話題クラスタ1431B、1432A、1433A、及び1433B)の要約が話題変化表示領域1430に表示されるので、ある話題クラスタの話題の時系列の変遷をユーザが把握することができる。
 なお、本実施例では、投稿情報はユーザが投稿したマイクロブログであることを前提に説明したが、他の情報であってもよい。例えば、投稿情報はニュース配信サイト等のニュース情報であってもよい。
 また、本実施例では、話題クリスタリング部が、図7に示すステップ702の処理でマイクロブログ等の投稿情報を話題クラスタにクラスタリングしたが、管理者等によって手動で投稿情報がクラスタリングされてもよい。この場合、投稿情報にインデックスが付与され、同じインデックスが付与された投稿情報が同じ話題クラスタにクラスタリングされることになる。
 本実施例では、投稿情報が話題ごとにクラスタリングされた話題クラスタから検索条件に適合する話題クラスタが選択され、選択された話題クラスタの内容の要約が表示される。これによって、投稿情報から管理者が所望する話題を抽出し、抽出した話題を管理者に把握しやすい態様で表示できる。
 また、本実施例では、投稿情報の特徴ベクトルを算出し、算出した特徴ベクトルに基づいて類似する複数の投稿情報を選択し、選択した複数の投稿情報を一つの話題クラスタにクラスタリングする。これによって、類似する投稿情報を話題クラスタにクラスタリングされるので、話題クラスタに同じ話題の投稿情報を精度よくクラスタリングできる。また、管理者等が手動で投稿情報をクラスタリングする手間を省くことができる。
 また、本実施例では、話題クラスタにクラスタリングされた投稿情報から、話題クラスタの内容を要約した一つの投稿情報を選択することによって、話題クラスタの内容の要約を生成する。これによって、話題クラスタの要約を最初から生成しなくてもよいので、話題クラスタ選択装置100の処理負荷を軽減できる。
 また、本実施例では、話題クラスタにクラスタリングされた投稿情報の特徴ベクトルの統計量を算出し、算出した統計量に最も近い投稿情報を話題クラスタの内容を要約した一つの投稿情報として選択する。これによって、選択された投稿情報の内容が話題クラスタの内容を示している精度を向上させることができる。
 また、本実施例では、検索条件との適合度が高い話題クラスタの順に、話題クラスタの要約を表示する。これによって、管理者等が所望する順番で話題クラスタの要約を把握できる。
 また、本実施例では、検索条件に適合する話題クラスタと時間帯を跨いで対応する話題の話題クラスタを時系列対応話題クラスタとして選択し、選択された検索条件に適合する話題クラスタの要約、及び、選択された時系列対応話題クラスタの要約を表示する。これによって、検索条件に適合する話題クラスタの話題の時系列的な変遷を容易に把握できる。
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

Claims (12)

  1.  投稿された複数の投稿情報を収集する投稿情報収集部と、
     前記収集された複数の投稿情報が話題ごとにクラスタリングされた話題クラスタを管理する話題クラスタ管理部と、
     検索条件の入力を受け付ける検索条件入力受付部と、
     前記検索条件入力受付部が入力を受け付けた検索条件に適合する少なくとも一つの話題クラスタを選択する話題クラスタ選択部と、
     前記話題クラスタの内容の要約を作成する要約作成部と、
     前記話題クラスタ選択部によって選択された少なくとも一つの話題クラスタの要約を前記検索条件の検索結果として表示する検索結果表示部と、を備えることを特徴とする話題クラスタ選択装置。
  2.  請求項1に記載の話題クラスタ選択装置であって、
     前記話題クラスタ管理部は、
     前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
     前記算出された特徴ベクトルに基づいて類似する複数の投稿情報を選択し、
     前記選択した複数の投稿情報を一つの話題クラスタにクラスタリングすることを特徴とする話題クラスタ選択装置。
  3.  請求項1に記載の話題クラスタ選択装置であって、
     前記要約作成部は、前記話題クラスタにクラスタリングされた投稿情報から、前記話題クラスタの内容を要約した一つの投稿情報を選択することによって、前記話題クラスタの内容の要約を作成することを特徴とする話題クラスタ選択装置。
  4.  請求項3に記載の話題クラスタ選択装置であって、
     前記話題クラスタ管理部は、
     前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
     前記算出された特徴ベクトルに基づいて類似する複数の投稿情報を選択し、
     前記選択した複数の投稿情報を一つの話題クラスタにクラスタリングし、
     前記要約作成部は、
     前記話題クラスタにクラスタリングされた投稿情報の特徴ベクトルの統計量を算出し、
     前記算出した統計量に最も近い投稿情報を、前記話題クラスタの内容を要約した一つの投稿情報として選択することを特徴とする話題クラスタ選択装置。
  5.  請求項1に記載の話題クラスタ選択装置であって、
     前記検索結果表示部は、前記検索条件との適合度が高い話題クラスタの順に、前記話題クラスタの要約を表示することを特徴とする話題クラスタ選択装置。
  6.  請求項1に記載の話題クラスタ選択装置であって、
     前記話題クラスタ管理部は、
     前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
     同じ時間帯に投稿された投稿情報の中から、前記算出された特徴ベクトルに基づいて類似する複数の投稿情報を選択し、
     前記選択した類似する投稿情報を一つの話題クラスタにクラスタリングすることによって、前記収集された投稿情報を所定の時間帯毎の話題クラスタにクラスタリングし、
     前記話題クラスタの投稿情報の特徴量に基づいて、時間帯を跨いで対応する話題の話題クラスタを選択し、
     前記選択した時間帯を跨いで対応する話題の話題クラスタ同士を対応付け、
     前記話題クラスタ選択部は、
     前記選択した検索条件に適合する話題クラスタと時間帯を跨いで対応する話題の話題クラスタを時系列対応話題クラスタとして選択し、
     前記検索結果表示部は、前記選択された検索条件に適合する話題クラスタの要約、及び、前記選択された時系列対応話題クラスタの要約を表示することを特徴とする話題クラスタ選択装置。
  7.  プロセッサを有する計算機において投稿された複数の投稿情報を検索する検索方法であって、
     前記検索方法は、
     前記計算機が、前記投稿された複数の投稿情報を収集し、
     前記計算機が、前記収集された複数の投稿情報が話題ごとにクラスタリングされた話題クラスタを管理し、
     前記計算機が、検索条件の入力を受け付け、
     前記計算機が、前記入力を受け付けた検索条件に適合する少なくとも一つの話題クラスタを選択し、
     前記計算機が、前記話題クラスタの内容の要約を作成し、
     前記計算機が、前記選択された少なくとも一つの話題クラスタの要約を前記検索条件の検索結果として表示することを特徴とする検索方法。
  8.  請求項7に記載の検索方法であって、
     前記計算機が、前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
     前記計算機が、前記算出された特徴ベクトルに基づいて類似する複数の投稿情報を選択し、
     前記計算機が、前記選択した複数の投稿情報を一つの話題クラスタにクラスタリングすることを特徴とする検索方法。
  9.  請求項7に記載の検索方法であって、
     前記計算機が、前記話題クラスタにクラスタリングされた投稿情報から、前記話題クラスタの内容を要約した一つの投稿情報を選択することによって、前記話題クラスタの内容の要約を作成することを特徴とする検索方法。
  10.  請求項9に記載の検索方法であって、
     前記計算機が、前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
     前記計算機が、前記算出された特徴ベクトルに基づいて類似する複数の投稿情報を選択し、
     前記計算機が、前記選択した複数の投稿情報を一つの話題クラスタにクラスタリングし、
     前記計算機が、前記話題クラスタの投稿情報の特徴ベクトルの統計量を算出し、
     前記計算機が、前記算出した統計量に最も近い投稿情報を、前記話題クラスタの内容を要約した一つの投稿情報として選択することを特徴とする検索方法。
  11.  請求項7に記載の検索方法であって、
     前記計算機が、前記検索条件との適合度が高い話題クラスタの順に、前記話題クラスタの要約を表示することを特徴とする検索方法。
  12.  請求項7に記載の検索方法であって、
     前記計算機が、前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
     前記計算機が、同じ時間帯に投稿された投稿情報の中から、前記算出された特徴ベクトルに基づいて対応する複数の投稿情報を選択し、
     前記計算機が、前記選択した類似する投稿情報を一つの話題クラスタにクラスタリングすることによって、前記収集された投稿情報を所定の時間帯毎の話題クラスタにクラスタリングし、
     前記計算機が、前記話題クラスタの投稿情報の特徴量に基づいて、時間帯を跨いで対応する話題の話題クラスタを選択し、
     前記計算機が、前記選択した時間帯を跨いで対応する話題の話題クラスタ同士を対応付け、
     前記計算機が、前記選択した検索条件に適合する話題クラスタと時間帯を跨いで対応する話題の話題クラスタを時系列対応話題クラスタとして選択し、
     前記計算機が、前記選択された検索条件に適合する話題クラスタの要約、及び、前記選択された時系列対応話題クラスタの要約を表示することを特徴とする検索方法。
PCT/JP2014/071987 2014-08-22 2014-08-22 話題クラスタ選択装置、及び検索方法 WO2016027364A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/071987 WO2016027364A1 (ja) 2014-08-22 2014-08-22 話題クラスタ選択装置、及び検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/071987 WO2016027364A1 (ja) 2014-08-22 2014-08-22 話題クラスタ選択装置、及び検索方法

Publications (1)

Publication Number Publication Date
WO2016027364A1 true WO2016027364A1 (ja) 2016-02-25

Family

ID=55350341

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/071987 WO2016027364A1 (ja) 2014-08-22 2014-08-22 話題クラスタ選択装置、及び検索方法

Country Status (1)

Country Link
WO (1) WO2016027364A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018110029A1 (ja) * 2016-12-13 2018-06-21 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
JP2018147411A (ja) * 2017-03-08 2018-09-20 株式会社Spectee データ処理装置、データ処理方法、データ処理システム及びプログラム
JP7407190B2 (ja) 2019-07-04 2023-12-28 パナソニックIpマネジメント株式会社 発話解析装置、発話解析方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210024A (ja) * 2007-02-23 2008-09-11 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP2009238115A (ja) * 2008-03-28 2009-10-15 Toshiba Corp 情報推薦装置および情報推薦方法
JP2013109606A (ja) * 2011-11-22 2013-06-06 Ricoh Co Ltd 情報処理装置およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210024A (ja) * 2007-02-23 2008-09-11 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP2009238115A (ja) * 2008-03-28 2009-10-15 Toshiba Corp 情報推薦装置および情報推薦方法
JP2013109606A (ja) * 2011-11-22 2013-06-06 Ricoh Co Ltd 情報処理装置およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018110029A1 (ja) * 2016-12-13 2018-06-21 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
JP2018097562A (ja) * 2016-12-13 2018-06-21 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
JP2018147411A (ja) * 2017-03-08 2018-09-20 株式会社Spectee データ処理装置、データ処理方法、データ処理システム及びプログラム
JP7078244B2 (ja) 2017-03-08 2022-05-31 株式会社Spectee データ処理装置、データ処理方法、データ処理システム及びプログラム
JP7407190B2 (ja) 2019-07-04 2023-12-28 パナソニックIpマネジメント株式会社 発話解析装置、発話解析方法及びプログラム

Similar Documents

Publication Publication Date Title
US11709901B2 (en) Personalized search filter and notification system
WO2017020451A1 (zh) 信息推送方法和装置
US8990241B2 (en) System and method for recommending queries related to trending topics based on a received query
US9201880B2 (en) Processing a content item with regard to an event and a location
JP5721818B2 (ja) 検索におけるモデル情報群の使用
JP5661200B2 (ja) 検索情報の提供
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
US9449002B2 (en) System and method to retrieve relevant multimedia content for a trending topic
WO2015188719A1 (zh) 结构化数据与图片的关联方法与关联装置
CN105378730A (zh) 社交媒体分析与输出
JP7375861B2 (ja) 関連スコア算出システム、方法およびプログラム
TWI571756B (zh) 用以分析瀏覽記錄及其文件之方法及其系統
JP5547669B2 (ja) 関連語抽出装置、関連語抽出方法、関連語抽出プログラム
US20150302036A1 (en) Method, system and computer program for information retrieval using content algebra
KR20140119269A (ko) 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
US9552415B2 (en) Category classification processing device and method
US20150199438A1 (en) Methods, apparatus, systems and computer readable media for use in keyword extraction
JP5952756B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
JP5048852B2 (ja) 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
WO2016027364A1 (ja) 話題クラスタ選択装置、及び検索方法
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
WO2016028948A1 (en) Method for record selection to avoid negatively impacting latency
JP6373767B2 (ja) 話題語ランキング装置、話題語ランキング方法、およびプログラム
JP7078244B2 (ja) データ処理装置、データ処理方法、データ処理システム及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14899978

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14899978

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP