WO2013073377A1 - 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム - Google Patents

情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム Download PDF

Info

Publication number
WO2013073377A1
WO2013073377A1 PCT/JP2012/078292 JP2012078292W WO2013073377A1 WO 2013073377 A1 WO2013073377 A1 WO 2013073377A1 JP 2012078292 W JP2012078292 W JP 2012078292W WO 2013073377 A1 WO2013073377 A1 WO 2013073377A1
Authority
WO
WIPO (PCT)
Prior art keywords
text data
learning
prediction
topic
posts
Prior art date
Application number
PCT/JP2012/078292
Other languages
English (en)
French (fr)
Inventor
健児 青木
森永 聡
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/824,122 priority Critical patent/US8983880B2/en
Priority to JP2013511458A priority patent/JP5282857B1/ja
Publication of WO2013073377A1 publication Critical patent/WO2013073377A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Definitions

  • the present invention relates to an information diffusion scale prediction apparatus, an information diffusion scale prediction method, and an information diffusion scale prediction program, and more particularly to an information diffusion scale prediction apparatus that predicts the number of posts in the future for a specific topic on a specific website. .
  • SNS Social Network Service
  • Patent Document 1 there are already many technologies and services for analyzing the posting status on SNS as described in Non-Patent Document 1. Moreover, as disclosed in Patent Document 1, for each type of website, the influence on other media is estimated by theories such as machine learning and mathematical statistics, and the future posting situation is predicted based on the information. The technology is already known.
  • An object of the present invention is an information diffusion scale prediction apparatus and information that can accurately predict the influence of each poster and the number of posts in the future for a specific topic on a website such as SNS. It is to provide a diffusion scale prediction method and an information diffusion scale prediction program.
  • an information diffusion scale prediction apparatus obtains text data from a specific website via the Internet, and calculates the number of postings to the website based on this text data in the future.
  • An information diffusion scale prediction device that predicts and outputs the prediction result, and classifies the learning text data input unit for acquiring text data as learning text data from a specific website, and the learning text data by topic,
  • a node influence that calculates the influence on the number of posts for each group to which a node indicating a specific user for the topic belongs from the classified number of posts by topic and stores the result in a storage means provided in advance as learning data Learning part and text from a specific website after storing learning data
  • the text data for prediction as the text data for prediction, the text data for prediction is classified by topic, and the topic is posted at a specific time in the future from the number of posts by topic and learning data
  • a future posting number predicting unit that predicts the number of items and outputs the result to an output unit in advance.
  • the information diffusion scale prediction method acquires text data from a specific website via the Internet, and based on this text data, calculates the number of posts to the website in the future.
  • a learning text data input unit acquires text data as learning text data from a specific website, and the learning text data is acquired as a node influence learning unit.
  • the node influence learning unit calculates the influence on the number of posts for each group to which the node indicating a specific user for the topic belongs from the classified number of posts by topic, and the result is used as learning data It is stored in a storage means provided in advance, and after learning data is stored, a specific website is stored.
  • the text data is obtained from the text as predictive text data by the predictive text data input unit, and the predictive text data is classified by topic by the future post number predictor, and the topic is determined from the classified number of posts and learning data by topic.
  • the future posting number prediction unit predicts the number of postings at a specific time in the future, and the result is output by the future posting number prediction unit to output means provided in advance.
  • the information diffusion scale prediction program obtains text data from a specific website via the Internet, and calculates the number of postings to the website based on this text data in the future.
  • An information diffusion scale prediction apparatus that predicts and outputs the prediction result, and a computer provided in the information diffusion scale prediction apparatus obtains text data as learning text data from a specific website, learning text data
  • a procedure for classifying by topic a storage means provided in advance as learning data by calculating the influence on the number of posts for each group to which a node indicating a specific user for the topic belongs from the number of posts for each classified topic Procedure to remember, learning data after memorizing specific web
  • the procedure for obtaining text data as prediction text data from a site, the procedure for classifying prediction text data by topic, the number of posts by classified topic and learning data, and the number of posts at a specific time in the future A procedure for predicting and a procedure for outputting the result to an output means provided in advance are executed.
  • the present invention calculates the influence of a specific user on a specific topic from learning text data acquired from a specific website, stores this as learning data, and newly acquires this learning data. Since the number of posts in the future of the specific topic is predicted from the predicted text data, the prediction process can be performed with a data amount that can be realistically calculated.
  • a size prediction method and an information diffusion scale prediction program can be provided.
  • the information diffusion scale prediction apparatus 10 acquires text data from a specific website via the Internet 20, predicts the number of posts to the website in the future based on this text data, and An information diffusion scale prediction apparatus that outputs a prediction result.
  • the information diffusion scale prediction apparatus 10 includes a learning text data input unit 101 that acquires text data as learning text data from a specific website, classifies the learning text data by topic, and the number of posts by classified topic.
  • Node influence learning unit node influence learning that calculates the influence on the number of posts for each group to which a node indicating a specific user for the topic belongs, and stores the result in the storage means 12 provided in advance as learning data 110 Unit 102, prediction text data input unit 106 that acquires text data as prediction text data from a specific website after storing learning data, and classifying the prediction text data by topic, and posting by classified topic Future characteristics of the topic from the number of records and learning data It predicts contribution number at the time and a future contribution number prediction unit 107 to be output to the output unit 14 previously provided the results.
  • the information diffusion scale prediction apparatus 10 includes a group creation unit 104 that classifies nodes into groups based on information on attributes of each node, and the number of utterances from learning text data and prediction text data for each time and group. It further includes a group / time information totaling unit 103 that performs cross tabulation and outputs the result to the node influence learning unit and the future posting number prediction unit.
  • the node influence learning unit 102 indicates the number of messages cross-tabulated for each time and group in the matrix X
  • the element xij indicates the number of messages in the group j at the time i in the matrix X
  • the sth row from the first row of the matrix X If the submatrix extracted up to the eye is Xs, the sum of the number of utterances at each time is ys, and the value of the density function at x of the Poisson distribution with an average ⁇ is P0 (x, ⁇ ), the group at time s Influence ⁇ s Is obtained as a value for minimizing the numerical value of f (ys, Xs, ⁇ s).
  • the node influence learning unit 102 minimizes a numerical value obtained by adding a value obtained by multiplying f (ys, Xs, ⁇ s) by L1 regularization or L2 regularization ⁇ s and a regularization parameter given in advance. As a value in the case of conversion, the group influence ⁇ s at time s at time s is obtained.
  • the information diffusion scale prediction device 10 can accurately predict the influence of each contributor and the number of posts in the future for a specific topic. Hereinafter, this will be described in more detail.
  • FIG. 1 is an explanatory diagram showing a configuration of an information diffusion scale prediction apparatus 10 according to an embodiment of the present invention.
  • the information diffusion scale prediction apparatus 10 has a basic configuration as a computer apparatus. That is, the information diffusion scale prediction apparatus 10 includes a processor 11 that is a main body that executes a computer program, a storage unit 12 that stores data, a communication unit 13 that transmits data to other apparatuses via the Internet 20, Display means 14 for presenting the processing result to the user.
  • the main arithmetic control means 11 is executed by a computer program to execute a learning text data input unit 101, a node influence learning unit 102, a group / time information totaling unit 103, a group creation unit 104, and an attribute value input unit 105, which will be described later.
  • Each of these units can be configured to be executed by a separate computer device.
  • the learning text data input unit 101 acquires text data and accompanying attribute data from the acquisition target website through the communication means 13 and the Internet 20 according to a learning period and a learning interval given in advance. For example, in the case where Twitter is an acquisition target, information about the time of tweeting, the tweeted node, and the topic to which the tweet belongs is acquired at the same time as the tweeted text data. These acquired data are passed to the node influence learning unit 102.
  • Node here is defined as “unit for estimating influence” in the present invention. More specifically, it may be a “contributor” unit, or a “media” unit or “operating organization” unit to which the poster belongs.
  • the number of tweets (number of utterances), the number of followers, the number of followers, the number of replies for each tweet, and the number of retweets for each tweet.
  • Etc. can be used as attributes of the node.
  • the content of the posted article itself, for example, “word type” and “appearance frequency” included in the article may be used as the attribute of the node.
  • the number of posts may change during the learning data acquisition period (referred to as the learning period).
  • the number of posts may change during the learning data acquisition period (referred to as the learning period).
  • the number of tweets may change during the learning data acquisition period (referred to as the learning period).
  • the number of tweets may change during the learning data acquisition period (referred to as the learning period).
  • the maximum number of follow-ups may change during the learning data acquisition period (referred to as the learning period).
  • “Maximum value of the number of followers” or the like can be calculated for each contributor and can be used as an attribute of the node.
  • the node influence learning unit 102 classifies each utterance for each topic, and for each topic, the node information / time information / text data of the utterances belonging to the topic are group / time information totaling unit 103. Output to. The group / time information totaling unit 103 cross-counts the group / time information for each topic, and returns it to the node influence learning unit 102.
  • the node influence learning unit 102 Upon receiving the group / time information cross-tabulated for each topic returned from the group / time totaling unit 103, the node influence learning unit 102 has the influence of each group, and subsequently the influence of each node. Is calculated. Then, the calculated influence of the node is output to the future posting number prediction unit 107.
  • the group / time information totaling unit 103 includes attributes of each utterance input from the node influence learning unit 102, for example, in the case of Twitter, node information / time information / text data of tweets belonging to a single topic, and group creation From the information of the group to which the node belongs, which is input from the unit 104, time ⁇ group cross tabulation data is created regarding the number of utterances, and this cross tabulation data is output to the node influence learning unit 102.
  • the group creation unit 104 groups each node from the node attribute values input from the attribute value input unit 105, and outputs the group information to the group / time information totaling unit 103.
  • the attribute value input unit 105 outputs the node attribute value input from the outside of the apparatus to the group creation unit 104.
  • the predicted text data input unit 106 transmits text data from the acquisition target website and attribute data associated therewith via the communication means 13 and the Internet 20 in accordance with a predetermined prediction interval. To get. These acquired data are passed to the future posting number prediction unit 107.
  • the future posting number prediction unit 107 receives the data input from the predicted text data input unit 106 and receives the input about the influence of each node from the node influence learning unit 102, and for each topic to which each utterance is classified. , Node information / time information / text data of a message belonging to the topic is output to the group / time information totaling unit 103. The group / time information totaling unit 103 cross-counts the group / time information for each topic and returns it to the future posting number prediction unit 107.
  • the future posting number predicting unit 107 calculates a predicted value of the number of future postings and displays it. 14 is displayed.
  • This display means 14 may be a computer different from the information diffusion scale prediction apparatus 10.
  • “future posting status” refers to how many hours ahead in the future (information diffusion rate) for a specific topic specified in advance (for example, a topic specified as something watched by the observer). This means whether or not there are articles of the number (information diffusion scale) on the target website. In addition, for each posted article, it is assumed that information about the posting source node, the posting time, and which topic (multiple topics are possible) is given.
  • the operation of the information diffusion scale prediction apparatus 10 described above is roughly divided into two stages, a “learning phase” and a “prediction phase”. Each of these will be described below. In the following example, it is assumed that all monitored websites are Twitter.
  • FIG. 2 is a flowchart showing the operation in the learning phase of the information diffusion scale prediction apparatus 10 shown in FIG.
  • the learning text data input unit 101 operates according to a learning period and a learning interval given in advance via the communication unit 13 and the Internet 20, and acquires text data tweeted on Twitter for learning.
  • the learning text data input unit 101 operates according to a learning period and a learning interval given in advance via the communication unit 13 and the Internet 20, and acquires text data tweeted on Twitter for learning.
  • information about the tweeted time, the tweeted node, and the topic to which the tweet belongs is also acquired. These acquired data are transferred to the node influence learning unit 102 (step S201).
  • the node influence learning unit 102 classifies each tweet by topic, and for each topic, the node information / time information / text data of the tweet belonging to the topic is group / time information totaling unit 103.
  • the group / time information totaling unit 103 uses the group information to which the node belongs, which is input from the group creation unit 104, and cross-counts the group / time information for each topic and returns it to the node influence learning unit 102. (Step S203).
  • the node influence learning unit 102 that has received the cross tabulated group / time information calculates the influence of the group, calculates the influence of the node based on the value, and stores this as learning data 110. 12 to save. (Step S204).
  • FIG. 3 is a flowchart showing the operation in the prediction phase of the information diffusion scale prediction apparatus 10 shown in FIG.
  • the predicted text data input unit 106 operates according to a given prediction interval, and acquires text data tweeted on Twitter for prediction.
  • information about the tweeted time, the tweeted node, and the topic to which the tweet belongs is also acquired.
  • These acquired data are transferred to the future posting number prediction unit 107 (step S251).
  • the future posting number prediction unit 107 receives these data inputs, classifies each tweet by topic, and group / time information aggregation unit 103 collects node information / time information / text data of the tweet belonging to the topic for each topic. (Step S252).
  • the group / time information totaling unit 103 uses the group information to which the node belongs, which is input from the group creation unit 104, and cross-counts the group / time information for each topic and returns it to the future posting number prediction unit 107. (Step S253).
  • the group / time information aggregation unit 103, the group creation unit 104, and the attribute value input unit 105 are in the learning phase and the prediction phase. Can be shared.
  • the future posting number prediction unit 107 receives this cross tabulated group / time information, the future posting number prediction unit 107 reads the learning data about the influence of the node from the storage unit 12 (step S254), and calculates the predicted value of the number of future postings therefrom. And it displays on the display means 14 (step S255).
  • the premise in the example of processing contents shown here is as follows.
  • the analysis object is text data tweeted (posted) on Twitter.
  • a topic to be predicted for the number of future posts (tweets) is specified in advance.
  • For each tweet information related to the “tweeted user”, “date and time of tweet”, and “topic to which the tweet belongs” is obtained.
  • For each of the learning phase and the prediction phase a period and a time interval for performing processing for acquiring text data are designated in advance. However, the prediction phase is performed after the end of the learning phase.
  • -One user is set as one node.
  • “Client software” for each node (user) "Number of tweets during the learning period”"Number of comments during the learning period” * Number of trackbacks * Number of replies * Number of retweets] "Number of follow-up during the learning period” , “The maximum value of the number of followers”.
  • estimation and prediction may be performed for each topic by the method described below.
  • the node influence learning unit 102 groups each node in the process of step S202 of FIG. 2 from each data acquired by the learning text data input unit 101 in the process of step S201 of FIG. For example, there are the following as viewpoints when performing the grouping. Further, a product set of grouping results for a plurality of attributes can be used as a final grouping result.
  • client software being used-The type of "OS (operating system)” that operates the client software-The category (for example, “1 to 100 times", “ (From 101 to 1000 times) or “1001 times or more” category to which category the node belongs) -The category to which "the maximum number of followers within the learning period” belongs (for example, which category the node belongs to among “1 to 1000 people” or "1001 or more people)
  • a node having a certain number of tweets can be defined as a single group.
  • each node belongs to one or a plurality of groups. This grouping can substantially reduce the number of nodes, which contributes to stabilizing the estimation result of the influence of the nodes.
  • the group / time information totaling unit 103 performs the totaling work of which group tweeted at which time at the time shown in step S203 of FIG. 2 and creates a time ⁇ group cross tabulation table regarding the number of tweets. To do.
  • This tabulation result (cross tabulation table) can be expressed by the following matrix X. In this matrix X, the row indicates the time and the column indicates the group, and the element xij of the matrix indicates “the number of tweets of group j at time i”.
  • the group / time information totaling unit 103 estimates the influence of each node in the process shown in step S204 of FIG.
  • the influence of the node is calculated based on the influence of the group.
  • the influence of the group is given by the matrix ⁇ shown in Equation 2 below.
  • the row of this matrix ⁇ indicates how many times ahead in the aggregate unit time
  • the column indicates the group (similar to Equation 1)
  • the element ⁇ ij of the matrix is “group j in the future i times ahead”. Defined as the sum of the influences.
  • Equation 3 a method of setting the value of ⁇ that minimizes the following Equation 3 as the group influence is mentioned.
  • ys shown in Equation 4 is the sum of the number of tweets at each time for all nodes
  • Xs is the first row of the matrix X shown in Equation 1.
  • ⁇ of the second term ⁇ P ( ⁇ s) is a parameter called a regularization parameter for adjusting the stability of the estimation result. A more specific definition of P ( ⁇ s) will be described later.
  • f (ys, Xs, ⁇ s) of the equation 3 is calculated as the following equation 5.
  • P0 (x, ⁇ ) is the value of the density function at x in the Poisson distribution with an average ⁇ .
  • Equation 6 P ( ⁇ s) in the second term of Equation 3 is calculated as in Equation 6 or Equation 7 below.
  • the calculation of Equation 6 is a method called L1 regularization
  • the calculation of Equation 7 is a method called L2 regularization.
  • Regularization here is a technique used in the field of machine learning and mathematical statistics to obtain a stable estimation result when a sufficient amount of learning data cannot be obtained.
  • the second term of Equation 3 may be omitted, and the calculation including no regularization element may be performed.
  • the information diffusion scale prediction apparatus 10 performs the operation of the prediction phase shown in FIG. 3 based on the learning data created by the above processing (learning phase).
  • the processing from steps S251 to S254 in the prediction phase shown in FIG. 3 is the same as the processing from steps S201 to S204 in the learning phase shown in FIG.
  • the future posting number prediction unit 107 cross-tabulates the group / time information for each topic.
  • the number of tweets z for each group obtained by this cross tabulation is expressed as the following formula 8.
  • the future posting number prediction unit 107 performs the influence shown for step S255 in FIG.
  • the number of cases is calculated by the process shown in Equation 9 below.
  • the matrix Z representing the number of posts in the latest time zones 1 to A including the time s is defined as the following formula 10.
  • the row of this matrix Z indicates how many times ahead the future is based on the total unit time
  • the column indicates the group (similar to equation 1)
  • the element zij of the matrix is “group j in the future i times ahead”. Is actually calculated by the formula shown in Equation 9.
  • the information diffusion scale prediction method obtains text data from a specific website via the Internet, predicts the number of postings to the website in the future based on the text data, and predicts the result.
  • the learning text data input unit acquires text data from a specific website as learning text data (step S201 in FIG. 2), and the learning text data is obtained as a node influence.
  • the learning unit classifies by topic (FIG. 2, step S202), and the node influence learning unit determines the influence on the number of posts for each group to which a node indicating a specific user for the topic belongs from the number of posts by classified topic.
  • the result of calculation is stored in a storage means provided in advance as learning data (FIG. 2).
  • Steps S203 to 204) After storing the learning data, the text data is obtained from the specific website as the text data for prediction as the text data for prediction (FIG. 3, Step S251), and the prediction text data is predicted for the number of future posts. Are classified by topic (step S252 in FIG. 3), and the number of future postings at the specific time in the future of the topic is predicted from the number of utterances and learning data for each classified topic, and the result Is output to the output means provided in advance (FIG. 3, steps S253 to 255).
  • each of the above-described operation steps may be programmed to be executable by a computer, and may be executed by the processor 11 of the information diffusion scale prediction apparatus 10 that directly executes each of the steps.
  • the program may be recorded on a non-temporary recording medium, such as a DVD, a CD, or a flash memory. In this case, the program is read from the recording medium by a computer and executed.
  • the influence of a specific user on a specific topic is calculated in the learning phase, stored as learning data, and this learning data and newly acquired text data for prediction are acquired in the prediction phase. It is configured to predict the number of posts in the future for that specific topic.
  • This processing can be performed in a regular manner close to real time as long as the processing period and time interval are set for each of the learning phase and the prediction phase.
  • the aggregation target is limited to Twitter, but other than this, Facebook, Mixi, or each company's weblog, etc., depending on the nature of each site, each topic and each Node attributes can be set as appropriate, and processing can be performed in the same manner.
  • Information diffusion scale prediction device that acquires text data from a specific website via the Internet, predicts the number of posts to the website in the future based on this text data, and outputs the prediction result Because A learning text data input unit for acquiring the text data as learning text data from the specific website; The learning text data is classified by topic, and the influence on the number of posts for each group to which a node indicating a specific user for the topic belongs is calculated from the number of posts for each classified topic, and the result is used as learning data.
  • a node influence learning unit for storing in a storage means provided in advance;
  • a prediction text data input unit for acquiring the text data as prediction text data from the specific website after storing the learning data;
  • the prediction text data is classified by topic, and the number of posts for each classified topic and the learning data are used to predict the number of posts at a specific time in the future, and the result is provided in advance as output means.
  • An information diffusion scale prediction apparatus comprising: a future posting number prediction unit for outputting.
  • the node influence learning unit uses the matrix X to indicate the number of posts cross-tabulated for each time and the group, the element xij, the number of posts in the group j at the time i of the matrix X, 1 of the matrix X
  • Xs be the submatrix extracted from the sth row to the sth row
  • ys be the sum of the number of posts at all times for all nodes
  • P0 (x, ⁇ ) be the density function value at x in the Poisson distribution with mean ⁇ .
  • the information diffusion scale prediction apparatus according to appendix 2, characterized in that it is obtained as a value for minimizing the numerical value of f (ys, Xs, ⁇ s) indicated by
  • the node influence learning unit adds a value obtained by multiplying the f (ys, Xs, ⁇ s) by L1 regularized or L2 regularized ⁇ s and a regularization parameter given in advance. 4.
  • An information diffusion scale prediction device that acquires text data from a specific website via the Internet, predicts the number of postings to the website in the future based on the text data, and outputs the prediction result There,
  • the learning text data input unit obtains the text data as learning text data from the specific website
  • the node influence learning unit classifies the learning text data by topic
  • a node influence learning unit calculates the influence on the number of posts for each group to which a node indicating a specific user for the topic belongs from the classified number of posts by topic, and the result is stored in advance as learning data Memorize in the means
  • the prediction text data input unit obtains the text data as prediction text data from the specific website,
  • the prediction text data is categorized by topic by the future posting number prediction unit, Based on the classified number of posts by topic and the learning data, the future post number prediction unit predicts the number of posts at a specific time in the future of the topic,
  • An information diffusion scale prediction method wherein the future posting number prediction unit outputs the result to an
  • Information diffusion scale prediction device that obtains text data from a specific website via the Internet, predicts the number of future posts to the website based on the text data, and outputs the prediction result There,
  • a procedure for acquiring the text data as learning text data from the specific website A procedure for classifying the learning text data by topic;
  • a procedure for acquiring the text data as prediction text data from the specific website after storing the learning data A procedure for classifying the text data for prediction by topic;
  • a step of predicting the number of posts at a specific time in the future of the topic from the classified number of posts by topic and the learning data And an information diffusion scale prediction program for executing a procedure for outputting the result to an output means provided in advance.
  • the present invention can be applied to information diffusion scale prediction technology used for corporate crisis management and marketing research.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

SNSなどで、特定トピックに対しての未来における投稿数を的確に予測することを可能とする情報拡散規模予測装置等を提供するために、本発明に係る情報拡散規模予測装置10は、特定のウェブサイトから学習用テキストデータを取得する学習テキストデータ入力部101と、トピック別の発言件数から、当該トピックに対する単数の特定のユーザを示すノードの属するグループごとの発言件数に対する影響力を算出してこれを学習データとして記憶するノード影響力学習部102と、学習データを記憶した後に特定のウェブサイトから予測用テキストデータを取得する予測テキストデータ入力部106と、トピック別の発言件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測して出力する未来投稿件数予測部107とを有することを特徴とする。

Description

情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム
 本発明は情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラムに関し、特に特定のウェブサイトで、特定トピックに対しての未来における投稿数を予測する情報拡散規模予測装置等に関する。
 インターネットは、既に出版や放送などと並ぶ重要なメディアとして普及している。特に近年は、いわゆるSNS(Social Network Service)と呼ばれるウェブサイト、具体的にはツイッター、フェイスブック、ミクシイ(いずれも登録商標)などが著しく普及し、社会的に重大な影響力を持つに至っている。
 これらのSNS、あるいはウェブログなどで、たとえば特定の企業や商品などに対して否定的な風評がそれらのウェブサイトに書き込まれると、その風評が急速に拡散して、その売り上げに対して重大な悪影響、いわゆる風評被害が発生することになる。そのため、企業にとっては、SNSなどにおける風評の状況は、危機管理の観点において決して無視することのできないものになっている。
 このため、非特許文献1などにあるようなSNS上の投稿状況を分析する技術やサービスが、既に多数存在している。また、特許文献1にあるように、ウェブサイトの種類ごとに、他のメディアに与える影響力を機械学習や数理統計などの理論により推定し、その情報をもとに未来の投稿状況を予測する技術も既に公知である。
国際公開W02009/116342
「ブランド分析(風評被害の把握と対策)」、日本アイ・ビー・エム(株)、[平成23年11月4日検索]、インターネット<URL:http://www-06.ibm.com/services/bcs/jp/solutions/sc/pdf/branding.pdf>
 しかしながら、それらの技術は「ウェブサイトの種類ごと」に影響力を算出して未来の投稿状況を予測するものであって、「投稿者(または投稿者の属性)ごと」に推定するものではない。そのため、未来の投稿状況を的確に予測しうる技術は特に存在せず、人間が直感によって、過去から現在までの投稿状況をもとにして未来の投稿状況を予想して対策する以外にない。
 それに加えて、SNSなどのようなウェブサイトでは、システムや運営管理などによる制限によって、過去から現在に及ぶ全ての投稿を取得できない場合も多い。たとえばツイッターでは、運営会社の利用許可を得たとしても、全ての投稿データのうち10%しか取得できない。利用許可が無い場合には1%しか取得できないことになる。加えて、これまであまり話題にならなかった特定のトピックが、何らかの事象が発生したことによって監視の必要性が出てくる場合もある。以上の各々に該当する場合には、影響力の推定に利用できる投稿データが少ないことになる。
 また、全ての投稿データが取得可能であったとしても、その投稿および投稿者の数は非常に多いので、その処理に利用するコンピュータの処理能力などの制約により、取得されたデータの全てが利用可能なものとはならないことが多い。以上のような理由で、投稿者ごとの影響力を推定することは困難である。まして、これを基にして未来の投稿状況を予測することはさらに困難である。
 本発明の目的は、SNSなどのようなウェブサイトで、投稿者ごとの影響力、および特定トピックに対しての未来における投稿数を的確に予測することを可能とする情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラムを提供することにある。
 上記目的を達成するため、本発明に係る情報拡散規模予測装置は、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置であって、特定のウェブサイトからテキストデータを学習用テキストデータとして取得する学習テキストデータ入力部と、学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶するノード影響力学習部と、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして取得する予測テキストデータ入力部と、予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段に出力する未来投稿件数予測部とを有することを特徴とする。
 上記目的を達成するため、本発明に係る情報拡散規模予測方法は、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、特定のウェブサイトからテキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し、学習用テキストデータをノード影響力学習部がトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し、予測用テキストデータを未来投稿件数予測部がトピック別に分類し、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、その結果を予め備えられた出力手段に未来投稿件数予測部が出力することを特徴とする。
 上記目的を達成するため、本発明に係る情報拡散規模予測プログラムは、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、情報拡散規模予測装置の備えるコンピュータに、特定のウェブサイトからテキストデータを学習用テキストデータとして取得する手順、学習用テキストデータをトピック別に分類する手順、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶する手順、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして取得する手順、予測用テキストデータをトピック別に分類する手順、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測する手順、およびその結果を予め備えられた出力手段に出力する手順を実行させることを特徴とする。
 本発明は、上記したように、特定のウェブサイトから取得した学習用テキストデータから特定のトピックに対する特定のユーザの影響力を算出してこれを学習データとして保存し、この学習データと新たに取得した予測用テキストデータとからその特定のトピックの未来における投稿件数を予測するように構成したので、現実的に計算可能なデータ量で予測の処理を行うことができる。
 これによって、SNSなどのようなウェブサイトで、投稿者ごとの影響力、および特定トピックに対しての未来における投稿数を的確に予測するという、優れた特徴を持つ情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラムを提供することができる。
本発明の実施形態に係る情報拡散規模予測装置の構成について示す説明図である。 図1で示した情報拡散規模予測装置の学習フェーズにおける動作を示すフローチャートである。 図1で示した情報拡散規模予測装置の予測フェーズにおける動作を示すフローチャートである。
(実施形態)
 以下、本発明の実施形態の構成について添付図1に基づいて説明する。
 最初に、本実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。本実施形態に係る情報拡散規模予測装置10は、インターネット20を介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置である。この情報拡散規模予測装置10は、特定のウェブサイトからテキストデータを学習用テキストデータとして取得する学習テキストデータ入力部101と、学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力を算出してその結果を学習データ110として予め備えられた記憶手段12に記憶するノード影響力学習部ノード影響力学習部102と、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして取得する予測テキストデータ入力部106と、予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段14に出力する未来投稿件数予測部107とを有する。
 また、この情報拡散規模予測装置10は、各ノードの属性に関する情報に基づいてノードをグループに分類するグループ作成部104と、学習用テキストデータおよび予測用テキストデータから発言数に関して時刻およびグループごとにクロス集計してその結果をノード影響力学習部および未来投稿件数予測部に出力するグループ・時刻情報集計部103とをさらに有する。
 そして、ノード影響力学習部102は、時刻およびグループごとにクロス集計された発言数を行列X、要素xijをこの行列Xの時刻iにおけるグループjの発言数、行列Xの1行目からs行目までを抽出した部分行列をXs、各時刻における発言数の全ノードに対する総和をysとし、平均αのポアソン分布のxにおける密度関数の値をP0(x,α)とすると、時刻sにおけるグループの影響力βsを
Figure JPOXMLDOC01-appb-I000002
で示されるf(ys,Xs,βs)の数値を最小化する場合の値として求める。
 さらに、ノード影響力学習部102は、f(ys,Xs,βs)に、L1正則化もしくはL2正則化されたβsと、予め与えられた正則化パラメータとを乗算した値を加算した数値を最小化する場合の値として時刻sにおける時刻sにおけるグループの影響力βsを求める。
 以上の構成を備えることにより、本実施形態に係る情報拡散規模予測装置10は、投稿者ごとの影響力、および特定トピックに対しての未来における投稿数を的確に予測できるものとなる。
 以下、これをより詳細に説明する。
 図1は、本発明の実施形態に係る情報拡散規模予測装置10の構成について示す説明図である。情報拡散規模予測装置10は、コンピュータ装置としての基本的な構成を備えている。即ち、情報拡散規模予測装置10は、コンピュータプログラムを実行する主体であるプロセッサ11と、データを記憶する記憶手段12と、インターネット20を介して他の装置とのデータ送信を行う通信手段13と、処理結果をユーザに提示する表示手段14とを備える。
 主演算制御手段11は、コンピュータプログラムが実行されることにより、後述の学習テキストデータ入力部101、ノード影響力学習部102、グループ・時刻情報集計部103、グループ作成部104、属性値入力部105、予測テキストデータ入力部106、および未来投稿件数予測部107として機能する。これらの各部は、各々別々のコンピュータ装置で実行されるように構成することもできる。
 学習テキストデータ入力部101は、通信手段13およびインターネット20を介して、予め与えられた学習期間および学習間隔に従って、取得対象のウェブサイトからテキストデータと、それに付随する属性データを取得する。たとえば、ツイッターを取得対象とする場合には、ツイートされたテキストデータと同時に、各ツイートについて、ツイートされた時刻、ツイートしたノード、およびそのツイートが属するトピック、についての情報も同時に取得する。取得されたこれらのデータは、ノード影響力学習部102に渡される。
 ここでいう「ノード」とは、本発明においては「影響力を推定する単位」として定義される。より具体的には、「投稿者」単位としてもよいし、その投稿者が属する「メディア」単位や「運営組織」単位とすることもできる。
 たとえば、監視対象のウェブサイトがツイッターである場合には、当投稿者ごとの「ツイート数(発言数)」「フォロー数」「フォロワー数」「各ツイートに対するリプライ数」「各ツイートに対するリツイート数」などを該ノードの属性とすることができる。また、投稿記事の内容自体、たとえば当該記事に含まれる「単語の種類」「出現頻度」などを該ノードの属性としてもよい。
 これらの値の中には学習データの取得期間(学習期間という)の中で変化しうる値もある。しかしながらここでは、学習期間内の「投稿件数」「ツイート回数」「コメント数の平均値」「トラックバック数の平均値」「リプライ数の平均値」「リツイート数の平均値」「フォロー数の最大値」「フォロワー数の最大値」などを投稿者ごとに算出し、これを該ノードの属性とすることができる。
 ノード影響力学習部102は、それらのデータ入力を受けて、各発言をトピックごとに分類し、トピックごとにそのトピックに属する発言のノード情報・時刻情報・テキストデータをグループ・時刻情報集計部103に出力する。グループ・時刻情報集計部103は、それらのトピックごとにグループ・時刻情報をクロス集計してノード影響力学習部102に返す。
 トピックごとにクロス集計されたグループ・時刻情報がグループ・時刻集計部103から返されたことを受けたノード影響力学習部102は、各グループの影響力、そしてこれに引き続いて各ノードの影響力を算出する。そして算出されたノードの影響力を、未来投稿件数予測部107に出力する。
 グループ・時刻情報集計部103は、ノード影響力学習部102から入力される各発言の属性、たとえばツイッターの場合には単一のトピックに属するツイートのノード情報・時刻情報・テキストデータと、グループ作成部104から入力されるノードが属するグループの情報とから、発言数に関して、時刻×グループのクロス集計データを作成し、このクロス集計データをノード影響力学習部102に出力する。
 グループ作成部104は、属性値入力部105から入力されたノードの属性値から、各ノードをグループ分けし、グループ情報をグループ・時刻情報集計部103に出力する。属性値入力部105では、装置外部から入力されたノードの属性値をグループ作成部104に出力する。
 予測テキストデータ入力部106は、通信手段13およびインターネット20を介して、学習テキストデータ入力部101と同様に、予め与えられた予測間隔に従って取得対象のウェブサイトからテキストデータと、それに付随する属性データを取得する。取得されたこれらのデータは、未来投稿件数予測部107に渡される。
 未来投稿件数予測部107は、予測テキストデータ入力部106からそれらのデータ入力を受け、またノード影響力学習部102から各ノードの影響力についての入力を受け、各発言が分類されたトピックごとに、該トピックに属する発言のノード情報・時刻情報・テキストデータをグループ・時刻情報集計部103に出力する。グループ・時刻情報集計部103は、それらのトピックごとにグループ・時刻情報をクロス集計して未来投稿件数予測部107に返す。
 トピックごとにクロス集計されたグループ・時刻情報がグループ・時刻集計部103から返されたことを受けた未来投稿件数予測部107は、未来の投稿件数の予測値を算出して、これを表示手段14に表示する。この表示手段14は、情報拡散規模予測装置10とは別のコンピュータであってもよい。
 ここでいう「未来の投稿状況」とは、予め指定された特定のトピック(たとえば監視者が注目しているものとして指定したトピックなど)に関して、何時間先の未来(情報拡散速度)において何本の件数(情報拡散規模)の記事がその対象ウェブサイトに存在するかをいう。また、各投稿記事に関して、投稿元ノード・投稿時刻・どのトピック(複数トピックでも可)に関する記事なのかについての情報が与えられているものとする。
 以上で説明した情報拡散規模予測装置10の動作は、大きく分けて「学習フェーズ」と「予測フェーズ」の2段階に分かれる。以下、その各々について説明する。なお、以下の例では、全て監視対象のウェブサイトがツイッターであるものとする。
 図2は、図1で示した情報拡散規模予測装置10の学習フェーズにおける動作を示すフローチャートである。まず、学習テキストデータ入力部101が、通信手段13およびインターネット20を介して、予め与えられた学習期間および学習間隔に従って動作して、ツイッター上にツイートされたテキストデータを学習用として取得する。同時に、各ツイートについて、ツイートされた時刻、ツイートしたノード、およびそのツイートが属するトピック、についての情報も同時に取得する。取得されたこれらのデータは、ノード影響力学習部102に渡される(ステップS201)。
 ノード影響力学習部102は、それらのデータ入力を受けて、各ツイートをトピックごとに分類し、トピックごとにそのトピックに属するツイートのノード情報・時刻情報・テキストデータをグループ・時刻情報集計部103に出力する(ステップS202)。グループ・時刻情報集計部103は、グループ作成部104から入力されるノードが属するグループの情報を利用して、それらのトピックごとにグループ・時刻情報をクロス集計してノード影響力学習部102に返す(ステップS203)。
 このクロス集計されたグループ・時刻情報を受け取ったノード影響力学習部102は、グループの影響力を算出し、その値をもとにノードの影響力を算出し、これを学習データ110として記憶手段12に保存する。(ステップS204)。
 図3は、図1で示した情報拡散規模予測装置10の予測フェーズにおける動作を示すフローチャートである。まず予測テキストデータ入力部106が、与えられた予測間隔に従って動作して、ツイッター上にツイートされたテキストデータを予測用として取得する。同時に、各ツイートについて、ツイートされた時刻、ツイートしたノード、およびそのツイートが属するトピック、についての情報も同時に取得する。取得されたこれらのデータは、未来投稿件数予測部107に渡される(ステップS251)。
 未来投稿件数予測部107は、それらのデータ入力を受けて、各ツイートをトピックごとに分類し、トピックごとにそのトピックに属するツイートのノード情報・時刻情報・テキストデータをグループ・時刻情報集計部103に出力する(ステップS252)。グループ・時刻情報集計部103は、グループ作成部104から入力されるノードが属するグループの情報を利用して、それらのトピックごとにグループ・時刻情報をクロス集計して未来投稿件数予測部107に返す(ステップS253)。
 以上ステップS251~253の処理は、図2のステップS201~203の処理と同一であるので、グループ・時刻情報集計部103、グループ作成部104、属性値入力部105は学習フェーズと予測フェーズとで共用することができる。このクロス集計されたグループ・時刻情報を受け取った未来投稿件数予測部107は、記憶手段12からノードの影響力についての学習データを読み取り(ステップS254)、そこから未来の投稿件数の予測値を算出して表示手段14に表示する(ステップS255)。
(処理内容の例)
 以下、図2~3で示した情報拡散規模予測装置10による学習フェーズおよび予測フェーズの各処理の内容を、より詳細に説明する。ここから示す処理内容の例における前提は、以下の通りである。
・分析対象はツイッター上にツイート(投稿)されたテキストデータである。
・未来の投稿件数(ツイート数)の予測対象となるトピックが予め指定されている。
・各々のツイートについて、当該ツイートの「ツイートしたユーザ」「ツイートされた日時」「そのツイートが属するトピック」に関する情報が得られている。
・学習フェーズおよび予測フェーズの各々について、テキストデータを取得する処理を行う期間および時間間隔が予め指定されている。ただし、予測フェーズは学習フェーズの終了後に行われる。
・1ユーザ(投稿者)を1ノードとする。
・各ノード(ユーザ)ごとの「クライアントソフト」「学習期間内のツイート回数」「学習期間内でのコメント数・トラックバック数・リプライ数・リツイート数の各平均値」「学習期間内でのフォロー数、フォロワー数の最大値」が予め得られている。
 また、以下に示す例では、推定および予測の対象となるトピックが1トピックのみ指定されているものとする。複数トピックが指定されている場合には、その各々のトピックに対して、以下で説明する方法で推定および予測を行えばよい。
 まず、学習テキストデータ入力部101が図2のステップS201の処理で取得した各データから、ノード影響力学習部102が図2のステップS202の処理で各ノードをグルーピングする。そのグルーピングを行う際の観点として、たとえば以下の各々がある。また、複数の属性についてのグルーピング結果の積集合を最終的なグルーピング結果とすることもできる。
・使用している「クライアントソフト」の種類
・そのクライアントソフトを動作させている「OS(オペレーティングシステム)」の種類
・「学習期間内のツイート回数」の属する区分(たとえば「1~100回」「101~1000回」「1001回以上」の区分のうち、当該ノードがいずれの区分に属するか)
・「学習期間内でのフォロワー数の最大値」の属する区分(たとえば「1~1000名」「1001名以上」の区分のうち、当該ノードがいずれの区分に属するか)
 さらに、ツイート回数がある一定値以上のノードはそのノード自体を単独のグループとして定義することもできる。グルーピングの結果、各ノードは一つもしくは複数のグループに属することになる。このグルーピングにより、実質的にノードの数を減らすことが可能となり、これはノードの影響力の推定結果を安定させることに寄与する。
 続いて、グループ・時刻情報集計部103が図2のステップS203に示した処理で、どの時刻においてどのグループが何回ツイートしたかを集計作業し、ツイート数に関する時刻×グループのクロス集計表を作成する。この集計結果(クロス集計表)は、以下の数1の行列Xで示すことができる。この行列Xの、行は時刻、列はグループを各々示し、行列の要素xijは「時刻iにおけるグループjのツイート回数」を表わす。
Figure JPOXMLDOC01-appb-M000003
 続いて、グループ・時刻情報集計部103が図2のステップS204に示した処理で、ノードごとの影響力を推定する。ノードの影響力はグループの影響力をもとに算出される。ここで、グループの影響力が以下の数2に示す行列βで与えられているものとする。この行列βの、行は集計単位時間のもとで何時刻先の未来かを示し、列は(数1と同様に)グループを示し、行列の要素βijは「i時刻先の未来におけるグループjの影響力の和」として定義される。
Figure JPOXMLDOC01-appb-M000004
 具体的に「グループの影響力」を算出する方法として、例えば、以下の数3を最小化するβの値をグループの影響力とする方法が挙げられる。数3の第1項f(ys,Xs,βs)で、数4に示されるysは各時刻におけるツイート数の全ノードに対する総和であり、Xsは数1に示した行列Xの第1行目から第T-s行目までを抽出した部分行列である。また第2項λP(βs)のλは、正則化パラメータと呼ばれる、推定結果の安定性を調整するためのパラメータである。P(βs)のより具体的な定義については後述する。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 この数3のf(ys,Xs,βs)は、より具体的には以下の数5のように計算される。ここでP0(x,α)は、平均αのポアソン分布のxにおける密度関数の値である。
Figure JPOXMLDOC01-appb-M000007
 数3の第2項のP(βs)は、より具体的には以下の数6もしくは数7のように計算される。数6の計算はL1正則化、数7の計算はL2正則化と各々呼ばれる手法である。ここでいう正則化とは、機械学習や数理統計の分野で、十分な量の学習データが得られない状況で安定した推定結果を得るために利用される手法である。また、数3の第2項を省略して、正則化の要素を含まない計算とすることもできる。
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
 情報拡散規模予測装置10は、以上の処理(学習フェーズ)で作成した学習データをもとに、図3に示した予測フェーズの動作を行う。図3に示した予測フェーズのステップS251~254までの処理は、図2に示した学習フェーズのステップS201~204までの処理と同様にして、予測テキストデータ入力部106がツイートされたテキストデータを取得して、このテキストデータから未来投稿件数予測部107がトピックごとにグループ・時刻情報をクロス集計する。このクロス集計によって得られたグループごとのツイート数zを、以下の数8のように表す。
Figure JPOXMLDOC01-appb-M000010
 そして、このクロス集計されたデータと、学習データとを利用して、未来投稿件数予測部107が図3のステップS255に示した処理で、ノードごとの影響力、即ち時刻sだけ先の予測投稿件数を以下の数9に示す処理によって算出する。
Figure JPOXMLDOC01-appb-M000011
 以上、ある時刻から見て未来の投稿件数を予測する際に、その時刻における投稿件数のみを予測する例を示したが、これを拡張してその時刻を含む直近の数時刻の投稿件数を予測するようにもできる。その場合、たとえば時刻sを含む直近の時間帯1~Aにおける投稿件数を表す行列Zは、以下の数10のように定義される。この行列Zの、行は集計単位時間のもとで何時刻先の未来かを示し、列は(数1と同様に)グループを示し、行列の要素zijは「i時刻先の未来におけるグループjの予測投稿件数」として定義され、実際には数9に示した式によって各々算出される。
Figure JPOXMLDOC01-appb-M000012
(実施形態の全体的な動作)
 次に、上記の実施形態の全体的な動作について説明する。
 本実施形態に係る情報拡散規模予測方法は、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置10にあって、特定のウェブサイトからテキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し(図2・ステップS201)、学習用テキストデータをノード影響力学習部がトピック別に分類し(図2・ステップS202)、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し(図2・ステップS203~204)、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し(図3・ステップS251)、予測用テキストデータを未来投稿件数予測部がトピック別に分類し(図3・ステップS252)、分類されたトピック別の発言件数と学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、その結果を予め備えられた出力手段に未来投稿件数予測部が出力する(図3・ステップS253~255)。
 ここで、上記各動作ステップについては、これをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行する情報拡散規模予測装置10のプロセッサ11に実行させるようにしてもよい。本プログラムは、非一時的な記録媒体、例えば、DVD、CD、フラッシュメモリ等に記録されてもよい。その場合、本プログラムは、記録媒体からコンピュータによって読み出され、実行される。
 この動作により、本実施形態は以下のような効果を奏する。
 本実施形態は、前述のように、学習フェーズで特定のトピックに対する特定のユーザの影響力を算出してこれを学習データとして保存し、予測フェーズでこの学習データと新たに取得した予測用テキストデータとからその特定のトピックの未来における投稿件数を予測するように構成している。
 これによって、個々のユーザという細かい単位に至るまで、影響力を細かい粒度で算出することが、現実的に処理可能な計算量の範囲で可能となる。従って、それに基づいた投稿件数の予測もまた、学習フェーズと同程度の粒度で可能となる。この処理は、学習フェーズおよび予測フェーズの各々に対して、処理を行う期間および時間間隔を設定さえしておけば、リアルタイムに近い定期的な形で行うことが可能である。
(実施形態の拡張)
 以上で示した処理内容の例では、集計対象をツイッターに限定したが、これ以外にもフェイスブックやミクシイ、あるいは各社のウェブログなどに対しても、各サイトの性質に応じて各トピックや各ノードの属性を適宜設定して、同様の方法で処理していくことができる。
 また、前述したように各ノードを特にグルーピングせず、1ユーザ=1ノード=1グループとして処理することもできる。さらに、前述した数3の第2項を省略して、正則化の要素を含まない計算とすることもできる。
 これまで本発明について図面に示した特定の実施形態をもって説明してきたが、本発明は図面に示した実施形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができる。
 上述した実施形態について、その新規な技術内容の要点をまとめると、以下のようになる。なお、上記実施形態の一部または全部は、新規な技術として以下のようにまとめられるが、本発明は必ずしもこれに限定されるものではない。
(付記1) インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置であって、
 前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する学習テキストデータ入力部と、
 前記学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶するノード影響力学習部と、
 前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する予測テキストデータ入力部と、
 前記予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段に出力する未来投稿件数予測部と
を有することを特徴とする情報拡散規模予測装置。
(付記2) 前記各ノードの属性に関する情報に基づいて前記ノードを前記グループに分類するグループ作成部と、
 前記学習用テキストデータおよび前記予測用テキストデータから投稿数に関して時刻および前記グループごとにクロス集計してその結果を前記ノード影響力学習部および前記未来投稿件数予測部に出力するグループ・時刻情報集計部と
を有することを特徴とする、付記1に記載の情報拡散規模予測装置。
(付記3) 前記ノード影響力学習部が、時刻および前記グループごとに前記クロス集計された投稿数を行列X、要素xijをこの行列Xの時刻iにおけるグループjの投稿数、前記行列Xの1行目からs行目までを抽出した部分行列をXs、各時刻における投稿数の全ノードに対する総和をysとし、平均αのポアソン分布のxにおける密度関数の値をP0(x,α)とすると、時刻sにおける前記グループの影響力βsを
Figure JPOXMLDOC01-appb-I000013
で示されるf(ys,Xs,βs)の数値を最小化する場合の値として求めることを特徴とする、付記2に記載の情報拡散規模予測装置。
(付記4) 前記ノード影響力学習部が、前記f(ys,Xs,βs)に、L1正則化もしくはL2正則化されたβsと、予め与えられた正則化パラメータとを乗算した値を加算した数値を最小化する場合の値として時刻sにおける前記グループの影響力βsを求めることを特徴とする、付記3に記載の情報拡散規模予測装置。
(付記5) インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
 前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し、
 前記学習用テキストデータをノード影響力学習部がトピック別に分類し、
 分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し、
 前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し、
 前記予測用テキストデータを未来投稿件数予測部がトピック別に分類し、
 分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、
 その結果を予め備えられた出力手段に前記未来投稿件数予測部が出力する
ことを特徴とする情報拡散規模予測方法。
(付記6) インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
 前記情報拡散規模予測装置の備えるコンピュータに、
 前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する手順、
 前記学習用テキストデータをトピック別に分類する手順、
 分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶する手順、
 前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する手順、
 前記予測用テキストデータをトピック別に分類する手順、
 分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測する手順、
 およびその結果を予め備えられた出力手段に出力する手順
を実行させることを特徴とする情報拡散規模予測プログラム。
 この出願は2011年11月18日に出願された日本出願特願2011-252311を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、企業の危機管理やマーケッティングリサーチなどに利用する情報拡散規模予測の技術に対して適用できる。
  10 情報拡散規模予測装置
  11 プロセッサ
  12 記憶手段
  13 通信手段
  14 表示手段
  20 インターネット
  101 学習テキストデータ入力部
  102 ノード影響力学習部
  103 グループ・時刻情報集計部
  104 グループ作成部
  105 属性値入力部
  106 予測テキストデータ入力部
  107 未来投稿件数予測部
  110 学習データ

Claims (6)

  1.  インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置であって、
     前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する学習テキストデータ入力部と、
     前記学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶するノード影響力学習部と、
     前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する予測テキストデータ入力部と、
     前記予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段に出力する未来投稿件数予測部と
    を有することを特徴とする情報拡散規模予測装置。
  2.  前記各ノードの属性に関する情報に基づいて前記ノードを前記グループに分類するグループ作成部と、
     前記学習用テキストデータおよび前記予測用テキストデータから投稿数に関して時刻および前記グループごとにクロス集計してその結果を前記ノード影響力学習部および前記未来投稿件数予測部に出力するグループ・時刻情報集計部と
    を有することを特徴とする、請求項1に記載の情報拡散規模予測装置。
  3.  前記ノード影響力学習部が、時刻および前記グループごとに前記クロス集計された投稿数を行列X、要素xijをこの行列Xの時刻iにおけるグループjの投稿数、前記行列Xの1行目からs行目までを抽出した部分行列をXs、各時刻における投稿数の全ノードに対する総和をysとし、平均αのポアソン分布のxにおける密度関数の値をP0(x,α)とすると、時刻sにおける前記グループの影響力βsを
    Figure JPOXMLDOC01-appb-I000001
    で示されるf(ys,Xs,βs)の数値を最小化する場合の値として求めることを特徴とする、請求項2に記載の情報拡散規模予測装置。
  4.  前記ノード影響力学習部が、前記f(ys,Xs,βs)に、L1正則化もしくはL2正則化されたβsと、予め与えられた正則化パラメータとを乗算した値を加算した数値を最小化する場合の値として時刻sにおける前記グループの影響力βsを求めることを特徴とする、請求項3に記載の情報拡散規模予測装置。
  5.  インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
     前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し、
     前記学習用テキストデータをノード影響力学習部がトピック別に分類し、
     分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し、
     前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し、
     前記予測用テキストデータを未来投稿件数予測部がトピック別に分類し、
     分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、
     その結果を予め備えられた出力手段に前記未来投稿件数予測部が出力する
    ことを特徴とする情報拡散規模予測方法。
  6.  インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
     前記情報拡散規模予測装置の備えるコンピュータに、
     前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する手順、
     前記学習用テキストデータをトピック別に分類する手順、
     分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶する手順、
     前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する手順、
     前記予測用テキストデータをトピック別に分類する手順、
     分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測する手順、
     およびその結果を予め備えられた出力手段に出力する手順
    を実行させることを特徴とする情報拡散規模予測プログラム。
PCT/JP2012/078292 2011-11-18 2012-11-01 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム WO2013073377A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/824,122 US8983880B2 (en) 2011-11-18 2012-11-01 Information spread scale prediction device, information spread scale prediction method, and information spread scale prediction program
JP2013511458A JP5282857B1 (ja) 2011-11-18 2012-11-01 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011252311 2011-11-18
JP2011-252311 2011-11-18

Publications (1)

Publication Number Publication Date
WO2013073377A1 true WO2013073377A1 (ja) 2013-05-23

Family

ID=48429444

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/078292 WO2013073377A1 (ja) 2011-11-18 2012-11-01 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム

Country Status (3)

Country Link
US (1) US8983880B2 (ja)
JP (1) JP5282857B1 (ja)
WO (1) WO2013073377A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016535344A (ja) * 2013-08-09 2016-11-10 フェイスブック,インク. 対話履歴に基づくユーザ体験インターフェースまたはユーザ・インターフェース
JP2019079474A (ja) * 2017-10-27 2019-05-23 エヌ・ティ・ティ・コミュニケーションズ株式会社 サイト改善装置、サイト改善方法およびサイト改善プログラム
JP7061328B1 (ja) 2021-07-30 2022-04-28 株式会社Jx通信社 情報処理装置、情報処理システムおよびプログラム
JP7182819B1 (ja) 2021-07-30 2022-12-05 株式会社Jx通信社 情報処理装置、情報処理システムおよびプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150309965A1 (en) * 2014-04-28 2015-10-29 Elwha Llc Methods, systems, and devices for outcome prediction of text submission to network based on corpora analysis
KR101628738B1 (ko) * 2014-10-29 2016-06-09 (주)타파크로스 학습형 룰베이스 방식의 부정적 이슈 감지 방법 및 시스템
WO2017023322A1 (en) * 2015-08-06 2017-02-09 Hewlett Packard Enterprise Development Lp Influence spread maximization in social networks
US10430451B2 (en) * 2016-02-22 2019-10-01 Arie Rota System and method for aggregating and sharing accumulated information
CN106845022A (zh) * 2017-03-01 2017-06-13 邯郸市气象局 基于风险扩散机理的气象灾害风险评估方法
US10687206B2 (en) * 2018-01-30 2020-06-16 Hewlett Packard Enterprise Development Lp Response messages including information elements not indicated as requested

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009116342A1 (ja) 2008-03-18 2009-09-24 日本電気株式会社 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FUMI YAMAZAKI: "Twitter Marketing Katsuyo Kotohajime", NIKKEI NETMARKETING, 25 May 2010 (2010-05-25), pages 44 - 47 *
KAZUKI YOSHIMOTO ET AL.: "Micro Blog ni Okeru Tasha eno Eikyo o Koryo shita Tokosha no Juyodo Suitei Shuho", DAI 2 KAI FORUM ON DATA ENGINEERING AND INFORMATION MANAGEMENT -DEIM 2010- RONBUNSHU, 9 June 2010 (2010-06-09), pages 1 - 8 *
KYOSUKE NISHIDA ET AL.: "Tweet-Topic Classification using Data Compression", DBSJ JOURNAL, vol. 10, no. 1, 24 June 2011 (2011-06-24), pages 1 - 6 *
YUYA YOSHIKAWA ET AL.: "Estimating Method of Expected Influence Curve from Single Diffusion Sequence on Social Networks", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J94-D, no. 11, 1 November 2011 (2011-11-01), pages 1899 - 1908 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016535344A (ja) * 2013-08-09 2016-11-10 フェイスブック,インク. 対話履歴に基づくユーザ体験インターフェースまたはユーザ・インターフェース
JP2019079474A (ja) * 2017-10-27 2019-05-23 エヌ・ティ・ティ・コミュニケーションズ株式会社 サイト改善装置、サイト改善方法およびサイト改善プログラム
JP7009160B2 (ja) 2017-10-27 2022-01-25 エヌ・ティ・ティ・コミュニケーションズ株式会社 サイト改善装置、サイト改善方法およびサイト改善プログラム
JP7061328B1 (ja) 2021-07-30 2022-04-28 株式会社Jx通信社 情報処理装置、情報処理システムおよびプログラム
JP7182819B1 (ja) 2021-07-30 2022-12-05 株式会社Jx通信社 情報処理装置、情報処理システムおよびプログラム
JP2023020366A (ja) * 2021-07-30 2023-02-09 株式会社Jx通信社 情報処理装置、情報処理システムおよびプログラム
JP2023020864A (ja) * 2021-07-30 2023-02-09 株式会社Jx通信社 情報処理装置、情報処理システムおよびプログラム

Also Published As

Publication number Publication date
JP5282857B1 (ja) 2013-09-04
US20140244551A1 (en) 2014-08-28
US8983880B2 (en) 2015-03-17
JPWO2013073377A1 (ja) 2015-04-02

Similar Documents

Publication Publication Date Title
JP5282857B1 (ja) 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム
Ye et al. Closed-form estimators for the gamma distribution derived from likelihood equations
Miller et al. Extensions of the Johnson-Neyman technique to linear models with curvilinear effects: Derivations and analytical tools
US9123055B2 (en) Generating and displaying customer commitment framework data
US10846613B2 (en) System and method for measuring and predicting content dissemination in social networks
Zhang et al. Robust estimation and variable selection for semiparametric partially linear varying coefficient model based on modal regression
JP2017142796A (ja) 情報の特定及び抽出
Alizadeh Noughabi et al. Monte Carlo comparison of five exponentiality tests using different entropy estimates
US20160034553A1 (en) Hybrid aggregation of data sets
TW201719569A (zh) 社交業務特徵用戶的識別方法和裝置
Chakrabarty et al. Compounded inverse Weibull distributions: Properties, inference and applications
JP5814303B2 (ja) 収益指標値生成システム及び収益指標値生成方法
US20170286975A1 (en) Data Infrastructure and Method for Estimating Influence Spread in Social Networks
Yılancı et al. The causality relationship between trade and environment in G7 countries: evidence from dynamic symmetric and asymmetric bootstrap panel causality tests
Gaidai et al. Singapore COVID-19 data cross-validation by the Gaidai reliability method
Chávez et al. A threshold GARCH model for Chilean economic uncertainty
Chen et al. Forecasting tourism demand of tourist attractions during the COVID-19 pandemic
Xiao et al. Convergence and stability of numerical methods with variable step size for stochastic pantograph differential equations
CN110209944B (zh) 一种股票分析师推荐方法、装置、计算机设备和存储介质
Kirichenko et al. Probabilistic Machine Learning Methods for Fractional Brownian Motion Time Series Forecasting
JP2018077671A (ja) 情報処理装置、情報処理方法、予測モデルの生成装置、予測モデルの生成方法、およびプログラム
JP6062514B2 (ja) 収益指標値生成システム及び収益指標値生成方法
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
Biswas et al. Spatial estimation and rescaled spatial bootstrap approach for finite population
Fedorova et al. Queueing System with Two Phases of Service and Service Rate Degradation

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2013511458

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13824122

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12850598

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12850598

Country of ref document: EP

Kind code of ref document: A1