WO2013179340A1 - 情報分析システム及び情報分析方法 - Google Patents

情報分析システム及び情報分析方法 Download PDF

Info

Publication number
WO2013179340A1
WO2013179340A1 PCT/JP2012/003522 JP2012003522W WO2013179340A1 WO 2013179340 A1 WO2013179340 A1 WO 2013179340A1 JP 2012003522 W JP2012003522 W JP 2012003522W WO 2013179340 A1 WO2013179340 A1 WO 2013179340A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
posting
post
evaluation
future
Prior art date
Application number
PCT/JP2012/003522
Other languages
English (en)
French (fr)
Inventor
真理奈 藤田
純一郎 渡邊
健 河本
知明 秋富
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP2014518086A priority Critical patent/JP5895052B2/ja
Priority to PCT/JP2012/003522 priority patent/WO2013179340A1/ja
Publication of WO2013179340A1 publication Critical patent/WO2013179340A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Definitions

  • the present invention relates to an information analysis system and an information analysis method for collecting posts on a computer network such as the Internet and analyzing the collected information.
  • Patent Document 1 For example, after collecting posts on a website related to keywords and classifying the content according to whether it is positive or negative, changes in the number of posts in time series for each emotion characteristic are visualized.
  • Patent Document 1 the contents (affirmation / denial) of the collected postings are analyzed, and aggregated by time / by poster, etc., and the keyword reputation is analyzed. Specifically, the degree of affirmation with respect to the keyword is calculated by calculating the ratio of the number of positive / negative postings, and the degree of attention of the topic related to the keyword is evaluated by counting the number of posts in time series.
  • Patent Document 1 the number of posts at the time of posting collection and the current reputation estimated from the number of posts are presented, but future trends such as future changes in the number of posts are not predicted.
  • future trends such as future changes in the number of posts are not predicted.
  • it is required not only to grasp the current reputation, but also to predict future trends in reputation and reputation.
  • an information analysis system for analyzing a post on the WEB using a post information database that stores post information including a post ID, a post date, post related information, and post content information
  • the post information database Posting information is acquired from the posting information database, and the posting relation is analyzed from the posting information database, and the posting information is acquired from the posting information database.
  • a content analysis processing unit that evaluates characteristics, associates the evaluated emotion characteristics with a post ID, and stores the post information in the post information database; acquires post information from the post information database; and post date / time, post ID, and post relation information Based on the post information, the topic duration of the post information related to the post ID is calculated, and the post information database is related to the post ID.
  • the input information acquisition unit that receives the input of the evaluation keyword, and the evaluation keyword that has received the input
  • the posting information including the evaluation keyword that has received the input is acquired from the posting information database.
  • a feature quantity list generation unit that stores it in the posting information database as a quantity information list, acquires the feature quantity information list from the posting information database, classifies the emotional characteristics of the posted information included in the feature quantity list, and
  • a feature amount calculation unit that calculates the number of consecutive posts, generates a dialogue evaluation information list including the classified emotional characteristics and the calculated number of consecutive posts, and stores it in the posting database; accepts input of an evaluation time width; Based on the list and the input evaluation time width, a future posting number calculation unit that predicts the number of future postings for each emotion characteristic, and the previous period
  • Information analysis system which comprises a display unit, the displaying issued interactive evaluation information and the predicted future posts on the screen.
  • Examples of characteristics of topic duration in cyberspace Example of information analysis method and system configuration of the present invention
  • Examples of functions of the present invention Example of operation flowchart of data generation processing in data management server Web posting data example Posting example in chat Posting method example 1 Posting method example 2
  • Dialogue relationship matrix example Posting emotion list
  • Example topic duration list Example of operation flowchart of keyword evaluation processing in hard disk Evaluation result report example
  • Example of operation flowchart of feature amount calculation processing Post feature list
  • Example of flowchart of post number convergence evaluation and result display processing Convergence evaluation result display screen example of the number of posts
  • Example of operation flowchart of processing to obtain coefficient of convergence estimation formula for number of posts Sample duration distribution list
  • Example of coefficient matrix Example of operation flowchart of user operation reception process and analysis result display process
  • Example of multiple keyword evaluation result (post number convergence evaluation) display screen Example of reputation analysis results display screen for different services
  • the posting behavior of a contributor is “post to post an earthquake”, “view other posts on the web and post to reply or express consent / disagreement”, Caused by some event in the real world and other posts on the web.
  • future posting behavior can be predicted by grasping these events. For example, if the relationship between the magnitude of an earthquake in the real world and the number of postings is known, the number of subsequent postings can be predicted by grasping the magnitude of the earthquake when an earthquake occurs.
  • the content of future posts and the number of posts can be predicted based on the relationship between a plurality of posts.
  • the present invention is an information analysis method and system for evaluating a keyword's reputation based on a contributor's posting behavior rules and predicting future reputational changes.
  • the keyword's reputation includes the degree of affirmation of whether there are many positive opinions or negative opinions about the keyword, and the degree of attention of the topic as to how much the keyword has been posted.
  • the keyword's reputation includes the advantages and disadvantages of the keyword and the behavior that the keyword is likely to induce, as estimated from the context in which the keyword is used.
  • a certain poster's posting behavior is caused by some event in the real world or other postings on the Web. Based on the rules between these posting actions and their causes, it is possible to predict future posting actions by grasping the phenomenon that causes them.
  • an information analysis system for predicting the degree of convergence of the number of posts based on the posting behavior characteristics of Web users with respect to existing topics and for evaluating the duration of topics related to keywords will be described.
  • the reputation of the keyword evaluated in the embodiment is the degree of affirmation and the degree of attention of the keyword.
  • a positive statement is a statement with a positive content such as “It was delicious” or “I am looking forward to” or a statement that includes the pleasant feelings of the speaker
  • a negative statement is a negative statement such as “fool” or “tired” It is a statement that includes content statements or unpleasant emotions of the speaker.
  • a neutral statement is a statement that is neither positive nor negative.
  • the duration distribution of the topic for each emotion characteristic is as shown in FIG. From here, the following can be said. (1) The topic duration is short and most topics converge quickly. (2) Long-lived topics survive for a very long time. (3) There is a difference in the convergence time distribution depending on the emotional characteristics of the remarks.
  • the present invention evaluates the duration of future topics using the characteristics of the duration of topics on the Web.
  • Information analysis may be performed using other posting behavior characteristics. For example, if the interaction characteristics between contributors in a conversation are used, it is possible to grasp the reputation of the keyword in units of conversation and predict the future reputation transition.
  • Information on the duration of the current topic in each post is necessary for evaluating the convergence duration of the topic.
  • the connection between posts and the browsing information of posts are used from post data on the Web. These are measured.
  • the duration distribution of the topic is calculated for each emotional characteristic of the content of the statement, and the future number of posts related to the same topic is predicted based on the distribution.
  • the duration of the topic is evaluated by calculating the time it takes for the topic to converge from the number of posting results.
  • FIG. 2 is a diagram showing the configuration of the system of the present invention.
  • 201 is a crawl target server.
  • Reference numeral 202 denotes a data management server.
  • 203 is a communication device, 204 is an input device, 205 is a display device, 206 is a CPU, 207 is a recording medium such as a hard disk, and 208 is a memory.
  • Reference numerals 209 and 210 denote communication networks.
  • the crawl target server 201 is a server on the Web that provides, for example, a social network service, a bulletin board, and the like, and stores information (Web posting data) such as posting contents, posting date and time, posting information on posting on the Web.
  • the data management server 202 accepts the Web posting data and, after information analysis, accumulates necessary information in a database. The functional unit in the data management server 202 will be described later.
  • the input device 204 receives information on evaluation conditions such as a keyword to be evaluated, an evaluation target area, and an evaluation period input by the user.
  • the recording medium 207 receives the input information and information stored in the data management server 202 and performs information analysis. The user input processing unit and the information processing unit in the recording medium will be described later.
  • FIG. 3 is a diagram showing the function of the present invention.
  • Reference numeral 301 denotes a functional block in the data management server 202, which indicates a function for performing data generation processing used for information analysis.
  • Reference numeral 302 denotes a functional block in the recording medium 207, which indicates a function when performing keyword evaluation processing by information analysis.
  • Reference numeral 303 denotes a crawl target server, and reference numeral 304 denotes a data management server.
  • 305 is Web posting data
  • 306 is a posting relationship analysis processing unit
  • 307 is a content analysis processing unit
  • 308 is a topic duration analysis processing unit.
  • 309 is a dialogue relationship matrix
  • 310 is a posted emotion list
  • 311 is a topic duration list.
  • 312 is an input device
  • 313 is a data management server
  • 314 is a recording medium.
  • 315 is an evaluation keyword
  • 316 is evaluation condition information
  • 317 is a dialogue relationship matrix
  • 318 is a posted emotion list
  • 319 is a topic duration list.
  • 320 is an input information acquisition unit
  • 321 is a feature amount list generation unit
  • 322 is a future posting number calculation unit
  • 323 is a display unit.
  • Reference numeral 324 denotes a feature amount information list
  • reference numeral 325 denotes a future posting number information list.
  • the data management server 304 collects the web posting data 304 stored in the crawl target server 303, and the posting relationship analysis processing unit 305 and the content analysis processing unit 306 perform web posting data 307.
  • the dialogue relationship matrix 309 and the posted emotion list 310 are generated and stored in the database.
  • the topic duration analysis processing unit 308 receives the dialogue relationship matrix 309 and the posted emotion list 310, generates the topic duration list 311 and stores it in the database. Details of the data generation method will be described later.
  • the input information acquisition unit 320 receives the evaluation keyword 315 and the evaluation time width 316 input by the user to the input device 312, and the feature list generation unit 321
  • the dialogue relationship matrix 317, the posted emotion list 318, and the topic duration list 319 accumulated in the database 313 are acquired, and the feature amount information list 324 is generated.
  • the future posting number calculation unit 322 receives evaluation condition information 316 such as an evaluation time width from the input information acquisition unit 320 and generates a future posting number information list 325.
  • the display unit 323 receives the future number-of-posts information list 325 and displays the evaluation result on the screen. A specific feature amount and table value calculation method for each function will be described later.
  • FIG. 4 shows Web posting data.
  • 401, 402, 403, 404, 405, 406 are examples of information items included in the Web posting data
  • 401 is a posting ID
  • 402 is a posting date
  • 403 is a connection between postings (details will be described later)
  • 404 is a posting.
  • Contents 405 is browsing information
  • 406 is poster information.
  • the contributor information 406 is a contributor's account, profile information written by the contributor on the Web
  • the browsing information 405 is information related to browsing restrictions on the posting.
  • replies and comments on other posts, as well as forwarding and dissemination of other posts to their acquaintances are performed.
  • Information of connection 403 is assumed. Other information may be added as necessary. For example, in order to perform keyword evaluation for each region, it is conceivable that information about the posting region is also acquired.
  • FIG. 5 is an operation flowchart of the data generation processing unit in the data management server 202.
  • 501 is Web posting data collection processing
  • 502 is posting relationship analysis processing
  • 503 is dialogue relationship matrix generation processing
  • 504 is posting content analysis processing
  • 505 is posting emotion list generation processing
  • 506 is topic duration analysis processing
  • 507 is topic continuation Time list generation processing.
  • the data collection unit of the data management server 202 collects Web posting data from the crawl target server 201 via the network 209.
  • the post relationship analysis processing unit 304 accepts Web post data, and classifies a group of posts that have connections between posts as a group of conversations.
  • the dialogue classification method is described below.
  • FIG. 6, FIG. 7, and FIG. 8 are diagrams for explaining a method of classifying dialogs.
  • FIG. 6 shows an example of posting in the chat.
  • the posts are IDs 0-5.
  • FIG. 7 and FIG. 8 are examples of posting classification methods in the case where the browsing relationships between contributors are different.
  • Reference numeral 701 in FIG. 7 is a network diagram of a poster's browsing relationship
  • reference numerals 703, 704, and 705 are nodes representing the poster.
  • Reference numerals 711, 713, and 714 denote links for indicating a relationship that the nodes can be browsed with each other.
  • 702 is a network diagram of the relationship between posts, and 706, 707, 708, 709, 710, 711 are nodes representing posts.
  • Reference numerals 715, 716, 717, 718, 719, and 720 are links indicating the reply relationship of each post.
  • FIG. 8 shows a case in which all posts can be viewed by all members, and all posts from post ID 0 to post ID 5 are regarded as one dialog.
  • reference numeral 801 is a network diagram of the viewing relationship of the poster, and reference numerals 803, 804, and 805 are nodes representing the poster.
  • Reference numerals 814 and 815 denote links for indicating a relationship that the nodes can browse each other.
  • 802 is a network diagram of the relationship between posts, and 806, 807, 808, 809, 810, 811, 812, 813 are nodes representing posts.
  • Reference numerals 816, 817, 818, 819, 820, and 821 are links indicating the reply relationship of each post.
  • FIG. 8 shows a case where the contributor Y and the contributor Z are not in a browsing relationship, with the contribution ID0, ID1, ID3, and ID4 being one dialogue, and the contribution ID0, ID2, ID3, and ID5 being another dialogue.
  • the posting relationship analysis processing unit 301 describes the relationship between the posting ID and the dialogue from the information of the posting ID group linked by the posting relationship analysis processing 502. Is generated. An example of the dialogue matrix will be described later.
  • the content analysis processing unit 305 accepts Web posted data, and classifies the posted content as either positive content or negative content (neutral). For example, there is a classification method as in Patent Document 1, and classification is performed by morphological analysis and word analysis processing based on a positive / negative dictionary.
  • the content analysis processing unit 302 generates a list of posted information (posted emotion list) including the emotion characteristic information classified by the posted content analysis process 504. An example of the posted emotion list will be described later.
  • the topic duration analysis process 506 is a process in which the topic duration analysis processing unit 506 accepts the data generated in the post relationship analysis process 502 and the post content analysis process 504 and calculates the topic duration of each post.
  • the topic duration D i of a certain post i is calculated from the post time t i of the post and the post time t k of the previous post k connected to the post as follows.
  • post k is obtained based on the dialogue relationship matrix.
  • a post i is included in a certain dialog
  • a post having the earliest post time in the dialog may be set as a post k.
  • the topic duration list generation processing 506 is processing in which the topic duration analysis processing unit 306 generates a topic duration list in which topic durations calculated in the topic duration analysis processing 506 are recorded. An example of the topic duration list will be described later.
  • Fig. 9 shows an example of a dialogue matrix.
  • Each column 901 is a posting ID
  • each item 902 is a dialogue ID.
  • 903 corresponds to post ID
  • 904 corresponds to dialog ID 0.
  • Reference numeral 905 denotes information indicating the relationship between the conversation ID 0 (904) and the posting ID 0 (903).
  • 0 entered in 905 means that the post ID 0 (903) is the first post in the dialogue ID 0 (904).
  • FIG. 10 shows an example of the posted emotion list.
  • Reference numerals 1001, 1002, 1003, and 1004 are examples of information included in the posted emotion list, where 1001 is the posting ID, 1002 is the posting time, 1003 is the posting content, and 1004 is the emotional characteristic (positive / negative / neutral) of the posting content. is there.
  • the posting area, posting language, poster information, etc. are included according to the purpose of the analysis.
  • FIG. 11 shows an example of the topic duration list. 1101 is a posting ID, and 1102 is a topic duration of the posting ID.
  • FIG. 12 is an operation flowchart in the keyword evaluation processing unit of the recording medium 207.
  • 1201 is a step in which the input information acquisition unit 320 acquires the evaluation keyword input by the user
  • 1202 is a step in which the feature amount list generation unit 321 generates a posted feature amount list related to the evaluation keyword.
  • 1203 is a step in which the future post number calculation unit 322 performs post number convergence evaluation from the post feature amount list, and the display unit 323 displays the result.
  • the report generation processing unit generates a keyword evaluation result report.
  • the input information acquisition unit 320 acquires an evaluation keyword input by the user to the input device 204.
  • the user input process will be described later.
  • the input information acquisition unit 320 acquires the post emotion list and the topic duration list accumulated in the data management server, and the evaluation keyword information acquired in the user input evaluation keyword acquisition process 1201.
  • a post feature list is generated using.
  • a specific generation method will be described later.
  • feature quantities other than the feature quantities included in the posted feature quantity list may be generated, and reputation analysis may be performed on them.
  • it is possible to generate a feature quantity list related to dialogues by collecting individual posts in units of dialogues based on a dialogue relationship matrix, performing emotion characteristic classification for each dialogue, and calculating the number of dialogues for each day. Based on this feature quantity, reputation analysis may be performed in units of dialogue.
  • the future post count calculation unit 322 receives the post feature amount list generated by the feature generation processing 1202, evaluates the post count convergence, and displays the result.
  • the convergence evaluation a future transition of the number of postings on the same topic is predicted from the current number of postings, and the time taken for the number of postings to converge is calculated for each emotional characteristic of the posting content.
  • the threshold value for the number of posts considered to have converged is determined based on the evaluation conditions input by the user 207 recording medium. Details of the convergence evaluation method and the user evaluation condition input processing unit will be described later.
  • the report generation processing 1204 is a processing unit in which the report generation processing unit outputs a convergence evaluation result as a report. An example is shown below.
  • FIG. 13 is a report example of the convergence evaluation result.
  • 1301 shows an evaluation condition
  • 1302 shows a post number convergence prediction result.
  • the post number convergence prediction result 1302 indicates the current post number, convergence standard post number for each emotion characteristic, the convergence date as the prediction result, and the actually predicted post number.
  • 1303 is a date item
  • 1304 is a post number prediction result item
  • 1305, 1306, and 1307 are positive, neutral, and negative post number prediction results, respectively.
  • the report may display the number of postings per hour prediction result, the prediction result for each of a plurality of keywords, and the like.
  • a report including the evaluation may be generated.
  • FIG. 14 is an operation flowchart of the feature quantity list generation unit 321.
  • 1401 is a step in which the evaluation keyword reception unit receives the evaluation keyword acquired by the input information acquisition unit 320
  • 1402 is a step in which the post extraction unit extracts a necessary post ID.
  • Reference numeral 1403 denotes a step in which the list generation unit generates a post feature amount list.
  • the post extraction unit receives the evaluation keyword acquired in the evaluation keyword acquisition process 1401, and then accesses the data management server 202 to refer to the posted emotion list. Then, a posting ID including an evaluation keyword in the posting content is extracted by word analysis of the posting content. In 1403, after the list generation unit accepts the post ID extracted by the post extraction unit 1402, the post emotion list and the topic duration list of the data management server 202 are acquired, and a post feature amount list related to the extracted post ID is generated. .
  • FIG. 15 is an example of a post feature amount list generated in the list generation processing 1403.
  • 1501 is a posting ID 1502 is a posting time
  • 1503 is an emotion characteristic
  • 1504 is a topic duration.
  • FIG. 16 is an operation flowchart of the future posting number calculation unit 322 and the display unit 323.
  • the future number-of-posts calculation unit obtains the post feature quantity list generated in the step of the post feature quantity list generation process 1202 and performs convergence evaluation.
  • 1601 is a step in which the information acquisition unit acquires the post feature amount list and the evaluation time span
  • 1602 is a step in which the coefficient acquisition unit acquires a coefficient of the post number convergence estimation formula
  • 1603 is a step in which the post number estimation unit is in the future. This is a step of calculating the predicted number of posts.
  • 1604 is a step in which the reference acquisition unit acquires the number of convergence reference posts
  • 1605 is a step in which the convergence reference time calculation unit calculates the convergence date.
  • Reference numeral 1606 denotes a step in which the influence degree evaluation unit evaluates the influence degree of the topic based on the convergence date
  • reference numeral 1607 denotes a step in which the display part displays the convergence prediction result of the number of
  • the information acquisition unit acquires the post feature list generated in the step of the post feature list generation process 1202 and the evaluation time span input to the input device by the user.
  • the time width of the evaluation is a time width used when predicting the future number of postings.
  • the coefficient acquisition process 1602 is a process for acquiring the coefficient of the estimation formula used when the coefficient acquisition unit performs the convergence estimation of the number of posts.
  • the coefficient of the estimation formula is calculated based on the topic continuous distribution. The calculation method will be described later.
  • the number-of-posts estimation unit receives the information acquired in the information acquisition process 1601, and estimates the number of posts to be converged.
  • the post at the base time is classified according to the emotional characteristics and the duration of the topic so far, and the transition of the post number in the future is predicted for each.
  • the calculation method when calculating the convergence number when the evaluation time width is one day is shown.
  • f x (0, n) and sum x (0) are calculated from the acquired post feature quantity list.
  • the convergence standard post number acquisition process 1604 acquires the convergence standard post number from the input device.
  • the convergence reference number of posts is the number of posts that serves as a reference for determining that the number of posts has sufficiently converged with respect to the prediction result of the number of post transitions calculated in the step of predicted post number calculation processing 1603.
  • the actual convergence reference number of posts accepts user input and uses that value.
  • the convergence time calculation processing unit calculates the number of days or time required for each emotion characteristic post to sufficiently converge based on the convergence reference post number acquired in the step of the convergence reference post number acquisition processing 1604. To do. Specifically, the convergence date is t when sum x (t) is less than the convergence reference number of posts.
  • the impact assessment unit compares the convergence date of each emotional characteristic and evaluates the degree of influence related to the topic duration for each emotional characteristic.
  • the influence level y x regarding the duration of the topic of the emotion characteristic x is the convergence date Z x of the post of the emotion characteristic x
  • the number of posts measured on the reference date of the emotion characteristic x is sum x (0).
  • the display unit displays the convergence evaluation result of the number of posts.
  • FIG. 17 shows an example of a convergence evaluation result display screen for the number of posts displayed in the step of the evaluation display processing 1607. It is a screen which shows the prediction result of the lasting degree of future reputation / reputation with respect to a certain evaluation keyword.
  • Reference numeral 1701 denotes an evaluation keyword input field in which an evaluation keyword is displayed.
  • Reference numeral 1702 denotes a convergence prediction result of the number of posts, and 1703 denotes a display unit for evaluating the evaluation keyword affirmation / negative degree.
  • the post number convergence prediction result 1702 shows the transition of the post number with respect to the number of elapsed days, 1704 is a convergence reference value, and 1705 is a topic convergence date display.
  • the ratio of each emotion characteristic of the number of posts is displayed in 1706.
  • Reference numerals 1708, 1709, and 1710 indicate positive, neutral, and negative ratios, respectively.
  • the ratio of each emotion characteristic based on the influence of the topic duration is displayed in 2307.
  • Reference numerals 1711, 1712, and 1713 indicate positive, neutral, and negative ratios, respectively.
  • FIG. 18 is an operation flowchart of the coefficient calculation unit.
  • the coefficient calculation unit acquires a topic duration list from the data management server 202, and calculates a coefficient to be used in an estimation formula when performing the convergence estimation of the number of posts.
  • the coefficient a x (n) to be calculated is the ratio of the topic of the emotion characteristic x, the topic that continues for a certain time w after the topic that has continued for n hours at a certain time. Calculated by topic duration distribution.
  • 1801 is a step in which the duration acquisition unit acquires the duration of the topic
  • 2402 is a step in which the evaluation condition acquisition unit acquires the time width of the evaluation
  • 1803 is a step in which the distribution generation unit generates a duration distribution list based on the time width.
  • 1804 is a step in which the coefficient calculation unit calculates a coefficient from the duration distribution list
  • 1805 is a step in which the result output unit generates a coefficient matrix.
  • the duration acquisition unit receives the topic duration list in the data management server 202.
  • the evaluation condition acquisition process 1802 is a process in which the evaluation condition acquisition processing unit accepts the time width w at the time of convergence estimation input by the user.
  • the distribution generation unit counts the number of posts for each topic duration with a time interval width w, and generates a duration distribution list. If a distribution list with a time interval width w already exists, the duration distribution list may be updated by collecting data only for the post IDs that are the difference and adding them to the number of posts so far.
  • FIG. 19 shows an example of a duration distribution list when w is one day. The number of posts for each continuation day of the topic for each emotion characteristic post is shown. Each item 1901 is a topic duration, and 1902 is each emotion characteristic. 1903, 1904, and 1905 are positive, neutral, and negative, respectively.
  • the coefficient calculation unit acquires the continuous distribution list generated in the step of the list generation process 1803 and calculates the coefficient based on the continuous distribution list.
  • a coefficient calculation formula is shown for the case where the time interval width w is one day. If the number of postings of emotional characteristic x with a topic duration of n days is g x (n), n + 1 days have passed among posts whose topic has continued for n days at a certain time. The percentage of topics a x (n) that continue even when calculated is calculated by the following formula.
  • the result output unit In the coefficient matrix generation process 1805, the result output unit generates a list called a coefficient matrix using the coefficients calculated in the step of the coefficient calculation process 1804.
  • Fig. 20 shows an example of the coefficient matrix.
  • 2001 is the duration
  • 2002 is a coefficient for each duration.
  • the number of posts is shown for each emotion characteristic
  • 2003, 2004, and 2005 are positive, neutral, and negative items, respectively.
  • FIG. 21 is an operation flowchart in the user operation accepting unit.
  • Reference numeral 2101 denotes user input reception processing, in which the input reception unit of the recording medium 207 receives evaluation keywords and other evaluation conditions input by the user to the input device 203.
  • Reference numeral 2102 denotes evaluation result display processing.
  • the result display unit accepts the information analysis result performed on the recording medium 207 and displays it on the display device 205.
  • Reference numeral 2103 denotes evaluation end determination information acquisition processing, in which the input receiving unit of the recording medium 207 receives information regarding whether or not to continue the evaluation selected by the user as evaluation end determination information.
  • the process returns to step 2101, and when information indicating that the evaluation is finished is accepted, the result output unit performs step 2104.
  • the result output unit outputs an evaluation result report.
  • FIG. 22 is an example of a user input screen.
  • 2201 is an input part for evaluation keywords and evaluation keyword search conditions
  • 2202 is a selection part for the service system to be evaluated
  • 2203 is an input part for other evaluation conditions
  • 2204 is an input part for a result display method.
  • reference numeral 2205 denotes a selection unit for selecting whether to evaluate and compare a plurality of evaluation keywords or to perform a single evaluation.
  • Reference numerals 2206 and 2207 denote evaluation keyword input fields for inputting a keyword that the user wants to evaluate. In the display example, comparison of a plurality of evaluation keywords is selected. Therefore, the keywords input in the evaluation keyword input field 2206 and the evaluation keyword input field 2207 are evaluated separately, and the comparison result of these keywords is displayed on the result display screen. A display example will be described later.
  • a plurality of evaluation keyword input fields are provided in order to perform a single evaluation, and for example, evaluation of a post including all of the plurality of input keywords or one of the plurality of input keywords is included. Posts may be evaluated.
  • an evaluation period is set and a convergence reference number of posts at the time of posting number convergence transition prediction is set.
  • Reference numerals 2208 and 2209 are input columns for the evaluation period, and 2210 is a scroll bar for setting the post number convergence reference value.
  • the posting number convergence reference value is set as a ratio from the current number of postings, but may be set by other methods such as inputting a value for each emotion characteristic.
  • Reference numeral 2211 denotes a button to be clicked when changing the setting method of the post convergence reference value.
  • Reference numeral 2212 denotes an evaluation execution button.
  • the time axis width for time series display and the tabulation method for each region / poster and gender are set. Fine evaluation conditions such as setting of the time axis width in time series display may be set on the result display screen.
  • FIG. 23 is an example of a result display in the post number convergence evaluation, and is an evaluation result of a plurality of evaluation keywords.
  • Reference numeral 2301 denotes a display unit for the post number convergence prediction result
  • 2302 and 2303 denote evaluation keyword display units
  • 2304 denotes a post number convergence reference value display unit.
  • Reference numeral 2310 denotes a re-evaluation button
  • reference numeral 2311 denotes an end instruction button.
  • 2305 is an emotion characteristic setting section to be displayed among the analysis results. Since only negative utterances are selected in FIG. 23, only the negative utterance results are displayed.
  • the time series transition prediction result of the negative utterance in the keyword 1 is displayed in 2306, and the time series transition prediction result of the negative utterance in the keyword 2 is displayed in 2307.
  • Reference numeral 2308 denotes a convergence reference value, and reference numeral 2309 displays a convergence date for each evaluation keyword.
  • FIG. 24 is a result display screen when reputation analysis is performed on a plurality of different services. For example, when evaluating a Web posting on a service system that is not compatible with each other, such as a blog system and a social network service, analysis evaluation is performed for each service system, and finally the evaluation results are added. In addition, by analyzing the correlation of the evaluation results of each site, it is possible to separate and evaluate the characteristics common to the sites and the tendency specific to a certain site.
  • Reference numeral 2401 denotes an evaluation result display unit for each service system
  • 2404 denotes an evaluation result display unit for the topic duration as a whole by adding the evaluation results.
  • Reference numerals 2421, 2422, and 2423 indicate positive, neutral, and negative ratios, respectively.
  • Reference numeral 2405 denotes an evaluation keyword input unit
  • 2406 denotes an evaluation target site selection unit
  • 2424 denotes a re-evaluation button
  • 2425 denotes an end instruction button.
  • 2402 and 2403 are display units for target site names.
  • 2407 and 2408 are the convergence prediction results of the number of posts in each site, and 2409 and 2410 are convergence reference values in each site.
  • 2411 and 2412 are convergence dates at the respective sites, and 2413 and 2414 are topical evaluation results of topics at the respective sites.
  • 2415, 2416, and 2417 are the results of 2413, and indicate the ratios of positive, neutral, and negative, respectively.
  • 2418, 2419, and 2420 are the results of 2414, and indicate the ratios of positive, neutral, and negative, respectively.

Abstract

 従来の口コミ情報分析は、現状の計測と計測データの累計的処理部に留まっており、顕在化された評判、ニーズ、風評しか捉える事が出来ない。顧客の潜在的なニーズの把握や将来の投稿数椎の予測を行うためには、より正確にWeb上の口コミを把握し将来の顧客の行動を予測可能な情報解析システムが必要である。 上記課題は、評価キーワードの入力を受け付け、入力を受け付けた評価キーワードを含む投稿情報を投稿情報データベースから取得し特徴量情報リストとして格納し、特徴量リストに含まれる投稿情報の感情特性を分類し、分類された感情特性の連続投稿数を算出して対話評価情報リストを生成し、評価時間幅の入力を受け付け、感情特性毎の将来投稿数を予測し、前期算出された対話評価情報と予測された将来投稿数を画面に表示することを含むことを特徴とする情報分析システムによって例えば解決される。

Description

情報分析システム及び情報分析方法
 本発明は、インターネット等のコンピュータネットワーク上の投稿を収集し、収集した情報を解析する情報分析システム及び情報分析方法に関する。
 製品、サービスなどの評判、ニーズやクレイマーの情報を得るためにインターネット上の投稿を口コミ情報として収集し分析するシステムやサービスがある。従来の評判分析では、収集した投稿内容に対するテキストマイニングにより単語の抽出と、肯定的か否定的かという発言に含まれる感情特性の解析を行い、投稿日時や投稿者情報を踏まえた量的特徴の分析が行われる(特許文献1)。例えば、キーワードに関するWebサイト上の投稿を収集し内容を肯定的か否定的かによって分類した後、感情特性ごとに時系列での投稿数変化などが可視化される。
特開2005-32197号公報
 特許文献1では、収集した投稿の内容(肯定/否定)をそれぞれ解析し、時間別/投稿者別などで集計し、キーワードの評判を解析する。具体的には、肯定的/否定的な投稿数の割合を算出することでキーワードに対する肯定度合いを、時系列で投稿数を集計することでキーワードに関する話題の注目度合いを評価している。
 特許文献1では、投稿収集時点での投稿数やそこから推測される現在の評判が提示されるが、今後の投稿数推移などといった将来動向の予測は行われていない。しかし、企業のマーケティング活動において精度の高い市場予測実現するためには、現時点での評判を把握するだけではなく、評判や風評の今後の推移を予測することが求められている。
 上記課題は、例えば次の手段によって解決される。すなわち、投稿IDと、投稿日時と、投稿関係情報と、投稿内容情報と、を含む投稿情報を格納する投稿情報データベースを用いてWEB上の投稿を分析する情報分析システムであって、投稿情報データベースから投稿情報を取得し、投稿関係情報に基づいて投稿IDを対話IDと関係づけて投稿情報データベースに格納する投稿関係分析処理部と、投稿情報データベースから投稿情報を取得し、投稿内容情報の感情特性を評価し、評価された感情特性と投稿IDとを関係づけて投稿情報データベースに格納する内容分析処理部と、投稿情報データベースから投稿情報を取得し、投稿日時と投稿IDと投稿関係情報とに基づいて、投稿IDが関係づけられている投稿情報の話題継続時間を算出し、投稿IDと関係づけて投稿情報データベースに格納する話題継続時間分析処理部と、評価キーワードの入力を受け付ける入力情報取得部と、入力を受け付けた評価キーワードに基づいて、入力を受け付けた評価キーワードを含む投稿情報を投稿情報データベースから取得し特徴量情報リストとして投稿情報データベースに格納する特徴量リスト生成部と、特徴量情報リストを投稿情報データベースから取得し、特徴量リストに含まれる投稿情報の感情特性を分類し、分類された感情特性の連続投稿数を算出し、分類された感情特性と算出された連続投稿数とを含む対話評価情報リストを生成し投稿データベースに格納する特徴量算出部と、評価時間幅の入力を受け付け、特徴量リストと入力された評価時間幅とに基づいて、感情特性毎の将来投稿数を予測する将来投稿数算出部と、前期算出された対話評価情報と予測された将来投稿数を画面に表示する表示部と、を含むことを特徴とする情報分析システム。
 本発明によれば、サイバースペース上の現状の評判のみならず、ある製品・サービス等に対する評判/風評の将来予測が可能である。
サイバースペース上の話題の継続時間の特性の例 本発明の情報分析手法及びシステムの構成の例 本発明の機能の例 データ管理サーバにおけるデータ生成処理の動作フローチャートの例 Web投稿データの例 チャットにおける投稿例 投稿の分類方法の例1 投稿の分類方法の例2 対話関係マトリクスの例 投稿感情リストの例 話題継続時間リストの例 ハードディスクにおけるキーワード評価処理の動作フローチャートの例 評価結果レポートの例 特徴量算出処理の動作フローチャートの例 投稿特徴量リストの例 投稿数収束度評価とその結果表示処理の動作フローチャートの例 投稿数の収束評価結果表示画面例 投稿数の収束推定式の係数を取得する処理の動作フローチャートの例 継続時間分布リストの例 係数マトリクスの例 ユーザ操作受付処理と分析結果表示処理の動作フローチャートの例 ユーザの入力画面の例 複数キーワードの評価結果(投稿数収束評価)表示画面の例 異なる複数のサービスにおける評判解析結果の表示画面の例
 以下、実施例を参照しながら説明する。
 あるキーワードに対する評判/風評が今後どのように推移するかといった将来予測を可能とするためには、投稿者の投稿行動法則を踏まえてキーワードを評価・予測する情報分析方法及びシステムが必要である。
 Web上の評判/風評の推移を推定するためには、今後、どのような内容の投稿がどの程度投稿されるかという投稿者の投稿行動パターンを予測する必要がある。ここで、ある投稿者の投稿行動は、「地震が起きて投稿する」、「Web上の他の投稿を閲覧してそれに返信または同意/反対意見を表明するために投稿する」というように、実世界での何らかのイベントやWeb上の他の投稿により引き起こされる。これら事象と投稿行動間の関係性が既知であれば、これら事象を把握することにより、今後の投稿行動を予測することができる。例えば、実世界での地震の規模と投稿数との関係性が既知であれば、地震が起きた時にその地震の規模を把握することでその後の投稿数を予測することができる。また、投稿者間の相互作用の法則が既知であれば、複数投稿間の関係性に基づいて今後の投稿内容や投稿数を予測できる。
 本発明は、投稿者の投稿行動法則を踏まえてキーワードの評判を評価、今後の評判の推移を予測する情報分析方法及びシステムである。
 キーワードの評判としては、キーワードに関して肯定的な意見が多いか否定的な意見が多いかという肯定度合い、キーワードに関してどのくらい投稿されているかという話題の注目度合いなどがある。この他、キーワードが用いられる文脈から推定されるような、キーワードの長所・短所、キーワードが誘発しやすい行動などもキーワードの評判である。
 投稿者の投稿行動法則に関し、ある投稿者の投稿行動は、実世界での何らかのイベントやWeb上の他の投稿により引き起こされる。これら投稿行動とその原因との間の法則を踏まえ、その原因となる事象を把握することで、今後の投稿行動の予測ができる。
 そこで、実施例として、既存の話題に対するWeb利用者の投稿行動特性を踏まえた投稿数の収束度予測とそれに基づくキーワードに関する話題の持続度評価のための情報分析システムについて説明する。実施例にて評価するキーワードの評判は肯定度合い、キーワードの注目度合いである。
 Web上の既存の話題に対するWeb利用者の投稿行動に関し、投稿の発言内容の感情特性(陽性:ポジティブ、陰性:ネガティブ、中性:ニュートラル)の観点から特徴的な傾向が存在する。ここで陽性な発言とは「美味しかった」「楽しみだ」などの肯定的な内容の発言又は発言者の快感情を含む発言であり、陰性な発言は「馬鹿」「疲れた」といった否定的な内容の発言又は発言者の不快な感情を含む発言である。中性な発言は、陽性でも陰性でもない発言である。
 ある話題が最初に投稿されてから同じ話題が他者に投稿されるまでの時間間隔を話題の継続時間と定義すると、感情特性ごとの話題の持続時間分布は図1のようになる。ここから、以下のことがいえる。(1)話題の継続時間は短く、ほとんどの話題がすぐに収束する。(2)長く続いている話題は非常に長く生き残る。(3)発言の感情特性により収束時間分布に差異あり。
 上記(1)、(2)から、新しい話題ほど将来は話題にされなくなる確率が高く、古い話題だが投稿され続けている話題は今後も持続して話題となる可能性が高いと考えられる。収集した投稿データから感情特性ごとに話題の持続時間分布を算出しこれをもとに各話題の持続時間における今後の話題の持続確率を求めれば評価対象となる投稿の現在の話題の継続時間分布から、将来の投稿数の予測が可能である。ここで、(3)より、将来の投稿数の予測の際には、発言の感情特性を考慮する必要があることがわかる。
 本発明は、上記Web上の話題の継続時間の特性を利用し将来の話題の持続度評価を行う。これ以外の投稿行動特性を利用して情報解析を行ってもよい。例えば、会話における投稿者間の相互作用特性を利用すれば、会話単位でキーワードの評判を把握して今後の評判の推移を予測することができる。また、電車の遅延などといった実世界における何らかのイベントに対する投稿者の行動特性を利用し、イベントに対する投稿者の評価・不満を推定するとともにその持続度を予測するなども考えられる。
 話題の収束持続度評価のためには、各投稿における現在の話題の継続時間の情報が必要であるが、本発明では、Web上の投稿データから投稿間のつながりや投稿の閲覧情報を用いてこれらを計測する。
 具体的な評価方法として、発言内容の感情特性ごとに話題の継続時間分布を算出し、その分布に基づき、同一話題に関する将来の投稿数の予測を行う。投稿数推移結果から話題が収束するまでにかかる時間を算出することで、話題の持続度を評価する。
 以下では、単一のサービスサイトを対象として、上記コミュニケーション特性を用いた情報解析を行う方法及びシステムを説明する。複数のサービスサイトの解析システムに関しては実施例2で説明する。
 図2は、本発明のシステムの構成を示す図である。
 201はクロール対象サーバである。202はデータ管理サーバである。203は通信装置で、204は入力装置、205は表示装置、206はCPU、207はハードディスクなどの記録媒体、208はメモリである。209、210は通信網である。
 クロール対象サーバ201は例えばソーシャルネットワークサービスや掲示板などを提供するWeb上のサーバであり、Web上の投稿に関する投稿内容、投稿日時、投稿者などといった情報(Web投稿データ)が格納されている。データ管理サーバ202は、上記Web投稿データを受け付け、情報解析後、必要な情報をデータベースに蓄積する。データ管理サーバ202における機能部については後述する。
 入力装置204は、ユーザが入力した評価したいキーワードや評価対象地域、評価期間といった評価条件の情報を受け付ける。記録媒体207はこれら入力情報とデータ管理サーバ202に蓄積された情報を受け付けて情報解析を行う。ユーザの入力処理部、記録媒体における情報処理部に関しては後述する。
 図3は本発明の機能を示した図である。301はデータ管理サーバ202における機能ブロックであり、情報分析に用いるデータ生成処理を行う際の機能を示している。302は記録媒体207における機能ブロックであり、情報分析によりキーワード評価処理を行う際の機能を示している。303はクロール対象サーバであり、304はデータ管理サーバである。305はWeb投稿データであり、306は投稿関係分析処理部であり、307は内容分析処理部であり、308は話題継続時間分析処理部である。309は対話関係マトリクス、310は投稿感情リスト、311は話題継続時間リストである。312は入力装置であり、313はデータ管理サーバであり、314は記録媒体である。315は評価キーワードであり、316は評価条件情報であり、317は対話関係マトリクスであり、318は投稿感情リストであり、319は話題継続時間リストである。320は入力情報取得部であり、321は特徴量リスト生成部であり、322は将来投稿数算出部であり、323は表示部である。324は特徴量情報リストであり、325は将来投稿数情報リストである。
 データ管理サーバにおける機能ブロック301において、データ管理サーバ304では、クロール対象サーバ303に格納されているWeb投稿データ304を収集し、投稿関係分析処理部305と内容分析処理部306では、Web投稿データ307を受けつけ、対話関係マトリクス309と投稿感情リスト310をそれぞれ生成しデータベースに蓄積する。次に、話題継続時間分析処理部308が、対話関係マトリクス309と投稿感情リスト310を受けつけて話題継続時間リスト311を生成しデータベースに蓄積する。データ生成方法の詳細は後述する。
 記録媒体における機能ブロック302において、データ管理サーバ313では、入力情報取得部320が入力装置312にユーザが入力した評価キーワード315と評価時間幅316を受け付け、特徴量リスト生成部321で、データ管理サーバ313のデータベースに蓄積される対話関係マトリクス317、投稿感情リスト318、話題継続時間リスト319を取得し、特徴量情報リスト324を生成する。将来投稿数算出部322では、入力情報取得部320から評価時間幅などの評価条件情報316を受けつけ、将来投稿数情報リスト325を生成する。表示部323では、将来投稿数情報リスト325を受け付け、評価結果を画面に表示する。各機能における具体的な特徴量、表価値を算出する方法は後述する。
 図4はWeb投稿データである。401、402、403、404、405、406はWeb投稿データに含まれる情報の項目例であり、401は投稿ID、402は投稿日時、403は投稿間のつながり(詳細は後述)、404は投稿内容、405は閲覧情報、406は投稿者情報である。投稿者情報406とは、投稿者のアカウント、投稿者がWeb上に記載しているプロフィール情報などであり、閲覧情報405とはその投稿に対する閲覧制限に関する情報である。またWeb上では、他投稿に対する返信やコメント、また他投稿を自分の知り合いに広めるための転送、参照のための投稿が行われるが、これらの機能による投稿間の紐づけの情報を投稿間のつながり403の情報とする。必要に応じてこの他の情報を加えてもよい。例えば地域別のキーワード評価を行うために、投稿地域の情報も加えて取得する場合が考えられる。
 図5は、データ管理サーバ202におけるデータ生成処理部の動作フローチャートである。501はWeb投稿データ収集処理、502は投稿関係解析処理、503は対話関係マトリクス生成処理、504は投稿内容分析処理、505は投稿感情リスト生成処理、506は話題継続時間分析処理、507は話題継続時間リスト生成処理である。
 Web投稿データ収集処理501では、データ管理サーバ202のデータ収集部が、クロール対象サーバ201からネットワーク209を介してWeb投稿データを収集する。投稿関係解析処理502では、投稿関係分析処理部304がWeb投稿データを受け付け、投稿間につながりのある投稿群をひとまとまりの対話として分類する。対話の分類方法を以下で説明する。
 図6、図7、図8は対話の分類方法を説明するための図である。図6はチャットにおける投稿例である。投稿者はX、Y、Zの3人で、投稿はID0~5である。図7、図8は、投稿者間の閲覧関係が異なる場合の投稿の分類方法の例である。図7の701は投稿者の閲覧関係のネットワーク図であり、703、704、705は投稿者を表すノードである。711、713、714はノード間が互いに閲覧可能であるという関係を示すためのリンクである。702は投稿間の関係のネットワーク図であり、706、707、708、709、710、711は投稿を表すノードである。715、716、717、718、719、720は各投稿の返信関係を示すリンクである。図8は、全投稿を全員が閲覧できる場合であり、投稿ID0~投稿ID5までの全ての投稿が一つの対話とされる。図8の801は投稿者の閲覧関係のネットワーク図であり、803、804、805は投稿者を表すノードである。814、815はノード間が互いに閲覧可能であるという関係を示すためのリンクである。802は投稿間の関係のネットワーク図であり、806、807、808、809、810、811、812、813は投稿を表すノードである。816、817、818、819、820、821は各投稿の返信関係を示すリンクである。図8は、投稿者Yと投稿者Zが閲覧関係にない場合であり、投稿ID0、ID1、ID3、ID4が一つの対話となり、投稿ID0、ID2、ID3、ID5が別の対話とされる。
 図5において、対話関係マトリクスの生成処理503では、投稿関係解析処理部301が、投稿関係解析処理502により紐づけた投稿ID群の情報から、投稿IDと対話間の関係性を記述する対話マトリクスを生成する。対話マトリクスの例は後述する。
 投稿内容分析処理504では、内容分析処理部305が、Web投稿データを受け付け、投稿内容を陽性な内容か陰性な内容かどちらでもない(中性)かに分類する。分類は、例えば特許文献1のような分類方法があり、形態素解析と陽性/陰性辞書に基づく単語解析処理により行われる。投稿感情リスト生成処理505では、内容分析処理部302が投稿内容分析処理504により分類した感情特性の情報を含めた投稿情報のリスト(投稿感情リスト)を生成する。投稿感情リストの例は後述する。
 話題継続時間分析処理506は、話題継続時間分析処理部506が、投稿関係解析処理502、投稿内容分析処理504で生成したデータを受理し各投稿の話題の継続時間を算出する処理である。ある投稿iの話題の継続時間Diは、その投稿の投稿時刻tiとその投稿とつながりを持つ以前の投稿kの投稿時刻tkにより以下のように算出する。
Figure JPOXMLDOC01-appb-M000001
 ここで、投稿kは対話関係マトリクスに基づき取得する。例えば、ある対話に投稿iが含まれる場合、その対話の最も投稿時刻が早い投稿を投稿kとするなどの方法が考えられる。話題継続時間リスト生成処理506は、306話題継続時間分析処理部が、話題継続時間分析処理506で算出した話題の継続時間を記した話題継続時間リストを生成する処理である。話題継続時間リストの例は後述する。
 図9は対話マトリクスの例である。901の各列は投稿IDであり、902の各項目は対話IDである。マトリクスには、対話内における投稿IDを投稿時刻に並べて順序付けした情報が記述される。903は投稿ID0、904は対話ID0に対応する。905は対話ID0(904)と投稿ID0(903)の関係を示す情報である。905に記入されている0は、投稿ID0(903)が対話ID0(904)内の最初の投稿であることを意味する。
 図10は投稿感情リストの例である。1001、1002、1003、1004は投稿感情リストに含まれる情報例であり、1001は投稿ID、1002は投稿時刻、1003は投稿内容、1004は投稿内容の感情特性(陽性/陰性/中性)である。この他、その解析目的に応じて投稿地域や投稿言語、投稿者情報などを含める。
 図11は話題継続時間リストの例である。1101は投稿IDであり、1102はその投稿IDの話題の継続時間である。
 図12は、記録媒体207のキーワード評価処理部における動作フローチャートである。1201は入力情報取得部320がユーザが入力した評価キーワードを取得するステップであり、1202は特徴量リスト生成部321が評価キーワードに関する投稿特徴量リストを生成するステップである。1203は将来投稿数算出部322が投稿特徴量リストから投稿数収束評価を実施し、表示部323が結果を表示するステップである。1204はレポート生成処理部がキーワード評価結果のレポートを生成するステップある。
 ユーザ入力の評価キーワード取得処理1201では、入力情報取得部320が入力装置204にユーザが入力した評価キーワードを取得する。ユーザの入力処理については後述する。
 投稿特徴量生成処理1202では、入力情報取得部320がデータ管理サーバに蓄積される投稿感情リストと話題継続時間リストを取得し、これらとユーザ入力の評価キーワード取得処理1201で取得した評価キーワードの情報を用いて投稿特徴量リストを生成する。具体的な生成方法は後述する。ここで、データ管理サーバに蓄積されるリストを用いて、投稿特徴量リストに含まれる特徴量以外の特徴量を生成し、それらについて評判分析を行ってもよい。例えば、対話関係マトリクスに基づいて個々の投稿を対話単位でまとめ、対話ごとの感情特性分類、日毎の対話数算出を行うことで、対話に関する特徴量リストが生成可能である。この特徴量に基づき、対話単位での評判分析を行ってもよい。
 投稿数の収束度評価処理1203では、将来投稿数算出部322が特徴量生成処理1202で生成された投稿特徴量リストを受理し、投稿数の収束度評価を行い、その結果を表示する。収束度評価では、現在の投稿数から同じ話題の投稿の今後の投稿数推移を予測し、投稿内容の感情特性ごとに投稿数の収束までにかかる時間を算出する。収束したとみなす投稿数の閾値などは207記録媒体がユーザの入力した評価条件を取得し、これに基づき決定する。収束度評価方法の詳細、ユーザの評価条件入力処理部に関しては後述する。
 レポート生成処理1204は、レポート生成処理部が収束度評価結果をレポートとして出力する処理部である。以下に例を示す。
 図13は収束度評価結果のレポート例である。1301には評価条件、1302に投稿数収束予測結果が示されている。投稿数収束予測結果1302においては、感情特性ごとの現在の投稿数や収束基準投稿数、予測結果である収束日、実際に予測される投稿数が示されている。1303は日付の項目であり、1304は投稿数予測結果の項目であり、1305、1306、1307はそれぞれ陽性、中性、陰性の投稿数予測結果である。レポートにはこれ以外に、一時間毎の投稿数予測結果や複数キーワードに対するそれぞれの予測結果などを表示してもよい。また、対話単位での評判分析などの評価を行った場合はそれも含めた形のレポートを生成してもよい。
 図14は、特徴量リスト生成部321の動作フローチャートである。1401は、評価キーワード受付部が入力情報取得部320で取得した評価キーワードを受理するステップであり、1402は、投稿抽出部が必要な投稿IDを抽出するステップである。1403はリスト生成部が投稿特徴量リストを生成するステップである。
 投稿抽出処理1402では、投稿抽出部が評価キーワード取得処理1401で取得した評価キーワードを受理した後、データ管理サーバ202にアクセスし投稿感情リストを参照する。そして、投稿内容の単語解析により投稿内容に評価キーワードを含む投稿IDを抽出する。1403では、リスト生成部が投稿抽出部1402で抽出した投稿IDを受理した後、データ管理サーバ202の投稿感情リストと話題継続時間リストを取得し、抽出した投稿IDに関する投稿特徴量リストを生成する。
 図15はリスト生成処理1403において生成される投稿特徴量リストの例である。1501は投稿ID1502は投稿時刻、1503は感情特性、1504は話題継続時間である。
 図16は、将来投稿数算出部322と表示部323の動作フローチャートである。将来投稿数算出部では、投稿特徴量リスト生成処理1202のステップで生成された投稿特徴量リストを取得し、収束度評価を行う。1601は情報取得部が投稿特徴量リストと評価の時間幅を取得するステップであり、1602は係数取得部が投稿数収束推定式の係数を取得するステップであり、1603は投稿数推定部が将来の予測投稿数を算出するステップである。1604は基準取得部が、収束基準投稿数を取得するステップであり、1605は収束基準時間算出部が収束日を算出するステップである。1606は影響度評価部が収束日に基づく話題の影響度評価を行うステップであり、1607は表示部が投稿数の収束予測結果を表示するステップである。
 情報取得処理1601では情報取得部が投稿特徴量リスト生成処理1202のステップで生成された投稿特徴量リストと、ユーザにより入力装置に入力された評価の時間幅を取得する。評価の時間幅とは、将来の投稿数推移を予測する際に用いる時間幅である。係数取得処理1602では、係数取得部が投稿数の収束推定を行う際の推定式の係数を取得する処理である。推定式の係数は話題の継続分布に基づいて算出する。算出方法については後述する。
 予測投稿数算出処理1603では、投稿数推定部が情報取得処理1601で取得した情報を受理し、投稿数収束の推定を行う。投稿数収束の推定では、基準時の投稿を感情特性とそれまでの話題の持続時間で分類し、それぞれについて今後の投稿数の推移を予測する。以下に、評価の時間幅が1日の場合で収束数を算出する際の算出方法を示す。感情特性がxの投稿に関し、基準日からt日時点で話題の継続日数がn日の投稿数をfx(t,n)とすると、t+1日時点での話題の継続日数がn+1日の感情特性xの投稿数は、係数取得処理1602のステップで取得される係数ax(n)を用い、
Figure JPOXMLDOC01-appb-M000002
として算出される。ax(n)は、感情特性x、ある日にn日間話題が継続している投稿のうち、その次の日まで話題が継続する話題の割合であり、感情特性xの投稿の話題の継続時間分布により算出される。具体的な算出方法は後述する。N=0に関しては、
Figure JPOXMLDOC01-appb-M000003
となる。ここで、fx(t,n)により、t日後に予想される感情特性xの全ての投稿数sumx(t)は、以下のように算出される。
Figure JPOXMLDOC01-appb-M000004
 また、fx(0,n)、sumx(0)は取得した投稿特徴量リストから算出される。
 収束基準投稿数取得処理1604では基準取得部が入力装置から収束基準投稿数を取得する。収束基準投稿数は、予測投稿数算出処理1603のステップで算出された投稿の推移数の予測結果に対し、投稿数が十分に収束したと判断する基準となる投稿数である。収束基準投稿数は、各感情特性ごとに決定する。全ての感情特性において収束基準投稿数が一定であり、基準日の全投稿数が900である場合、基準日の投稿数の10%を収束基準投稿数とすると、ある感情特性における収束基準投稿数は、900×0.1÷3=30である。実際の収束基準投稿数はユーザの入力を受け付けその値を用いる。
 収束時間算出処理1605では、収束時間算出処理部が、収束基準投稿数取得処理1604のステップで取得した収束基準投稿数に基づき、各感情特性の投稿が十分収束するまでにかかる日数または時間を算出する。具体的には、sumx(t)が収束基準投稿数を下回るtを収束日とする。
 話題の影響度評価処理1606では、影響度評価部が各感情特性の収束日を比較し、感情特性ごとの話題の持続に関する影響度を評価する。例えば、感情特性xの話題の持続に関する影響度yxは、感情特性xの投稿の収束日Zx、感情特性xの基準日において計測された投稿数をsumx(0)を用いて、
Figure JPOXMLDOC01-appb-M000005
と算出する。
 結果表示処理1607では表示部が投稿数の収束評価結果を表示する。
 図17に評価表示処理1607のステップで表示される投稿数の収束評価結果表示画面の例を示す。ある評価キーワードに対する将来の評判/風評の持続度合いの予測結果を示す画面である。1701は評価キーワード入力欄であり、評価キーワードが表示されている。1702は投稿数の収束予測結果、1703は評価キーワードの肯定/否定度の評価結果の表示部である。投稿数の収束予測結果1702では、経過日数に対する投稿数の推移が示されており、1704が収束基準値、1705が話題の収束日の表示である。評価キーワードの肯定/否定度の評価結果1703では、投稿数の各感情特性の割合が1706に表示される。1708、1709、1710はそれぞれ陽性、中性、陰性の割合を示す。話題の持続時間の影響を踏まえた各感情特性の割合が2307に表示される。1711、1712、1713はそれぞれ陽性、中性、陰性の割合を示す。
 図18は、係数算出部の動作フローチャートである。係数算出部は、データ管理サーバ202から話題継続時間リストを取得し、投稿数の収束推定を行う際の推定式で用いる係数を算出する。算出する係数ax(n)は、感情特性x、ある時刻においてn時間話題が継続している投稿のうち、一定時間wが経過した際にも継続する話題の割合であり、感情特性xの話題の継続時間分布により算出される。
 1801は継続時間取得部が話題の継続時間を取得するステップ、2402は評価条件取得部が評価の時間幅を取得するステップ、1803は分布生成部が時間幅に基づき継続時間分布リストを生成するステップ、1804は係数算出部が継続時間分布リストから係数を計算するステップ、1805は結果出力部が係数マトリクスを生成するステップである。
 継続時間取得処理1801では、継続時間取得部が、データ管理サーバ202の中の話題継続時間リストを受理する。評価条件取得処理1802では、評価条件取得処理部が、ユーザの入力した収束推定時の時間幅wを受理する処理である。
 分布リスト生成処理1803では、分布生成部が時間間隔の幅wで話題の継続時間ごとに投稿数を集計し、継続時間分布リストを生成する。時間間隔の幅wの分布リストが既に存在する場合は、差分となる投稿IDについてのみデータを集計し、今までの投稿数に足し合わせることで、継続時間分布リストを更新してもよい。
 図19にwが1日の場合の継続時間分布リストの例を示す。各感情特性の投稿について話題の継続日数毎の投稿数が示される。1901の各項目は話題の継続時間であり、1902は各感情特性である。1903、1904、1905はそれぞれ陽性、中性、陰性である。
 図18において、係数算出処理1804では、係数算出部が、リスト生成処理1803のステップで生成された継続分布リストを取得しそれに基づいて係数を計算する。時間間隔の幅wが1日の場合に関し、係数の算出式を示す。投稿時の話題の継続日数がn日の感情特性xの投稿数をgx(n)とすると、感情特性x、ある時刻においてn日間話題が継続している投稿のうち、n+1日経過した際にも継続する話題の割合ax(n)は、以下の式で算出される。
Figure JPOXMLDOC01-appb-M000006
 係数マトリクス生成処理1805では、結果出力部が係数算出処理1804のステップにおいて算出された係数を用いて、係数マトリクスというリストを生成する。
 図20に係数マトリクスの例を示す。2001は継続日数であり、2002は各継続日数における係数が示される。投稿数は感情特性ごとに示され、2003、2004、2005はそれぞれ陽性、中性、陰性の項目である。
 図21は、ユーザ操作受付部における動作フローチャートである。2101はユーザ入力受け付け処理であり、記録媒体207の入力受付部が、ユーザが入力装置203に入力した評価キーワードやその他の評価条件を受け付ける。2102は評価結果表示処理であり、結果表示部が、記録媒体207で行った情報分析結果を受理し、表示装置205に表示する。2103は評価終了判定情報取得処理であり、記録媒体207の入力受付部が、ユーザが選択した評価を続けるか否かに関する情報を評価終了判定情報として受け付ける。評価を終了しないという情報が受け付けられた場合は2101のステップに戻り、終了するという情報が受け付けられた場合は、結果出力部が2104のステップを行う。結果出力処理2104では、結果出力部が評価結果レポートを出力する。
 評価対象を単一のサービスシステムに限らず情報を収集し、様々な評価条件をユーザ入力により変更可能な実施例について説明する。
 図22は、ユーザの入力画面の一例である。2201は評価キーワードと評価キーワードの検索条件の入力部、2202は評価対象となるサービスシステムの選択部、2203はその他の評価条件の入力部、2204は結果表示方法の入力部である。
 評価キーワード入力部2201において、2205は複数の評価キーワードをそれぞれ評価し比較を行うか/単一の評価を行うかの選択部である。2206、2207は評価キーワード入力欄であり、ユーザが評価したいキーワードを入力する。表示例では、複数の評価キーワードの比較が選択されている。そのため、評価キーワード入力欄2206と評価キーワード入力欄2207に入力されたキーワードは、別々に評価され、結果表示画面でこれらキーワードの比較結果が表示される。表示例は後述する。これ以外にも、単一の評価を行うために複数の評価キーワード入力欄を設けて、例えば入力した複数のキーワードを全て含む投稿の評価や、入力した複数のキーワードのうちどれか一つを含む投稿の評価などを行ってもよい。
 その他の評価条件の入力部2203において、評価期間の設定や投稿数収束推移予測時の収束基準投稿数の設定が行われる。2208、2209は評価期間の入力欄であり、2210は投稿数収束基準値設定のためのスクロールバーである。図22において、投稿数収束基準値は、現在の投稿数からの割合として設定されているが、各感情特性ごとに値を入力するなど他の方法で設定してもよい。2211は投稿収束基準値の設定方法を変更する際にクリックするボタンである。2212は評価実行ボタンである。
 結果表示方法の入力部2204において、時系列表示の際の時間軸の幅、地域別/投稿者男女別の集計方法の設定が行われている。時系列表示における時間軸の幅の設定など、細かい評価条件の設定は結果表示画面で行ってもよい。
 図23は、投稿数収束評価における結果表示の一例であり、複数の評価キーワードの評価結果である。2301は投稿数の収束予測結果の表示部であり、2302、2303は評価キーワードの表示部、2304は投稿数収束基準値の表示部である。2310は再評価用のボタンであり、2311は終了指示のボタンである。
 2305は分析結果のうち表示する感情特性の設定部であり、図23では陰性発言のみが選択されているため、陰性発言の結果のみが表示されている。投稿数の収束予測結果の表示部2301のグラフでは、2306でキーワード1における陰性発言の時系列推移予測結果が表示され、2307でキーワード2における陰性発言の時系列推移予測結果が表示される。2308は収束基準値であり、2309は各評価キーワードごとの収束日が表示されている。
 図24は、異なる複数のサービスにおける評判解析を行った場合の結果表示画面である。例えば、ブログシステムとソーシャルネットワークサービスなど、互いに互換性のないサービスシステム上のWeb投稿を評価する場合は、それぞれのサービスシステムごとに分析評価を行い、最後に評価結果を足し合わせる。その他、各サイトの評価結果の相関分析により、サイト間で共通の特徴、あるサイトにのみ特有の傾向を分離して評価するなどの方法も可能である。2401は、それぞれのサービスシステムごとの評価結果の表示部であり、2404は上記評価結果を足し合わせた全体としての話題の持続度の評価結果の表示部である。2421、2422、2423は、それぞれ陽性、中性、陰性の割合を示す。2405は評価キーワード入力部、2406は評価対象サイトの選択部であり、2424は再評価用のボタンであり、2425は終了指示のボタンである。
 複数サイトの評価結果表示部2401において、2402、2403は対象サイト名の表示部である。2407、2408はそれぞれのサイトにおける投稿数の収束予測結果であり、2409、2410はそれぞれのサイトにおける収束基準値である。2411、2412はそれぞれのサイトにおける収束日であり、2413、2414はそれぞれのサイトにおける話題の持続度評価結果である。2415、2416、2417は2413の結果であり、それぞれ陽性、中性、陰性の割合を示す。2418、2419、2420は2414の結果であり、それぞれ陽性、中性、陰性の割合を示す。
201 クロール対象サーバ
202 データ管理サーバ
203 通信装置
204 入力装置
205 表示装置
206 CPU
207 記録媒体
208 メモリ
209 通信網
210 通信網
301 データ管理サーバにおける機能ブロック
302 記録媒体における機能ブロック
303 クロール対象サーバ
304 データ管理サーバ
305 Web投稿データ
306 投稿関係分析処理部
307 内容分析処理部
308 話題継続時間分析処理部
309 対話関係マトリクス
310 投稿感情リスト
311 話題継続時間リスト
312 入力装置
313 データ管理サーバ
314 記録媒体
315 評価キーワード
316 評価条件情報
317 対話関係マトリクス
318 投稿感情リスト
319 話題継続時間リスト
320 入力情報取得部
321 特徴量リスト生成部
322 将来投稿数算出部
323 表示部
324 特徴量情報リスト
325 将来投稿数情報リスト
401 投稿ID
402 投稿日時
403 投稿間のつながり
404 投稿内容
405 閲覧情報
406 投稿者情報
501 Web投稿データ収集処理
502 投稿関係解析処理
503 対話関係マトリクス生成処理
504 投稿内容分析処理
505 投稿感情リスト生成処理
506 話題継続時間分析処理
507 話題継続時間リスト生成処理
701 投稿者の閲覧関係のネットワーク図
702 投稿間の関係のネットワーク図
901 投稿ID
902 対話ID
903 投稿ID0
904 対話ID0
905 対話ID0と投稿ID0の関係性の情報
1001 投稿ID
1002 投稿時刻
1003 投稿内容
1004 投稿内容の感情特性
1101 投稿ID
1102 話題の継続時間
1201 評価キーワードの取得処理
1202 対話特徴量リスト・投稿特徴量リストの生成処理
1203 投稿数収束評価実施・結果表示処理
1204 キーワード評価結果レポート生成処理
1301 評価条件
1302 投稿数収束予測結果
1303 日付
1304 投稿数予測結果
1305 感情特性ごとの投稿数予測結果(陽性)
1306 感情特性ごとの投稿数予測結果(中性)
1307 感情特性ごとの投稿数予測結果(陰性)
1401 評価キーワードを取得する処理
1402 評価キーワードを含む投稿IDを抽出する処理
1403 投稿特徴量リストの生成する処理
1501 投稿ID
1502 投稿時刻
1503 感情特性
1504 話題継続時間
1601 投稿特徴量リストと評価の時間幅を取得する処理
1602 投稿数収束推定式の係数を取得する処理
1603 投稿数収束の推定を行う処理
1604 収束基準投稿数を取得する処理
1605 収束日を算出する処理
1606 収束日に基づく話題の影響度評価を行う処理
1607 投稿数の収束予測結果を表示する処理

Claims (10)

  1.  投稿IDと、投稿日時と、投稿関係情報と、投稿内容情報と、を含む投稿情報を格納する投稿情報データベースを用いてWEB上の投稿を分析する情報分析システムであって、前記投稿情報データベースから前記投稿情報を取得し、前記投稿関係情報に基づいて前記投稿IDを対話IDと関係づけて投稿情報データベースに格納する投稿情報関係処理部と、前記投稿情報データベースから前記投稿情報を取得し、前記投稿内容情報の感情特性を評価し、前記評価された感情特性と前記投稿IDとを関係づけて前記投稿情報データベースに格納する投稿内容分析処理部と、
     前記投稿情報データベースから前記投稿情報を取得し、前記投稿日時と前記投稿IDと前記投稿関係情報とに基づいて、前記投稿IDが関係づけられている前記投稿情報の話題継続時間を算出し、前記投稿IDと関係づけて前記投稿情報データベースに格納する話題継続時間処理部と、
     評価キーワードの入力を受け付ける評価キーワード取得部と、
     前記入力を受け付けた評価キーワードに基づいて、前記入力を受け付けた評価キーワードを含む前記投稿情報を前記投稿情報データベースから取得し特徴量情報リストとして前記投稿情報データベースに格納する特徴量リスト生成部と、
     前記特徴量情報リストを前記投稿情報データベースから取得し、前記特徴量リストに含まれる投稿情報の感情特性を分類し、前記分類された感情特性の連続投稿数を算出し、前記分類された感情特性と前記算出された連続投稿数とを含む対話評価情報を生成し前記投稿データベースに格納する特徴量算出部と、
     評価時間幅の入力を受け付け、前記対話評価情報と前記入力された評価時間幅とに基づいて、感情特性毎の将来投稿数を予測する将来投稿数算出部と、
     前記予測された将来投稿数を画面に表示する表示部と、
     を含むことを特徴とする情報分析システム。
  2.  請求項1に記載の情報分析システムであって、
     前記特徴量リスト生成部は、前記入力を受け付けた評価キーワードを含む前記投稿情報に関係づけられた対話IDを抽出し、前記抽出された対話ID毎に関連付けられた投稿IDにおける感情特性を集計し、特徴量情報リストに加えて前記投稿情報データベースに格納し、
     前記特徴量算出部は、前記抽出された対話ID毎に感情特性を分類し、前記分類された感情特性の連続投稿数を算出し、前記分類された感情特性と前記算出された連続投稿数とを含む対話評価情報を生成し前記投稿データベースに格納し、
     前記将来投稿数算出部は、対話ID毎に前記幹事上特性毎の将来投稿数を予測することを特徴とする情報分析システム。
  3.  請求項1に記載の情報分析システムであって、
     前記将来投稿数算出部は、予め定められた収束基準投稿数と前記予測された将来投稿数とに基づいて投稿収束日を算出し、
     前記表示部は、前記投稿収束日を前記画面に表示することを特徴とする情報分析システム。
  4.  請求項3に記載の情報分析システムであって、
     前記収束基準投稿数の入力を受け付ける収束基準入力受付部をさらに有することを特徴とする情報分析システム。
  5.  請求項1に記載の情報分析システムであって、
     前記投稿情報は投稿サイトIDを含み、
     前記将来投稿数算出部は、前記感情特性毎の将来投稿数を前記投稿サイトID毎に予測することを特徴とする情報分析システム。
  6.  請求項1に記載の情報分析システムであって、
     前記投稿情報はコミュニティIDを含み、前記将来投稿数算出部は、前記感情特性毎の将来投稿数を前記コミュニティID毎に予測することを特徴とする情報分析システム。
  7.  請求項1に記載の情報分析システムであって、
     前記評価キーワード取得部は、前記評価キーワードの入力を複数受け付け、
     前記将来投稿数算出部は、前記感情特性毎の将来投稿数を前記複数の評価キーワード毎に予測することを特徴とする情報分析システム。
  8.  投稿IDと、投稿日時と、投稿関係情報と、投稿内容情報と、を含む投稿情報を格納する投稿情報データベースを用いてWEB上の投稿を分析する情報分析方法であって、
     投稿情報関係処理部により、前記投稿情報データベースから前記投稿情報を取得し、前記投稿関係情報に基づいて前記投稿IDを対話IDと関係づけて投稿情報データベースに格納する投稿情報関係処理工程と、
     投稿内容分析処理部が、前記投稿情報データベースから前記投稿情報を取得し、前記投稿内容情報の感情特性を評価し、前記評価された感情特性と前記投稿IDとを関係づけて前記投稿情報データベースに格納する投稿内容分析処理工程と、話題継続時間処理部により、前記投稿情報データベースから前記投稿情報を取得し、前記投稿日時と前記投稿IDと前記投稿関係情報とに基づいて、前記投稿IDが関係づけられている前記投稿情報の話題継続時間を算出し、前記投稿IDと関係づけて前記投稿情報データベースに格納する話題継続時間処理工程と、
     評価キーワード取得部により評価キーワードの入力を受け付ける評価キーワード取得工程と、
     特徴量リスト生成部により、前記入力を受け付けた評価キーワードに基づいて、前記入力を受け付けた評価キーワードを含む前記投稿情報を前記投稿情報データベースから取得し特徴量情報リストとして前記投稿情報データベースに格納する特徴リスト生成工程と、特徴量算出部により、前記特徴量情報リストを前記投稿情報データベースから取得し、前記特徴量リストに含まれる投稿情報の感情特性を分類し、前記分類された感情特性の連続投稿数を算出し、前記分類された感情特性と前記算出された連続投稿数とを含む対話評価情報を生成し前記投稿データベースに格納する特徴量算出工程と、
     将来投稿数算出により、評価時間幅の入力を受け付け、前記対話評価情報と前記入力された評価時間幅とに基づいて、感情特性毎の将来投稿数を予測する将来投稿数算出工程と、表示部により、前記予測された将来投稿数を画面に表示する表示工程と、
     を含むことを特徴とする情報分析方法。
  9.  請求項8に記載の情報分析方法であって、
     前記特徴量リスト生成工程において、特徴量リスト生成により、前記入力を受け付けた評価キーワードを含む前記投稿情報に関係づけられた対話IDを抽出し、前記抽出された対話ID毎に関連付けられた投稿IDにおける感情特性を集計し、特徴量情報リストに加えて前記投稿情報データベースに格納し、
     前記特徴量算出工程において、前記特徴量算出部により、前記抽出された対話ID毎に感情特性を分類し、前記分類された感情特性の連続投稿数を算出し、前記分類された感情特性と前記算出された連続投稿数とを含む対話評価情報を生成し前記投稿データベースに格納し、
     前記将来投稿数算出工程において、前記将来投稿数算出工程部により、対話ID毎に前記幹事上特性毎の将来投稿数を予測することを特徴とする情報分析方法。
  10.  請求項8に記載の情報分析方法であって、
     前記将来投稿数算出工程において、前記将来投稿数算出部により、予め定められた収束基準投稿数と前記予測された将来投稿数とに基づいて投稿収束日を算出し、
     前記表示工程において、前記表示部により、前記投稿収束日を前記画面に表示することを特徴とする情報分析方法。
PCT/JP2012/003522 2012-05-30 2012-05-30 情報分析システム及び情報分析方法 WO2013179340A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014518086A JP5895052B2 (ja) 2012-05-30 2012-05-30 情報分析システム及び情報分析方法
PCT/JP2012/003522 WO2013179340A1 (ja) 2012-05-30 2012-05-30 情報分析システム及び情報分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/003522 WO2013179340A1 (ja) 2012-05-30 2012-05-30 情報分析システム及び情報分析方法

Publications (1)

Publication Number Publication Date
WO2013179340A1 true WO2013179340A1 (ja) 2013-12-05

Family

ID=49672599

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/003522 WO2013179340A1 (ja) 2012-05-30 2012-05-30 情報分析システム及び情報分析方法

Country Status (2)

Country Link
JP (1) JP5895052B2 (ja)
WO (1) WO2013179340A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015121846A (ja) * 2013-12-20 2015-07-02 日本放送協会 意見種別推定装置及びそのプログラム
WO2015137321A1 (ja) * 2014-03-10 2015-09-17 Kddi株式会社 コメント文章に基づいて投稿者の心理状態の遷移を分析する装置、プログラム及び方法
JP2016045900A (ja) * 2014-08-26 2016-04-04 Kddi株式会社 投稿するコメント文章の影響度が高いインフルエンサを検知するプログラム、装置及び方法
JP5905652B1 (ja) * 2015-01-30 2016-04-20 株式会社Ubic データ評価システム、データ評価方法、およびデータ評価プログラム
JP2017167923A (ja) * 2016-03-17 2017-09-21 ヤフー株式会社 判定装置、および判定方法
WO2022259487A1 (ja) * 2021-06-10 2022-12-15 日本電信電話株式会社 予測装置、予測方法およびプログラム
JP7350546B2 (ja) 2019-07-17 2023-09-26 三菱重工業株式会社 災害状況推定装置、表示システム、災害状況推定方法、災害推定モデルの作成方法およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650906A (zh) * 2020-12-22 2021-04-13 国家电网有限公司客户服务中心 基于大数据文本分析的互联网用户评论分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182440A (ja) * 2003-12-19 2005-07-07 Fuji Xerox Co Ltd 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
JP2005216202A (ja) * 2004-02-02 2005-08-11 Fuji Heavy Ind Ltd 未来値予測装置および未来値予測方法
WO2011065295A1 (ja) * 2009-11-27 2011-06-03 日本電気株式会社 評判分析装置、評判分析方法、および評判分析用プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182440A (ja) * 2003-12-19 2005-07-07 Fuji Xerox Co Ltd 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
JP2005216202A (ja) * 2004-02-02 2005-08-11 Fuji Heavy Ind Ltd 未来値予測装置および未来値予測方法
WO2011065295A1 (ja) * 2009-11-27 2011-06-03 日本電気株式会社 評判分析装置、評判分析方法、および評判分析用プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015121846A (ja) * 2013-12-20 2015-07-02 日本放送協会 意見種別推定装置及びそのプログラム
WO2015137321A1 (ja) * 2014-03-10 2015-09-17 Kddi株式会社 コメント文章に基づいて投稿者の心理状態の遷移を分析する装置、プログラム及び方法
JP2016045900A (ja) * 2014-08-26 2016-04-04 Kddi株式会社 投稿するコメント文章の影響度が高いインフルエンサを検知するプログラム、装置及び方法
JP5905652B1 (ja) * 2015-01-30 2016-04-20 株式会社Ubic データ評価システム、データ評価方法、およびデータ評価プログラム
JP2017167923A (ja) * 2016-03-17 2017-09-21 ヤフー株式会社 判定装置、および判定方法
JP7350546B2 (ja) 2019-07-17 2023-09-26 三菱重工業株式会社 災害状況推定装置、表示システム、災害状況推定方法、災害推定モデルの作成方法およびプログラム
WO2022259487A1 (ja) * 2021-06-10 2022-12-15 日本電信電話株式会社 予測装置、予測方法およびプログラム

Also Published As

Publication number Publication date
JP5895052B2 (ja) 2016-03-30
JPWO2013179340A1 (ja) 2016-01-14

Similar Documents

Publication Publication Date Title
JP5895052B2 (ja) 情報分析システム及び情報分析方法
Keneshloo et al. Predicting the popularity of news articles
US9672255B2 (en) Social media impact assessment
US20100121857A1 (en) Internet based method and system for ranking artists using a popularity profile
US20070198459A1 (en) System and method for online information analysis
US20090048904A1 (en) Method and system for determining topical on-line influence of an entity
US20100121843A1 (en) Website network and advertisement analysis using analytic measurement of online social media content
US20150142520A1 (en) Crowd-based sentiment indices
KR101566616B1 (ko) 빅데이터 처리를 통한 광고의사결정시스템 및 방법
JP2009528639A (ja) ソーシャルメディアにおける会話を分析するためのソーシャル分析システムおよび方法
JP5615857B2 (ja) 分析装置、分析方法及び分析プログラム
JP2015524962A (ja) 各マイクロブログがスパースな情報だけを含む多数のマイクロブログから情報に富んだ内容を自動生成するためのシステム及び方法
US8346710B2 (en) Evaluating statistical significance of test statistics using placebo actions
JP2011108053A (ja) ニュース記事評価システム
JP5729308B2 (ja) 評判分析装置、評判分析方法、および評判分析用プログラム
JP2007264718A (ja) ユーザ興味分析装置、方法、プログラム
US10296924B2 (en) Document performance indicators based on referral context
JP4447552B2 (ja) 情報提供方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Yom-Tov et al. Measuring inter-site engagement
JP2009116457A (ja) インターネットサイト情報分析方法と装置
Neves-Silva et al. Modelling influence and reach in sentiment analysis
US10394804B1 (en) Method and system for increasing internet traffic to a question and answer customer support system
Wegrzyn-Wolska et al. Tweets mining for French presidential election
KR20090016043A (ko) 마케팅 정보 생성 방법 및 시스템
WO2019242453A1 (zh) 信息处理方法及装置、存储介质、电子装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12878057

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014518086

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12878057

Country of ref document: EP

Kind code of ref document: A1