WO2015182559A1 - 情報分析システム、情報分析方法及び情報分析プログラム - Google Patents

情報分析システム、情報分析方法及び情報分析プログラム Download PDF

Info

Publication number
WO2015182559A1
WO2015182559A1 PCT/JP2015/064939 JP2015064939W WO2015182559A1 WO 2015182559 A1 WO2015182559 A1 WO 2015182559A1 JP 2015064939 W JP2015064939 W JP 2015064939W WO 2015182559 A1 WO2015182559 A1 WO 2015182559A1
Authority
WO
WIPO (PCT)
Prior art keywords
thread
utterance
data
importance
speech
Prior art date
Application number
PCT/JP2015/064939
Other languages
English (en)
French (fr)
Inventor
慎吾 折原
充敏 熊谷
哲哉 安部
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2016523487A priority Critical patent/JP6154072B2/ja
Priority to CN201580027532.7A priority patent/CN106462614B/zh
Priority to US15/313,749 priority patent/US9940319B2/en
Priority to EP15799967.3A priority patent/EP3136260A4/en
Publication of WO2015182559A1 publication Critical patent/WO2015182559A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Definitions

  • Embodiments described herein relate generally to an information analysis system, an information analysis method, and an information analysis program.
  • an information recommendation technique for recommending various types of information has been proposed in order for a user to obtain desired information. For example, there is a technique for generating a feature vector from a bulletin board and analyzing the feature. In this technique, for example, when a keyword is input by the user, a bulletin board having features corresponding to the input keyword is presented to the user.
  • the conventional technology has a problem that it is difficult to analyze useful remarks from information posted on the network. For example, in the technique of generating feature vectors from a bulletin board and analyzing the features, if the bulletin board contains many meaningless utterances, useful utterances are buried in meaningless utterances.
  • an object of the present invention is to analyze useful remarks from information posted on a network.
  • the information analysis system includes a speech analysis unit, a thread analysis unit, and a storage unit.
  • the speech analysis unit analyzes the importance level of the speech included in the thread, which is a set of speech posted on the network, for each speech based on the speech data that is data related to the speech.
  • the thread analysis unit analyzes which of the plurality of preset categories the thread belongs to based on thread data that is data related to the thread.
  • the storage unit stores the utterance, the importance level of the utterance, and the category of the thread in which the utterance is associated with each other in a predetermined storage unit.
  • FIG. 1 is a diagram illustrating an example of the configuration of the information analysis system according to the first embodiment.
  • FIG. 2 is a diagram illustrating an example of thread data stored in the thread data storage unit according to the first embodiment.
  • FIG. 3 is a flowchart showing a flow of processing in the information analysis system according to the first embodiment.
  • FIG. 4 is a diagram for explaining the effect of the first embodiment.
  • FIG. 5 is a flowchart showing a flow of processing in the information analysis system according to the second embodiment.
  • FIG. 6 is a diagram for explaining the effect of the second embodiment.
  • FIG. 7 is a flowchart showing the flow of processing in the information analysis system according to the third embodiment.
  • FIG. 8 is a diagram for explaining the effect of the third embodiment.
  • FIG. 9 is a diagram illustrating a computer that executes an information analysis program.
  • FIG. 1 is a diagram illustrating an example of a configuration of an information analysis system 100 according to the first embodiment.
  • the information analysis system 100 includes a communication processing unit 110, a storage unit 120, a function unit 130, and a control unit 140.
  • the information analysis system 100 is connected to the Internet.
  • the communication processing unit 110 controls communication related to various types of information exchanged with devices on the network. For example, the communication processing unit 110 accesses various electronic bulletin board (BBS (Bulletin Board System)) sites on the Internet under the control of the collection unit 131 described later.
  • BBS Electronic bulletin board
  • the thread data storage unit 121 stores thread data collected from BBS sites on the Internet.
  • the thread data is data related to a thread that is a set of messages posted on the network.
  • the thread data storage unit 121 stores thread data collected by the collection unit 131.
  • the thread data storage unit 121 is referred to by the analysis unit 132.
  • FIG. 2 is a diagram illustrating an example of thread data stored in the thread data storage unit 121 according to the first embodiment.
  • the thread data 10 stored in the thread data storage unit 121 includes a title 11, a message 12, and a message 13.
  • the title 11 is a thread title.
  • the remarks 12 and 13 are remarks posted by the user of the BBS.
  • the utterances 12 and 13 include an utterance order, a speaker name, an utterance date and time, and an utterance content.
  • the utterance order of the utterance 12 is “1”
  • the speaker name is “A1”
  • the utterance date is “A2”
  • the utterance content is “A3”.
  • the analysis result storage unit 122 stores the analysis result.
  • the analysis result storage unit 122 stores the analysis result analyzed by the analysis unit 132 described later.
  • the analysis result stored in the analysis result storage unit 122 is stored, for example, by the storage unit 133 described later.
  • the analysis result stored in the analysis result storage unit 122 is output in response to a user request.
  • the function unit 130 includes a collection unit 131, an analysis unit 132, and a storage unit 133.
  • the functional unit 130 is responsible for each process, and is actually realized as software (one component thereof) or middleware.
  • the control unit 140 controls operations of the communication processing unit 110, the storage unit 120, and the function unit 130 to control the operation of the information analysis system 100.
  • the control unit 140 is a CPU (Central Processing Unit) or MPU (Micro Realized by integrated circuits such as Processing Unit).
  • the collection unit 131 collects thread data from information posted on the network. For example, the collection unit 131 visits a BBS site on the Internet and collects thread data from the BBS site. The collection unit 131 stores the collected thread data in the thread data storage unit 121.
  • the collection unit 131 removes the information and stores the information in the thread data storage unit 121.
  • the site to be visited that is visited by the collection unit 131 may be designated in advance as a list such as a URL (Uniform Resource Locator), or may be designated every time it is collected.
  • the analysis unit 132 analyzes the thread data collected by the collection unit 131. As shown in FIG. 1, the analysis unit 132 includes a message extraction unit 132A, a message analysis unit 132B, and a thread analysis unit 132C.
  • the message cutout unit 132A cuts out a message included in the thread data from the thread data, and generates message data that is data related to the message.
  • the speech data is, for example, data in which “speech order”, “speaker name”, “speech date”, “speech content”, and “additional information” are associated with each other.
  • “Speaking order”, “speaker name”, “speaking date”, and “speaking content” are data in which corresponding portions are extracted from thread data.
  • “Additional information” is data in which “number of characters”, “reply flag”, and “number of replies” are associated with each other.
  • “Number of characters” corresponds to the number of characters in the content of the statement.
  • the “reply flag” is a flag indicating whether or not the corresponding utterance is a reply to another utterance. For example, when the content of the corresponding statement starts with “> (number)”, a reply flag “1” indicating that the statement is a reply is assigned. On the other hand, if it does not start with “> (number)”, a reply flag “0” indicating that the statement is not a reply is assigned. Note that (number) represents the order of utterances to be returned. “Number of replies” represents the number of replies to the corresponding utterance. For example, the number of utterances whose utterance content starts with “> (number)” corresponds to the number of replies of the number.
  • the message cutout unit 132A acquires the thread data stored in the thread data storage unit 121. Then, the message extraction unit 132A extracts messages included in the acquired thread data, and generates message data, respectively. The utterance cutout unit 132A sends the generated utterance data to the utterance analysis unit 132B. Further, the message cutout unit 132A sends the acquired thread data to the thread analysis unit 132C.
  • the message cutout unit 132A acquires the thread data 10 shown in FIG.
  • the message extraction unit 132A extracts the message order “1”, the speaker name “A1”, the message date “A2”, and the message content “A3” from the thread data 10.
  • the comment cutout unit 132A counts the number of characters “A4” of the comment content “A3”.
  • the message cutout unit 132A generates a reply flag “A5 (A5 is 1 or 0)” depending on whether or not the message content “A3” starts from “> (number)”.
  • the message extraction unit 132A counts the number of messages “A6” starting from “> 1” among the messages included in the thread data 10.
  • the speech segmentation unit 132A performs the speech order “1”, the speaker name “A1”, the speech date and time “A2”, the speech content “A3”, the number of characters “A4”, the reply flag “A5”, and the reply number “A6”. ”Is generated as the utterance data of the utterance 12. In this manner, the message extraction unit 132A generates message data for all messages included in the thread data 10.
  • the speech analysis unit 132B analyzes the importance level of the speech included in the thread for each speech based on the speech data. For example, the utterance analysis unit 132B analyzes the importance of utterance from the utterance data generated by the utterance extraction unit 132A using a machine learning engine for calculating the importance (score) of the utterance from the utterance data. Then, the speech analysis unit 132B sends the importance level of the speech to the storage unit 133 as an analysis result. In this case, the machine learning engine is made to learn in advance the feature vector of the important utterance and the feature vector of the unimportant utterance. As a learning method, for example, there are methods in which several threads are selected from a representative BBS site, and the utterances included in the threads are manually classified into important utterances and unimportant utterances.
  • the speech analysis unit 132B converts each speech data into a feature vector in order to apply the speech data to the machine learning engine.
  • the speech analysis unit 132B individually converts numerical data and character string data in the speech data.
  • the utterance analysis unit 132B uses the numerical value data of the utterance order, the utterance date and time, the number of characters, the reply flag, the number of replies, and the like as the value of the feature vector.
  • the present invention is not limited to this, and the utterance analysis unit 132B may perform some numerical calculation processing on the numerical data to obtain the value of the feature vector.
  • the speech analysis unit 132B converts character string data such as a speaker name and a speech content into a feature vector using morphological analysis, n-gram, or a delimiter. For example, when the morphological analysis is used, the speech analysis unit 132B divides character string data by part of speech and converts them into feature vectors. For such morphological analysis, a library such as an open source Mecab can be used. For example, when the character string data is “I still don't know how to use Twitter (registered trademark)”, the speech analysis unit 132B uses morphological analysis, and uses “Twitter /// Usage / , / Still /, / well / I don't know / n /. "
  • the speech analysis unit 132B divides the character string data by a separately defined delimiter (such as a blank or a comma “,”) and converts them into a feature vector. For example, when the character string data is “I still don't know how to use Twitter” and the delimiter is a punctuation mark “,”, the speech analysis unit 132B uses I'm not sure how to use it yet. " In general, morphological analysis is often applied to Japanese sentences and white space is applied to English.
  • the speech analysis unit 132B converts the character string data divided into elements in this way into feature vectors.
  • a feature vector conversion method for example, there are a method in which the number of appearances of each element is used as it is as a feature vector, a method in which whether or not to appear regardless of the number of times corresponds to 1 or 0, and the like. Any method can be used as long as the library of the machine learning engine to be used corresponds to these methods.
  • the speech analysis unit 132B gives each feature vector converted from each speech data to the machine learning engine, and calculates the importance of each speech.
  • the machine learning engine used here does not matter, but for example, open source Jubatus (registered trademark) or the like can be used.
  • the utterance analysis unit 132B assigns the importance level of each utterance calculated by the machine learning engine to each utterance data, and sends the utterance data and the importance level of the utterance together to the storage unit 133.
  • the processing of the speech analysis unit 132B described above is merely an example.
  • the utterance analysis unit 132B removes unnecessary characters, unifies character types, replaces words of a specific group, and the like for each input utterance data. Processing may be performed. Specifically, the utterance analysis unit 132B deletes unnecessary blanks, URLs that obstruct language processing, and the like from character string data, for example, as unnecessary character removal. Further, for example, the speech analysis unit 132B unifies English uppercase and lowercase letters and so-called half-width full-width characters for characters used in the character string data as unification of character types.
  • the speech analysis unit 132B replaces the words “garakae”, “smartphone”, “smartphone”, and “mobile phone” with the word “mobile phone” as replacement of the words of the specific group.
  • the character string data that is the basis of the feature vector may use only the content of the utterance, or may use character string data in which several elements are connected, such as “speaker and utterance content”. good.
  • the thread analysis unit 132C analyzes which of the plurality of preset categories the thread belongs to based on the thread data. For example, the thread analysis unit 132C analyzes the category to which the thread belongs from the thread data received from the message cutout unit 132A using a machine learning engine for analyzing the category of the thread from the thread data. Then, the thread analysis unit 132C sends the category to which the thread belongs to the storage unit 133 as an analysis result. In this case, the machine learning engine learns some threads and their categories in advance. As a learning method, for example, a method of selecting several threads from a representative BBS site and manually inputting a category to which the thread belongs can be used.
  • the thread analysis unit 132C converts the thread data into a feature vector in order to apply the thread data to the machine learning engine.
  • the thread analysis unit 132C performs, for example, morphological analysis, n-gram, or delimiter on character string data included in the thread data, for example, character string data obtained by concatenating a title and the content of each utterance. Convert to feature vector using characters.
  • the description of the process of converting to a feature vector using morphological analysis, n-gram, and delimiter is the same as the above description, and will be omitted.
  • the thread analysis unit 132C gives the feature vector converted from the thread data to the machine learning engine, and determines the category to which the thread belongs.
  • the machine learning engine used here does not matter, but for example, open source Jubatus or the like can be used.
  • the thread analysis unit 132C sends the thread category determined by the machine learning engine to the storage unit 133.
  • the processing of the thread analysis unit 132C described above is merely an example.
  • the thread analysis unit 132C performs, for example, removal of unnecessary characters, unification of character types, and replacement of words in a specific group on each input speech data. Processing may be performed.
  • the thread analysis unit 132C may use a combination of other elements such as a speaker in addition to the title and the content of each utterance as the character string data on which the feature vector is based.
  • the thread analysis unit 132C may obtain the feature vector by using not only character string data but also numerical data such as the number of utterances.
  • the storage unit 133 stores, for each utterance, the utterance, the importance of the utterance, and the category of the thread including the utterance in the analysis result storage unit 122 in association with each other. For example, the storage unit 133 receives the utterance data and its importance from the utterance analysis unit 132B for each utterance. In addition, the storage unit 133 receives the category to which the thread belongs from the thread analysis unit 132C. Then, the storage unit 133 assigns the category of the thread received from the thread analysis unit 132C to the combination of the speech data received from the speech analysis unit 132B and its importance level as a category of the speech, and stores the category in the analysis result storage unit 122. .
  • the information stored in the analysis result storage unit 122 by the storage unit 133 is retrieved using, for example, “category” as a key, sorted in the order of score of “importance”, and presented to the user. Further, only data having a specific score (importance) or higher may be presented.
  • FIG. 3 is a flowchart showing a flow of processing in the information analysis system according to the first embodiment.
  • the collection unit 131 of the information analysis system 100 collects thread data from a BBS site on the Internet (step S101).
  • the collection unit 131 stores the collected thread data in the thread data storage unit 121.
  • the message cutout unit 132A cuts out a message from the thread data and generates message data (step S102). For example, the message cutout unit 132A acquires the thread data stored in the thread data storage unit 121, cuts out the messages included in the acquired thread data, and generates message data.
  • the speech analysis unit 132B analyzes the importance level of the speech included in the thread for each speech (step S103). For example, the utterance analysis unit 132B analyzes the importance of utterance from the utterance data generated by the utterance extraction unit 132A using a machine learning engine for calculating the importance (score) of the utterance from the utterance data.
  • the thread analysis unit 132C analyzes the thread category (step S104). For example, the thread analysis unit 132C analyzes the category to which the thread belongs from the thread data received from the message cutout unit 132A using a machine learning engine for analyzing the category of the thread from the thread data.
  • the storage unit 133 stores the utterance data, the importance level of the utterance, and the thread category in the analysis result storage unit 122 in association with each other (step S105).
  • step S103 and the process of step S104 may be executed in the reverse order to the order described above, or may be executed as a parallel process.
  • step S101 does not have to be executed.
  • the information analysis system 100 for a thread that is a set of comments posted on the network, determines the importance of the comments included in the thread based on the comment data. Analyze every. Then, the information analysis system 100 analyzes which of the plurality of preset categories the thread belongs to based on the thread data. Then, for each utterance, the information analysis system 100 associates the utterance, the importance of the utterance, and the category of the thread including the utterance and stores them in a predetermined storage unit. For this reason, the information analysis system 100 can analyze useful remarks from information posted on the network.
  • FIG. 4 is a diagram for explaining the effect of the first embodiment.
  • the collection unit 131 collects thread data from a BBS site on the Internet (S10), and sends the collected thread data to the message cutout unit 132A (S11).
  • the message extraction unit 132A generates message data by cutting out messages from the thread data, and sends the generated message data to the message analysis unit 132B (S12).
  • the speech analysis unit 132B analyzes the importance of the speech for each speech, and sends a set of the speech data and the importance to the storage unit 133 (S13).
  • the message cutout unit 132A sends the thread data to the thread analysis unit 132C (S14).
  • the thread analysis unit 132C analyzes the category of the thread and sends the analyzed category to the storage unit 133 (S15).
  • the storage unit 133 stores the utterance data, the importance, and the category in association with each utterance in the analysis result storage unit 122 (S16).
  • the information analysis system 100 accumulates the speech data, the importance, and the category in association with each speech included in the collected thread data. For this reason, for example, the information analysis system 100 can accumulate analysis results in a state in which useful utterances can be searched without being buried in meaningless utterances even when there are many meaningless utterances included.
  • the information analysis system 100 analyzes the category in units of threads, thereby increasing the amount of information to be analyzed as compared with the case of analysis in units of statements, and therefore accurately analyzes the category to which the statements belong. Can do.
  • the user can obtain only truly useful utterances from which meaningless utterances are removed, compared to the case where the user extracts and recommends them in units of threads.
  • the information analysis system 100 analyzes the importance for each utterance has been described, but the embodiment is not limited to this.
  • the information analysis system 100 may analyze the importance level of a thread and integrate the importance level of a comment and the importance level of a thread. Therefore, in the second embodiment, a case will be described in which the information analysis system 100 analyzes the importance level of a thread and integrates the importance level of a comment and the importance level of a thread. In the following description, the description of the configuration and processing common to the first embodiment will be omitted.
  • the configuration of the information analysis system 100 according to the second embodiment will be described with reference to FIG.
  • the information analysis system 100 according to the second embodiment has the same configuration as the information analysis system 100 illustrated in FIG. 1, but the processing in the thread analysis unit 132C and the storage unit 133 is partially different.
  • the thread analysis unit 132C analyzes the importance of the thread based on the thread data in addition to the processing described in the first embodiment. For example, the thread analysis unit 132C analyzes the importance of the thread using a machine learning engine for calculating the importance of the thread from the thread data. Then, the thread analysis unit 132C sends the importance of the thread to the storage unit 133 in addition to the category to which the thread belongs as an analysis result. In this case, the machine learning engine is made to learn in advance a feature vector of an important thread and a feature vector of an unimportant thread. As a learning method, for example, there are methods in which some threads are selected from a representative BBS site, and important threads and unimportant threads are classified and learned manually.
  • the thread analysis unit 132C converts the thread data into a feature vector in order to apply the thread data to the machine learning engine.
  • the thread analysis unit 132C performs, for example, morphological analysis, n-gram, or delimiter on character string data included in the thread data, for example, character string data obtained by concatenating a title and the content of each utterance. Convert to feature vector using characters.
  • the description of the process of converting to a feature vector using morphological analysis, n-gram, and delimiter is the same as the above description, and will be omitted.
  • the thread analysis unit 132C gives the feature vector converted from the thread data to the machine learning engine, and calculates the importance of the thread.
  • the machine learning engine used here does not matter, but for example, open source Jubatus or the like can be used.
  • the thread analysis unit 132C sends the importance level of the thread calculated by the machine learning engine to the storage unit 133.
  • the processing of the thread analysis unit 132C described above is merely an example.
  • the thread analysis unit 132C may obtain the feature vector by using not only character string data but also numerical data such as the number of utterances in the thread.
  • the storage unit 133 calculates the total importance of the comment based on the importance of the comment and the importance of the thread. Then, the storage unit 133 stores the calculated total importance, the utterance, and the category of the thread including the utterance in association with each utterance.
  • the storage unit 133 receives the utterance data and the importance of the utterance from the utterance analysis unit 132B.
  • the storage unit 133 also receives the category to which the thread belongs and the importance of the thread from the thread analysis unit 132C.
  • the storage unit 133 calculates the total importance for each comment based on the importance of the message received from the message analysis unit 132B and the importance of the thread received from the thread analysis unit 132C.
  • the calculation method of the total importance may be, for example, the sum of the importance of the speech and the importance of the thread, or may be a product, an average, or a value obtained by other arithmetic operations.
  • the storage unit 133 associates the utterance data, the general importance, and the category, and stores the utterance data in the analysis result storage unit 122 for each utterance.
  • FIG. 5 is a flowchart showing the flow of processing in the information analysis system according to the second embodiment. Note that the processing in steps S201 to S203 shown in FIG. 5 is the same as the processing in steps S101 to S103 in FIG.
  • the thread analysis unit 132C of the information analysis system 100 analyzes the thread category and the importance of the thread (step S204). For example, in addition to the processing described in the first embodiment, the thread analysis unit 132C analyzes the importance of the thread using a machine learning engine for calculating the importance of the thread from the thread data. Then, the thread analysis unit 132C sends the importance of the thread to the storage unit 133 in addition to the category to which the thread belongs as an analysis result.
  • the storage unit 133 calculates the total importance of the speech from the importance of the speech and the importance of the thread (Step S205). For example, the storage unit 133 calculates, as the total importance, the sum, product, average, value of other arithmetic operations, etc. of the importance of the speech and the importance of the thread. Then, the storage unit 133 associates the utterance data, the total importance of the utterance, and the thread category, and stores the utterance in the analysis result storage unit 122 for each utterance (step S206).
  • step S203 and the process of step S204 may be executed in the reverse order to the order described above, or may be executed as a parallel process.
  • the information analysis system 100 also analyzes the importance level of the thread, and integrates the importance level of the comment and the importance level of the thread. As a result, the information analysis system 100 can calculate the importance for each utterance in consideration of the importance of the thread, and can analyze more useful utterances.
  • FIG. 6 is a diagram for explaining the effect of the second embodiment.
  • the collection unit 131 collects thread data from a BBS site on the Internet (S20), and sends the collected thread data to the message cutout unit 132A (S21).
  • the message extraction unit 132A generates message data by cutting out messages from the thread data, and sends the generated message data to the message analysis unit 132B (S22).
  • the speech analysis unit 132B analyzes the importance of the speech for each speech, and sends a set of the speech data and the importance to the storage unit 133 (S23).
  • the message cutout unit 132A sends the thread data to the thread analysis unit 132C (S24).
  • the thread analysis unit 132C analyzes the thread category and the importance of the thread, and sends the analyzed category and importance of the thread to the storage unit 133 (S25).
  • the storage unit 133 calculates the overall importance of the speech from the importance of the speech and the importance of the thread, associates the speech data, the overall importance of the speech, and the category, and stores the analysis result for each speech.
  • the data is stored in the unit 122 (S26). Thereby, the information analysis system 100 according to the second embodiment can analyze more useful remarks.
  • the information analysis system 100 may analyze a speech category obtained by categorizing the content of a speech and give it to each speech.
  • the speech category includes, for example, those that guess the speaker's emotions such as “favorite”, “hostile”, “praise”, “profanity”, “quotation”, “suggestion”, “question”, “ It includes those that guess the type of statement such as “Answer”. That is, the speech category is information indicating to which of a plurality of preset categories the content of the speech belongs.
  • the information analysis system 100 analyzes a speech category and assigns it to each speech.
  • the description of the configuration and processing common to the second embodiment is omitted.
  • the configuration of an information analysis system 100 according to the third embodiment will be described with reference to FIG.
  • the information analysis system 100 according to the third embodiment has the same configuration as the information analysis system 100 according to the second embodiment, but the processing in the speech analysis unit 132B and the storage unit 133 is partially different.
  • the message analysis unit 132B analyzes the message category for each message based on the message data. For example, the speech analysis unit 132B analyzes a speech category using a machine learning engine for deriving a speech category from speech data. Then, the speech analysis unit 132B sends the speech category to the storage unit 133 as an analysis result in addition to the importance level of the speech. In this case, the machine learning engine is made to learn in advance a set of several utterances and utterance categories.
  • a method of learning for example, several threads are selected from a representative BBS site, and the comments included in the threads are “favorable”, “hostile”, “praise”, “profanity”, “quote”, There is a method of learning by classifying manually into categories such as “suggestion”, “question”, and “answer”.
  • the utterance analysis unit 132B gives the feature vector converted in the processing according to the first embodiment to the machine learning engine, and calculates a utterance category for each utterance.
  • the machine learning engine used here does not matter, but for example, open source Jubatus or the like can be used.
  • the speech analysis unit 132B sends the importance level of the thread calculated by the machine learning engine to the storage unit 133.
  • the storage unit 133 stores the message category for each message in association with each message. For example, the storage unit 133 associates the utterance data, the general importance, the thread category, and the utterance category, and stores the utterance data in the analysis result storage unit 122 for each utterance.
  • FIG. 7 is a flowchart showing the flow of processing in the information analysis system according to the third embodiment. Note that the processing in steps S301 to S302 shown in FIG. 7 is the same as the processing in steps S101 to S102 in FIG.
  • the utterance analysis unit 132B of the information analysis system 100 analyzes the importance level and utterance category of the utterance (step S303). For example, the speech analysis unit 132B analyzes a speech category using a machine learning engine for deriving a speech category from speech data. Then, the speech analysis unit 132B sends the speech category to the storage unit 133 as an analysis result in addition to the importance level of the speech.
  • the thread analysis unit 132C analyzes the thread category and the importance of the thread (step S304). For example, in addition to the processing described in the first embodiment, the speech analysis unit 132B analyzes the importance of a thread using a machine learning engine for calculating the importance of a thread from thread data. Then, the speech analysis unit 132B sends the importance of the thread to the storage unit 133 in addition to the category to which the thread belongs as an analysis result.
  • the storage unit 133 calculates the total importance of the speech from the importance of the speech and the importance of the thread (Step S305). For example, the storage unit 133 calculates, as the total importance, the sum, product, average, value of other arithmetic operations, etc. of the importance of the speech and the importance of the thread. Then, the storage unit 133 associates the utterance data, the total importance of the utterance, the utterance category, and the thread category, and stores each utterance in the analysis result storage unit 122 (step S306).
  • step S303 and the process of step S304 may be executed in the reverse order to the order described above, or may be executed as a parallel process.
  • the information analysis system 100 analyzes the comment category and assigns it to each comment. As a result, the information analysis system 100 analyzes based on the utterance category for each utterance in addition to the thread category, so that more useful utterances can be analyzed.
  • FIG. 8 is a diagram for explaining the effect of the third embodiment.
  • the collection unit 131 collects thread data from a BBS site on the Internet (S30), and sends the collected thread data to the message cutout unit 132A (S31).
  • the message extraction unit 132A generates message data by cutting out messages from the thread data, and sends the generated message data to the message analysis unit 132B (S32).
  • the utterance analysis unit 132B analyzes the utterance importance and utterance category for each utterance, and sends the utterance data, the utterance importance, and the utterance category set to the storage unit 133 (S33).
  • the message cutout unit 132A sends the thread data to the thread analysis unit 132C (S34).
  • the thread analysis unit 132C analyzes the thread category and the importance of the thread, and sends the analyzed category and importance of the thread to the storage unit 133 (S35).
  • the storage unit 133 calculates the overall importance of the speech from the importance of the speech and the importance of the thread, and associates the speech data, the overall importance of the speech, the speech category, and the thread category. Each of them is stored in the analysis result storage unit 122 (S36).
  • the information analysis system 100 according to the third embodiment can analyze a more useful statement.
  • the information analysis system 100 according to the second embodiment further analyzes a speech category and assigns the speech category to each speech.
  • the present invention is not limited to this.
  • the information analysis system 100 according to the first embodiment may analyze a speech category and give it to each speech. That is, in the third embodiment, the process of calculating the importance of the thread may not be executed.
  • each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions.
  • the storage unit 133 may be integrated with the analysis unit 132, or may be integrated with the speech analysis unit 132B or the thread analysis unit 132C.
  • all or a part of each processing function performed in each device may be realized by a CPU and a program that is analyzed and executed by the CPU, or may be realized as hardware by wired logic.
  • the information analysis system 100 responds to a predetermined post in an e-mail displayed in a thread format (a format in which replies to a predetermined e-mail are displayed in series) or a SNS (Social Networking Service). A series of remarks made can be processed.
  • a thread format a format in which replies to a predetermined e-mail are displayed in series
  • SNS Social Networking Service
  • program it is possible to create a program in which processing executed by the information analysis system 100 described in the above embodiment is described in a language that can be executed by a computer.
  • an information analysis program in which processing executed by the information analysis system 100 according to the first embodiment is described in a language that can be executed by a computer can be created.
  • the computer executes the information analysis program, the same effect as in the above embodiment can be obtained.
  • the information analysis program is recorded on a computer-readable recording medium, and the information analysis program recorded on the recording medium is read by the computer and executed, thereby realizing the same processing as in the first embodiment. May be.
  • An example of a computer that executes an information analysis program that implements the same function as the information analysis system 100 shown in FIG. 1 will be described below.
  • FIG. 9 is a diagram illustrating a computer 1000 that executes an information analysis program.
  • the computer 1000 includes, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, and a network interface 1070, and these units are connected by a bus 1080.
  • the bus 1080 The bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 as illustrated in FIG.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1031 as illustrated in FIG.
  • the disk drive interface 1040 is connected to the disk drive 1041 as illustrated in FIG. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive.
  • the hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, any of the above programs is stored in, for example, the hard disk drive 1031 as a program module in which a command to be executed by the computer 1000 is described.
  • various data described in the above embodiment is stored as program data in, for example, the memory 1010 or the hard disk drive 1031.
  • the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1031 to the RAM 1012 as necessary, and executes each procedure.
  • program module 1093 and the program data 1094 related to the information analysis program are not limited to being stored in the hard disk drive 1031, but are stored in, for example, a removable storage medium and read out by the CPU 1020 via the disk drive or the like. May be.
  • the program module 1093 and the program data 1094 related to the information analysis program are respectively stored in other computers connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.), and the network interface 1070. It may be read by the CPU 1020 via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.), and the network interface 1070. It may be read by the CPU 1020 via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.), and the network interface 1070. It may be read by the CPU 1020 via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.), and the network interface 1070. It may be read by the CPU 1020 via LAN (Lo

Abstract

 情報分析システム(100)は、発言分析部(132B)と、スレッド分析部(132C)と、格納部(133)とを備える。発言分析部(132B)は、ネットワーク上に投稿された発言の集合であるスレッドについて、当該スレッドに含まれる発言の重要度を、当該発言に関するデータである発言データに基づいて、当該発言ごとに分析する。スレッド分析部(132C)は、前記スレッドが、予め設定された複数のカテゴリのいずれに属するかを、当該スレッドに関するデータであるスレッドデータに基づいて分析する。格納部(133)は、前記発言ごとに、当該発言と、当該発言の重要度と、当該発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する。

Description

情報分析システム、情報分析方法及び情報分析プログラム
 本発明の実施形態は、情報分析システム、情報分析方法及び情報分析プログラムに関する。
 近年、情報処理技術の高速化及び低コスト化や、インターネット技術等のネットワーク技術の普及等に伴って、ネットワーク上に膨大な量の情報(電子データ)が蓄積されている。例えば、インターネット上の掲示板(電子掲示板)には、利用者によって投稿された発言が時系列順にまとめられている。
 ここで、利用者が所望の情報を得るために、各種情報を推薦する情報推薦技術が提案されている。例えば、掲示板から特徴ベクトルを生成して特徴を分析する技術がある。この技術では、例えば、利用者によってキーワードが入力されると、入力されたキーワードに対応する特徴を有する掲示板が利用者に提示される。
特開2010-231471号公報
 しかしながら、従来の技術では、ネットワーク上に投稿された情報から有益な発言を分析することが難しいという問題があった。例えば、掲示板から特徴ベクトルを生成して特徴を分析する技術では、掲示板に意味の無い発言が多く含まれる場合に、有益な発言が意味の無い発言に埋もれてしまっていた。
 そこで、この発明は、ネットワーク上に投稿された情報から有益な発言を分析することを目的とする。
 実施形態に係る情報分析システムは、発言分析部と、スレッド分析部と、格納部とを備える。発言分析部は、ネットワーク上に投稿された発言の集合であるスレッドについて、当該スレッドに含まれる発言の重要度を、当該発言に関するデータである発言データに基づいて、当該発言ごとに分析する。スレッド分析部は、前記スレッドが、予め設定された複数のカテゴリのいずれに属するかを、当該スレッドに関するデータであるスレッドデータに基づいて分析する。格納部は、前記発言ごとに、当該発言と、当該発言の重要度と、当該発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する。
 本願の開示する技術の一つの態様によれば、ネットワーク上に投稿された情報から有益な発言を分析することができるという効果を奏する。
図1は、第1の実施形態に係る情報分析システムの構成の一例を示す図である。 図2は、第1の実施形態に係るスレッドデータ記憶部に記憶されるスレッドデータの一例を示す図である。 図3は、第1の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。 図4は、第1の実施形態による効果を説明するための図である。 図5は、第2の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。 図6は、第2の実施形態による効果を説明するための図である。 図7は、第3の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。 図8は、第3の実施形態による効果を説明するための図である。 図9は、情報分析プログラムを実行するコンピュータを示す図である。
 以下に添付図面を参照して、この発明に係る情報分析システム、情報分析方法及び情報分析プログラムの実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。
[第1の実施形態]
 以下の実施形態では、第1の実施形態に係る情報分析システムの構成、情報分析システムにおける処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。
[情報分析システムの構成]
 図1は、第1の実施形態に係る情報分析システム100の構成の一例を示す図である。図1に示すように、情報分析システム100は、通信処理部110、記憶部120、機能部130、及び制御部140を有する。また、情報分析システム100は、インターネットに接続されている。
 通信処理部110は、ネットワーク上における装置との間でやり取りされ各種情報に関する通信を制御する。例えば、通信処理部110は、後述の収集部131の制御によりインターネット上の各種電子掲示板(BBS(Bulletin Board System))サイトにアクセスする。
 記憶部120は、図1に示すように、スレッドデータ記憶部121及び分析結果記憶部122を有する。記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。
 スレッドデータ記憶部121は、インターネット上のBBSサイトから収集されたスレッドデータを記憶する。ここで、スレッドデータは、ネットワーク上に投稿された発言の集合であるスレッドに関するデータである。例えば、スレッドデータ記憶部121は、収集部131によって収集されたスレッドデータを記憶する。また、例えば、スレッドデータ記憶部121は、分析部132によって参照される。
 図2は、第1の実施形態に係るスレッドデータ記憶部121に記憶されるスレッドデータの一例を示す図である。図2に示すように、例えば、スレッドデータ記憶部121に記憶されるスレッドデータ10は、タイトル11、発言12、及び発言13を含む。ここで、タイトル11は、スレッドのタイトルである。また、発言12,13は、BBSの利用者によって投稿された発言である。発言12,13は、発言順序、発言者名、発言日時、及び発言内容を含む。図2に示す例では、発言12の発言順序が「1」であり、発言者名が「A1」であり、発言日時が「A2」であり、発言内容が「A3」である場合を示す。
 分析結果記憶部122は、分析結果を記憶する。例えば、分析結果記憶部122は、後述の分析部132によって分析された分析結果を記憶する。分析結果記憶部122に記憶される分析結果は、例えば、後述の格納部133によって格納される。また、分析結果記憶部122に記憶される分析結果は、利用者の要求に応じて出力される。
 図1の説明に戻る。機能部130は、収集部131、分析部132、及び格納部133を有する。ここで、機能部130は、各処理を受け持つところであり、実際にはソフトウェア(の1コンポーネント)またはミドルウェアとして実現される。また、制御部140は、通信処理部110、記憶部120、及び機能部130の動作を制御し、情報分析システム100の動作を司るもので、実際にはCPU(Central Processing Unit)やMPU(Micro Processing Unit)等の集積回路等で実現される。
 収集部131は、ネットワーク上に投稿された情報からスレッドデータを収集する。例えば、収集部131は、インターネット上のBBSサイトを巡回し、BBSサイトからスレッドデータを収集する。そして、収集部131は、収集したスレッドデータをスレッドデータ記憶部121に格納する。
 なお、収集部131は、HTML(HyperText Markup Language)タグやスクリプト、広告等の文字情報以外の情報がスレッドに含まれる場合には、それらの情報を取り除いた上でスレッドデータ記憶部121に格納する。また、収集部131によって巡回される巡回対象のサイトは、予めURL(Uniform Resource Locator)等のリストとして指定されていても良いし、収集するごとに指定されても良い。
 分析部132は、収集部131によって収集されたスレッドデータを分析する。図1に示すように、分析部132は、発言切り出し部132A、発言分析部132B、及びスレッド分析部132Cを有する。
 発言切り出し部132Aは、スレッドデータに含まれる発言をスレッドデータから切り出し、発言に関するデータである発言データを生成する。ここで、発言データとは、例えば、「発言順序」、「発言者名」、「発言日時」、「発言内容」、及び「付加情報」が対応づけられたデータである。「発言順序」、「発言者名」、「発言日時」、及び「発言内容」は、スレッドデータから対応する箇所が抜き出されたデータである。また、「付加情報」は、「文字数」、「返信フラグ」、及び「返信数」が対応づけられたデータである。「文字数」は、発言内容の文字数に対応する。「返信フラグ」は、該当する発言が別の発言への返信であるか否かを表すフラグである。例えば、該当する発言の発言内容が「>(数字)」から始まる場合には、その発言が返信であることを示す返信フラグ「1」が付与される。一方、「>(数字)」から始まらない場合には、その発言が返信ではないことを示す返信フラグ「0」が付与される。なお、(数字)は、返信対象の発言順序を表す。「返信数」は、該当する発言への返信の数を表す。例えば、発言内容が「>(数字)」から始まる発言の数が、その数字の発言番号の返信数に対応する。
 例えば、発言切り出し部132Aは、スレッドデータ記憶部121に記憶されたスレッドデータを取得する。そして、発言切り出し部132Aは、取得したスレッドデータに含まれる発言をそれぞれ切り出し、発言データをそれぞれ生成する。発言切り出し部132Aは、生成したそれぞれの発言データを発言分析部132Bに送る。また、発言切り出し部132Aは、取得したスレッドデータをスレッド分析部132Cに送る。
 一例として、発言切り出し部132Aが図2に示すスレッドデータ10を取得した場合を説明する。発言切り出し部132Aは、スレッドデータ10から発言12の発言順序「1」、発言者名「A1」、発言日時「A2」、及び発言内容「A3」を切り出す。そして、発言切り出し部132Aは、発言内容「A3」の文字数「A4」を計数する。また、発言切り出し部132Aは、発言内容「A3」が「>(数字)」から始まるか否かに応じて、返信フラグ「A5(A5は1又は0)」を生成する。また、発言切り出し部132Aは、スレッドデータ10に含まれる発言のうち、「>1」から始まる発言の数「A6」を計数する。この結果、発言切り出し部132Aは、発言順序「1」、発言者名「A1」、発言日時「A2」、発言内容「A3」、文字数「A4」、返信フラグ「A5」、及び返信数「A6」が対応づけられたデータを、発言12の発言データとして生成する。このように、発言切り出し部132Aは、スレッドデータ10に含まれる全ての発言について、発言データを生成する。
 発言分析部132Bは、スレッドに含まれる発言の重要度を、発言データに基づいて、発言ごとに分析する。例えば、発言分析部132Bは、発言データから発言の重要度(スコア)を算出するための機械学習エンジンを用いて、発言切り出し部132Aによって生成された発言データから発言の重要度を分析する。そして、発言分析部132Bは、分析結果として、発言の重要度を格納部133に送る。なお、この場合、機械学習エンジンには、重要な発言の特徴ベクトルと重要でない発言の特徴ベクトルとを予め学習させておく。学習させる方法としては、例えば、代表的なBBSサイトからいくつかのスレッドを選択し、スレッドに含まれる発言を重要な発言と重要でない発言とに人手で分類して学習させる方法が挙げられる。
 具体的には、発言分析部132Bは、発言データを機械学習エンジンにかけるために、各発言データを特徴ベクトルにそれぞれ変換する。ここで、発言分析部132Bは、例えば、発言データのうち、数値データと文字列データとをそれぞれ個別に変換する。例えば、発言分析部132Bは、発言データのうち、発言順序、発言日時、文字数、返信フラグ、及び返信数等の数値データを、そのまま特徴ベクトルの値とする。なお、これに限らず、発言分析部132Bは、数値データに対して何らかの数値演算処理を施して、特徴ベクトルの値としても良い。
 また、発言分析部132Bは、発言者名及び発言内容等の文字列データに対しては、形態素解析、n-gram、若しくは区切り文字を用いて、特徴ベクトルに変換する。例えば、発言分析部132Bは、形態素解析を用いた場合には、文字列データを品詞によって分割し、それらを特徴ベクトルへ変換する。このような形態素解析には、例えばオープンソースのMecab等のライブラリを利用することができる。例えば、発言分析部132Bは、文字列データが「Twitter(登録商標)の使い方が、まだ、よくわからん。」である場合には、形態素解析を用いて、「Twitter/の/使い方/が/、/まだ/、/よく/わから/ん/。」と分割する。
 また、発言分析部132Bは、n-gramを用いた場合には、文字列データを先頭から1文字ずつずらしながらn文字の組を作り、それらを特徴ベクトルへ変換する。例えば、発言分析部132Bは、文字列データが「Twitterの使い方が、まだ、よくわからん。」である場合には、n-gram(n=3)を用いて、「Twi/wit/itt/tte/ter/erの/rの使/の使い/・・・」と分割する。
 また、発言分析部132Bは、区切り文字を用いた場合には、文字列データを別途定めた区切り文字(空白やカンマ”,”など)によって分割し、それらを特徴ベクトルへ変換する。例えば、発言分析部132Bは、文字列データが「Twitterの使い方が、まだ、よくわからん。」であり、区切り文字が句読点“、”である場合には、区切り文字を用いて、「Twitterの使い方が/まだ/よくわからん。」と分割する。なお、一般に、形態素解析は日本語の文章に、空白区切りは英語に適用されることが多い。
 そして、発言分析部132Bは、このようにして要素に分割された文字列データを特徴ベクトルに変換する。特徴ベクトルの変換手法としては、例えば、各要素の出現回数をそのまま特徴ベクトルとする方式、回数によらず出現するか否かを1又は0に対応させる方式等がある。これらは使用する機械学習エンジンのライブラリが対応する手法であれば、どのようなものを用いても構わない。
 そして、発言分析部132Bは、各発言データから変換した各特徴ベクトルを、機械学習エンジンに与え、各発言の重要度を算出する。ここで使用する機械学習エンジンは種類を問わないが、例えば、オープンソースのJubatus(登録商標)等を用いることができる。そして、発言分析部132Bは、各発言データに対して、機械学習エンジンで算出された各発言の重要度を付与し、発言データと発言の重要度とをそれぞれ合わせて格納部133に送る。
 なお、上述した発言分析部132Bの処理はあくまで一例に過ぎない。例えば、発言分析部132Bは、機械学習エンジンによる分析の精度を向上させるために、入力される各発言データに対して、不要文字の除去、文字種の統一、及び特定グループの単語の置き換え等の前処理を行っても良い。具体的には、発言分析部132Bは、不要文字の除去として、例えば、文字列データに対して、余計な空白や言語処理の障害となるURL等の削除を行う。また、例えば、発言分析部132Bは、文字種の統一として、文字列データに使用されている文字について、英大文字小文字やいわゆる半角全角の統一を行う。また、例えば、発言分析部132Bは、特定グループの単語の置き換えとして、ガラケー、スマホ、スマートフォン、及びケータイという単語を携帯電話という単語に置き換える。また、例えば、特徴ベクトルの基となる文字列データは、発言内容のみを用いても良いし、“発言者と発言内容”のように、いくつかの要素を連結した文字列データを用いても良い。
 スレッド分析部132Cは、スレッドが、予め設定された複数のカテゴリのいずれに属するかを、スレッドデータに基づいて分析する。例えば、スレッド分析部132Cは、スレッドデータからスレッドのカテゴリを分析するための機械学習エンジンを用いて、発言切り出し部132Aから受け付けたスレッドデータからスレッドが属するカテゴリを分析する。そして、スレッド分析部132Cは、分析結果として、スレッドが属するカテゴリを格納部133に送る。なお、この場合、機械学習エンジンには、いくつかのスレッドとそのカテゴリを予め学習させておく。学習させる方法としては、例えば、代表的なBBSサイトからいくつかのスレッドを選択し、スレッドが属するカテゴリを人手で入力して学習させる方法が挙げられる。
 具体的には、スレッド分析部132Cは、スレッドデータを機械学習エンジンにかけるために、スレッドデータを特徴ベクトルに変換する。ここで、スレッド分析部132Cは、例えば、スレッドデータに含まれる文字列データ、例えば、タイトルと、各発言の発言内容とを連結した文字列データに対して、形態素解析、n-gram、若しくは区切り文字を用いて、特徴ベクトルに変換する。なお、形態素解析、n-gram、及び区切り文字を用いて特徴ベクトルに変換する処理の説明は、上述した説明と同様であるので省略する。
 そして、スレッド分析部132Cは、スレッドデータから変換した特徴ベクトルを機械学習エンジンに与え、スレッドが属するカテゴリを決定する。ここで使用する機械学習エンジンは種類を問わないが、例えば、オープンソースのJubatus等を用いることができる。そして、スレッド分析部132Cは、機械学習エンジンで決定されたスレッドのカテゴリを格納部133に送る。
 なお、上述したスレッド分析部132Cの処理はあくまで一例に過ぎない。例えば、スレッド分析部132Cは、機械学習エンジンによる分析の精度を向上させるために、入力される各発言データに対して、不要文字の除去、文字種の統一、及び特定グループの単語の置き換え等の前処理を行っても良い。また、例えば、スレッド分析部132Cは、特徴ベクトルの基となる文字列データとして、タイトルと各発言の発言内容以外にも、発言者等の他の要素を組み合わせて用いても良い。また、スレッド分析部132Cは、文字列データに限らず、発言数等の数値データを用いて特徴ベクトルを求めても良い。
 格納部133は、発言ごとに、当該発言と、発言の重要度と、発言が含まれるスレッドのカテゴリとを対応づけて分析結果記憶部122に格納する。例えば、格納部133は、発言ごとに、発言データ及びその重要度を発言分析部132Bから受け付ける。また、格納部133は、スレッドが属するカテゴリをスレッド分析部132Cから受け付ける。そして、格納部133は、発言分析部132Bから受け付けた発言データ及びその重要度の組に、スレッド分析部132Cから受け付けたスレッドのカテゴリを発言のカテゴリとして付与し、分析結果記憶部122に格納する。
 なお、格納部133によって分析結果記憶部122に格納された情報は、例えば、「カテゴリ」をキーとして検索されて、「重要度」のスコア順にソートされて利用者に提示される。また、特定のスコア(重要度)以上のデータのみが提示されるようにしても良い。
[情報分析システムによる処理]
 図3は、第1の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。
 図3に示すように、情報分析システム100の収集部131は、インターネット上のBBSサイトからスレッドデータを収集する(ステップS101)。収集部131は、収集したスレッドデータをスレッドデータ記憶部121に格納する。
 続いて、発言切り出し部132Aは、スレッドデータから発言を切り出し、発言データを生成する(ステップS102)。例えば、発言切り出し部132Aは、スレッドデータ記憶部121に記憶されたスレッドデータを取得して、取得したスレッドデータに含まれる発言をそれぞれ切り出し、発言データをそれぞれ生成する。
 そして、発言分析部132Bは、スレッドに含まれる発言の重要度を発言ごとに分析する(ステップS103)。例えば、発言分析部132Bは、発言データから発言の重要度(スコア)を算出するための機械学習エンジンを用いて、発言切り出し部132Aによって生成された発言データから発言の重要度を分析する。
 そして、スレッド分析部132Cは、スレッドのカテゴリを分析する(ステップS104)。例えば、スレッド分析部132Cは、スレッドデータからスレッドのカテゴリを分析するための機械学習エンジンを用いて、発言切り出し部132Aから受け付けたスレッドデータからスレッドが属するカテゴリを分析する。
 そして、格納部133は、発言ごとに、発言データ、発言の重要度、及びスレッドのカテゴリを対応づけて分析結果記憶部122に格納する(ステップS105)。
 なお、上述した処理手順は、必ずしも上述した順序で実行されなくても良い。例えば、ステップS103の処理とステップS104の処理は、上述した順序とは逆の順序で実行されても良いし、並行処理として実行されても良い。また、例えば、収集済みのスレッドデータが存在する場合には、ステップS101の処理は実行されなくても良い。
[第1の実施形態の効果]
 上述してきたように、第1の実施形態に係る情報分析システム100は、ネットワーク上に投稿された発言の集合であるスレッドについて、スレッドに含まれる発言の重要度を、発言データに基づいて、発言ごとに分析する。そして、情報分析システム100は、スレッドが、予め設定された複数のカテゴリのいずれに属するかを、スレッドデータに基づいて分析する。そして、情報分析システム100は、発言ごとに、発言と、発言の重要度と、発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する。このため、情報分析システム100は、ネットワーク上に投稿された情報から有益な発言を分析することができる。
 図4は、第1の実施形態による効果を説明するための図である。図4に示すように、例えば、情報分析システム100において、収集部131は、インターネット上のBBSサイトからスレッドデータを収集し(S10)、収集したスレッドデータを発言切り出し部132Aへ送る(S11)。続いて、発言切り出し部132Aは、スレッドデータから発言を切り出して発言データを生成し、生成した発言データを発言分析部132Bへ送る(S12)。そして、発言分析部132Bは、発言の重要度を発言ごとに分析し、発言データと重要度の組を格納部133へ送る(S13)。続いて、発言切り出し部132Aは、スレッドデータをスレッド分析部132Cへ送る(S14)。そして、スレッド分析部132Cは、スレッドのカテゴリを分析し、分析したカテゴリを格納部133へ送る(S15)。そして、格納部133は、発言ごとに、発言データ、重要度、及びカテゴリを対応づけて分析結果記憶部122に格納する(S16)。このように、情報分析システム100は、収集したスレッドデータに含まれる発言ごとに、発言データと、重要度と、カテゴリとを対応づけて蓄積する。このため、情報分析システム100は、例えば、意味の無い発言が多く含まれる場合であっても、有益な発言が意味の無い発言に埋もれることなく検索可能な状態で、分析結果を蓄積することができる。また、情報分析システム100は、スレッド単位でカテゴリの分析を行うことにより、発言単位で分析する場合と比較して分析対象とする情報量を増加させるので、発言の属するカテゴリを精度良く分析することができる。この結果、情報推薦技術において、利用者は、スレッド単位で抽出・推薦される場合と比べて、無意味な発言が除かれた、真に有用な発言のみを得ることが可能となる。
[第2の実施形態]
 第1の実施形態では、情報分析システム100が発言ごとに重要度を分析する場合を説明したが、実施形態はこれに限定されるものではない。例えば、情報分析システム100は、スレッドの重要度についても分析し、発言の重要度とスレッドの重要度とを統合する場合であっても良い。そこで、第2の実施形態では、情報分析システム100が、スレッドの重要度についても分析し、発言の重要度とスレッドの重要度とを統合する場合を説明する。なお、以下の説明では、第1の実施形態と共通する構成及び処理については、説明を省略する。
 図1を用いて、第2の実施形態に係る情報分析システム100の構成について説明する。第2の実施形態に係る情報分析システム100は、図1に示した情報分析システム100と同様の構成を備えるが、スレッド分析部132C及び格納部133における処理が一部相違する。
 スレッド分析部132Cは、第1の実施形態において説明した処理に加えて、スレッドデータに基づいて、スレッドの重要度を分析する。例えば、スレッド分析部132Cは、スレッドデータからスレッドの重要度を算出するための機械学習エンジンを用いて、スレッドの重要度を分析する。そして、スレッド分析部132Cは、分析結果として、スレッドが属するカテゴリに加えて、スレッドの重要度を格納部133に送る。なお、この場合、機械学習エンジンには、重要なスレッドの特徴ベクトルと重要でないスレッドの特徴ベクトルとを予め学習させておく。学習させる方法としては、例えば、代表的なBBSサイトからいくつかのスレッドを選択し、重要なスレッドと重要でないスレッドとを人手で分類して学習させる方法が挙げられる。
 具体的には、スレッド分析部132Cは、スレッドデータを機械学習エンジンにかけるために、スレッドデータを特徴ベクトルに変換する。ここで、スレッド分析部132Cは、例えば、スレッドデータに含まれる文字列データ、例えば、タイトルと、各発言の発言内容とを連結した文字列データに対して、形態素解析、n-gram、若しくは区切り文字を用いて、特徴ベクトルに変換する。なお、形態素解析、n-gram、及び区切り文字を用いて特徴ベクトルに変換する処理の説明は、上述した説明と同様であるので省略する。
 そして、スレッド分析部132Cは、スレッドデータから変換した特徴ベクトルを機械学習エンジンに与え、スレッドの重要度を算出する。ここで使用する機械学習エンジンは種類を問わないが、例えば、オープンソースのJubatus等を用いることができる。そして、スレッド分析部132Cは、機械学習エンジンで算出されたスレッドの重要度を格納部133に送る。
 なお、上述したスレッド分析部132Cの処理はあくまで一例に過ぎない。例えば、スレッド分析部132Cは、文字列データに限らず、スレッドにおける発言数等の数値データを用いて特徴ベクトルを求めても良い。
 格納部133は、発言の重要度及びスレッドの重要度に基づいて、発言の総合重要度を算出する。そして、格納部133は、算出した総合重要度と、発言と、発言が含まれるスレッドのカテゴリとを発言ごとに対応づけて格納する。
 例えば、格納部133は、発言ごとに、発言データ及び発言の重要度を発言分析部132Bから受け付ける。また、格納部133は、スレッドが属するカテゴリ及びスレッドの重要度をスレッド分析部132Cから受け付ける。そして、格納部133は、発言分析部132Bから受け付けた発言の重要度と、スレッド分析部132Cから受け付けたスレッドの重要度とに基づいて、総合重要度を発言ごとに算出する。ここで、総合重要度の算出方法は、例えば、発言の重要度及びスレッドの重要度の和であっても良いし、積、平均、その他の算術演算による値であっても良い。そして、格納部133は、発言データ、総合重要度、及びカテゴリを対応づけて、発言ごとに分析結果記憶部122に格納する。
 図5は、第2の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。なお、図5に示すステップS201~S203の処理は、図3のステップS101~S103の処理と同様であるので、説明を省略する。
 図5に示すように、情報分析システム100のスレッド分析部132Cは、スレッドのカテゴリ及びスレッドの重要度を分析する(ステップS204)。例えば、スレッド分析部132Cは、第1の実施形態において説明した処理に加えて、スレッドデータからスレッドの重要度を算出するための機械学習エンジンを用いて、スレッドの重要度を分析する。そして、スレッド分析部132Cは、分析結果として、スレッドが属するカテゴリに加えて、スレッドの重要度を格納部133に送る。
 そして、格納部133は、発言の重要度とスレッドの重要度とから、発言の総合重要度を算出する(ステップS205)。例えば、格納部133は、発言の重要度及びスレッドの重要度の和、積、平均、その他の算術演算による値等を総合重要度として算出する。そして、格納部133は、発言データ、発言の総合重要度、及びスレッドのカテゴリを対応づけて、発言ごとに分析結果記憶部122に格納する(ステップS206)。
 なお、図5に示した処理手順は、必ずしも上記の順序で実行されなくても良い。例えば、ステップS203の処理とステップS204の処理は、上述した順序とは逆の順序で実行されても良いし、並行処理として実行されても良い。
 このように、第2の実施形態に係る情報分析システム100は、スレッドの重要度についても分析し、発言の重要度とスレッドの重要度とを統合する。これにより、情報分析システム100は、スレッドの重要度を加味した上で発言ごとの重要度を算出することができるので、より有益な発言を分析することができる。
 図6は、第2の実施形態による効果を説明するための図である。図6に示すように、例えば、情報分析システム100において、収集部131は、インターネット上のBBSサイトからスレッドデータを収集し(S20)、収集したスレッドデータを発言切り出し部132Aへ送る(S21)。続いて、発言切り出し部132Aは、スレッドデータから発言を切り出して発言データを生成し、生成した発言データを発言分析部132Bへ送る(S22)。そして、発言分析部132Bは、発言の重要度を発言ごとに分析し、発言データと重要度の組を格納部133へ送る(S23)。続いて、発言切り出し部132Aは、スレッドデータをスレッド分析部132Cへ送る(S24)。そして、スレッド分析部132Cは、スレッドのカテゴリ及びスレッドの重要度を分析し、分析したカテゴリ及びスレッドの重要度を格納部133へ送る(S25)。そして、格納部133は、発言の重要度とスレッドの重要度とから、発言の総合重要度を算出し、発言データ、発言の総合重要度、及びカテゴリを対応づけて、発言ごとに分析結果記憶部122に格納する(S26)。これにより、第2の実施形態に係る情報分析システム100は、より有益な発言を分析することができる。
[第3の実施形態]
 第1及び第2の実施形態では、情報分析システム100がスレッドのカテゴリを分析する場合を説明したが、実施形態はこれに限定されるものではない。例えば、情報分析システム100は、発言の内容をカテゴリ分類した発言カテゴリについても分析し、それぞれの発言に付与する場合であっても良い。なお、発言カテゴリとは、例えば、「好意的」、「敵対的」、「賞賛」、「冒とく」といった発言者の感情を推測するものや、「引用」、「提案」、「質問」、「回答」といった発言の種類を推測するもの等が含まれる。すなわち、発言カテゴリは、発言の内容が、予め設定された複数のカテゴリのいずれに属するかを示す情報である。
 そこで、第3の実施形態では、情報分析システム100が、発言カテゴリを分析し、それぞれの発言に付与する場合を説明する。なお、以下の説明では、第2の実施形態と共通する構成及び処理については、説明を省略する。
 図1を用いて、第3の実施形態に係る情報分析システム100の構成について説明する。第3の実施形態に係る情報分析システム100は、第2の実施形態に係る情報分析システム100と同様の構成を備えるが、発言分析部132B及び格納部133における処理が一部相違する。
 発言分析部132Bは、第1の実施形態において説明した処理に加えて、発言カテゴリを、発言データに基づいて、発言ごとに分析する。例えば、発言分析部132Bは、発言データから発言カテゴリを導出するための機械学習エンジンを用いて、発言カテゴリを分析する。そして、発言分析部132Bは、分析結果として、発言の重要度に加えて、発言カテゴリを格納部133に送る。なお、この場合、機械学習エンジンには、いくつかの発言と発言カテゴリとの組を予め学習させておく。学習させる方法としては、例えば、代表的なBBSサイトからいくつかのスレッドを選択し、スレッドに含まれる発言を「好意的」、「敵対的」、「賞賛」、「冒とく」、「引用」、「提案」、「質問」、「回答」といったカテゴリに人手で分類して学習させる方法が挙げられる。
 具体的には、発言分析部132Bは、第1の実施形態に係る処理において変換された特徴ベクトルを機械学習エンジンに与え、発言ごとに発言カテゴリを算出する。ここで使用する機械学習エンジンは種類を問わないが、例えば、オープンソースのJubatus等を用いることができる。そして、発言分析部132Bは、機械学習エンジンで算出されたスレッドの重要度を格納部133に送る。
 格納部133は、発言ごとの発言カテゴリを、当該発言ごとに対応づけて格納する。例えば、格納部133は、発言データ、総合重要度、スレッドのカテゴリ、及び発言カテゴリを対応づけて、発言ごとに分析結果記憶部122に格納する。
 図7は、第3の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。なお、図7に示すステップS301~S302の処理は、図3のステップS101~S102の処理と同様であるので、説明を省略する。
 図7に示すように、情報分析システム100の発言分析部132Bは、発言の重要度及び発言カテゴリを分析する(ステップS303)。例えば、発言分析部132Bは、発言データから発言カテゴリを導出するための機械学習エンジンを用いて、発言カテゴリを分析する。そして、発言分析部132Bは、分析結果として、発言の重要度に加えて、発言カテゴリを格納部133に送る。
 続いて、スレッド分析部132Cは、スレッドのカテゴリ及びスレッドの重要度を分析する(ステップS304)。例えば、発言分析部132Bは、第1の実施形態において説明した処理に加えて、スレッドデータからスレッドの重要度を算出するための機械学習エンジンを用いて、スレッドの重要度を分析する。そして、発言分析部132Bは、分析結果として、スレッドが属するカテゴリに加えて、スレッドの重要度を格納部133に送る。
 そして、格納部133は、発言の重要度とスレッドの重要度とから、発言の総合重要度を算出する(ステップS305)。例えば、格納部133は、発言の重要度及びスレッドの重要度の和、積、平均、その他の算術演算による値等を総合重要度として算出する。そして、格納部133は、発言データ、発言の総合重要度、発言カテゴリ、及びスレッドのカテゴリを対応づけて、発言ごとに分析結果記憶部122に格納する(ステップS306)。
 なお、図7に示した処理手順は、必ずしも上記の順序で実行されなくても良い。例えば、ステップS303の処理とステップS304の処理は、上述した順序とは逆の順序で実行されても良いし、並行処理として実行されても良い。
 このように、第3の実施形態に係る情報分析システム100は、発言カテゴリを分析し、それぞれの発言に付与する。これにより、情報分析システム100は、スレッドのカテゴリに加え、発言ごとの発言カテゴリも踏まえて分析するので、より有益な発言を分析することができる。
 図8は、第3の実施形態による効果を説明するための図である。図8に示すように、例えば、情報分析システム100において、収集部131は、インターネット上のBBSサイトからスレッドデータを収集し(S30)、収集したスレッドデータを発言切り出し部132Aへ送る(S31)。続いて、発言切り出し部132Aは、スレッドデータから発言を切り出して発言データを生成し、生成した発言データを発言分析部132Bへ送る(S32)。そして、発言分析部132Bは、発言の重要度及び発言カテゴリを発言ごとに分析し、発言データ、発言の重要度、及び発言カテゴリの組を格納部133へ送る(S33)。続いて、発言切り出し部132Aは、スレッドデータをスレッド分析部132Cへ送る(S34)。そして、スレッド分析部132Cは、スレッドのカテゴリ及びスレッドの重要度を分析し、分析したカテゴリ及びスレッドの重要度を格納部133へ送る(S35)。そして、格納部133は、発言の重要度とスレッドの重要度とから、発言の総合重要度を算出し、発言データ、発言の総合重要度、発言カテゴリ、及びスレッドのカテゴリを対応づけて、発言ごとに分析結果記憶部122に格納する(S36)。これにより、第3の実施形態に係る情報分析システム100は、より有益な発言を分析することができる。
 なお、第3の実施形態では、第2の実施形態に係る情報分析システム100が、更に、発言カテゴリを分析し、それぞれの発言に付与する場合を説明したが、これに限定されるものではない。例えば、第1の実施形態に係る情報分析システム100が、発言カテゴリを分析し、それぞれの発言に付与する場合であっても良い。すなわち、第3の実施形態において、スレッドの重要度を算出する処理は実行されなくても良い。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、格納部133は、分析部132と統合しても良いし、発言分析部132B若しくはスレッド分析部132Cと統合しても良い。更に、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[処理対象]
 また、上述した第1~第3の実施形態では、処理対象としてBBSのスレッドデータが分析される場合を説明したが、実施形態はこれに限定されるものではない。例えば、情報分析システム100は、電子メールがスレッド形式(所定の電子メールに対する返信が連なって表示される形式)で表示されたものや、SNS(Social Networking Service)等における所定の投稿に対して返信された一連の発言についても処理対象とすることができる。なお、電子メールを対象とする場合、返信の判定や返信数のカウントには、発言冒頭の「>(数字)」に着目する方法に代えて、電子メールの「In-Reply-To」ヘッダに着目して返信の判定や返信数のカウントを行うことができる。他の処理対象についても同様に、処理対象に応じた返信の判定法や返信数のカウント方法を規定することができる。
[プログラム]
 また、上記実施形態において説明した情報分析システム100が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、第1の実施形態に係る情報分析システム100が実行する処理をコンピュータが実行可能な言語で記述した情報分析プログラムを作成することもできる。この場合、コンピュータが情報分析プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる情報分析プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された情報分析プログラムをコンピュータに読み込ませて実行することにより上記第1の実施形態と同様の処理を実現してもよい。以下に、図1に示した情報分析システム100と同様の機能を実現する情報分析プログラムを実行するコンピュータの一例を説明する。
 図9は、情報分析プログラムを実行するコンピュータ1000を示す図である。図9に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
 メモリ1010は、図9に例示するように、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図9に例示するように、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、図9に例示するように、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブに挿入される。
 ここで、図9に例示するように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のいずれかのプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1031に記憶される。
 また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各手順を実行する。
 なお、情報分析プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば着脱可能な記憶媒体にそれぞれ記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、情報分析プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータにそれぞれ記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 これらの実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
 100   情報分析システム
 110   通信処理部
 120   記憶部
 121   スレッドデータ記憶部
 122   分析結果記憶部
 130   機能部
 131   収集部
 132   分析部
 132A   発言切り出し部
 132B   発言分析部
 132C   スレッド分析部
 133   格納部
 140   制御部

Claims (5)

  1.  ネットワーク上に投稿された発言の集合であるスレッドについて、当該スレッドに含まれる発言の重要度を、当該発言に関するデータである発言データに基づいて、当該発言ごとに分析する発言分析部と、
     前記スレッドが、予め設定された複数のカテゴリのいずれに属するかを、当該スレッドに関するデータであるスレッドデータに基づいて分析するスレッド分析部と、
     前記発言ごとに、当該発言と、当該発言の重要度と、当該発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する格納部と
     を備えることを特徴とする情報分析システム。
  2.  前記スレッド分析部は、更に、前記スレッドデータに基づいて、前記スレッドの重要度を分析し、
     前記格納部は、前記発言の重要度及び前記スレッドの重要度に基づいて、当該発言の総合重要度を算出し、算出した総合重要度と、前記発言と、当該発言が含まれるスレッドのカテゴリとを前記発言ごとに対応づけて格納することを特徴とする請求項1に記載の情報分析システム。
  3.  前記発言分析部は、更に、前記発言の内容が予め設定された複数のカテゴリのいずれに属するかを示す発言カテゴリを、前記発言データに基づいて、前記発言ごとに分析し、
     前記格納部は、更に、前記発言ごとの発言カテゴリを、当該発言ごとに対応づけて格納することを特徴とする請求項1又は2に記載の情報分析システム。
  4.  情報分析システムによって実行される情報分析方法であって、
     ネットワーク上に投稿された発言の集合であるスレッドについて、当該スレッドに含まれる発言の重要度を、当該発言に関するデータである発言データに基づいて、当該発言ごとに分析する発言分析工程と、
     前記スレッドが、予め設定された複数のカテゴリのいずれに属するかを、当該スレッドに関するデータであるスレッドデータに基づいて分析するスレッド分析工程と、
     前記発言ごとに、当該発言の重要度と、当該発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する格納工程と
     を含むことを特徴とする情報分析方法。
  5.  ネットワーク上に投稿された発言の集合であるスレッドについて、当該スレッドに含まれる発言の重要度を、当該発言に関するデータである発言データに基づいて、当該発言ごとに分析する発言分析ステップと、
     前記スレッドが、予め設定された複数のカテゴリのいずれに属するかを、当該スレッドに関するデータであるスレッドデータに基づいて分析するスレッド分析ステップと、
     前記発言ごとに、当該発言の重要度と、当該発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する格納ステップと
     をコンピュータに実行させることを特徴とする情報分析プログラム。
PCT/JP2015/064939 2014-05-29 2015-05-25 情報分析システム、情報分析方法及び情報分析プログラム WO2015182559A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016523487A JP6154072B2 (ja) 2014-05-29 2015-05-25 情報分析システム、情報分析方法及び情報分析プログラム
CN201580027532.7A CN106462614B (zh) 2014-05-29 2015-05-25 信息分析系统、信息分析方法以及信息分析程序
US15/313,749 US9940319B2 (en) 2014-05-29 2015-05-25 Information analysis system, information analysis method, and information analysis program
EP15799967.3A EP3136260A4 (en) 2014-05-29 2015-05-25 Information analysis system, information analysis method and information analysis program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-111596 2014-05-29
JP2014111596 2014-05-29

Publications (1)

Publication Number Publication Date
WO2015182559A1 true WO2015182559A1 (ja) 2015-12-03

Family

ID=54698886

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/064939 WO2015182559A1 (ja) 2014-05-29 2015-05-25 情報分析システム、情報分析方法及び情報分析プログラム

Country Status (5)

Country Link
US (1) US9940319B2 (ja)
EP (1) EP3136260A4 (ja)
JP (1) JP6154072B2 (ja)
CN (1) CN106462614B (ja)
WO (1) WO2015182559A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017215931A (ja) * 2016-02-02 2017-12-07 株式会社リコー 会議支援システム、会議支援装置、会議支援方法及びプログラム
US11625681B2 (en) 2016-02-02 2023-04-11 Ricoh Company, Ltd. Conference support system, conference support method, and recording medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003046764A1 (fr) * 2001-11-26 2003-06-05 Fujitsu Limited Procede et appareil d'analyse d'informations
JP2007058755A (ja) * 2005-08-26 2007-03-08 Dainippon Screen Mfg Co Ltd 電子掲示板システム、電子掲示板システムのサーバー、電子掲示板システムのクライアントにおけるスレッド表示処理方法、およびプログラム
JP2007328610A (ja) * 2006-06-08 2007-12-20 Fuji Xerox Co Ltd 情報管理装置及び情報管理方法、並びにコンピュータ・プログラム
JP2008176721A (ja) * 2007-01-22 2008-07-31 Internatl Business Mach Corp <Ibm> コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7185065B1 (en) * 2000-10-11 2007-02-27 Buzzmetrics Ltd System and method for scoring electronic messages
US7814043B2 (en) 2001-11-26 2010-10-12 Fujitsu Limited Content information analyzing method and apparatus
US7203704B1 (en) * 2002-06-03 2007-04-10 General Electric Company Method and apparatus of cross-pollinating a post to computerized bulletin boards
KR100469900B1 (ko) * 2004-05-27 2005-02-03 엔에이치엔(주) 네트워크를 통한 커뮤니티 검색 서비스 시스템 및 그 방법
JP4322887B2 (ja) 2006-06-01 2009-09-02 株式会社東芝 スレッド順位付け装置及び方法
CN101193038B (zh) * 2007-06-08 2010-12-22 腾讯科技(深圳)有限公司 回复主题帖、查看回复帖及交互主题帖的方法及系统
CN101520784B (zh) * 2008-02-29 2011-09-28 富士通株式会社 信息发布系统和信息发布方法
US8117207B2 (en) * 2008-04-18 2012-02-14 Biz360 Inc. System and methods for evaluating feature opinions for products, services, and entities
JP2010231471A (ja) 2009-03-27 2010-10-14 Nomura Research Institute Ltd インターネット上の掲示板分析システム及び方法
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
WO2012171073A1 (en) 2011-06-16 2012-12-20 Commonwealth Scientific And Industrial Research Organisation Social media monitoring
CA2886603A1 (en) 2012-09-28 2014-04-03 Alkis Papadopoullos A method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
CN103150333B (zh) * 2013-01-26 2016-01-13 安徽博约信息科技有限责任公司 微博媒体中的意见领袖识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003046764A1 (fr) * 2001-11-26 2003-06-05 Fujitsu Limited Procede et appareil d'analyse d'informations
JP2007058755A (ja) * 2005-08-26 2007-03-08 Dainippon Screen Mfg Co Ltd 電子掲示板システム、電子掲示板システムのサーバー、電子掲示板システムのクライアントにおけるスレッド表示処理方法、およびプログラム
JP2007328610A (ja) * 2006-06-08 2007-12-20 Fuji Xerox Co Ltd 情報管理装置及び情報管理方法、並びにコンピュータ・プログラム
JP2008176721A (ja) * 2007-01-22 2008-07-31 Internatl Business Mach Corp <Ibm> コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3136260A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017215931A (ja) * 2016-02-02 2017-12-07 株式会社リコー 会議支援システム、会議支援装置、会議支援方法及びプログラム
JP7098875B2 (ja) 2016-02-02 2022-07-12 株式会社リコー 会議支援システム、会議支援装置、会議支援方法及びプログラム
US11625681B2 (en) 2016-02-02 2023-04-11 Ricoh Company, Ltd. Conference support system, conference support method, and recording medium

Also Published As

Publication number Publication date
EP3136260A1 (en) 2017-03-01
CN106462614A (zh) 2017-02-22
JPWO2015182559A1 (ja) 2017-04-20
US20170185578A1 (en) 2017-06-29
US9940319B2 (en) 2018-04-10
CN106462614B (zh) 2020-08-18
JP6154072B2 (ja) 2017-06-28
EP3136260A4 (en) 2017-08-30

Similar Documents

Publication Publication Date Title
US9910886B2 (en) Visual representation of question quality
WO2016085409A1 (en) A method and system for sentiment classification and emotion classification
JP4427500B2 (ja) 意味解析装置、意味解析方法および意味解析プログラム
KR101983975B1 (ko) 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치
US10108698B2 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
US20160189057A1 (en) Computer implemented system and method for categorizing data
US20200311114A1 (en) System for topic discovery and sentiment analysis on a collection of documents
KR102285142B1 (ko) 챗봇을 위한 학습 데이터 추천 장치 및 방법
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
JP6230725B2 (ja) 因果関係分析装置、及び因果関係分析方法
CN111177462B (zh) 视频分发时效的确定方法和装置
JP5462546B2 (ja) コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム
JP6154072B2 (ja) 情報分析システム、情報分析方法及び情報分析プログラム
RU2631975C2 (ru) Способ и система для обработки входных команд пользователя
JP6522446B2 (ja) ラベル付与装置、方法およびプログラム
US10013482B2 (en) Context-dependent evidence detection
JPWO2015016133A1 (ja) 情報管理装置及び情報管理方法
JP2010026923A (ja) 文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体
KR100832859B1 (ko) 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
CN113255368A (zh) 针对文本数据进行情感分析的方法、装置及相关设备
CN113705198A (zh) 场景图生成方法、装置、电子设备及存储介质
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
US20190197172A1 (en) System and method for data analysis and presentation of data
JP2014112306A (ja) 要望文抽出装置、要望内容同定モデル学習装置、方法、及びプログラム
JP2013242781A (ja) 要望文抽出装置、方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15799967

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016523487

Country of ref document: JP

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2015799967

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015799967

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15313749

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE