WO2021073271A1 - 舆情分析方法、装置、计算机装置及存储介质 - Google Patents

舆情分析方法、装置、计算机装置及存储介质 Download PDF

Info

Publication number
WO2021073271A1
WO2021073271A1 PCT/CN2020/111918 CN2020111918W WO2021073271A1 WO 2021073271 A1 WO2021073271 A1 WO 2021073271A1 CN 2020111918 W CN2020111918 W CN 2020111918W WO 2021073271 A1 WO2021073271 A1 WO 2021073271A1
Authority
WO
WIPO (PCT)
Prior art keywords
public opinion
user
cluster
topic
clusters
Prior art date
Application number
PCT/CN2020/111918
Other languages
English (en)
French (fr)
Inventor
杨冬艳
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021073271A1 publication Critical patent/WO2021073271A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • This application relates to the technical field of Internet public opinion, and in particular to a public opinion analysis method, device, computer device and storage medium.
  • the Internet has gradually become the main carrier for people to release, obtain, and transmit information, which to a certain extent reflects the public's subjective feelings about social reality, that is, public opinion.
  • Public opinion data is essential for timely understanding of public opinion, reflecting social information, controlling and guiding the correct development of public opinion, social stability and national development.
  • the analysis of public opinion helps to understand the development trend of the incident, avoid the malignant spread of the incident, and provide important decision-making support for the emergency management of public opinion incidents.
  • the evolutionary stage of public opinion is an important basis for taking countermeasures against public opinion.
  • the inventor realizes that the existing public opinion analysis methods mainly analyze public opinion hotspots within a certain period of time, and lack the analysis of the evolution stage of public opinion, that is, the evolution stage of public opinion cannot be determined.
  • the first aspect of the present application provides a public opinion analysis method, and the public opinion analysis method includes:
  • a second aspect of the present application provides a computer device including a processor and a memory, and the processor is configured to execute computer-readable instructions stored in the memory to implement the following steps:
  • a third aspect of the present application provides a computer-readable storage medium having at least one computer-readable instruction stored thereon, and the at least one computer-readable instruction is executed by a processor to implement the following steps:
  • a fourth aspect of the present application provides a public opinion analysis device, the public opinion analysis device including:
  • the first extraction module is used to extract the first public opinion data released on the network by each of the multiple users in the first time period;
  • the first clustering module is configured to cluster the first public opinion data of each user to obtain the first topic word of each user;
  • the first division module is configured to divide the plurality of users according to the first topic words to obtain the plurality of first user clusters in the first time period and the first public opinion corresponding to each first user cluster theme;
  • the second extraction module is used to extract the second public opinion data released by each user on the network in the second time period
  • the second clustering module is configured to cluster the second public opinion data of each user to obtain the second topic word of each user;
  • the second division module is configured to divide the plurality of users according to the second topic words to obtain the plurality of second user clusters in the second time period and the second public opinion corresponding to each second user cluster theme;
  • a determining module configured to determine the same public opinion topic in the first public opinion topic and the second public opinion topic, and determine the same public opinion topic according to the first user cluster and the second user cluster corresponding to the same public opinion topic Stage of evolution.
  • this application extracts the first public opinion data released on the network by each user in the first time period among multiple users; clusters the first public opinion data of each user to obtain all the public opinion data.
  • the first topic words of each user; the plurality of users are divided according to the first topic words, and the plurality of first user clusters and each first user cluster corresponding to the first time period are obtained
  • the first public opinion topic extract the second public opinion data published on the network during the second time period of each user; cluster the second public opinion data of each user to obtain the second topic of each user Words; divide the multiple users according to the second topic words to obtain multiple second user clusters in the second time period and a second public opinion topic corresponding to each second user cluster; determine the The first public opinion topic and the second public opinion topic are the same public opinion topic, and the evolution stage of the same public opinion topic is determined according to the first user cluster and the second user cluster corresponding to the same public opinion topic.
  • This application can determine the evolution stage of public opinion and provides an important basis for taking countermeasures against public opinion
  • Fig. 1 is a flowchart of a public opinion analysis method provided by an embodiment of the present application.
  • Fig. 2 is a structural diagram of a public opinion analysis device provided by an embodiment of the present application.
  • Fig. 3 is a schematic diagram of a computer device provided by an embodiment of the present application.
  • the public opinion analysis method of the present application is applied in one or more computer devices.
  • the computer device is a device that can automatically perform numerical calculation and/or information processing in accordance with pre-set or stored instructions.
  • Its hardware includes, but is not limited to, a microprocessor and an application specific integrated circuit (ASIC) , Programmable Gate Array (Field-Programmable Gate Array, FPGA), Digital Processor (Digital Signal Processor, DSP), embedded equipment, etc.
  • ASIC application specific integrated circuit
  • FPGA Field-Programmable Gate Array
  • DSP Digital Processor
  • embedded equipment etc.
  • the computer device may be a computing device such as a desktop computer, a notebook, a palmtop computer, and a cloud server.
  • the computer device can interact with the user through a keyboard, a mouse, a remote control, a touch panel, or a voice control device.
  • Fig. 1 is a flowchart of a public opinion analysis method provided in Embodiment 1 of the present application.
  • the public opinion analysis method is applied to a computer device.
  • the public opinion analysis method of this application is used to determine the evolution stage of public opinion.
  • the public opinion analysis method includes:
  • the plurality of users may be preset users.
  • a user list with a certain degree of network activity may be preset, and users in the user list may be regarded as the multiple users.
  • the multiple users may also be users extracted from the network.
  • registered users in a preset online community for example, a certain forum
  • the registered users can be regarded as the multiple users.
  • a web page file is searched and read through a web crawler, and the first public opinion data is extracted from the web page file.
  • Web crawlers are applications that can automatically extract information and content of web pages.
  • Web crawlers usually start from one or several initial web page URLs (also called seed URLs), and obtain the initial web page URLs according to specific algorithms and strategies (such as depth-first search strategy, breadth-first search strategy, or heuristic search strategy) ), in the process of crawling the webpage, continuously extract new URLs from the current webpage and put them into the corresponding queue until the stop condition is met.
  • the web crawler deeply traverses the resources of the website and grabs the resources of the website locally.
  • the specific method is to analyze each valid URL of the website and submit an HTTP request to obtain the corresponding results, and generate local files and corresponding log information.
  • An open source crawler framework can be used to write a web crawler, search and read a web page file through the web crawler, and extract the first public opinion data from the web page file.
  • the public opinion data is text, and the public opinion data includes articles and comments.
  • the first public opinion data may be extracted from a preset website (for example, public opinion websites such as news, forums, blogs, post bars, etc.).
  • reading articles and comments on a forum extracting articles and comments published by the multiple users in the first time period from the articles and comments, to obtain the first public opinion data.
  • the Scrapy framework can be used to write the web crawler.
  • PySpider, Nutch, Crawler4j, WebMagic, WebCollector, or other open source crawler frameworks can also be used to write the web crawler.
  • the first public opinion data can be captured by using the API interface open on the website.
  • API is the abbreviation of application interface (application interface), through which the mutual communication between computer software can be realized.
  • the API interface of the website can return data in JSON format or XML format.
  • the first public opinion data can be captured through a web crawler by using an API interface opened by a website.
  • the specific process of using the API interface open on the website to capture the first public opinion data through a web crawler is as follows:
  • Seed URL is the basis and prerequisite for all the work of web crawlers. There can be one or multiple seed URLs.
  • the structural characteristics of the URL of the website can be analyzed, and subsequent URLs can be obtained according to the structural characteristics of the URL.
  • the HTTP request can be sent to the API interface of the website in GET mode.
  • an HTTP response is returned to inform that the operation of obtaining the first public opinion data can be performed.
  • the website provides data content in a specific format, and the data content in a specific format provided by the website needs to be analyzed and identified to view the data content.
  • the data format provided by the API interface of the website is a JSON format.
  • JSON is a data exchange format that uses syntax similar to C language.
  • the data content in the JSON format is analyzed and identified to view the data content.
  • the data content is predetermined information content. If the data content is not the predetermined information content, the data content is discarded, otherwise, the next step is executed.
  • the ultimate goal of data capture is to capture the content of network data locally.
  • a depth-first search strategy can be used to search the state space when the data content is captured.
  • a database can be created on a computing device, and the first public opinion data can be saved in the database.
  • Traditional web crawlers first set one or more entry URLs. In the process of crawling webpages, according to the crawling strategy, new URLs are extracted from the current webpage and placed in the queue to obtain the webpage content corresponding to the URL. , Save the web page content locally, and then extract the effective address as the next entry URL until the crawling is complete. With the rapid increase in the number of web pages, traditional web crawlers will download a large number of irrelevant web pages. Using the open API interface of the website to capture the first public opinion data through a web crawler can avoid downloading irrelevant web pages and efficiently obtain the first public opinion data, thereby improving the efficiency of public opinion analysis.
  • Each user's first subject term can be one or multiple.
  • the clustering of the first public opinion data of each user to obtain the first topic word of each user includes:
  • a vector space model is used to represent the first public opinion data, each text in the first public opinion data is represented by a vector in the vector space model (hereinafter referred to as a text vector), and the first Each text vector of public opinion data serves as a cluster;
  • the using a vector space model to represent the first public opinion data, and using a text vector in the vector space model to represent each text in the first public opinion data includes:
  • To perform stop word filtering and word segmentation processing on a text is to perform filtering processing and word segmentation processing on each sentence of the text.
  • the stop words may be words that are frequently used but have little actual meaning, and the stop words may include " ⁇ ", "Jiu” and the like.
  • the stop words may also include sensitive words.
  • a word segmentation method based on string matching, a word segmentation method based on understanding, or a word segmentation method based on statistics may be used to segment each text in the first public opinion data into meaningful entries.
  • the first public opinion data of all users in the plurality of users includes a total of n different terms, and the n different terms are regarded as n orthogonal dimensions in the vector space
  • Reducing the dimension of the vector space is to reduce the dimension of the text vector corresponding to each text in the first public opinion data of each user.
  • the similarity between the two clusters is the reciprocal of the sum of squared deviations between the two text vectors in the two clusters or two The reciprocal of the Euclidean distance between two text vectors in a cluster;
  • the similarity between the two clusters is the reciprocal of the sum of squared deviations between the two clusters or the Euclidean between the centroids of the two clusters The inverse of the distance.
  • Extracting the first topic word from the cluster of the first public opinion data includes:
  • Extracting the term with the largest weight from each cluster in which the sum of squared deviations of the first public opinion data is less than the preset sum of squared deviations is used as the first topic word.
  • the dividing the plurality of users according to the first topic word includes:
  • the first public opinion network is an undirected topology network, and the construction of the first public opinion network with the multiple users as nodes according to the first subject term includes:
  • the weight between the two connected users is determined according to the number of the same first subject terms between the two connected users.
  • each given user of the plurality of users calculate the number of the same first subject terms between the given user and other users connected (referring to direct connections); calculate; The number of users connected by the given user; the ratio of the number of the same first subject terms between the given user and other connected users to the number of users connected by the given user is the given The user's density value.
  • the user whose density value is greater than the preset density threshold among the multiple users is taken as the candidate user; the candidate users are sorted according to the density value from large to small, and the candidate users are ranked first.
  • the two users in the first and second positions are the center points of the first user cluster; the candidate users are selected one by one starting from the third user among the candidate users. If the selected candidate users are the same as those in the first and second If the two users are not connected, the selected candidate user is taken as the center point of the first user cluster.
  • the preset number of hops is three hops, and users among the multiple users who are within three hops from the center point of the first user cluster (that is, one hop, two hops, and three hops away) are added to the first user cluster.
  • a user cluster is three hops, and users among the multiple users who are within three hops from the center point of the first user cluster (that is, one hop, two hops, and three hops away) are added to the first user cluster.
  • a user cluster is three hops, and users among the multiple users who are within three hops from the center point of the first user cluster (that is, one hop, two hops, and three hops away) are added to the first user cluster.
  • a user cluster is, one hop, two hops, and three hops away
  • a user is directly connected to the center point of the first user cluster, the user is one hop away from the center point of the first user cluster; if a user is connected to the center point of the first user cluster through another user, the user is connected to the center point of the first user cluster.
  • the cluster center points are two hops apart; if a user and the first user cluster center point are connected by two other users, the user and the first user cluster center point are three hops away; and so on.
  • the first public opinion topic corresponding to the first user cluster may be generated according to a preset topic word-topic correspondence relationship. Each topic corresponds to multiple topic words.
  • the first subject terms are heavy precipitation, heavy rain warning, heavy rainfall, and the subject terms corresponding to the topic "heavy rain” in the topic-topic correspondence relationship include “heavy precipitation”, “heavy rain warning”, and “heavy rain”, then
  • the first public opinion theme generated according to the first topic word is rainstorm.
  • the second time period is adjacent to the first time period, and the second time period is after the first time period.
  • the second public opinion data of each user is clustered to obtain the second topic words of each user, which can refer to the description of 102, which will not be repeated here.
  • the multiple users are divided according to the second topic words, and the multiple second user clusters in the second time period and the second public opinion theme corresponding to each second user cluster can be referred to the description in 103. I won't repeat them here.
  • the same public opinion topic corresponds to If the number of second user clusters is greater than the number of first user clusters corresponding to the same public opinion topic, the same public opinion topic is in an ascending stage.
  • the same public opinion topic is in a stagnation stage.
  • the same public opinion topic is in a stagnation stage.
  • the same public opinion topic is in a declining stage.
  • the public opinion analysis method of the first embodiment extracts the first public opinion data published on the network by each user in the first time period among multiple users; clusters the first public opinion data of each user to obtain each The user’s first topic word; the multiple users are divided according to the first topic word to obtain the multiple first user clusters in the first time period and the first public opinion corresponding to each first user cluster Subject; extract the second public opinion data released on the network during the second time period of each user; cluster the second public opinion data of each user to obtain the second topic word of each user; according to The second topic word divides the multiple users to obtain multiple second user clusters in the second time period and a second public opinion theme corresponding to each second user cluster; determine the first public opinion For the same public opinion theme in the theme and the second public opinion theme, the evolution stage of the same public opinion theme is determined according to the first user cluster and the second user cluster corresponding to the same public opinion theme.
  • the first embodiment can determine the evolution stage of public opinion, and provides an important basis for taking countermeasures against public opinion. Continuously analyze the evolutionary stages of
  • the method further includes: if the same public opinion topic is in a rising stage, determining the public opinion center of the same public opinion topic in the plurality of first user clusters.
  • the determining the public opinion center of the same public opinion theme in the plurality of first user clusters includes:
  • the first user cluster with the earliest generation time is determined as the public opinion center of the same public opinion theme.
  • the user clusters in the historical time period and their corresponding public opinion topics can be acquired, and the generation time of the same public opinion topic can be determined according to the user clusters in the historical time period and their corresponding public opinion topics. For example, if the public opinion topics corresponding to the user clusters in the first historical time period, the second historical time period, and the third historical time period before the first time period include the same public opinion theme, and the first historical time If the time of the segment is the earliest, the start time of the first historical time segment is taken as the generation time of the same public opinion topic.
  • Fig. 2 is a structural diagram of a public opinion analysis device provided in the second embodiment of the present application.
  • the public opinion analysis device 20 is applied to a computer device.
  • the public opinion analysis device 20 is used to determine the evolution stage of the public opinion.
  • the public opinion analysis device 20 may include a first extraction module 201, a first clustering module 202, a first division module 203, a second extraction module 204, a second clustering module 205, and a second division module. 206.
  • the determining module 207 The determining module 207.
  • the first extraction module 201 is configured to extract the first public opinion data released on the network by each of the multiple users in the first time period.
  • the plurality of users may be preset users.
  • a user list with a certain degree of network activity may be preset, and users in the user list may be regarded as the multiple users.
  • the multiple users may also be users extracted from the network.
  • registered users in a preset online community for example, a certain forum
  • the registered users can be regarded as the multiple users.
  • a web page file is searched and read through a web crawler, and the first public opinion data is extracted from the web page file.
  • Web crawlers are applications that can automatically extract information and content of web pages.
  • Web crawlers usually start from one or several initial web page URLs (also called seed URLs), and obtain the initial web page URLs according to specific algorithms and strategies (such as depth-first search strategy, breadth-first search strategy, or heuristic search strategy) ), in the process of crawling the webpage, continuously extract new URLs from the current webpage and put them into the corresponding queue until the stop condition is met.
  • the web crawler deeply traverses the resources of the website and grabs the resources of the website locally.
  • the specific method is to analyze each valid URL of the website and submit an HTTP request to obtain the corresponding results, and generate local files and corresponding log information.
  • An open source crawler framework can be used to write a web crawler, search and read a web page file through the web crawler, and extract the first public opinion data from the web page file.
  • the public opinion data is text, and the public opinion data includes articles and comments.
  • the first public opinion data may be extracted from a preset website (for example, public opinion websites such as news, forums, blogs, post bars, etc.).
  • reading articles and comments on a forum extracting articles and comments published by the multiple users in the first time period from the articles and comments, to obtain the first public opinion data.
  • the Scrapy framework can be used to write the web crawler.
  • PySpider, Nutch, Crawler4j, WebMagic, WebCollector, or other open source crawler frameworks can also be used to write the web crawler.
  • the first public opinion data can be captured by using the API interface open on the website.
  • API is the abbreviation of application interface (application interface), through which the mutual communication between computer software can be realized.
  • the API interface of the website can return data in JSON format or XML format.
  • the first public opinion data can be captured through a web crawler by using an API interface opened by a website.
  • the specific process of using the API interface open on the website to capture the first public opinion data through a web crawler is as follows:
  • Seed URL is the basis and prerequisite for all the work of web crawlers. There can be one or multiple seed URLs.
  • the structural characteristics of the URL of the website can be analyzed, and subsequent URLs can be obtained according to the structural characteristics of the URL.
  • the HTTP request can be sent to the API interface of the website in GET mode.
  • an HTTP response is returned to inform that the operation of obtaining the first public opinion data can be performed.
  • the website provides data content in a specific format, and the data content in a specific format provided by the website needs to be analyzed and identified to view the data content.
  • the data format provided by the API interface of the website is a JSON format.
  • JSON is a data exchange format that uses syntax similar to C language.
  • the data content in the JSON format is analyzed and identified to view the data content.
  • the data content is predetermined information content. If the data content is not the predetermined information content, the data content is discarded, otherwise, the next step is executed.
  • the ultimate goal of data capture is to capture the content of network data locally.
  • a depth-first search strategy can be used to search the state space when the data content is captured.
  • a database can be created on a computing device, and the first public opinion data can be saved in the database.
  • Traditional web crawlers first set one or more entry URLs. In the process of crawling webpages, according to the crawling strategy, new URLs are extracted from the current webpage and placed in the queue to obtain the webpage content corresponding to the URL. , Save the web page content locally, and then extract the effective address as the next entry URL until the crawling is complete. With the rapid increase in the number of web pages, traditional web crawlers will download a large number of irrelevant web pages. Using the open API interface of the website to capture the first public opinion data through a web crawler can avoid downloading irrelevant web pages and efficiently obtain the first public opinion data, thereby improving the efficiency of public opinion analysis.
  • the first clustering module 202 is configured to cluster the first public opinion data of each user to obtain the first topic word of each user.
  • Each user's first subject term can be one or multiple.
  • the clustering of the first public opinion data of each user to obtain the first topic word of each user includes:
  • a vector space model is used to represent the first public opinion data, each text in the first public opinion data is represented by a vector in the vector space model (hereinafter referred to as a text vector), and the first Each text vector of public opinion data serves as a cluster;
  • the using a vector space model to represent the first public opinion data, and using a text vector in the vector space model to represent each text in the first public opinion data includes:
  • To perform stop word filtering and word segmentation processing on a text is to perform filtering processing and word segmentation processing on each sentence of the text.
  • the stop words may be words that are frequently used but have little actual meaning, and the stop words may include " ⁇ ", "Jiu” and the like.
  • the stop words may also include sensitive words.
  • a word segmentation method based on string matching, a word segmentation method based on understanding, or a word segmentation method based on statistics may be used to segment each text in the first public opinion data into meaningful entries.
  • the first public opinion data of all users in the plurality of users includes a total of n different terms, and the n different terms are regarded as n orthogonal dimensions in the vector space
  • Reducing the dimension of the vector space is to reduce the dimension of the text vector corresponding to each text in the first public opinion data of each user.
  • the similarity between the two clusters is the reciprocal of the sum of squared deviations between the two text vectors in the two clusters or two The reciprocal of the Euclidean distance between two text vectors in a cluster;
  • the similarity between the two clusters is the reciprocal of the sum of squared deviations between the two clusters or the Euclidean between the centroids of the two clusters The inverse of the distance.
  • Extracting the first topic word from the cluster of the first public opinion data includes:
  • Extracting the term with the largest weight from each cluster in which the sum of squared deviations of the first public opinion data is less than the preset sum of squared deviations is used as the first topic word.
  • the first division module 203 is configured to divide the plurality of users according to the first topic words to obtain the plurality of first user clusters in the first time period and the first user cluster corresponding to each first user cluster. Public opinion theme.
  • the dividing the plurality of users according to the first topic word includes:
  • the first public opinion network is an undirected topology network, and the construction of the first public opinion network with the multiple users as nodes according to the first subject term includes:
  • the weight between the two connected users is determined according to the number of the same first subject terms between the two connected users.
  • each given user of the plurality of users calculate the number of the same first subject terms between the given user and other users connected (referring to direct connections); calculate; The number of users connected by the given user; the ratio of the number of the same first subject terms between the given user and other connected users to the number of users connected by the given user is the given The user's density value.
  • the user whose density value is greater than the preset density threshold among the multiple users is taken as the candidate user; the candidate users are sorted according to the density value from large to small, and the candidate users are ranked first.
  • the two users in the first and second positions are the center points of the first user cluster; the candidate users are selected one by one starting from the third user among the candidate users. If the selected candidate users are the same as those in the first and second If the two users are not connected, the selected candidate user is taken as the center point of the first user cluster.
  • the preset number of hops is three hops, and users among the multiple users who are within three hops from the center point of the first user cluster (that is, one hop, two hops, and three hops away) are added to the first user cluster.
  • a user cluster is three hops, and users among the multiple users who are within three hops from the center point of the first user cluster (that is, one hop, two hops, and three hops away) are added to the first user cluster.
  • a user cluster is three hops, and users among the multiple users who are within three hops from the center point of the first user cluster (that is, one hop, two hops, and three hops away) are added to the first user cluster.
  • a user cluster is, one hop, two hops, and three hops away
  • a user is directly connected to the center point of the first user cluster, the user is one hop away from the center point of the first user cluster; if a user is connected to the center point of the first user cluster through another user, the user is connected to the center point of the first user cluster.
  • the cluster center points are two hops apart; if a user and the first user cluster center point are connected by two other users, the user and the first user cluster center point are three hops away; and so on.
  • the first public opinion topic corresponding to the first user cluster may be generated according to a preset topic word-topic correspondence relationship. Each topic corresponds to multiple topic words.
  • the first subject terms are heavy precipitation, heavy rain warning, heavy rainfall, and the subject terms corresponding to the topic "heavy rain” in the topic-topic correspondence relationship include “heavy precipitation”, “heavy rain warning”, and “heavy rain”, then
  • the first public opinion theme generated according to the first topic word is rainstorm.
  • the second extraction module 204 is configured to extract the second public opinion data published by each user on the network during the second time period.
  • the second time period is adjacent to the first time period, and the second time period is after the first time period.
  • the second clustering module 205 is configured to cluster the second public opinion data of each user to obtain the second topic word of each user.
  • the second division module 206 is configured to divide the plurality of users according to the second topic words to obtain the plurality of second user clusters in the second time period and the second user cluster corresponding to each second user cluster. Public opinion theme.
  • the multiple users are divided according to the second topic words to obtain multiple second user clusters in the second time period and the second public opinion theme corresponding to each second user cluster.
  • I won’t repeat it here.
  • the determining module 207 is configured to determine the same public opinion topic in the first public opinion topic and the second public opinion topic, and determine the same public opinion according to the first user cluster and the second user cluster corresponding to the same public opinion topic The evolutionary stage of the theme.
  • the same public opinion topic corresponds to If the number of second user clusters is greater than the number of first user clusters corresponding to the same public opinion topic, the same public opinion topic is in an ascending stage.
  • the same public opinion topic is in a stagnation stage.
  • the same public opinion topic is in a stagnation stage.
  • the same public opinion topic is in a decline stage.
  • the public opinion analysis device 20 of the second embodiment extracts the first public opinion data published by each user in the network during the first time period among multiple users; clusters the first public opinion data of each user to obtain the first public opinion data of each user.
  • the first topic words of each user; the plurality of users are divided according to the first topic words to obtain the plurality of first user clusters in the first time period and the first user cluster corresponding to each first user cluster Public opinion topic; extract the second public opinion data published on the network within the second time period of each user; cluster the second public opinion data of each user to obtain the second topic word of each user;
  • the multiple users are divided according to the second topic words to obtain multiple second user clusters in the second time period and a second public opinion theme corresponding to each second user cluster; determine the first For the same public opinion topic in the public opinion topic and the second public opinion topic, the evolution stage of the same public opinion topic is determined according to the first user cluster and the second user cluster corresponding to the same public opinion topic.
  • the second embodiment can determine the evolution stage of public opinion, and provides
  • the determining module is further configured to, if the same public opinion topic is in an ascending stage, determine the public opinion center of the same public opinion topic in the plurality of first user clusters.
  • the determining the public opinion center of the same public opinion theme in the plurality of first user clusters includes:
  • the first user cluster with the earliest generation time is determined as the public opinion center of the same public opinion theme.
  • the user clusters in the historical time period and their corresponding public opinion topics can be acquired, and the generation time of the same public opinion topic can be determined according to the user clusters in the historical time period and their corresponding public opinion topics. For example, if the public opinion topics corresponding to the user clusters in the first historical time period, the second historical time period, and the third historical time period before the first time period include the same public opinion theme, and the first historical time If the time of the segment is the earliest, the start time of the first historical time segment is taken as the generation time of the same public opinion topic.
  • This embodiment provides a computer-readable storage medium with a computer program stored on the computer-readable storage medium, and when the computer program is executed by a processor, the steps in the above public opinion analysis method embodiment are implemented, such as 101 shown in FIG. 1 -107:
  • each module in the above-mentioned device embodiment is realized, for example, the modules 201-207 in Fig. 2:
  • the first extraction module 201 is configured to extract the first public opinion data released on the network by each of the multiple users in the first time period;
  • the first clustering module 202 is configured to cluster the first public opinion data of each user to obtain the first topic word of each user;
  • the first division module 203 is configured to divide the plurality of users according to the first topic words to obtain the plurality of first user clusters in the first time period and the first user cluster corresponding to each first user cluster.
  • Public opinion theme
  • the second extraction module 204 is configured to extract the second public opinion data published by each user on the network in the second time period;
  • the second clustering module 205 is configured to cluster the second public opinion data of each user to obtain the second topic word of each user;
  • the second division module 206 is configured to divide the plurality of users according to the second topic words to obtain the plurality of second user clusters in the second time period and the second user cluster corresponding to each second user cluster.
  • Public opinion theme
  • the determining module 207 is configured to determine the same public opinion topic in the first public opinion topic and the second public opinion topic, and determine the same public opinion according to the first user cluster and the second user cluster corresponding to the same public opinion topic The evolutionary stage of the theme.
  • FIG. 3 is a schematic diagram of a computer device provided in Embodiment 4 of this application.
  • the computer device 30 includes a memory 301, a processor 302, and a computer program 303 stored in the memory 301 and running on the processor 302, such as a public opinion analysis program.
  • the processor 302 implements the steps in the embodiment of the public opinion analysis method when the computer program 303 is executed, for example, 101-107 shown in FIG. 1:
  • each module in the above-mentioned device embodiment is realized, for example, the modules 201-207 in Fig. 2:
  • the first extraction module 201 is configured to extract the first public opinion data released on the network by each of the multiple users in the first time period;
  • the first clustering module 202 is configured to cluster the first public opinion data of each user to obtain the first topic word of each user;
  • the first division module 203 is configured to divide the plurality of users according to the first topic words to obtain the plurality of first user clusters in the first time period and the first user cluster corresponding to each first user cluster.
  • Public opinion theme
  • the second extraction module 204 is configured to extract the second public opinion data published by each user on the network in the second time period;
  • the second clustering module 205 is configured to cluster the second public opinion data of each user to obtain the second topic word of each user;
  • the second division module 206 is configured to divide the plurality of users according to the second topic words to obtain the plurality of second user clusters in the second time period and the second user cluster corresponding to each second user cluster.
  • Public opinion theme
  • the determining module 207 is configured to determine the same public opinion topic in the first public opinion topic and the second public opinion topic, and determine the same public opinion according to the first user cluster and the second user cluster corresponding to the same public opinion topic The evolutionary stage of the theme.
  • the computer program 303 may be divided into one or more modules, and the one or more modules are stored in the memory 301 and executed by the processor 302 to complete the method.
  • the one or more modules may be a series of computer-readable instruction segments capable of completing specific functions, and the computer-readable instruction segments are used to describe the execution process of the computer program 303 in the computer device 30.
  • the computer program 303 can be divided into the first extraction module 201, the first clustering module 202, the first division module 203, the second extraction module 204, the second clustering module 205, and the second division in FIG. Module 206, determination module 207, the specific functions of each module refer to the second embodiment.
  • the schematic diagram 3 is only an example of the computer device 30 and does not constitute a limitation on the computer device 30. It may include more or less components than those shown in the figure, or combine certain components, or be different.
  • the computer device 30 may also include input and output devices, network access devices, buses, and so on.
  • the so-called processor 302 may be a central processing unit (Central Processing Unit, CPU), other general-purpose processors, digital signal processors (Digital Signal Processor, DSP), application specific integrated circuits (Application Specific Integrated Circuit, ASIC), Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gates or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor can be a microprocessor or the processor 302 can also be any conventional processor, etc.
  • the processor 302 is the control center of the computer device 30, which uses various interfaces and lines to connect the entire computer device 30. Various parts.
  • the memory 301 may be used to store the computer program 303, and the processor 302 implements the computer device by running or executing the computer program or module stored in the memory 301 and calling data stored in the memory 301 30 various functions.
  • the memory 301 may mainly include a storage program area and a storage data area, where the storage program area may store an operating system, an application program required by at least one function (such as a sound playback function, an image playback function, etc.); the storage data area may Data (such as audio data) created in accordance with the use of the computer device 30 and the like are stored.
  • the memory 301 may include non-volatile and volatile memories, such as hard disks, memory, plug-in hard disks, smart media cards (SMC), secure digital (SD) cards, flash memory cards ( Flash Card), at least one magnetic disk storage device, flash memory device or other storage device.
  • non-volatile and volatile memories such as hard disks, memory, plug-in hard disks, smart media cards (SMC), secure digital (SD) cards, flash memory cards ( Flash Card), at least one magnetic disk storage device, flash memory device or other storage device.
  • the integrated module of the computer device 30 When the integrated module of the computer device 30 is implemented in the form of a software function module and sold or used as an independent product, it may be stored in a computer-readable storage medium, which may be non-volatile.
  • the storage medium can also be a volatile storage medium.
  • the present application implements all or part of the processes in the above-mentioned embodiments and methods, and can also be completed by instructing relevant hardware through a computer program.
  • the computer program can be stored in a computer-readable storage medium. When the program is executed by the processor, it can implement the steps of the foregoing method embodiments.
  • the computer program includes computer-readable instruction code, and the computer-readable instruction code may be in the form of source code, object code, executable file, or some intermediate form.
  • the computer-readable medium may include: any entity or device capable of carrying the computer program code, recording medium, U disk, mobile hard disk, magnetic disk, optical disk, computer memory, read-only memory (ROM, Read-Only Memory) , Random access memory
  • the modules described as separate components may or may not be physically separated, and the components displayed as modules may or may not be physical modules, and may be located in one place or distributed on multiple network units. Some or all of the modules can be selected according to actual needs to achieve the objectives of the solutions of the embodiments.
  • each functional module in each embodiment of the present application may be integrated into one processing module, or each module may exist alone physically, or two or more modules may be integrated into one module.
  • the above-mentioned integrated modules can be implemented in the form of hardware, or in the form of hardware plus software functional modules.
  • the above-mentioned integrated modules implemented in the form of software functional modules may be stored in a computer readable storage medium.
  • the above-mentioned software function module is stored in a storage medium and includes several instructions to make a computer device (which may be a personal computer, a server, or a network device, etc.) or a processor execute the method described in each embodiment of the present application. Part of the steps.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种舆情分析方法、装置、计算机装置及存储介质,涉及人工智能。所述方法包括:提取每个用户第一时间段内在网络中发布的第一舆情数据;对每个用户的第一舆情数据进行聚类,得到每个用户的第一主题词;得到第一时间段内的第一用户簇及第一舆情主题;提取每个用户第二时间段内在网络中发布的第二舆情数据;对每个用户的第二舆情数据进行聚类,得到每个用户的第二主题词;根据第二主题词得到第二时间段内的第二用户簇及第二舆情主题;确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,确定所述相同的舆情主题的演化阶段。所述方法能够根据不同时间段的舆情数据确定舆情的演化阶段。

Description

舆情分析方法、装置、计算机装置及存储介质
本申请要求于2019年10月17日提交中国专利局,申请号为201910989748.1,发明名称为“舆情分析方法、装置、计算机装置及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及互联网舆情技术领域,尤其涉及一种舆情分析方法、装置、计算机装置及存储介质。
背景技术
随着互联网的普及,互联网日渐成为人们发布信息、获取信息和传递信息的主要载体,一定程度地反映了社会公众对社会现实的主观情感,即舆情。舆情数据对及时了解民意、反映社会信息、控制引导舆论正确的发展、社会稳定和国家发展至关重要。对舆情进行分析有助于了解事件的发展态势,避免事件的恶性蔓延,为舆情事件应急管理提供重要的决策支持。舆情的演化阶段是针对舆情采取应对措施的一个重要依据。然而,发明人意识到现有的舆情分析方法主要是对某一时间段内的舆情热点进行分析,缺少对舆情演化阶段的分析,也就是不能确定舆情的演化阶段。
发明内容
鉴于以上内容,有必要提出一种舆情分析方法、装置、计算机装置及存储介质,其可以确定舆情的演化阶段,为针对舆情采取应对措施提供了重要依据。
本申请的第一方面提供一种舆情分析方法,所述舆情分析方法包括:
提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
本申请的第二方面提供一种计算机装置,所述计算机装置包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机可读指令以实现以下步骤:
提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
本申请的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有至少一个计算机可读指令,所述至少一个计算机可读指令被处理器执行以实现以下步骤:
提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
本申请的第四方面提供一种舆情分析装置,所述舆情分析装置包括:
第一提取模块,用于提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
第一聚类模块,用于对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
第一划分模块,用于根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
第二提取模块,用于提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
第二聚类模块,用于对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
第二划分模块,用于根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定模块,用于确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
由以上技术方案可以看出,本申请提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;提取所述每个用户第二时间段内在网络中发布的第二舆情数据;对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。本申请能够确定舆情的演化阶段,为针对舆情采取应对措施提供了重要依据。
附图说明
图1是本申请实施例提供的舆情分析方法的流程图。
图2是本申请实施例提供的舆情分析装置的结构图。
图3是本申请实施例提供的计算机装置的示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
优选地,本申请的舆情分析方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本申请实施例一提供的舆情分析方法的流程图。所述舆情分析方法应用于计算机装置。
本申请舆情分析方法用于确定舆情的演化阶段。
如图1所示,所述舆情分析方法包括:
101,提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据。
所述多个用户可以是预先设定的用户。例如,可以预先设定具有一定网络活跃度的用户列表,将该用户列表中的用户作为所述多个用户。
所述多个用户也可以是从网络中提取到的用户。例如,可以提取预设网络社区(例如某论坛)上的注册用户,将所述注册用户作为所述多个用户。
具体地,根据所述多个用户的用户信息,通过网络爬虫搜索并读取网页文件,从所述网页文件中提取所述第一舆情数据。
网络爬虫是可以自动提取网页数据信息内容的应用程序。网络爬虫通常是从一个或者是若干个初始网页的URL(也称种子URL)开始,获取初始网页的URL,依照特定的算法和策略(例如深度优先搜索策略、广度优先搜索策略或启发式搜索策略),在对网页进行抓取的过程中,不断地从当前的网页中抽取新的URL放入到相应的队列中,直到满足停止条件为止。网络爬虫深度遍历网站的资源,将网站的资源抓取到本地,具体的方法就是分析网站每一个有效的URL,并提交HTTP请求,从而获得相应结果,生成本地文件及相应的日志信息。
可以使用开源性爬虫框架编写网络爬虫,通过网络爬虫搜索并读取网页文件,从所述网页文件中提取所述第一舆情数据。
所述舆情数据为文本,所述舆情数据包括文章和评论。可以从预设网站(例如新闻、论坛、博客、贴吧等舆情网站)提取所述第一舆情数据。
例如,读取论坛的文章和评论,从所述文章和评论中提取所述多个用户在所述第一时间 段内发布的文章和评论,得到所述第一舆情数据。
在本实施例中,可以使用Scrapy框架编写所述网络爬虫。在其他的实施例中,还可以使用PySpider、Nutch、Crawler4j、WebMagic、WebCollector或其他的开源性爬虫框架编写所述网络爬虫。
可以利用网站开放的API接口抓取所述第一舆情数据。API是应用程序接口(application interface)的缩写,通过API接口可以实现计算机软件之间的相互通信。网站开放的API接口可以返回JSON格式或者XML格式的数据。
在一具体实施例中,可以利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据。利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据的具体过程如下:
(1)生成面向所述网站的API接口的种子URL以及后续的URL。
种子URL是网络爬虫进行一切工作的基础和前提。种子URL可以是一个也可以是多个。
可以对网站的URL的结构特点进行分析,根据URL的结构特点得到后续的URL。
(2)向所述网站的API接口发送HTTP请求,请求访问所述API接口。
可以以GET方式向所述网站的API接口发送HTTP请求。当网站同意获取其提供的第一舆情数据时,返回HTTP响应,以告知可以进行获取第一舆情数据的操作。
(3)对所述网站提供的数据内容进行分析和识别,以查看所述数据内容。
网站提供特定格式的数据内容,需要对网站提供的特定格式的数据内容进行分析和识别,来查看所述数据内容。例如,所述网站的API接口提供的数据格式为JSON格式。JSON是一种数据交换格式,使用了类似于C语言的语法习惯。对该JSON格式的数据内容进行分析和识别,来查看所述数据内容。
(4)判断所述数据内容是否为预定信息内容。
为了得到第一舆情数据,需要判断所述数据内容是否为预定信息内容。若所述数据内容不是预定信息内容,则舍弃该数据内容,否则执行下一步骤。
(5)若所述数据内容为预定信息内容,则抓取所述数据内容。
数据抓取的最终目的是将网络数据内容抓取到本地。对于JSON格式的数据内容,在抓取所述数据内容时可以采用深度优先搜索策略进行状态空间搜索。
(6)将抓取的数据内容作为所述第一舆情数据保存到本地。
可以在计算设备上创建数据库,将所述第一舆情数据保存到所述数据库中。
传统的网络爬虫都是首先设定一个或者多个入口URL,在抓取网页的过程中,按照抓取的策略,从当前网页上提取出新的URL放入队列,以便获取URL对应的网页内容,将网页内容保存到本地,然后,再提取有效地址作为下一次的入口URL,直到爬行完毕。随着网页数量的剧增,传统的网络爬虫会下载大量的无关网页。利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据,可以避免下载无关网页,高效地获取第一舆情数据,从而提高舆情分析的效率。
102,对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词。
每个用户的第一主题词可以是一个,也可以是多个。
所述对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词包括:
(a)采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个向量(以下称文本向量)表示,将所述第一舆情数据的每个文本向量作为一个簇;
(b)计算所述第一舆情数据的每两个簇之间的相似度;
(c)将相似度最大的两个簇合并为一个新的簇;
(d)循环执行(b)—(c),直至所述第一舆情数据的簇的数量达到预设数量;
(e)从所述第一舆情数据的簇中提取所述第一主题词。
所述采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示包括:
(1)对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条。
对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条,是指对所述第一舆情数据中的每个文本进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据中的每个文本包含的不同的词条,所述每个用户的第一舆情数据中的所有文本包含的不同的词条为所述每个用户的第一舆情数据包含的不同的词条。
对一个文本进行停用词过滤处理、分词处理是对该文本的每条语句进行过滤处理、分词处理。
所述停用词可以是使用频繁但实际意义不大的词,所述停用词可以包括“的”、“就”等。所述停用词还可以包括敏感词。
可以采用基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法将所述第一舆情数据中的每个文本切分成有意义的词条。
例如;对语句“建立有效的网络防病毒机制”进行停用词过滤处理得到“建立有效网络防病毒机制”;采用基于理解的分词方法将过滤后的语句“建立有效网络防病毒机制”进行分词后,得到“建立”、“有效”、“网络”、“防”、“病毒”、“机制”六个不同的词条。
(2)将所述多个用户中所有用户的第一舆情数据包含的所有不同的词条作为所述向量空间中不同的正交维度,根据所述每个用户的第一舆情数据中的每个文本包含的不同的词条计算所述每个文本在每个正交维度的坐标值,得到所述每个文本对应的文本向量。
在一具体实施方式中,所述多个用户中所有用户的第一舆情数据总共包含n个不同的词条,将所述n个不同的词条作为所述向量空间中的n个正交维度,将所述第一舆情数据中的第i个文本D i表示为所述向量空间中的文本向量(W 1,i,W 2,i,…,W n,i),其中,W j,i(即D i在维度j的坐标值)为文本D i中词条j的权重,W j,i=TF j×IDF j(1+sim(j,k)),其中TF j表示词条j在文本D i中出现的次数,
Figure PCTCN2020111918-appb-000001
N表示第一舆情数据中所有文本的数量,n j表示第一舆情数据中包括词条j的文本的数量,sim(j,k)表示词条j与文本D i中词条j的近义词词条k的相似度。
(3)基于所述多个用户中所有用户的第一舆情数据包含的所有不同的词条的信息增益缩减所述向量空间的维度。
缩减所述向量空间的维度就是对所述每个用户的第一舆情数据中的每个文本对应的文本向量进行降维。
计算所述多个用户中所有用户的第一舆情数据包含的所有不同的词条(例如n个不同的词条)的信息增益,选取信息增益最大的预设数量的词条对应的维度作为缩减后的所述向量空间的维度。
将每个文本向量作为一个簇就是对第一舆情数据D={D 1,D 2,…,D i,…D m}进行划分,分成
Figure PCTCN2020111918-appb-000002
C x称为一个簇。
两个簇之间的相似度可以计算如下:
若两个簇中的每个簇只包括一个文本向量(即初始状态下),两个簇之间的相似度为两个簇中的两个文本向量之间的离差平方和的倒数或两个簇中的两个文本向量之间的欧式距离的倒数;
若两个簇中的每个簇包括两个或两个以上文本向量,两个簇之间的相似度为两个簇之间的离差平方和的倒数或两个簇的质心之间的欧式距离的倒数。
从所述第一舆情数据的簇中提取所述第一主题词包括:
从所述第一舆情数据的文本向量最多的簇中提取信息增益最大的词条作为所述第一主题词;或者
从所述第一舆情数据的文本向量最多的簇中提取信息增益大于预设增益阈值的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和最小的簇中提取权重最大的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和小于预设离差平方和的每个簇中提取权重最大的词条作为所述第一主题词。
103,根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题。
所述根据所述第一主题词对所述多个用户进行划分包括:
(a)根据所述第一主题词以所述多个用户为节点构建第一舆情网络。
在一具体实施例中,所述第一舆情网络为无向拓扑网络,所述根据所述第一主题词以所述多个用户为节点构建第一舆情网络包括:
连接所述多个用户中有相同的第一主题词的两个用户;
根据相连接的两个用户之间相同的第一主题词的数量确定该相连接的两个用户之间的权值。
(b)根据所述第一舆情网络计算所述多个用户中的每个用户的密度值。
在一具体实施例中,对于所述多个用户中的每个给定用户,计算所述给定用户和相连接(指直接连接)的其他用户之间相同的第一主题词的数量;计算所述给定用户连接的用户的数量;所述给定用户和相连接的其他用户之间相同的第一主题词的数量与所述给定用户连接的用户的数量的比值为所述给定用户的密度值。
(c)根据所述多个用户中的每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇。
在本实施例中,将所述多个用户中密度值大于预设密度阈值的用户作为候选用户;将所述候选用户按照密度值从大到小排序,将所述候选用户中排在第一位和第二位的两个用户作为第一用户簇中心点;从所述候选用户中排在第三位的用户开始逐一选择候选用户,若选择的候选用户与排在第一位和第二位的两个用户没有连接,则将所述选择的候选用户作为第一用户簇中心点。
(d)将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇。
例如,所述预设跳数为三跳,将所述多个用户中与所述第一用户簇中心点相距三跳内(即相距一跳、二跳和三跳)的用户加入所述第一用户簇。
若一个用户与第一用户簇中心点直接相连,则该用户与第一用户簇中心点相距一跳;若一个用户与第一用户簇中心点通过另一用户相连,则该用户与第一用户簇中心点相距两条跳;若一个用户与第一用户簇中心点通过另外两个用户相连,则该用户与第一用户簇中心点相距三跳;依此类推。
(e)根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题。
可以根据预设的主题词-主题对应关系生成所述第一用户簇对应的第一舆情主题。每个主题对应多个主题词。
例如,第一主题词为强降水、暴雨预警、强降雨,所述主题词-主题对应关系中主题“暴雨”对应的主题词包括“强降水”、“暴雨预警”、“强降雨”,则根据该第一主题词生成的第一舆情主题为暴雨。
104,提取所述每个用户第二时间段内在网络中发布的第二舆情数据。
提取每个用户第一时间段内在网络中发布的第二舆情数据可以参照101的描述,此处不再赘述。所述第二时间段与所述第一时间段相邻,且所述第二时间段在所述第一时间段之后。
105,对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词。
对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词可以参照102的描述,此处不再赘述。
106,根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题。
根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题可以参照103的描述,此处不再赘述。
107,确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
在一具体实施例中,若所述相同的舆情主题对应的第二用户簇中用户的数量大于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量大于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于上升阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量大于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量小于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于停滞阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量小于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量大于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于停滞阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量小于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量小于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于下降阶段。
实施例一的舆情分析方法提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;提取所述每个用户第二时间段内在网络中发布的第二舆情数据;对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。实施例一能够确定舆情的演化阶段,为针对舆情采取应对措施提供了重要依据。连续对舆情的演化阶段进行分析,即可实现对舆情演变过程的追踪。
在另一实施例中,所述方法还包括:若所述相同的舆情主题处于上升阶段,则在所述多个第一用户簇中确定所述相同的舆情主题的舆情中心。
在一具体实施例中,所述在所述多个第一用户簇中确定所述相同的舆情主题的舆情中心包括:
获取所述多个第一用户簇中所述相同的舆情主题对应的第一用户簇的所述相同的舆情主题的生成时间;
将所述生成时间最早的第一用户簇确定为所述相同的舆情主题的舆情中心。
可以获取历史时间段的用户簇及其对应的舆情主题,根据历史时间段的用户簇及其对应的舆情主题确定所述相同的舆情主题的生成时间。例如,若所述第一时间段之前的第一历史时间段、第二历史时间段、第三历史时间段的用户簇对应的舆情主题包括所述相同的舆情主 题,且所述第一历史时间段的时间最早,则将所述第一历史时间段的起始时间作为所述相同的舆情主题的生成时间。
实施例二
图2是本申请实施例二提供的舆情分析装置的结构图。所述舆情分析装置20应用于计算机装置。所述舆情分析装置20用于确定舆情的演化阶段。如图2所示,所述舆情分析装置20可以包括第一提取模块201、第一聚类模块202、第一划分模块203、第二提取模块204、第二聚类模块205、第二划分模块206、确定模块207。
第一提取模块201,用于提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据。
所述多个用户可以是预先设定的用户。例如,可以预先设定具有一定网络活跃度的用户列表,将该用户列表中的用户作为所述多个用户。
所述多个用户也可以是从网络中提取到的用户。例如,可以提取预设网络社区(例如某论坛)上的注册用户,将所述注册用户作为所述多个用户。
具体地,根据所述多个用户的用户信息,通过网络爬虫搜索并读取网页文件,从所述网页文件中提取所述第一舆情数据。
网络爬虫是可以自动提取网页数据信息内容的应用程序。网络爬虫通常是从一个或者是若干个初始网页的URL(也称种子URL)开始,获取初始网页的URL,依照特定的算法和策略(例如深度优先搜索策略、广度优先搜索策略或启发式搜索策略),在对网页进行抓取的过程中,不断地从当前的网页中抽取新的URL放入到相应的队列中,直到满足停止条件为止。网络爬虫深度遍历网站的资源,将网站的资源抓取到本地,具体的方法就是分析网站每一个有效的URL,并提交HTTP请求,从而获得相应结果,生成本地文件及相应的日志信息。
可以使用开源性爬虫框架编写网络爬虫,通过网络爬虫搜索并读取网页文件,从所述网页文件中提取所述第一舆情数据。
所述舆情数据为文本,所述舆情数据包括文章和评论。可以从预设网站(例如新闻、论坛、博客、贴吧等舆情网站)提取所述第一舆情数据。
例如,读取论坛的文章和评论,从所述文章和评论中提取所述多个用户在所述第一时间段内发布的文章和评论,得到所述第一舆情数据。
在本实施例中,可以使用Scrapy框架编写所述网络爬虫。在其他的实施例中,还可以使用PySpider、Nutch、Crawler4j、WebMagic、WebCollector或其他的开源性爬虫框架编写所述网络爬虫。
可以利用网站开放的API接口抓取所述第一舆情数据。API是应用程序接口(application interface)的缩写,通过API接口可以实现计算机软件之间的相互通信。网站开放的API接口可以返回JSON格式或者XML格式的数据。
在一具体实施例中,可以利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据。利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据的具体过程如下:
(1)生成面向所述网站的API接口的种子URL以及后续的URL。
种子URL是网络爬虫进行一切工作的基础和前提。种子URL可以是一个也可以是多个。
可以对网站的URL的结构特点进行分析,根据URL的结构特点得到后续的URL。
(2)向所述网站的API接口发送HTTP请求,请求访问所述API接口。
可以以GET方式向所述网站的API接口发送HTTP请求。当网站同意获取其提供的第一舆情数据时,返回HTTP响应,以告知可以进行获取第一舆情数据的操作。
(3)对所述网站提供的数据内容进行分析和识别,以查看所述数据内容。
网站提供特定格式的数据内容,需要对网站提供的特定格式的数据内容进行分析和识别,来查看所述数据内容。例如,所述网站的API接口提供的数据格式为JSON格式。JSON是一 种数据交换格式,使用了类似于C语言的语法习惯。对该JSON格式的数据内容进行分析和识别,来查看所述数据内容。
(4)判断所述数据内容是否为预定信息内容。
为了得到第一舆情数据,需要判断所述数据内容是否为预定信息内容。若所述数据内容不是预定信息内容,则舍弃该数据内容,否则执行下一步骤。
(5)若所述数据内容为预定信息内容,则抓取所述数据内容。
数据抓取的最终目的是将网络数据内容抓取到本地。对于JSON格式的数据内容,在抓取所述数据内容时可以采用深度优先搜索策略进行状态空间搜索。
(6)将抓取的数据内容作为所述第一舆情数据保存到本地。
可以在计算设备上创建数据库,将所述第一舆情数据保存到所述数据库中。
传统的网络爬虫都是首先设定一个或者多个入口URL,在抓取网页的过程中,按照抓取的策略,从当前网页上提取出新的URL放入队列,以便获取URL对应的网页内容,将网页内容保存到本地,然后,再提取有效地址作为下一次的入口URL,直到爬行完毕。随着网页数量的剧增,传统的网络爬虫会下载大量的无关网页。利用网站开放的API接口,通过网络爬虫抓取所述第一舆情数据,可以避免下载无关网页,高效地获取第一舆情数据,从而提高舆情分析的效率。
第一聚类模块202,用于对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词。
每个用户的第一主题词可以是一个,也可以是多个。
所述对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词包括:
(a)采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个向量(以下称文本向量)表示,将所述第一舆情数据的每个文本向量作为一个簇;
(b)计算所述第一舆情数据的每两个簇之间的相似度;
(c)将相似度最大的两个簇合并为一个新的簇;
(d)循环执行(b)—(c),直至所述第一舆情数据的簇的数量达到预设数量;
(e)从所述第一舆情数据的簇中提取所述第一主题词。
所述采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示包括:
(1)对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条。
对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条,是指对所述第一舆情数据中的每个文本进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据中的每个文本包含的不同的词条,所述每个用户的第一舆情数据中的所有文本包含的不同的词条为所述每个用户的第一舆情数据包含的不同的词条。
对一个文本进行停用词过滤处理、分词处理是对该文本的每条语句进行过滤处理、分词处理。
所述停用词可以是使用频繁但实际意义不大的词,所述停用词可以包括“的”、“就”等。所述停用词还可以包括敏感词。
可以采用基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法将所述第一舆情数据中的每个文本切分成有意义的词条。
例如;对语句“建立有效的网络防病毒机制”进行停用词过滤处理得到“建立有效网络防病毒机制”;采用基于理解的分词方法将过滤后的语句“建立有效网络防病毒机制”进行 分词后,得到“建立”、“有效”、“网络”、“防”、“病毒”、“机制”六个不同的词条。
(2)将所述多个用户中所有用户的第一舆情数据包含的所有不同的词条作为所述向量空间中不同的正交维度,根据所述每个用户的第一舆情数据中的每个文本包含的不同的词条计算所述每个文本在每个正交维度的坐标值,得到所述每个文本对应的文本向量。
在一具体实施方式中,所述多个用户中所有用户的第一舆情数据总共包含n个不同的词条,将所述n个不同的词条作为所述向量空间中的n个正交维度,将所述第一舆情数据中的第i个文本D i表示为所述向量空间中的文本向量(W 1,i,W 2,i,…,W n,i),其中,W j,i(即D i在维度j的坐标值)为文本D i中词条j的权重,W j,i=TF j×IDF j(1+sim(j,k)),其中TF j表示词条j在文本D i中出现的次数,
Figure PCTCN2020111918-appb-000003
N表示第一舆情数据中所有文本的数量,n j表示第一舆情数据中包括词条j的文本的数量,sim(j,k)表示词条j与文本D i中词条j的近义词词条k的相似度。
(3)基于所述多个用户中所有用户的第一舆情数据包含的所有不同的词条的信息增益缩减所述向量空间的维度。
缩减所述向量空间的维度就是对所述每个用户的第一舆情数据中的每个文本对应的文本向量进行降维。
计算所述多个用户中所有用户的第一舆情数据包含的所有不同的词条(例如n个不同的词条)的信息增益,选取信息增益最大的预设数量的词条对应的维度作为缩减后的所述向量空间的维度。
将每个文本向量作为一个簇就是对第一舆情数据D={D 1,D 2,…,D i,…D m}进行划分,分成
Figure PCTCN2020111918-appb-000004
C x称为一个簇。
两个簇之间的相似度可以计算如下:
若两个簇中的每个簇只包括一个文本向量(即初始状态下),两个簇之间的相似度为两个簇中的两个文本向量之间的离差平方和的倒数或两个簇中的两个文本向量之间的欧式距离的倒数;
若两个簇中的每个簇包括两个或两个以上文本向量,两个簇之间的相似度为两个簇之间的离差平方和的倒数或两个簇的质心之间的欧式距离的倒数。
从所述第一舆情数据的簇中提取所述第一主题词包括:
从所述第一舆情数据的文本向量最多的簇中提取信息增益最大的词条作为所述第一主题词;或者
从所述第一舆情数据的文本向量最多的簇中提取信息增益大于预设增益阈值的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和最小的簇中提取权重最大的词条作为所述第一主题词;或者
从所述第一舆情数据的离差平方和小于预设离差平方和的每个簇中提取权重最大的词条作为所述第一主题词。
第一划分模块203,用于根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题。
所述根据所述第一主题词对所述多个用户进行划分包括:
(a)根据所述第一主题词以所述多个用户为节点构建第一舆情网络。
在一具体实施例中,所述第一舆情网络为无向拓扑网络,所述根据所述第一主题词以所述多个用户为节点构建第一舆情网络包括:
连接所述多个用户中有相同的第一主题词的两个用户;
根据相连接的两个用户之间相同的第一主题词的数量确定该相连接的两个用户之间的权值。
(b)根据所述第一舆情网络计算所述多个用户中的每个用户的密度值。
在一具体实施例中,对于所述多个用户中的每个给定用户,计算所述给定用户和相连接(指直接连接)的其他用户之间相同的第一主题词的数量;计算所述给定用户连接的用户的数量;所述给定用户和相连接的其他用户之间相同的第一主题词的数量与所述给定用户连接的用户的数量的比值为所述给定用户的密度值。
(c)根据所述多个用户中的每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇。
在本实施例中,将所述多个用户中密度值大于预设密度阈值的用户作为候选用户;将所述候选用户按照密度值从大到小排序,将所述候选用户中排在第一位和第二位的两个用户作为第一用户簇中心点;从所述候选用户中排在第三位的用户开始逐一选择候选用户,若选择的候选用户与排在第一位和第二位的两个用户没有连接,则将所述选择的候选用户作为第一用户簇中心点。
(d)将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇。
例如,所述预设跳数为三跳,将所述多个用户中与所述第一用户簇中心点相距三跳内(即相距一跳、二跳和三跳)的用户加入所述第一用户簇。
若一个用户与第一用户簇中心点直接相连,则该用户与第一用户簇中心点相距一跳;若一个用户与第一用户簇中心点通过另一用户相连,则该用户与第一用户簇中心点相距两条跳;若一个用户与第一用户簇中心点通过另外两个用户相连,则该用户与第一用户簇中心点相距三跳;依此类推。
(e)根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题。
可以根据预设的主题词-主题对应关系生成所述第一用户簇对应的第一舆情主题。每个主题对应多个主题词。
例如,第一主题词为强降水、暴雨预警、强降雨,所述主题词-主题对应关系中主题“暴雨”对应的主题词包括“强降水”、“暴雨预警”、“强降雨”,则根据该第一主题词生成的第一舆情主题为暴雨。
第二提取模块204,用于提取所述每个用户第二时间段内在网络中发布的第二舆情数据。
提取每个用户第一时间段内在网络中发布的第二舆情数据可以参照模块201的描述,此处不再赘述。所述第二时间段与所述第一时间段相邻,且所述第二时间段在所述第一时间段之后。
第二聚类模块205,用于对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词。
对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词可以参照模块202的描述,此处不再赘述。
第二划分模块206,用于根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题。
根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题可以参照模块203的描述,此处不再赘述。
确定模块207,用于确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
在一具体实施例中,若所述相同的舆情主题对应的第二用户簇中用户的数量大于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量大于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于上升阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量大于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量小于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于停滞阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量小于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量大于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于停滞阶段。
若所述相同的舆情主题对应的第二用户簇中用户的数量小于所述相同的舆情主题对应的第一用户簇中用户的数量,且所述相同的舆情主题对应的第二用户簇的数量小于所述相同的舆情主题对应的第一用户簇的数量,则所述相同的舆情主题处于下降阶段。
实施例二的舆情分析装置20提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;提取所述每个用户第二时间段内在网络中发布的第二舆情数据;对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。实施例二能够确定舆情的演化阶段,为针对舆情采取应对措施提供了重要依据。连续对舆情的演化阶段进行分析,即可实现对舆情演变过程的追踪。
在另一实施例中,所述确定模块还用于,若所述相同的舆情主题处于上升阶段,则在所述多个第一用户簇中确定所述相同的舆情主题的舆情中心。
在一具体实施例中,所述在所述多个第一用户簇中确定所述相同的舆情主题的舆情中心包括:
获取所述多个第一用户簇中所述相同的舆情主题对应的第一用户簇的所述相同的舆情主题的生成时间;
将所述生成时间最早的第一用户簇确定为所述相同的舆情主题的舆情中心。
可以获取历史时间段的用户簇及其对应的舆情主题,根据历史时间段的用户簇及其对应的舆情主题确定所述相同的舆情主题的生成时间。例如,若所述第一时间段之前的第一历史时间段、第二历史时间段、第三历史时间段的用户簇对应的舆情主题包括所述相同的舆情主题,且所述第一历史时间段的时间最早,则将所述第一历史时间段的起始时间作为所述相同的舆情主题的生成时间。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述舆情分析方法实施例中的步骤,例如图1所示的101-107:
101,提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
102,对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
103,根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
104,提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
105,对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
106,根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
107,确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆 情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-207:
第一提取模块201,用于提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
第一聚类模块202,用于对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
第一划分模块203,用于根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
第二提取模块204,用于提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
第二聚类模块205,用于对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
第二划分模块206,用于根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定模块207,用于确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
实施例四
图3为本申请实施例四提供的计算机装置的示意图。所述计算机装置30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303,例如舆情分析程序。所述处理器302执行所述计算机程序303时实现上述舆情分析方法实施例中的步骤,例如图1所示的101-107:
101,提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
102,对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
103,根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
104,提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
105,对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
106,根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
107,确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-207:
第一提取模块201,用于提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
第一聚类模块202,用于对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
第一划分模块203,用于根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
第二提取模块204,用于提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
第二聚类模块205,用于对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
第二划分模块206,用于根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
确定模块207,用于确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
示例性的,所述计算机程序303可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机可读指令段,该计算机可读指令段用于描述所述计算机程序303在所述计算机装置30中的执行过程。例如,所述计算机程序303可以被分割成图2中的第一提取模块201、第一聚类模块202、第一划分模块203、第二提取模块204、第二聚类模块205、第二划分模块206、确定模块207,各模块具体功能参见实施例二。
本领域技术人员可以理解,所述示意图3仅仅是计算机装置30的示例,并不构成对计算机装置30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机装置30的控制中心,利用各种接口和线路连接整个计算机装置30的各个部分。
所述存储器301可用于存储所述计算机程序303,所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块,以及调用存储在存储器301内的数据,实现所述计算机装置30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机装置30的使用所创建的数据(比如音频数据)等。此外,存储器301可以包括非易失性和易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他存储器件。
所述计算机装置30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中,所述计算机可读存储介质可以是非易失性的存储介质,也可以是易失性的存储介质。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质 中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (20)

  1. 一种舆情分析方法,其中,所述舆情分析方法包括:
    提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
    对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
    根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
    提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
    对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
    根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
    确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
  2. 根据权利要求1所述的舆情分析方法,其中,所述对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词包括:
    采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示,将所述第一舆情数据的每个文本向量作为一个簇;
    循环执行计算所述第一舆情数据的每两个簇之间的相似度,将相似度最大的两个簇合并为一个新的簇,直至所述第一舆情数据的簇的数量达到预设数量;
    从所述第一舆情数据的簇中提取所述第一主题词。
  3. 根据权利要求2所述的舆情分析方法,其中,所述采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示包括:
    对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条;
    将所述多个用户中所有用户的第一舆情数据包含的所有不同的词条作为所述向量空间中不同的正交维度,根据所述每个用户的第一舆情数据中的每个文本包含的不同的词条计算所述每个文本在每个正交维度的坐标值,得到所述每个文本对应的文本向量;
    基于所述多个用户中所有用户的第一舆情数据包含的所有不同的词条的信息增益缩减所述向量空间的维度。
  4. 根据权利要求2所述的舆情分析方法,其中,所述计算所述第一舆情数据的每两个簇之间的相似度包括:
    若两个簇中的每个簇只包括一个文本向量,两个簇之间的相似度为两个簇中的两个文本向量之间的离差平方和的倒数或两个簇中的两个文本向量之间的欧式距离的倒数;
    若两个簇中的每个簇包括两个或两个以上文本向量,两个簇之间的相似度为两个簇之间的离差平方和的倒数或两个簇的质心之间的欧式距离的倒数。
  5. 根据权利要求2所述的舆情分析方法,其中,所述从所述第一舆情数据的簇中提取所述第一主题词包括:
    从所述第一舆情数据的文本向量最多的簇中提取信息增益最大的词条作为所述第一主题词;或者
    从所述第一舆情数据的文本向量最多的簇中提取信息增益大于预设增益阈值的词条作为所述第一主题词;或者
    从所述第一舆情数据的离差平方和最小的簇中提取权重最大的词条作为所述第一主题词;或者
    从所述第一舆情数据的离差平方和小于预设离差平方和的每个簇中提取权重最大的词条 作为所述第一主题词。
  6. 根据权利要求1所述的舆情分析方法,其中,所述根据所述第一主题词对所述多个用户进行划分包括:
    根据所述第一主题词以所述多个用户为节点构建第一舆情网络;
    根据所述第一舆情网络计算所述每个用户的密度值;
    根据所述每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇;
    将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇;
    根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题。
  7. 根据权利要求6所述的舆情分析方法,其中,所述根据所述第一主题词以所述多个用户为节点构建第一舆情网络包括:
    连接所述多个用户中有相同的第一主题词的两个用户;
    根据相连接的两个用户之间相同的第一主题词的数量确定该相连接的两个用户之间的权值。
  8. 一种计算机装置,其中,所述计算机装置包括处理器和存储器,所述处理器用于执行存储器中存储的至少一个计算机可读指令以实现以下步骤:
    提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
    对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
    根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
    提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
    对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
    根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
    确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
  9. 根据权利要求8所述的计算机装置,其中,在所述对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词时,所述处理器执行所述至少一个计算机可读指令以实现以下步骤:
    采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示,将所述第一舆情数据的每个文本向量作为一个簇;
    循环执行计算所述第一舆情数据的每两个簇之间的相似度,将相似度最大的两个簇合并为一个新的簇,直至所述第一舆情数据的簇的数量达到预设数量;
    从所述第一舆情数据的簇中提取所述第一主题词。
  10. 根据权利要求9所述的计算机装置,其中,在所述采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示时,所述处理器执行所述至少一个计算机可读指令以实现以下步骤:
    对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条;
    将所述多个用户中所有用户的第一舆情数据包含的所有不同的词条作为所述向量空间中不同的正交维度,根据所述每个用户的第一舆情数据中的每个文本包含的不同的词条计算所述每个文本在每个正交维度的坐标值,得到所述每个文本对应的文本向量;
    基于所述多个用户中所有用户的第一舆情数据包含的所有不同的词条的信息增益缩减所述向量空间的维度。
  11. 根据权利要求9所述的计算机装置,其中,在所述计算所述第一舆情数据的每两个簇之间的相似度时,所述处理器执行所述至少一个计算机可读指令以实现以下步骤:
    若两个簇中的每个簇只包括一个文本向量,两个簇之间的相似度为两个簇中的两个文本向量之间的离差平方和的倒数或两个簇中的两个文本向量之间的欧式距离的倒数;
    若两个簇中的每个簇包括两个或两个以上文本向量,两个簇之间的相似度为两个簇之间的离差平方和的倒数或两个簇的质心之间的欧式距离的倒数。
  12. 根据权利要求9所述的计算机装置,其中,在所述从所述第一舆情数据的簇中提取所述第一主题词时,所述处理器执行所述至少一个计算机可读指令以实现以下步骤:
    从所述第一舆情数据的文本向量最多的簇中提取信息增益最大的词条作为所述第一主题词;或者
    从所述第一舆情数据的文本向量最多的簇中提取信息增益大于预设增益阈值的词条作为所述第一主题词;或者
    从所述第一舆情数据的离差平方和最小的簇中提取权重最大的词条作为所述第一主题词;或者
    从所述第一舆情数据的离差平方和小于预设离差平方和的每个簇中提取权重最大的词条作为所述第一主题词。
  13. 根据权利要求8所述的计算机装置,其中,在所述根据所述第一主题词对所述多个用户进行划分时,所述处理器执行所述至少一个计算机可读指令以实现以下步骤:
    根据所述第一主题词以所述多个用户为节点构建第一舆情网络;
    根据所述第一舆情网络计算所述每个用户的密度值;
    根据所述每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇;
    将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇;
    根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题。
  14. 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有至少一个计算机可读指令,所述至少一个计算机可读指令被处理器执行时实现以下步骤:
    提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
    对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
    根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
    提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
    对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
    根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
    确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
  15. 根据权利要求14所述的存储介质,其中,在所述对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词时,所述至少一个计算机可读指令被处理器执行以实现以下步骤:
    采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示,将所述第一舆情数据的每个文本向量作为一个簇;
    循环执行计算所述第一舆情数据的每两个簇之间的相似度,将相似度最大的两个簇合并为一个新的簇,直至所述第一舆情数据的簇的数量达到预设数量;
    从所述第一舆情数据的簇中提取所述第一主题词。
  16. 根据权利要求15所述的存储介质,其中,在所述采用向量空间模型表示所述第一舆情数据,将所述第一舆情数据中的每个文本用所述向量空间模型中的一个文本向量表示时,所述至少一个计算机可读指令被处理器执行以实现以下步骤:
    对所述每个用户的第一舆情数据进行停用词过滤处理、分词处理,得到所述每个用户的第一舆情数据包含的不同的词条;
    将所述多个用户中所有用户的第一舆情数据包含的所有不同的词条作为所述向量空间中不同的正交维度,根据所述每个用户的第一舆情数据中的每个文本包含的不同的词条计算所述每个文本在每个正交维度的坐标值,得到所述每个文本对应的文本向量;
    基于所述多个用户中所有用户的第一舆情数据包含的所有不同的词条的信息增益缩减所述向量空间的维度。
  17. 根据权利要求15所述的存储介质,其中,在所述计算所述第一舆情数据的每两个簇之间的相似度时,所述至少一个计算机可读指令被处理器执行以实现以下步骤:
    若两个簇中的每个簇只包括一个文本向量,两个簇之间的相似度为两个簇中的两个文本向量之间的离差平方和的倒数或两个簇中的两个文本向量之间的欧式距离的倒数;
    若两个簇中的每个簇包括两个或两个以上文本向量,两个簇之间的相似度为两个簇之间的离差平方和的倒数或两个簇的质心之间的欧式距离的倒数。
  18. 根据权利要求15所述的存储介质,其中,在所述从所述第一舆情数据的簇中提取所述第一主题词时,所述至少一个计算机可读指令被处理器执行时以实现以下步骤:
    从所述第一舆情数据的文本向量最多的簇中提取信息增益最大的词条作为所述第一主题词;或者
    从所述第一舆情数据的文本向量最多的簇中提取信息增益大于预设增益阈值的词条作为所述第一主题词;或者
    从所述第一舆情数据的离差平方和最小的簇中提取权重最大的词条作为所述第一主题词;或者
    从所述第一舆情数据的离差平方和小于预设离差平方和的每个簇中提取权重最大的词条作为所述第一主题词。
  19. 根据权利要求14所述的存储介质,其中,在所述根据所述第一主题词对所述多个用户进行划分时,所述至少一个计算机可读指令被处理器执行以实现以下步骤:
    根据所述第一主题词以所述多个用户为节点构建第一舆情网络;
    根据所述第一舆情网络计算所述每个用户的密度值;
    根据所述每个用户的密度值确定第一用户簇中心点,得到所述第一用户簇中心点对应的第一用户簇;
    将所述多个用户中与所述第一用户簇中心点相距预设跳数内的用户加入所述第一用户簇;
    根据所述第一用户簇的第一主题词生成所述第一用户簇对应的第一舆情主题。
  20. 一种舆情分析装置,其中,所述舆情分析装置包括:
    第一提取模块,用于提取多个用户中的每个用户第一时间段内在网络中发布的第一舆情数据;
    第一聚类模块,用于对所述每个用户的第一舆情数据进行聚类,得到所述每个用户的第一主题词;
    第一划分模块,用于根据所述第一主题词对所述多个用户进行划分,得到所述第一时间段内的多个第一用户簇和每个第一用户簇对应的第一舆情主题;
    第二提取模块,用于提取所述每个用户第二时间段内在网络中发布的第二舆情数据;
    第二聚类模块,用于对所述每个用户的第二舆情数据进行聚类,得到所述每个用户的第二主题词;
    第二划分模块,用于根据所述第二主题词对所述多个用户进行划分,得到所述第二时间段内的多个第二用户簇和每个第二用户簇对应的第二舆情主题;
    确定模块,用于确定所述第一舆情主题和所述第二舆情主题中相同的舆情主题,根据所述相同的舆情主题对应的第一用户簇和第二用户簇确定所述相同的舆情主题的演化阶段。
PCT/CN2020/111918 2019-10-17 2020-08-27 舆情分析方法、装置、计算机装置及存储介质 WO2021073271A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910989748.1A CN110929145B (zh) 2019-10-17 2019-10-17 舆情分析方法、装置、计算机装置及存储介质
CN201910989748.1 2019-10-17

Publications (1)

Publication Number Publication Date
WO2021073271A1 true WO2021073271A1 (zh) 2021-04-22

Family

ID=69849256

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/111918 WO2021073271A1 (zh) 2019-10-17 2020-08-27 舆情分析方法、装置、计算机装置及存储介质

Country Status (2)

Country Link
CN (1) CN110929145B (zh)
WO (1) WO2021073271A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449508A (zh) * 2021-07-15 2021-09-28 上海理工大学 一种基于事件链的网络舆情关联推演预测分析方法
CN113946680A (zh) * 2021-10-20 2022-01-18 河南师范大学 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法
CN116522013A (zh) * 2023-06-29 2023-08-01 乐麦信息技术(杭州)有限公司 基于社交网络平台的舆情分析方法及系统
CN117131281A (zh) * 2023-10-26 2023-11-28 中关村科学城城市大脑股份有限公司 舆情事件处理方法、装置、电子设备和计算机可读介质
CN117421433A (zh) * 2023-11-17 2024-01-19 南京蓝鲸人网络科技有限公司 一种图文智能舆情分析方法及系统
CN117494897A (zh) * 2023-11-14 2024-02-02 西安康奈网络科技有限公司 一种单一舆情事件发展倾向性判断方法
CN117635190A (zh) * 2023-11-27 2024-03-01 河北数港科技有限公司 一种日志数据分析方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929145B (zh) * 2019-10-17 2023-07-21 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质
CN112818234B (zh) * 2021-02-02 2022-09-02 霍尔果斯大颜色信息科技有限公司 一种网络舆情信息分析处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193797A (zh) * 2017-04-26 2017-09-22 天津大学 中文微博的热点话题检测及趋势预测方法
WO2018210045A1 (zh) * 2017-05-19 2018-11-22 腾讯科技(深圳)有限公司 一种原生对象的识别方法和装置
CN110209808A (zh) * 2018-08-08 2019-09-06 腾讯科技(深圳)有限公司 一种基于文本信息的事件生成方法以及相关装置
CN110929145A (zh) * 2019-10-17 2020-03-27 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
CN103559176B (zh) * 2012-10-29 2016-08-17 中国人民解放军国防科学技术大学 微博情感演化分析方法及系统
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN105320702B (zh) * 2014-08-04 2019-02-01 Tcl集团股份有限公司 一种用户行为数据的分析方法、装置及智能电视
KR101693727B1 (ko) * 2015-02-25 2017-01-17 국민대학교산학협력단 소셜 네트워크를 활용한 연구개발 관점의 사회적 이슈 재구성 장치 및 방법
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CN109597924B (zh) * 2018-09-14 2020-02-07 湖北大学 一种基于人工免疫网络的微博社交圈挖掘方法及系统
CN109740042A (zh) * 2018-11-27 2019-05-10 平安科技(深圳)有限公司 舆论信息的监控方法、装置及存储介质、计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193797A (zh) * 2017-04-26 2017-09-22 天津大学 中文微博的热点话题检测及趋势预测方法
WO2018210045A1 (zh) * 2017-05-19 2018-11-22 腾讯科技(深圳)有限公司 一种原生对象的识别方法和装置
CN110209808A (zh) * 2018-08-08 2019-09-06 腾讯科技(深圳)有限公司 一种基于文本信息的事件生成方法以及相关装置
CN110929145A (zh) * 2019-10-17 2020-03-27 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449508A (zh) * 2021-07-15 2021-09-28 上海理工大学 一种基于事件链的网络舆情关联推演预测分析方法
CN113946680A (zh) * 2021-10-20 2022-01-18 河南师范大学 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法
CN113946680B (zh) * 2021-10-20 2024-04-16 河南师范大学 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法
CN116522013A (zh) * 2023-06-29 2023-08-01 乐麦信息技术(杭州)有限公司 基于社交网络平台的舆情分析方法及系统
CN116522013B (zh) * 2023-06-29 2023-09-05 乐麦信息技术(杭州)有限公司 基于社交网络平台的舆情分析方法及系统
CN117131281A (zh) * 2023-10-26 2023-11-28 中关村科学城城市大脑股份有限公司 舆情事件处理方法、装置、电子设备和计算机可读介质
CN117131281B (zh) * 2023-10-26 2024-02-09 中关村科学城城市大脑股份有限公司 舆情事件处理方法、装置、电子设备和计算机可读介质
CN117494897A (zh) * 2023-11-14 2024-02-02 西安康奈网络科技有限公司 一种单一舆情事件发展倾向性判断方法
CN117494897B (zh) * 2023-11-14 2024-05-17 西安康奈网络科技有限公司 一种单一舆情事件发展倾向性判断方法
CN117421433A (zh) * 2023-11-17 2024-01-19 南京蓝鲸人网络科技有限公司 一种图文智能舆情分析方法及系统
CN117635190A (zh) * 2023-11-27 2024-03-01 河北数港科技有限公司 一种日志数据分析方法及系统
CN117635190B (zh) * 2023-11-27 2024-05-14 河北数港科技有限公司 一种日志数据分析方法及系统

Also Published As

Publication number Publication date
CN110929145A (zh) 2020-03-27
CN110929145B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
WO2021073271A1 (zh) 舆情分析方法、装置、计算机装置及存储介质
US10565234B1 (en) Ticket classification systems and methods
US10713306B2 (en) Content pattern based automatic document classification
WO2020147409A1 (zh) 一种文本分类方法、装置、计算机设备及存储介质
US20110004463A1 (en) Systems and methods for extracting patterns from graph and unstructured data
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
US20220139063A1 (en) Filtering detected objects from an object recognition index according to extracted features
WO2021196825A1 (zh) 摘要生成方法、装置、电子设备及介质
WO2020253364A1 (zh) 基于大数据分析的信息推送方法、装置、设备及存储介质
Alassi et al. Effectiveness of template detection on noise reduction and websites summarization
US10467255B2 (en) Methods and systems for analyzing reading logs and documents thereof
CN111259220B (zh) 一种基于大数据的数据采集方法和系统
US11822590B2 (en) Method and system for detection of misinformation
US11687647B2 (en) Method and electronic device for generating semantic representation of document to determine data security risk
WO2019085332A1 (zh) 金融数据分析方法、应用服务器及计算机可读存储介质
US11836331B2 (en) Mathematical models of graphical user interfaces
JP2020201935A (ja) プライバシ信頼性に基づくapiアクセス
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN111324810A (zh) 一种信息过滤方法、装置及电子设备
TWI745777B (zh) 資料歸檔方法、裝置、電腦裝置及存儲媒體
WO2021012958A1 (zh) 原创文本甄别方法、装置、设备与计算机可读存储介质
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN106874368B (zh) 一种rtb竞价广告位价值分析方法及系统
CN111222032B (zh) 舆情分析方法及相关设备
CN116089732B (zh) 基于广告点击数据的用户偏好识别方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20877563

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20877563

Country of ref document: EP

Kind code of ref document: A1