WO2014000518A1 - 一种舆情信息展示系统及方法 - Google Patents

一种舆情信息展示系统及方法 Download PDF

Info

Publication number
WO2014000518A1
WO2014000518A1 PCT/CN2013/075644 CN2013075644W WO2014000518A1 WO 2014000518 A1 WO2014000518 A1 WO 2014000518A1 CN 2013075644 W CN2013075644 W CN 2013075644W WO 2014000518 A1 WO2014000518 A1 WO 2014000518A1
Authority
WO
WIPO (PCT)
Prior art keywords
text information
module
web page
information
region
Prior art date
Application number
PCT/CN2013/075644
Other languages
English (en)
French (fr)
Inventor
刘付强
Original Assignee
北京奇虎科技有限公司
奇智软件(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京奇虎科技有限公司, 奇智软件(北京)有限公司 filed Critical 北京奇虎科技有限公司
Priority to US14/411,092 priority Critical patent/US9705761B2/en
Publication of WO2014000518A1 publication Critical patent/WO2014000518A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Definitions

  • the present invention relates to the field of network information technology, and in particular, to a public opinion information display system and method.
  • Internet public opinion is a public opinion and opinion that has a strong influence on the hotspots and focus of the real life through the Internet. It is mainly realized through BBS forums, blogs, news posts, reposts, etc. strengthen. Due to the virtuality, concealment, divergence, penetration and randomness of the Internet, more and more netizens are willing to express their opinions and disseminate ideas through this channel.
  • Internet public opinion is a powerful public opinion force that will counteract hot events and have a certain impact on social development and development. If the guidance is not good, negative online public opinion will pose a greater threat to social public safety. Many existing technologies in the prior art complete the collection work, but they cannot objectively and intuitively reflect the public opinion information of different regions. Summary of the invention
  • the present invention has been made in order to provide a public opinion information display system and method that overcomes the above problems or at least partially solves or alleviates the above problems.
  • a public information display system includes: a webpage crawling module, configured to capture a webpage containing public opinion information in a current network; and a webpage analyzing module, adapted to perform the webpage And analyzing, obtaining the text information of the webpage; the region identification module is adapted to perform regional identification on the text information, to obtain the geographic region of the text information, and perform statistics on the webpages having the same geographic region; It is suitable to display the results of the quantitative statistics by means of map coloring.
  • a method for displaying public opinion information comprising: crawling a webpage containing public opinion information in a current network; analyzing the webpage to obtain body information of the webpage; The body information is geographically identified to obtain the region to which the body information belongs, and the number of pages having the same region is counted; the result of the quantity statistics is displayed by means of map coloring.
  • a computer program including a computer
  • the readable code when the computer readable code is run on a server, causes the server to perform the lyric information presentation method according to any one of claims 14-26.
  • a computer readable medium wherein the computer program according to claim 27 is stored.
  • the system and method of the present invention objectively and intuitively reflect the public opinion information of different regions by geographically identifying the webpage containing the public opinion information, and can not only effectively and timely discover the regional distribution of the known public opinion information in the network, but also The key areas are effectively identified at the germination stage of unknown public opinion information.
  • FIG. 1 is a flow chart schematically showing a method for displaying public opinion information according to a first embodiment of the present invention
  • FIG. 2 is a flow chart schematically showing a method for displaying public opinion information according to a second embodiment of the present invention
  • Fig. 3 is a view schematically showing a flow chart of a public opinion information display method according to a third embodiment of the present invention.
  • FIGS. 1 to 3 is a flow chart schematically showing the geographical recognition of the text information in the method described in FIGS. 1 to 3;
  • Figure 5 is a schematic diagram showing the use of map coloring
  • Figure 6 is a schematic diagram of the administrative level
  • Figure 7 is a block diagram showing the structure of a public opinion information display system according to a first embodiment of the present invention
  • Figure 8 is a block diagram showing the structure of a public opinion information display system according to a second embodiment of the present invention
  • Figure 9 is a third embodiment of the present invention.
  • Figure 10 is a block diagram showing the structure of a region identification module in the system of Figures 7 to 9
  • Figure 11 is a block diagram schematically showing a server for executing the method according to the present invention
  • Fig. 12 schematically shows a memory unit for holding or carrying program code implementing the method according to the invention.
  • FIG. 1 is a flow chart showing a method for displaying public opinion information according to a first embodiment of the present invention. referring to FIG. 1, the method includes:
  • S101 Grab the webpage containing the public opinion information on the current network (generally, the webpage crawling is mainly divided into three aspects: 1. collecting new webpages; 2. collecting webpages that have changed since the last collection; 3. discovering The webpage that has not existed since the last collection, and is deleted from the database; Preferably, in this embodiment, the web crawler is used to crawl the webpage containing the public opinion information in the current network.
  • the text information includes: the body content;
  • the part is a title, and in order to improve the recognition accuracy, preferably, the text information further includes: a title; when the webpage is a webpage of an electronic bulletin board (bbs) or a weblog (blog), the part capable of reflecting the geographical information is also
  • the text information includes: a tile name.
  • multi-dimensionally extracting the webpage including a title, a body content, a publishing time, an author, a website name, and a body information for a bbs or a blog, may also extract a section name and browse.
  • S103 Perform area identification on the text information to obtain a region to which the text information belongs, and perform statistics on web pages having the same region;
  • the quantity statistics may be simply according to the region, or may include two kinds of public opinion information including certain feature words in the region, for example, the distribution of network public opinion in various regions in China may be displayed, and the March may also be displayed in Jiangsu. The distribution of network public opinion on a certain topic in the province.
  • the result of the quantity statistics is displayed by way of map coloring.
  • the map is colored in combination with a preset color value range, and the number of the public opinion information is expressed by the depth of the color, but the invention is not limited. Range of protection. For example: In Figure 5, “Shanxi City” has the deepest color gradation and the most lyrics. Secondly, there are “Beijing”, “Liaoning” and “Henan” with a lot of lyrics, followed by "Guangxi” and "Chongqing” with a lot of lyrics.
  • the range of colors can be represented by #000000 to #ffffff from deep to light, six hexadecimal notation for RGB three colors, the first two digits for R (red), the middle two digits for G (green), and the last two digits Indicates B (blue).
  • the red range is 256 to ff
  • 256 color scales can be defined by using a data function of the area information to define a hash function to hash the data amount between 0 and 256. (You can use a logarithmic function or a fitting method to calculate a hash function).
  • step S104 when the result of the quantity statistics is displayed by means of map coloring, different administrative levels of the map area are adjusted and displayed as needed. For example: It is possible to show the distribution of online public opinion in various parts of China (ie, the administrative level is the province) in March, and also to show the distribution of network public opinion in Jiangsu province (ie, the administrative level is the city) in March.
  • FIG. 2 is a flow chart showing a method for displaying public opinion information according to a second embodiment of the present invention
  • the method includes:
  • S203 The text information is stored in the data.
  • the data is stored in a database, and the persistent storage mode is adopted for subsequent use;
  • S204 Perform area identification on the text information to obtain a region to which the text information belongs, and perform statistics on the number of web pages having the same geographic region;
  • S205 Display the result of the quantity statistics by means of map coloring.
  • FIG. 3 is a flow chart showing a method for displaying public opinion information according to a third embodiment of the present invention.
  • the methods include:
  • S304 The text information is stored in the data; in this embodiment, the data is stored in the database, and the persistent storage mode is used; S305: Perform local identification on the text information to obtain a region to which the text information belongs, and perform statistics on the number of web pages having the same region;
  • the local information recognition process is performed on the body information
  • the overall calculation model utilizes a distributed system infrastructure (hadoop)
  • the specific calculation method utilizes a double array Trie tree.
  • the overall idea is described as follows: Construct a double-array Trie tree using the administrative division statistics table, and then use the body content to match, find all the geographical nouns in the body, may have multiple paths, and then use the geographical names between The administrative relationship and appearance frequency set different weight values, based on the principle of inverted index, perform word segmentation and index construction on the body information, and provide an interface for querying according to keywords.
  • the geographical information of the public opinion information is further identified. Referring to FIG. 4, the geographical information of the text information may be identified as follows:
  • the administrative area statistical table includes: geographical terms of at least one administrative level in a province, a city, a county, a town, and a village; and monitoring lyrics from different administrative levels
  • the regional statistical table includes: geographical terms of five administrative levels of provinces, cities, counties, towns, and villages, and may be merged by a left prefix. For example, Nanmazhuang Village, Nanyan Village, Yongnian County, Handan City, Hebei province, contains all five administrative levels, and it can be classified as an upward administrative level. Referring to Figure 6, the information on the south of the village will be attributed to the area of Yongnian County, and then belong to the area of Handan City, and finally belong to the area of Hebei province.
  • S402 Match a noun that appears in the text information to the dual array Trie tree;
  • S403 obtain, by using the result of the matching, a region to which the text information belongs;
  • the result of the matching includes: a geographic noun, an appearance frequency of the geographical term, and an administrative relationship between the geographic nouns.
  • Figure 7 is a block diagram showing the structure of a public opinion information display system according to the first embodiment of the present invention.
  • the webpage grabs the mouse block 701, and is adapted to capture a webpage containing the public opinion information in the current network; the webpage analysis module 702 is adapted to analyze the webpage of the lost webpage to obtain the text information of the webpage of the lost webpage;
  • the area identification module 703 is adapted to perform area identification on the body information to obtain a region to which the text information belongs, and perform statistics on the number of web pages having the same region;
  • the display module 704 is adapted to display the result of the quantity statistics by way of map coloring.
  • Figure 8 is a block diagram showing the structure of a public information display system according to a second embodiment of the present invention. Referring to Figure 8, on the basis of the first embodiment, the system further includes:
  • the storage module 705 is adapted to store the text information for data
  • Figure 9 is a block diagram showing the structure of a public information display system according to a third embodiment of the present invention. Referring to Figure 9, on the basis of the second embodiment, the system further includes:
  • a formatting module 706, configured to format the text information
  • the area identification module 703 specifically includes:
  • the Trie tree construction submodule 713 is adapted to construct a dual array Trie tree by using an administrative area statistical table; the matching submodule 723 is adapted to match the noun appearing in the text information with the double array Trie tree;
  • the region obtaining sub-module 733 is adapted to obtain the region of the body information by using the result of the matching.
  • the administrative area statistical table includes: geographical terms of at least one administrative level in the province, city, county, town, and village.
  • the result of the matching includes: a geographical noun, an appearance frequency of the geographical term, and an administrative relationship between the geographic nouns.
  • the web crawler uses the web crawler to crawl the webpage containing the public opinion information in the current network.
  • the text information includes: a body content and/or a title.
  • the text information includes: a panel name.
  • the webpage analysis module further includes: a multi-dimensional extraction sub-module, wherein the multi-dimensional extraction sub-module is adapted to perform multi-dimensional extraction on the webpage to obtain body information of the webpage.
  • the display module further includes: a result hash sub-module, wherein the result hash sub-module is adapted to hash the result of the data statistics into a color gradation range of the color to implement map coloring.
  • the display module further includes: an enlargement and reduction sub-module, and the enlargement and reduction sub-module is adapted to perform adjustment and display on different administrative levels of the map area as needed.
  • the system further includes: a learning module, after manually identifying and correcting a large number of samples, is suitable for learning by using a machine based on a support vector machine (SVM) until a preset accuracy rate is reached.
  • SVM support vector machine
  • the various component embodiments of the present invention may be implemented in hardware, or in a software module running on one or more processors, or in a combination thereof.
  • a microprocessor or digital signal processor may be used in practice to implement some or all of the functionality of some or all of the components of the public information presentation system in accordance with embodiments of the present invention.
  • the invention can also be implemented as a device or device program (e.g., a computer program and a computer program product) for performing some or all of the methods described herein.
  • a program implementing the present invention may be stored on a computer readable medium or may be in the form of one or more signals. Such signals may be downloaded from an Internet website, or provided on a carrier signal, or provided in any other form.
  • Fig. 11 shows a server, such as an application server, which can implement the method for displaying public opinion information according to the present invention.
  • the server conventionally includes a processor 11 10 and a computer program product or computer readable medium in the form of a memory 1 120.
  • Memory 1120 can be an electronic memory such as a flash memory, EEPROM (Electrically Erasable Programmable Read Only Memory), EPROM, hard disk, or ROM.
  • Memory 1 120 has a memory space 1130 for executing program code 1 131 of any of the above methods.
  • storage space 1130 for program code may include various program code 1131 for implementing various steps in the above methods, respectively.
  • the program code can be read from or written to one or more computer program products.
  • These computer program products include program code carriers such as hard disks, compact disks (CDs), memory cards or floppy disks. Such computer program products are typically portable or fixed storage units as described with reference to Figure 12.
  • the storage unit may have a storage section, a storage space, and the like arranged similarly to the storage 1120 in the server of Fig. 11.
  • the program code can be compressed, for example, in an appropriate form.
  • the storage unit comprises computer readable code 1 131, ie code that can be read by a processor, such as 11 10, which when run by the server causes the server to perform each of the methods described above step.
  • any reference signs placed between parentheses shall not be construed as a limitation.
  • the word “comprising” does not exclude the presence of the elements or steps that are not in the claims.
  • the word “a” or “an” preceding a component does not exclude the presence of a plurality of such elements.
  • the invention can be implemented by means of hardware comprising several distinct elements and by means of a suitably programmed computer. In the unit claims enumerating several means, several of these means can be embodied by the same hardware item.
  • the use of the words first, second, and third does not indicate any order. These words can be interpreted as names.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种舆情信息展示系统及方法,涉及网络信息技术领域,所述系统包括:网页抓取模块,适于抓取当前网络中包含舆情信息的网页;网页分析模块,适于对所述网页进行分析,以获得所述网页的正文信息;地域识别模块,适于对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;展示模块,适于将所述数量统计的结果通过地图着色的方式进行展示。本发明的系统及方法通过对包含舆情信息的网页进行地域识别,客观地、直观地反映了不同地域的舆情信息,不仅可以有效及时地发现网络中已知舆情信息的区域分布状况,还可以在未知舆情信息的萌发阶段就对重点区域进行有效的识别。

Description

一种舆情信息展示系统及方法 技术领域
本发明涉及网络信息技术领域, 特別涉及一种舆情信息展示系统及 方法。
网络舆情是通过互联网传播的公众对现实生活中某些热点、 焦点问 题所持的有较强影响力、 倾向性的言论和观点, 主要通过 BBS论坛、 博 客、 新闻跟帖、 转帖等实现并加以强化。 由于互联网具有虚拟性、 隐蔽 性、 发散性、 渗透性和随意性等特点, 越来越多的网民乐意通过这种渠 道来表达观点、 传播思想。 网络舆情是一股强大的舆论力量, 会反作用 于热点事件并对社会发展和事态进程产生一定的影响。 如果引导不善, 负面的网络舆情将对社会公共安全形成较大威胁。 现有技术多对网络舆 情完成收集工作, 但均无法客观地、 直观地反映不同地域的舆情信息。 发明内容
鉴于上述问题, 提出了本发明以便提供一种克服上述问题或者至少 部分地解决或者减緩上述问题的舆情信息展示系统及方法。
根据本发明的一个方面, 提供了一种舆情信息展示系统, 所述系统包 括: 网页抓取模块, 适于抓取当前网絡中包含舆情信息的网页; 网页分析模 块,适于对所述网页进行分析, 以获得所述网页的正文信息;地域识别模块, 适于对所述正文信息进行地域识别 , 以获得所述正文信息的所属地域并对具 有相同所属地域的网页进行数量统计; 展示模块, 适于将所述数量统计的结 果通过地图着色的方式进行展示。
根据本发明的另一个方面, 提供了一种舆情信息展示方法, 所述方法 包括: 抓取当前网络中包含舆情信息的网页; 对所述网页进行分析, 以获得 所述网页的正文信息; 对所迷正文信息进行地域识别, 以获得所迷正文信息 的所属地域, 并对具有相同所属地域的网页进行数量统计; 将所述数量统计 的结果通过地图着色的方式进行展示。
根据本发明的又一个方面, 提供了一种计算机程序, 其包括计算机 可读代码, 当所述计算机可读代码在服务器上运行时, 导致所述服务器 执行根据权利要求 14-26中的任一个所述的舆情信息展示方法。
根据本发明的再一个方面, 提供了一种计算机可读介质, 其中存储 了如权利要求 27所述的计算机程序。
本发明的有益效果为:
本发明的系统及方法通过对包含舆情信息的网页进行地域识別, 客观 地、 直观地反映了不同地域的舆情信息, 不仅可以有效及时地发现网络中已 知舆情信息的区域分布状况,还可以在未知舆情信息的萌发阶段就对重点区 域进行有效的识别。
上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明 的技术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上 迷和其它目的、 特征和优点能够更明显易懂, 以下特举本发明的具体实 施方式。 附图说明
通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对 于本领域普通技术人员将变得清楚明了。 附图仅用于示出优选实施方式 的目的, 而并不认为是对本发明的限制。 而且在整个附图中, 用相同的 参考符号表示相同的部件。 在附图中:
图 1示意性示出了根据本发明第一种实施例的舆情信息展示方法的流 程图;
图 2示意性示出了根据本发明第二种实施例的舆情信息展示方法的流 程图;
图 3示意性示出了根据本发明第三种实施例的舆情信息展示方法的流 程图;
图 4示意性示出了图 1〜图 3所述的方法中对所述正文信息进行地域识 别的流程图;
图 5是利用地图着色进行展示的示意图;
图 6是行政级别示意图;
图 7是按照本发明第一种实施例的舆情信息展示系统的结构框图; 图 8是按照本发明第二种实施例的舆情信息展示系统的结构框图; 图 9是按照本发明第三种实施例的舆情信息展示系统的结构框图; 图 10是图 7〜图 9的系统中地域识别模块的结构框图; 图 1 1示意性地示出了用于执行根据本发明的方法的服务器的框图; 以及
图 12示意性地示出了用于保持或者携带实现根据本发明的方法的程 序代码的存储单元。 具体实施例
下面结合附图和具体的实施方式对本发明作进一步的描述。
图 1是按照本发明第一种实施例的舆情信息展示方法的流程图; 参照图 1 , 所迷方法包括:
S101 : 抓取当前网络中包含舆情信息的网页 (通常, 网页抓取主要分为 三个方面: 1、搜集新出现的网页; 2、搜集那些在上次搜集后有改变的网页; 3、 发现自从上次搜集后已经不存在了的网页, 并从数据库中删除) ; 优选 地, 本实施例中, 采用网络爬虫抓取当前网络中包含舆情信息的网页。
S102: 对所述网页进行分析, 以获得所述网页的正文信息; 由于网页中 所能最大反映地域信息的部分为正文内容, 优选地, 所述正文信息包括: 正 文内容; 同样能够反映地域信息的部分为标题, 为提高识别精度, 优选地, 所述正文信息还包括: 标题; 当所述网页为电子公告板 ( bbs )或网络日志 ( blog ) 的网页时, 同样能够反映地域信息的部分为模块名称, 为提高识别 精度, 优选地, 所述正文信息包括: 板块名称。
本实施例中, 对所述网页进行分析时, 对所述网页进行多维抽取, 包括 标题、 正文内容、 发表时间、 作者、 网站名称、 针对 bbs或 blog的正文信息还 可以抽取出板块名称、浏览数、回复数等信息, 以获得所述网页的正文信息, 对网页信息进行多个维度抽取。
S103:对所述正文信息进行地域识别,以获得所述正文信息的所属地域, 并对具有相同所属地域的网页进行数量统计;
本实施例中, 数量统计可以单纯按照所属地域, 也可以收集在所属地域 包含某些特征词的舆情信息两种, 如可以展示 3月份我国各地网络舆情的分 布情况, 也可以展示 3月份关于江苏省某某话题的网络舆情分布情况等。
S104: 参照图 5 ,将所述数量统计的结果通过地图着色的方式进行展示。 本实施例中, 利用所述数据统计的结果, 结合预设的颜色值范围给地图 进行着色, 用颜色的深浅表达舆情信息的数量多少, 但并不限定本发明的保 护范围。 比如: 图 5中"山西省"的色阶最深, 舆情数最多, 其次是舆情数非 常多的 "北京"、 "辽宁 "和"河南", 接着是舆情数较多的 "广西"、 "重庆"、 "吉 林"和"浙江", 之后是舆情数一般的 "青海,,和 "云南,,, 再接着是舆情数较少的 "海南"、 "广东"、 "湖南"、 "安徽 "和"内蒙古", 其中"安徽"的舆情数为 23004, 剩下的地区均为舆情数非常少的地区。
颜色的范围可用 #000000到 #ffffff来表示由深到浅, 六位 16进制表示的是 RGB三个颜色, 前两位表示 R (红色) , 中间两位表示 G (绿色) , 最后两 位表示 B (蓝色) 。 例如, 把地图染色的主色调定义为红色时, 红色的范围 是 00~ff共 256个色阶, 则可以利用地域信息的数据量定义一个散列函数将数 据量散列到 0〜256之间 (可以采用对数函数或拟合方法计算出一个散列函 数) 。
优选地, 步骤 S 104中将所述数量统计的结果通过地图着色的方式进行 展示时, 根据需要对地图区域的不同行政级别进行调整显示。 例如: 可以展 示 3月份我国各地(即行政级别为省) 网络舆情的分布情况, 也可以展示 3 月份关于江苏省 (即行政级别为市) 网络舆情的分布情况等。
图 2是按照本发明第二种实施例的舆情信息展示方法的流程图; 参照图
2, 所述方法包括:
S201 : 抓取当前网络中包含舆情信息的网页;
S202: 对所述网页进行分析, 以获得所述网页的正文信息;
S203: 将所述正文信息进行数据存储; 本实施例中, 数据存储于数据库 中, 并采用持久化存储方式, 以备后续使用;
S204:对所述正文信息进行地域识别,以获得所述正文信息的所属地域, 并对具有相同所属地域的网页进行数量统计;
S205: 将所述数量统计的结果通过地图着色的方式进行展示。
图 3是按照本发明第三种实施例的舆情信息展示方法的流程图; 参照图
3 , 所迷方法包括:
S301 : 抓取当前网络中包含舆情信息的网页;
S302: 对所述网页进行分析, 以获得所述网页的正文信息;
S303: 对所迷正文信息进行格式化(即将所述正文信息处理成相同的规 格、 样式) ;
S304: 将所述正文信息进行数据存储; 本实施例中, 数据存储于数据库 中, 并釆用持久化存储方式; S305:对所述正文信息进行地域识别,以获得所述正文信息的所属地域, 并对具有相同所属地域的网页进行数量统计;
S306: 将所述数量统计的结果通过地图着色的方式进行展示。
在所述实施例 1~3中, 对正文信息进行地域信息识别的处理, 整体计算 模型是利用分布式系统基础架构 (hadoop ) , 具体计算方法是利用双数组 Trie树。 其整体思想的描述如下: 利用行政区划统计表构建一棵双数组 Trie 树, 然后用正文内容去匹配, 找出正文中所有的地理名词, 可能会出现多条 路径, 再利用地理地名之间的行政关系和出现频度设置不同的权重值, 基于 倒排索引的原则, 对正文信息进行分词、 构建索引等操作, 并提供按照关键 词进行查询的接口。
对正文信息进行地 i或识别基于支持向量机 ( support vector machine, SVM )的机器学习法, 利用国家邮政编码及行政区域统计表对大量样本做人 工标注和校正, 达到较高的准确率后(一般为 95%以上), 再对舆情信息进 行地域识别, 参照图 4, 对所述正文信息进行地域识别可采用如下方式:
S401 : 利用行政区域统计表构建双数组 Trie树; 所述行政区域统计表包 括: 省、 市、 县、 镇和村中至少一个行政级别的地理名词; 为实现从不同的 行政级别来监测舆情的信息量情况, 优选地, 所述区域统计表包括: 省、 市、 县、 镇和村五个行政级别的地理名词, 并且可以是以左前缀进行归并。 如: 河北省邯郸市永年县南沿村镇南马庄村是包含全五个行政级别的, 同时它可 以归为向上的行政级别。 参照图 6, 即南沿村镇的舆情信息将归属于永年县 的区域内, 然后归属于邯郸市区域内, 最后归属于河北省的区域内。
S402: 将所述正文信息中出现的名词与所述双数组 Trie树进行匹配; S403: 利用所述匹配的结果获得所述正文信息的所属地域;
优选地, 所述匹配的结果包括: 地理名词、 所述地理名词的出现频次及 所述地理名词之间的行政关系。
图 7是按照本发明第一种实施例的舆情信息展示系统的结构框图; 参照 图 7, 所述系统包括:
网页抓耳^莫块 701 , 适于抓取当前网络中包含舆情信息的网页; 网页分析模块 702, 适于对所迷网页进行分析, 以获得所迷网页的正文 信息;
地域识别模块 703 , 适于对所迷正文信息进行地域识别, 以获得所述正 文信息的所属地域, 并对具有相同所属地域的网页进行数量统计; 展示模块 704, 适于将所述数量统计的结果通过地图着色的方式进行展 示。
图 8是按照本发明第二种实施例的舆情信息展示系统的结构框图; 参照 图 8, 在第一种实施例的基础上, 所述系统还包括:
存储模块 705 , 适于将所述正文信息进行数据存储;
图 9是按照本发明第三种实施例的舆情信息展示系统的结构框图; 参照 图 9, 在第二种实施例的基 上, 所迷系统还包括:
格式化模块 706 , 适于对所述正文信息进行格式化;
参照图 10, 所述地域识别模块 703具体包括:
Trie树构建子模块 713 , 适于利用行政区域统计表构建双数组 Trie树; 匹配子模块 723, 适于将所述正文信息中出现的名词与所述双数组 Trie 树进行匹配;
地域获得子模块 733 , 适于利用所述匹配的结果获得所述正文信息的所 属地域。
其中, 所述行政区域统计表包括: 省、 市、 县、 镇和村中至少一个行政 级别的地理名词。
其中, 所述匹配的结果包括: 地理名词、 所述地理名词的出现频次及所 述地理名词之间的行政关系。
其中, 所述网页抓 ίΜ莫块中采用网络爬虫抓取当前网络中包含舆情信息 的网页。
其中, 所述正文信息包括: 正文内容和 /或标题。
其中, 当所述网页为电子公告板 bbs或网络日志 blog的网页时, 所述正 文信息包括: 板块名称。
其中, 所迷网页分析模块中进一步包括: 多维抽取子模块, 所述多维抽 取子模块, 适于对所述网页进行多维抽取, 以获得所述网页的正文信息。
其中, 所迷展示模块进一步包括: 结果散列子模块, 所述结果散列子模 块, 适于将所述数据统计的结果散列到颜色的色阶范围内来实现地图着色。
其中, 所述展示模块进一步包括: 放大缩小子模块, 所述放大缩小子模 块, 适于根据需要对地图区域的不同行政级别进行调整显示。
其中,所述系统还包括: 学习模块,在对大量样本做人工标识和校正后, 适于采用基于支持向量机 SVM的机器进行学习, 直至达到预设的准确率。
应当注意的是, 在本发明的系统的各个部件中, 根据其要实现的功能而 对其中的部件进行了逻辑划分, 但是, 本发明不受限于此, 可以根据需要对 各个部件进行重新划分或者组合, 例如, 可以将一些部件组合为单个部件, 或者可以将一些部件进一步分解为更多的子部件。
本发明的各个部件实施例可以以硬件实现, 或者以在一个或者多个 处理器上运行的软件模块实现, 或者以它们的组合实现。 本领域的技术 人员应当理解, 可以在实践中使用微处理器或者数字信号处理器 (DSP ) 来实现根据本发明实施例的舆情信息展示系统中的一些或者全部部件的 一些或者全部功能。 本发明还可以实现为用于执行这里所描述的方法的 一部分或者全部的设备或者装置程序 (例如, 计算机程序和计算机程序 产品) 。 这样的实现本发明的程序可以存储在计算机可读介质上, 或者 可以具有一个或者多个信号的形式。 这样的信号可以从因特网网站上下 载得到, 或者在载体信号上提供, 或者以任何其他形式提供。
例如, 图 1 1示出了可以实现根据本发明的舆情信息展示方法的服务 器, 例如应用服务器。 该服务器传统上包括处理器 11 10和以存储器 1 120 形式的计算机程序产品或者计算机可读介质。 存储器 1120可以是诸如闪 存、 EEPROM (电可擦除可编程只读存储器)、 EPROM、 硬盘或者 ROM 之类的电子存储器。 存储器 1 120具有用于执行上述方法中的任何方法步 骤的程序代码 1 131的存储空间 1130。 例如, 用于程序代码的存储空间 1130可以包括分别用于实现上面的方法中的各种步驟的各个程序代码 1131。 这些程序代码可以从一个或者多个计算机程序产品中读出或者写 入到这一个或者多个计算机程序产品中。 这些计算机程序产品包括诸如 硬盘, 紧致盘 (CD ) 、 存储卡或者软盘之类的程序代码载体。 这样的计 算机程序产品通常为如参考图 12所述的便携式或者固定存储单元。 该存 储单元可以具有与图 1 1的服务器中的存储器 1120类似布置的存储段、 存储空间等。 程序代码可以例如以适当形式进行压缩。 通常, 存储单元 包括计算机可读代码 1 131,, 即可以由例如诸如 11 10之类的处理器读取 的代码, 这些代码当由服务器运行时, 导致该服务器执行上面所描述的 方法中的各个步骤。
本文中所称的 "一个实施例"、 "实施例"或者"一个或者多个实施例 "意 味着, 结合实施例描述的特定特征、 结构或者特性包括在本发明的至少 一个实施例中。 此外, 请注意, 这里"在一个实施例中"的词语例子不一定 全指同一个实施例。 在此处所提供的说明书中, 说明了大量具体细节。 然而, 能够理解, 本发明的实施例可以在没有这些具体细节的情况下被实践。 在一些实例 中, 并未详细示出公知的方法、 结构和技术, 以便不模糊对本说明书的 理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限 制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计 出替换实施例。 在权利要求中, 不应将位于括号之间的任何参考符号构 造成对权利要求的限制。单词"包含"不排除存在未列在权利要求中的元件 或步骤。 位于元件之前的单词 "一"或"一个"不排除存在多个这样的元件。 本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计 算机来实现。 在列举了若干装置的单元权利要求中, 这些装置中的若干 个可以是通过同一个硬件项来具体体现。 单词第一、 第二、 以及第三等 的使用不表示任何顺序。 可将这些单词解释为名称。
此外, 还应当注意, 本说明书中使用的语言主要是为了可读性和教 导的目的而选择的, 而不是为了解释或者限定本发明的主题而选择的。 因此, 在不偏离所附权利要求书的范围和精神的情况下, 对于本技术领 域的普通技术人员来说许多修改和变更都是显而易见的。 对于本发明的 范围, 对本发明所做的公开是说明性的, 而非限制性的, 本发明的范围 由所附权利要求书限定。

Claims

权 利 要 求
1、 一种舆情信息展示系统, 其包括:
网页抓耳^莫块, 适于抓取当前网络中包含舆情信息的网页;
网页分析模块,适于对所述网页进行分析,以获得所述网页的正文信息; 地域识別模块, 适于对所述正文信息进行地域识別, 以获得所述正文信 息的所属地域并对具有相同所属地域的网页进行数量统计;
展示模块, 适于将所述数量统计的结果通过地图着色的方式进行展示。
2、 如权利要求 1所述的系统, 其中, 所述系统还包括: 存储模块, 适 于将所述正文信息进行数据存储。
3、 如权利要求 1或 2所述的系统, 其中, 所述系统还包括: 格式化模 块, 适于对所述正文信息进行格式化。
4、 如权利要求 1所述的系统, 其中, 所述地域识别模块进一步包括: Trie树构建子模块, 适于利用行政区域统计表构建双数组 Trie树; 匹配子模块,适于将所述正文信息中出现的名词与所述双数组 Trie树进 行匹配;
地域获得子模块,适于利用所述匹配的结果获得所述正文信息的所属地 域。
5、 如权利要求 4所述的系统, 其中, 所述行政区域统计表包括: 省、 市、 县、 镇和村中至少一个行政级别的地理名词。
6、 如权利要求 4所述的系统, 其中, 所述匹配的结果包括: 地理名词、 所述地理名词的出现频次及所述地理名词之间的行政关系。
7、 如权利要求 1所述的系统, 其中, 所述网页抓取模块中采用网络爬 虫抓取当前网络中包含舆情信息的网页。
8、 如权利要求 1所述的系统, 其中, 所述正文信息包括: 正文内容和 / 或标题。
9、 如权利要求 1所述的系统, 其中, 当所述网页为电子公告板 bbs或 网络日志 blog的网页时, 所述正文信息包括: 板块名称。
10、 如权利要求 1所述的系统, 其中, 所述网页分析模块中进一步包括: 多维抽取子模块, 所述多维抽取子模块, 适于对所述网页进行多维抽取, 以 获得所述网页的正文信息。
11、 如权利要求 5所述的系统, 其中, 所迷展示模块进一步包括: 结果 散列子模块, 所述结果散列子模块, 适于将所述数据统计的结果散列到颜色 的色阶范围内来实现地图着色。
12、 如权利要求 5所述的系统, 其中, 所述展示模块进一步包括: 放大 缩小子模块, 所 ^ ^大缩小子模块, 适于根据需要对地图区域的不同行政级 別进行调整显示。
13、 如权利要求 1所述的系统, 其中, 所述系统还包括: 学习模块, 在 对大量样本做人工标识和校正后,适于釆用基于支持向量机 SVM的机器进行 学习, 直至达到预设的准确率。
14、 一种舆情信息展示方法, 其包括:
抓取当前网络中包含舆情信息的网页;
对所述网页进行分析, 以获得所述网页的正文信息;
对所述正文信息进行地域识别, 以获得所述正文信息的所属地域, 并对 具有相同所属地域的网页进行数量统计;
将所述数量统计的结果通过地图着色的方式进行展示。
15、 如权利要求 14所述的方法, 其中, 对所述正文信息进行地域识别 之前, 将所述正文信息进行数据存储。
16、 如权利要求 14或 15所述的方法, 其中, 将所述正文信息进行数据存 储之前, 对所述正文信息进行格式化。
17、 如权利要求 14所述的方法, 其中, 对所述正文信息进行地域识别 进一步包括:
利用行政区域统计表构建双数组 Trie树;
将所述正文信息中出现的名词与所述双数組 Trie树进行匹配; 利用所述匹配的结果获得所述正文信息的所属地域。
18、 如权利要求 17所述的方法, 其中, 所述行政区域统计表包括: 省、 市、 县、 镇和村中至少一个行政级别的地理名词。
19、如权利要求 17所述的方法, 其中, 所述匹配的结果包括: 地理名词、 所述地理名词的出现频次及所述地理名词之间的行政关系。
20、 如权利要求 14所述的方法, 其中, 采用网络爬虫抓取当前网络中 包含舆情信息的网页。
21、 如权利要求 14所述的方法, 其中, 所述正文信息包括: 正文内容 和 /或标题
22、 如权利要求 14所述的方法, 其中, 当所述网页为电子公告板 bbs 或网络日志 blog的网页时, 所述正文信息包括: 板块名称。
23、 如权利要求 14所述的方法, 其中, 对所述网页进行分析时, 对所 述网页进行多维抽取, 以获得所述网页的正文信息。
24、 如权利要求 14所述的方法, 其中, 将所述数量统计的结果通过地 图着色的方式进行展示时,将所述数据统计的结果散列到颜色的色阶范围内 来实现地图着色。
25、 如权利要求 14所述的方法, 其中, 将所述数量统计的结果通过地 图着色的方式进行展示时,根据需要对地图区域的不同行政级别进行调整显 示。
26、 如权利要求 14所述的方法, 其中, 对所述正文信息进行地域识别 之前, 在大量样本做人工标识和校正后, 采用基于支持向量机 SVM的机器 进行学习, 直至达到预设的准确率。
27、 一种计算机程序, 包括计算机可读代码, 当所述计算机可读代 码在服务器上运行时,导致所述服务器执行根据权利要求 14-26中的任一 个所述的舆情信息展示方法。
28、 一种计算机可读介质, 其中存储了如权利要求 27所述的计算机 程序。
PCT/CN2013/075644 2012-06-26 2013-05-15 一种舆情信息展示系统及方法 WO2014000518A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/411,092 US9705761B2 (en) 2012-06-26 2013-05-15 Opinion information display system and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210216349.X 2012-06-26
CN201210216349.XA CN102779174B (zh) 2012-06-26 2012-06-26 一种舆情信息展示系统及方法

Publications (1)

Publication Number Publication Date
WO2014000518A1 true WO2014000518A1 (zh) 2014-01-03

Family

ID=47124086

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/075644 WO2014000518A1 (zh) 2012-06-26 2013-05-15 一种舆情信息展示系统及方法

Country Status (3)

Country Link
US (1) US9705761B2 (zh)
CN (1) CN102779174B (zh)
WO (1) WO2014000518A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779174B (zh) 2012-06-26 2016-03-30 北京奇虎科技有限公司 一种舆情信息展示系统及方法
CN103902621B (zh) * 2012-12-28 2017-02-08 深圳先进技术研究院 一种鉴定网络谣言的方法和装置
CN103064951B (zh) * 2012-12-31 2016-08-31 南京烽火星空通信发展有限公司 一种舆情信息的地域识别方法和装置
CN103092950B (zh) * 2013-01-15 2016-01-06 重庆邮电大学 一种网络舆情地理位置实时监控系统和方法
CN103793492B (zh) * 2014-01-22 2017-01-18 武汉虹旭信息技术有限责任公司 基于移动互联网有害信息的地图区域化分析系统及其方法
CN104516961A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于地域的话题挖掘及话题走势分析方法及系统
CN104965915B (zh) * 2015-07-06 2018-08-24 无锡天脉聚源传媒科技有限公司 一种用户访问行为数据的处理方法和系统
CN106933898B (zh) * 2015-12-31 2020-08-11 北京国双科技有限公司 网页信息的处理方法和装置
CN106021278A (zh) * 2016-04-27 2016-10-12 湖南蚁坊软件有限公司 一种微博事件地域热度指数的分析方法
CN108241695B (zh) * 2016-12-26 2021-11-02 北京国双科技有限公司 信息处理方法及装置
CN106919705A (zh) * 2017-03-10 2017-07-04 北京搜狐新媒体信息技术有限公司 网络信息所属地域识别方法及装置
CN107133311A (zh) * 2017-04-28 2017-09-05 安徽博约信息科技股份有限公司 基于区域编码的网络信息归属地索引标记方法
CN107145595A (zh) * 2017-05-27 2017-09-08 南京英斯特网络科技有限公司 一种基于地图的海量数据聚合显示方法
CN107330055A (zh) * 2017-06-29 2017-11-07 麦格创科技(深圳)有限公司 舆情监控方法及系统
CN107633064A (zh) * 2017-09-21 2018-01-26 山东浪潮云服务信息科技有限公司 一种数据可视化方法、装置、可读介质和存储控制器
CN107704621A (zh) * 2017-10-27 2018-02-16 西南财经大学 一种互联网舆情地图可视化展示方法
CN109977278A (zh) * 2019-02-21 2019-07-05 中国电子科技集团公司第二十八研究所 舆情数据的可视化展示系统、方法、设备及存储介质
CN109933656B (zh) * 2019-03-15 2023-08-15 深圳市赛为智能股份有限公司 舆情极性预测方法、装置、计算机设备及存储介质
CN110795449A (zh) * 2019-09-10 2020-02-14 紫光云技术有限公司 基于bs架构的环保舆情系统
CN112905913A (zh) * 2019-12-04 2021-06-04 支付宝(杭州)信息技术有限公司 一种舆情展示方法、装置及设备
CN111045998A (zh) * 2019-12-16 2020-04-21 北京智游网安科技有限公司 一种应用程序所属区域统计方法、系统及存储介质
CN111191103B (zh) * 2019-12-30 2021-08-24 河南拓普计算机网络工程有限公司 从互联网中识别分析企业主体信息方法、装置及存储介质
CN113343080A (zh) * 2021-05-19 2021-09-03 深圳海天力电子商务有限公司 一种数据智能分析方法、系统和设备以及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593209A (zh) * 2008-12-30 2009-12-02 中国科学院地理科学与资源研究所 一种交互式在线统计地图生成与发布装置及方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
CN102426603A (zh) * 2011-11-11 2012-04-25 任子行网络技术股份有限公司 一种文字信息地域识别方法及装置
CN102779174A (zh) * 2012-06-26 2012-11-14 北京奇虎科技有限公司 一种舆情信息展示系统及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519200B2 (en) 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US8015183B2 (en) 2006-06-12 2011-09-06 Nokia Corporation System and methods for providing statstically interesting geographical information based on queries to a geographic search engine
AU2007294516A1 (en) * 2006-09-08 2008-03-13 Fortiusone, Inc. System and method for web enabled geo-analytics and image processing
US20080113674A1 (en) * 2006-11-10 2008-05-15 Mohammad Faisal Baig Vicinity-based community for wireless users
US20080235176A1 (en) * 2007-03-22 2008-09-25 Microsoft Corporation Data comparator
US20100042615A1 (en) * 2008-08-12 2010-02-18 Peter Rinearson Systems and methods for aggregating content on a user-content driven website
US20100204914A1 (en) * 2009-02-11 2010-08-12 Telmap Ltd Active widgets for mobile navigation systems
US20110209201A1 (en) * 2010-02-19 2011-08-25 Nokia Corporation Method and apparatus for accessing media content based on location
CN101901258A (zh) * 2010-07-15 2010-12-01 北京协进科技发展有限公司 一种通过地图显示网页中地理信息的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593209A (zh) * 2008-12-30 2009-12-02 中国科学院地理科学与资源研究所 一种交互式在线统计地图生成与发布装置及方法
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102426603A (zh) * 2011-11-11 2012-04-25 任子行网络技术股份有限公司 一种文字信息地域识别方法及装置
CN102779174A (zh) * 2012-06-26 2012-11-14 北京奇虎科技有限公司 一种舆情信息展示系统及方法

Also Published As

Publication number Publication date
US20150207704A1 (en) 2015-07-23
US9705761B2 (en) 2017-07-11
CN102779174B (zh) 2016-03-30
CN102779174A (zh) 2012-11-14

Similar Documents

Publication Publication Date Title
WO2014000518A1 (zh) 一种舆情信息展示系统及方法
CN105740440B (zh) 一种加快区块链查询的索引方法
CN104182517B (zh) 数据处理的方法及装置
CN103678281B (zh) 对文本进行自动标注的方法和装置
CN105359139B (zh) 安全信息管理系统及安全信息管理方法
WO2014000576A1 (zh) 一种网络搜索方法及网络搜索系统
CN105468605A (zh) 一种实体信息图谱生成方法及装置
US10216831B2 (en) Search results summarized with tokens
JP6785921B2 (ja) ピクチャ検索方法、装置、サーバー及び記憶媒体
CN103853722A (zh) 一种基于检索串的关键词扩展方法、装置和系统
CN102722562B (zh) 基于互联网的组织机构信息整合与更新方法
US20180181609A1 (en) System for De-Duplicating Job Postings
CN103186509A (zh) 通配符类模板泛化方法和装置、通用模板泛化方法和系统
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
CN104268289B (zh) 链接url的失效检测方法和装置
Wenli et al. Identifying node importance based on information entropy in complex networks
WO2014059851A1 (zh) 一种搜索服务器及搜索方法
CN107766398A (zh) 用于使图像与内容项目匹配的方法、装置和数据处理系统
TWI610257B (zh) 資料文件的排序方法及地標資料排序後進行顯示的方法
CN112380338A (zh) 一种基于历史知识库的言历图谱的可视化方法和系统
CN106777395A (zh) 一种基于社区文本数据的话题发现系统
WO2016107240A1 (zh) 一种用于对用户进行验证的方法和装置
WO2016000511A1 (zh) 互联网稀有资源的挖掘方法及装置
JP4728125B2 (ja) 索引ファイルを用いた文書検索の方法、索引ファイルを用いた文書検索サーバ、及び索引ファイルを用いた文書検索プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13810450

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14411092

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13810450

Country of ref document: EP

Kind code of ref document: A1