WO2013189254A1 - 热点聚合方法及装置 - Google Patents
热点聚合方法及装置 Download PDFInfo
- Publication number
- WO2013189254A1 WO2013189254A1 PCT/CN2013/077100 CN2013077100W WO2013189254A1 WO 2013189254 A1 WO2013189254 A1 WO 2013189254A1 CN 2013077100 W CN2013077100 W CN 2013077100W WO 2013189254 A1 WO2013189254 A1 WO 2013189254A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- network resources
- hotspot
- matching
- hot
- module
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000002776 aggregation Effects 0.000 title claims abstract description 49
- 238000004220 aggregation Methods 0.000 title claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000001914 filtration Methods 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 238000007619 statistical method Methods 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 description 17
- 238000012423 maintenance Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013481 data capture Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/005—Discovery of network devices, e.g. terminals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Definitions
- the present invention relates to the field of computer technologies, and in particular, to a hotspot aggregation method and apparatus. Background technique
- the hotspot aggregation method can be applied to a Bulletin Board System (BBS) and a blog (BLOG), and can also be applied to data such as web pages, news, and microblogs.
- BBS Bulletin Board System
- BLOG blog
- each search engine will provide products such as hot list, for example, Baidu's search list, Soso's hot list, etc.
- hot list for example, Baidu's search list, Soso's hot list, etc.
- Method 1 Using the user's query log, performing statistics according to the cycle, segmenting the query string, extracting keywords, and sorting the hot words according to the number of queries.
- Method 2 Extract the central word of the webpage title or content, aggregate according to the central word, and calculate the hot event.
- Method 1 is based on statistics for hot event calculation, so there will be a certain lag, and hot events cannot be found in time.
- the above two methods are based on word segmentation technology, and the word segmentation is based on the dictionary, and the use of word segmentation technology itself will have a certain lag on the discovery of new words, which will lead to some new hot words and hot events can not be found in time.
- the effects of the above two methods are too dependent on the word segmentation technique, which requires dictionary maintenance and a certain operation and maintenance cost. Summary of the invention
- the present invention has been made in order to provide a hot spot aggregation method and apparatus that overcomes the above problems or at least partially solves or alleviates the above problems.
- a hotspot aggregation method including: capturing network resources on the Internet; using a longest common subsequence (LCS) algorithm to match network resources to obtain a match Result; a hotspot phrase is generated based on the matching result.
- LCS longest common subsequence
- a hotspot aggregation apparatus including: a network capture module, configured to capture network resources on the Internet; and a matching module, configured to use a longest common subsequence ⁇
- a computer program comprising computer readable code causing the server to perform any of claims 1-9 when run on a server The network hotspot aggregation method.
- a computer readable medium storing the computer program according to claim 19 is provided.
- the problem of hotspot word discovery lag caused by hotspot aggregation by word segmentation technology and high operation and maintenance cost of dictionary maintenance are solved, which can reduce operation and maintenance costs and hotspots.
- the complexity of the aggregation calculation improves the speed of hotspot aggregation, enables real-time collection, real-time calculation, and rapid discovery of hotspot events, with no lag.
- FIG. 1 is a flow chart schematically showing a hotspot aggregation method according to an embodiment of the present invention
- FIG. 2 is a view schematically showing a configuration of a hotspot aggregation device according to an embodiment of the present invention
- Figure 4 schematically shows a block diagram of a server for performing the method according to the invention
- Fig. 5 schematically shows a storage unit for holding or carrying program code implementing the method according to the invention. Specific embodiment The invention is further described below in conjunction with the drawings and specific embodiments.
- the present invention provides a hotspot aggregation method and apparatus, in accordance with an embodiment of the present invention, in order to solve the problem of hotspot word discovery lag caused by hotspot aggregation by word segmentation technology and high maintenance cost of performing dictionary maintenance.
- the dictionary-free hotspot aggregation method can quickly discover the hot events that occur during this period by using LCS technology to aggregate the topics of web pages on the Internet in a certain period.
- FIG. 1 is a flowchart of a hotspot aggregation method according to an embodiment of the present invention. As shown in FIG. 1, a hotspot aggregation method according to an embodiment of the present invention includes the following processing:
- Step 101 Grab network resources on the Internet; wherein the foregoing network resources include: a webpage, a post, a microblog, a blog, and the like.
- the network resources divided by the predetermined time period are obtained from the file system, where the file system may be a distributed file system (moosefs) or an ordinary file system.
- the network resources can be segmented according to a certain segmentation period (i.e., the predetermined time period described above) from the moosefs.
- the split cycle can control the period of the calculation. For example, because the network resources of the BBS are updated faster, the BBS can split the network resources by the hour (that is, the splitting period is one hour). Because the network resources of the BLOG are updated slowly, the BLOG can be related to each other by day. Network resources are segmented (ie, the segmentation period is 24 hours a day).
- filter-host filter domain name According to the pre-configured domain name list, filtering the network resources of the key domain name can reduce the garbage data;
- filter-blog-list blog whitelist filtering According to the pre-configured network whitelist, retain the network resources corresponding to the network whitelist, for example, according to the blog whitelist, retain the data of the key blog;
- filter- viewcount view number filtering Filter network resources according to the number of webpage views; for example, according to the number of webpages or posts, filter out webpages or posts whose browsing threshold is below a certain threshold, and also need to filter out Browse pages or posts that are above a certain threshold. For example, if the number of views is 0 or 1 is filtered out; if the number of views is 10000 or more, the number of views is 10000. Most of the above are mistakes or old posts;
- filter - replycount Reply number filtering According to the number of replies to news, blogs, or posts to filter network resources; for example, if the number of replies to a post greater than 10000 to filter, mostly for error or old posts ;
- filter_publictime post date filtering Filter network resources according to the release date of the web page; for example, filter the posts one day before.
- filter- title Filters the useless prefix information such as the section name, description, and help in the title: that is, filtering the useless information in the title of the network resource;
- filter word Common word filtering: Filter common words in network resources, for example, filter some commonly used and meaningless words.
- the LCS algorithm is used to match the network resources to obtain a matching result.
- the LCS algorithm is used to match the network resources, and the matching result includes the following processing: using the LCS algorithm, using the matrix Record the matching relationship between two characters in the corresponding position in the two strings, and calculate the longest matching sequence ⁇ ij in the matrix, and obtain the longest matching substring according to the position of the matching sequence in the matrix. Position (ie the above matching result);
- the LCS algorithm uses a matrix to record matches between two characters in all positions in two strings, 1 for matches, and 0 otherwise. Then find the longest sequence of 1 diagonal, the corresponding position is the position of the longest matching substring. It should be noted that LCS is a method to calculate the similarity between two strings: The longer the longest matching substring calculated by LCS, the more similar the two strings are. So, you can use it to aggregate similar topics for the purpose of discovering the same topic.
- Step 103 Generate a hotspot phrase according to the matching result.
- a hotspot phrase is generated according to the position of the longest matching substring obtained in step 102 (i.e., the matching result).
- the minimum number of network resources involved in the matching result generated by the LCS algorithm may be set, and the number of network resources involved is greater than the minimum number. Match the result and generate a hotspot phrase based on the matching result.
- the hotspot phrases can be sorted according to the number of network resources involved.
- the identifier of the network resource related to each hotspot phrase may also be acquired, and each hotspot phrase and the identifier of the network resource related to the hotspot phrase are used as A hotspot group is aggregated for storage.
- the identifier of the network resource may be a link of the network resource or a Uniform I Universal Resource Locator (URL) address of the network resource.
- URL Uniform I Universal Resource Locator
- related network resources may also be directly stored.
- the hotspot phrases may be matched again by using the LCS algorithm to generate a keyword group. Subsequently, each keyword group is generated.
- the hotspot phrase corresponding to the keyword group and the identifier of the network resource related to the hotspot phrase are stored as a hotspot group.
- the longest matching substring calculated by the LCS algorithm is used as a grouping phrase
- the keyword group is calculated by using the LCS algorithm for the phrases in the same group
- the keyword group and all hotspot phrases corresponding to the keyword group are And the logo of the corresponding network resources (website, post, blog, and Weibo, etc.) is classified as a hotspot as a hotspot group.
- the fields of the keyword group to be stored are as shown in Table 1. , including: hotspot group ID, keyword group, status (used to identify whether the keyword group is valid), inventory storage time, modification time, and extension field.
- hotspot group ID The fields of the hotspot phrases that need to be stored are shown in Table 2, including: hotspot group ID, hotspot phrase, inbound storage time, modification time, and extension field. As shown in Table 1 and Table 2, the hotspot phrase and the keyword group correspond to the hotspot group ID field.
- the exttinint(4) extension field needs to be explained. In practical applications, there may be fewer hotspot phrases in the same group, and the keyword group cannot be aggregated. Therefore, only hotspot phrases may appear in a hotspot group, and there is no key. The situation of the phrase.
- the hotspot data in the stored hotspot group may be statistically analyzed, presented, and/or provided with a query service.
- the above hotspot data includes: a keyword group, a hotspot phrase corresponding to the key phrase, and a network resource related to the hotspot phrase.
- hot trend data as shown in Table 3, including: hotspot group ID, date, number of corresponding posts, number of views, number of replies, popularity value, BBS post quality, BBS post quality score (pr_ rank), warehousing time, modification time, and extension fields.
- Table 3 statistical hotspots can be sorted according to hotspot trends in the cycle. For example, according to the heat value, related posts, browsing number, number of responses, etc., the corresponding phrases and posts in the hotspot group can be queried, and the hot trend chart can also be drawn. , showing the trend of hot spots in the cycle.
- the dictionary-free hotspot aggregation method according to the embodiment of the present invention first needs to pass
- the LCS performs data capture, aggregates the hot topics discussed, and then calculates a keyword group corresponding to the hotspot.
- the hotspot may also be related to the hotspot according to the related posts, the number of views, the number of replies, and the number of discussions. Sort.
- the technical solution according to the embodiment of the present invention does not use word segmentation technology, and uses the LCS algorithm to extract keywords from a topic and group aggregation of keywords, thereby avoiding some problems caused by word segmentation, for example, a lag line of new word discovery, and
- the technical solution of the embodiment of the present invention is capable of real-time collection, real-time calculation, and rapid discovery of hotspot events.
- the hotspot aggregation method in the embodiment of the present invention can be applied to the BBS and the BLOG hotspot aggregation, and needs to perform data capture based on the BBS and the BLOG, and aggregate the topics discussed, and calculate the keyword group corresponding to the hotspot. According to the corresponding number of posts, the number of views, the number of responses, the number of discussions, etc., the hotspots are sorted, and hot events can be quickly found.
- the application of the technical solution of the embodiment of the present invention is not limited to the BBS and the BLOG data, and can be applied to other network resources such as web pages, news, and Weibo.
- the hotspot aggregation of the network resources by using the LCS algorithm solves the hotspot word discovery lag caused by the hotspot aggregation by the word segmentation technology in the prior art, and the operation and maintenance cost of performing dictionary maintenance.
- the high problem can reduce the operation and maintenance cost and the computational complexity, improve the speed of hotspot aggregation, and can collect real-time data, real-time calculations, and quickly find hot events. There is basically no lag.
- FIG. 2 is a schematic structural diagram of a hotspot aggregation device according to an embodiment of the present invention.
- a hotspot aggregation device according to an embodiment of the present invention includes: Module 20, matching module 22, and generation module 24, each module of the embodiment of the present invention will be described in detail below.
- the network capture module 20 is configured to capture network resources on the Internet.
- the network resources include: web pages, posts, microblogs, blogs, and the like.
- the network capture module 20 needs to obtain network resources divided by a predetermined time period from a file system, where the file system may be a distributed file system (moosefs) or an ordinary file. system.
- the network capture module 20 can segment the network resources according to a certain segmentation period (that is, the predetermined time period described above) from the moosefs.
- the segmentation period may be configured differently according to the type of network resources (or the speed of network resource update) to control the calculation period. For example, because the network resources of the BBS are updated faster, the BBS can segment the network resources by the hour (ie, the splitting period is one hour). Because the network resources of the BLOG are updated slowly, the BLOG can segment the relevant network resources by day (that is, the segmentation period is 24 hours a day).
- the foregoing apparatus further includes: a filtering module, configured to filter the network resource after the network capture module 20 captures the network resource on the Internet; specifically, the filtering module specifically includes at least one of the following:
- the domain name filtering sub-module is used to filter the domain name (filter_host): According to the pre-configured domain name list, filtering the network resources of the key domain name can reduce the garbage data;
- the whitelist filtering sub-module is used for whitelist filtering (filter-blog-list blog): According to the pre-configured network whitelist, the network resources corresponding to the network whitelist are reserved, for example, according to the blog whitelist, the focus is reserved. Blog data;
- the browsing number filtering sub-module is used for browsing number filtering (filter_viewcount): filtering network resources according to the number of browsing of the webpage; for example, according to the number of browsing of webpages or posts, the number of filtered browsing is lower than For a certain threshold of pages or posts, you also need to filter out pages or posts with a certain number of views above a certain threshold. For example, if the number of views is 0 or 1 is filtered out; if the number of views is 10000 or more, the number of views is 10,000 or more, and most of them are mistakes or old posts;
- the reply number filter sub-module used to filter the reply number (filter_ replycount): Filter the network resources according to the number of replies to news, blogs, or posts; for example, if the number of replies to a post is greater than 10000 Posts are filtered, mostly for catching errors or old posts;
- release date filter sub-module, used to post date filtering Filter network resources according to the date of publication of the web page; for example, filter the post a day ago.
- the title filtering sub-module is used to filter out the useless prefix information (filter_title) of the section name, description, and help in the title: that is, filtering the useless information in the title of the network resource;
- Common word filtering sub-module for common word filtering Filter common words in network resources, for example, filter some commonly used and meaningless words.
- Filtering network resources through the filtering module can filter out most of the interfering network resources and garbage network resources in the network resources, laying a good foundation for the next step.
- the matching module 22 is configured to match the network resources by using the LCS algorithm to obtain a matching result. Specifically, the matching module 22 uses the LCS algorithm to match the network resources, and the matching result includes the following processing: the matching module 22 passes the LCS algorithm. , using the matrix to record the matching relationship between the two characters in the corresponding positions in the two strings, and calculate the longest matching sequence in the matrix, so as to obtain the longest position according to the matching sequence in the matrix. Match the position of the substring (ie the above Match result);
- the LCS algorithm uses a matrix to record matches between two characters in all positions in two strings, 1 for matches, and 0 otherwise. Then find the longest sequence of 1 diagonal, the corresponding position is the position of the longest matching substring. It should be noted that LCS is a method to calculate the similarity between two strings: The longer the longest matching substring calculated by LCS, the more similar the two strings are. So, you can use it to aggregate similar topics for the purpose of discovering the same topic.
- the generating module 24 is configured to generate a hotspot phrase according to the matching result.
- the generating module 24 generates a hotspot phrase according to the position of the longest matching substring acquired by the matching module 22 (ie, the matching result).
- the generating module 24 is specifically configured to: set a minimum number of network resources involved in generating a matching result when the LCS algorithm is used for matching; and obtaining the number of network resources involved is greater than the minimum The matching result of the number, and the hotspot phrase is generated according to the matching result.
- the hotspot aggregation device further includes:
- the storage module is configured to obtain identifiers of network resources related to each hotspot phrase, and store, as a hotspot group, each hot dot phrase and the identifier of the network resource related to the hotspot phrase.
- the identifier of the network resource may be a link of the network resource or a Uniform / Universal Resource Locator (URL) address of the network resource.
- URL Uniform / Universal Resource Locator
- the matching module 22 is further configured to: after generating the hotspot phrase according to the matching result, the LCS algorithm may be used to match the hotspot phrases again to generate a keyword group; Subsequently, the storage module stores each keyword group, the hotspot phrase corresponding to the keyword group, and the identifier of the network resource related to the hotspot phrase as a hotspot group.
- the matching module 22 uses the longest matching substring calculated by the LCS algorithm as a grouping phrase, and uses the LCS algorithm to calculate a keyword group for the phrases in the same group, and groups the keyword group and the keyword group.
- Hot phrases, as well as the corresponding network resources are classified as a hotspot as a hotspot group.
- the fields of the keyword group to be stored are as shown in Table 1. , including: hotspot group ID, keyword group, status (for label Whether the keyword group is valid), the storage time, the modification time, and the extension field.
- hotspot group ID The fields of the hotspot phrases that need to be stored are shown in Table 2, including: hotspot group ID, hotspot phrase, inbound storage time, modification time, and extension field. As shown in Table 1 and Table 2, the hotspot phrase and the keyword group correspond to the hotspot group ID field.
- the hotspot aggregation device further includes: a statistical analysis module, configured to perform statistical analysis, presentation, and/or query on the hotspot data in the stored hotspot group.
- the statistical analysis module may perform statistical analysis, display, and/or provide query service on the hotspot data in the stored hotspot group.
- the above hotspot data includes: a key phrase, a hotspot phrase corresponding to the keyword group, and a network resource related to the hotspot phrase.
- hot trend data as shown in Table 3, including: hotspot group ID, date, number of corresponding posts, number of views, number of replies, popularity value, BBS post quality, BBS post quality score (pr_ rank), warehousing time, modification time, and extension fields.
- the statistical hotspots can be sorted according to the hot trend, for example, according to the heat value, related posts, browsing number, number of responses, etc., the corresponding phrases and posts in the hotspot group can be queried, and the hot trend chart can also be drawn. Demonstrate trends in hotspots during the cycle.
- FIG. 3 is a detailed structural diagram of a hotspot aggregation device according to an embodiment of the present invention.
- a dictionary-free hotspot aggregation device firstly splits network resources in moosefs by configuration (BLOG is configured according to The day is divided, the BBS is divided according to the hour), then the data is filtered, the filtered data is captured by the LCS algorithm, and the hot topics discussed are aggregated to calculate the hot phrase; subsequently, the hot phrase is performed. Grouping and merging, calculating the corresponding keyword group, and finally, calculating the hotspot phrase, keyword group, and hot event
- the above network resource is stored in a database (hotding); preferably, the statistical analysis may be performed according to the data stored in the hotding, for example, according to the related number of posts, the number of views, the number of replies, and the number of discussions corresponding to the keyword group. Sort the hotspots.
- the technical solution according to the embodiment of the present invention does not use word segmentation technology, and uses the LCS algorithm to extract keywords from a topic and group aggregation of keywords, thereby avoiding some problems caused by word segmentation, for example, a lag line of new word discovery, and
- the technical solution of the embodiment of the present invention is capable of real-time collection, real-time calculation, and rapid discovery of hotspot events.
- the hotspot aggregation method in the embodiment of the present invention can be applied to the BBS, and On the BLOG hotspot aggregation, data crawling needs to be performed based on BBS and BLOG, and the topics discussed are aggregated, and the keyword groups corresponding to the hotspots are calculated. According to the corresponding related posts, the number of views, the number of responses, the number of discussions, etc. Hotspots are sorted to quickly discover hotspot events.
- the application of the technical solution of the embodiment of the present invention is not limited to the BBS and the BLOG data, and can be applied to other network resources such as web pages, news, and Weibo.
- the hotspot aggregation of the network resources by using the LCS algorithm solves the hotspot word discovery lag caused by the hotspot aggregation by the word segmentation technology in the prior art, and the operation and maintenance cost of performing dictionary maintenance.
- the high problem can reduce the operation and maintenance cost and the computational complexity, improve the speed of hotspot aggregation, and can collect real-time data, real-time calculations, and quickly find hot events. There is basically no lag.
- the various component embodiments of the present invention may be implemented in hardware, or in a software module running on one or more processors, or in a combination thereof.
- a microprocessor or digital signal processor may be used in practice to implement some or all of the functionality of some or all of the components of the hotspot aggregation device in accordance with embodiments of the present invention.
- the invention can also be implemented as a part or all of a device or device program (e.g., a computer program and a computer program product) for performing the methods described herein.
- a program implementing the present invention may be stored on a computer readable medium or may be in the form of one or more signals. Such signals may be downloaded from an Internet website, provided on a carrier signal, or provided in any other form.
- Figure 4 illustrates a server, such as an application server, that can implement the hotspot aggregation method in accordance with the present invention.
- the server conventionally includes a processor 410 and a computer program product or computer readable medium in the form of a memory 420.
- the memory 420 may be an electronic memory such as a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), an EPROM, a hard disk, or a ROM.
- Memory 420 has a memory space 430 for program code 431 for performing any of the method steps described above.
- storage space 430 for program code may include various program code 431 for implementing various steps in the above methods, respectively.
- the program code can be read from or written to one or more computer program products.
- These computer program products include program code carriers such as hard disks, compact disks (CDs), memory cards or floppy disks.
- Such computer program products are typically portable or fixed storage units as described with reference to FIG.
- the storage unit may have a storage section, a storage space, and the like arranged similarly to the storage 420 in the server of FIG.
- the program code can be compressed, for example, in an appropriate form.
- the storage unit includes a computer Read code 43A, that is, code that can be read by a processor, such as 410, which, when run by the server, causes the server to perform various steps in the methods described above.
- an embodiment or “one or more embodiments” as used herein means that the particular features, structures, or characteristics described in connection with the embodiments are included in at least one embodiment of the invention.
- the phrase “in one embodiment” herein does not necessarily refer to the same embodiment.
- any reference signs placed between parentheses shall not be construed as a limitation.
- the word “comprising” does not exclude the presence of the elements or steps that are not in the claims.
- the word “a” or “an” preceding a component does not exclude the presence of a plurality of such elements.
- the invention can be implemented by means of hardware comprising several distinct elements and by means of a suitably programmed computer. In the unit claims enumerating several means, several of these means can be embodied by the same hardware item.
- the use of the words first, second, and third does not indicate any order. These words can be interpreted as names.
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种热点聚合方法及装置。该方法包括:抓取互联网上的网络资源;采用最长公共子序列LCS算法对网络资源进行匹配,获取匹配结果;根据匹配结果生成热点词组。借助于本发明的技术方案,能够降低运维成本和热点聚合计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。
Description
热点聚合方法及装置
技术领域
本发明涉及计算机技术领域, 尤其涉及一种热点聚合方法及装置。 背景技术
在现有技术中, 热点聚合方法可以应用在电子布告栏系统(Bulletin Board System , 简称为 BBS )和博客( BLOG )上, 也可以应用在网页、 新 闻、 以及微博等数据上。
目前,各搜索引擎都会提供热榜之类的产品,例如,百度的搜索风云榜, 搜搜的热榜等, 在现有技术中, 热点聚合的实现方法基本有两种:
方法 1 , 利用用户的查询日志, 按周期进行统计, 对查询串进行分词, 提取关键词, 根据查询次数排序得到热词榜。
方法 2, 对网页标题或内容进行中心词的抽取, 按中心词进行聚合, 计 算出热点事件。
方法 1是基于统计进行热点事件计算的, 因而会有一定的滞后性, 不能 及时发现热点事件。 此外, 上述两种方法都基于分词技术, 而分词是基于词 典的, 而利用分词技术本身就会对新词的发现有一定的滞后性, 从而会导致 一些新的热词及热门事件不能及时发现, 此外, 上述两种方法的效果太过依 赖于分词技术, 需要进行词典维护, 还具有一定的运维成本。 发明内容
鉴于上述问题, 提出了本发明以便提供一种克服上述问题或者至少 部分地解决或者减緩上述问题的热点聚合方法及装置。
根据本发明的一个方面, 提供了一种热点聚合方法, 包括: 抓取互联 网上的网络资源; 釆用最长公共子序列 ( Longest Common Subsequence , 简 称为 LCS )算法对网络资源进行匹配, 获取匹配结果; 根据匹配结果生成热 点词组。
根据本发明的另一个方面, 提供了一种热点聚合装置, 包括: 网络抓 取模块, 用于抓取互联网上的网络资源; 匹配模块, 用于釆用最长公共子序
歹 |J LCS 算法对网络资源进行匹配, 获取匹配结果; 生成模块, 用于根据匹 配结果生成热点词组。
根据本发明的又一个方面, 提供了一种计算机程序, 其包括计算机 可读代码, 当所述计算机可读代码在服务器上运行时, 导致所述服务器 执行根据权利要求 1-9中的任一个所述的网络热点聚合方法。
根据本发明的再一个方面, 提供了一种计算机可读介质, 其中存储 了如权利要求 19所述的计算机程序。
本发明的有益效果为:
通过利用 LCS算法对网络资源进行热点聚合, 解决了现有技术中通过 分词技术进行热点聚合而导致的热点词发现滞后、 以及进行词典维护的运维 成本高的问题, 能够降低运维成本和热点聚合计算的复杂度, 提高了热点聚 合的速度, 能够实时釆集, 实时计算, 快速发现热点事件, 基本没有滞后。
上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明 的技术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上 述和其它目的、 特征和优点能够更明显易懂, 以下特举本发明的具体实 施方式。 附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于 本领域普通技术人员将变得清楚明了。 附图仅用于示出优选实施方式的 目的, 而并不认为是对本发明的限制。 而且在整个附图中, 用相同的参 考符号表示相同的部件。 在附图中:
图 1示意性示出了根据本发明一个实施例的热点聚合方法的流程图; 图 2示意性示出了根据本发明一个实施例的热点聚合装置的结构图; 图 3示意性示出了根据本发明一个实施例的热点聚合装置的详细结构 图;
图 4 示意性地示出了用于执行根据本发明的方法的服务器的框图; 以及
图 5 示意性地示出了用于保持或者携带实现根据本发明的方法的程 序代码的存储单元。 具体实施例
下面结合附图和具体的实施方式对本发明作进一步的描述。
为了解决现有技术中通过分词技术进行热点聚合而导致的热点词发现 滞后、 以及进行词典维护的运维成本高的问题, 本发明提供了一种热点聚合 方法及装置, 根据本发明实施例的无词典热点聚合方法, 通过釆用 LCS技 术对互联网上网页的主题在一定周期内进行聚合, 可以快速发现本周期内发 生的热点事件。 以下结合附图以及实施例, 对本发明进行进一步详细说明。 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
根据本发明的实施例, 提供了一种热点聚合方法, 图 1是本发明实施例 的热点聚合方法的流程图, 如图 1所示, 根据本发明实施例的热点聚合方法 包括如下处理:
步骤 101 , 抓取互联网上的网络资源; 其中, 上述网络资源包括: 网页、 帖子、 微博、 博客等。
优选地, 在实际应用中, 需要从文件系统中获取以预定时间周期分割后 的网络资源, 其中, 该文件系统可以为分布式文件系统(moosefs ) , 也可 以为普通的文件系统。 在步骤 101中, 可以从 moosefs上釆集按一定切分周 期(即上述预定时间周期)切分好的网络资源。 在实际应用中, 切分周期可 以控制计算的周期。 例如, 由于 BBS的网络资源更新较快, 因此, BBS可 以按小时对网络资源进行切分(即切分周期为一小时), 由于 BLOG的网络 资源更新较慢, 因此, BLOG可以按天对相关网络资源进行切分(即切分周 期为一天 24小时) 。
此外, 在抓取互联网上的网络资源之后, 还可以对网络资源进行过滤。
1、 filter— host过滤域名: 根据预先配置的域名列表, 滤除非重点域名的 网络资源, 可以减少垃圾数据;
2、 filter— blog— list blog白名单过滤: 根据预先配置的网络白名单, 保留 与网络白名单相应的网络资源, 例如, 根据博客白名单, 保留重点博客的数 据;
3、 filter— viewcount 浏览数过滤: 根据网页的浏览数对网络资源进行过 滤; 例如, 根据对网页或帖子的浏览数的多少, 过滤出浏览数低于一定门限 的网页或帖子, 还需要过滤出浏览数高于一定门限的网页或帖子。 例如, 对 浏览数为 0或 1的过滤掉;对浏览数为 10000以上的过滤掉,浏览数为 10000
以上的大多为抓错或旧帖;
4、 filter— replycount 回复数过滤: 根据新闻、 博客、 或者帖子的回复数 对网络资源进行过滤; 例如, 如果对某个帖子的回复数大于 10000以上的帖 子进行过滤, 大多为抓错或旧帖;
5、 filter_publictime发帖日期过滤: 根据网页的发布日期对网络资源进 行过滤; 例如, 将一天前的帖子进行过滤。
6、 filter— title 过滤掉题目里的版块名称、 说明、 以及求助等无用前缀信 息: 即, 对网络资源的标题中的无用信息进行过滤;
7、 filter— comm— word 常用词过滤: 对网络资源中的常用词进行过滤, 例如, 对一些常用的、 无意义的词进行过滤。
通过上述网络资源的过滤处理, 能够过滤掉网络资源中大部分的干扰网 络资源和垃圾网络资源, 为下一步匹配打下良好的基础。
步骤 102, 釆用 LCS算法对网络资源进行匹配, 获取匹配结果; 具体地, 在步骤 201中, 釆用 LCS算法对网络资源进行匹配, 获取匹 配结果具体包括如下处理: 通过 LCS算法, 釆用矩阵记录两个字符串中相 应位置上的两个字符之间的匹配关系, 并计算矩阵中对角线最长的匹配序 歹 ij , 根据匹配序列在矩阵中的位置, 获取最长匹配子串的位置(即上述匹配 结果) ;
例如, LCS算法使用一个矩阵来记录两个字符串中所有位置的两个字 符之间的匹配情况, 若是匹配则为 1 , 否则为 0。 然后求出对角线最长的 1 序列, 其对应的位置就是最长匹配子串的位置。 需要说明的是, LCS是计算 两个字符串相似程度的一种方法: LCS计算出的最长匹配子串越长, 两个字 符串越相似。 所以, 用它可以对相似主题进行聚集, 用来达到发现相同主题 的目的。
步骤 103 , 根据匹配结果生成热点词组。
具体地,在步骤 103中,根据步骤 102中获取的最长匹配子串的位置(即, 匹配结果)生成热点词组。
为了能够获取更准确的热点词组, 在本发明实施例中, 可以设置釆用 LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数,获取所涉及 网络资源的个数大于最少个数的匹配结果, 并根据该匹配结果生成热点词 组。 当然, 判断是否构成热点词组的维度还有 4艮多, 例如, 可以按照所涉及 的网络资源数量的多少对热点词组进行排序等等。
优选地, 在本发明实施例中, 根据匹配结果生成热点词组之后, 还可以 获取与各个热点词组相关的网络资源的标识, 并将每个热点词组以及与该热 点词组相关的网络资源的标识作为一个热点组进行聚合存储。 其中, 网络资 源的标识可以为网络资源的链接、或者网络资源的统一资源定位符(Uniform I Universal Resource Locator, 简称为 URL )地址。 当然, 在本发明实施例中, 也可以直接对相关的网络资源进行存储。
为了进一步对热点词组进行聚合, 在本发明实施例中, 优选地, 在根据 匹配结果生成热点词组之后, 可以釆用 LCS算法对热点词组再次进行匹配, 生成关键词组; 随后, 将每个关键词组、 与关键词组相对应的热点词组、 以 及与热点词组相关的网络资源的标识作为一个热点组进行存储。
也就是说, 将 LCS算法计算出的最长匹配子串, 做为分组词组, 对同 一组中的词组再使用 LCS算法计算出关键词组, 并将关键词组、 与关键词 组对应的所有热点词组、 以及对应网络资源 (网站、 帖子、 博客、 以及微博 等) 的标识归为一个热点, 作为一个热点组。
在实际应用中, 将每个关键词组、 与关键词组相对应的热点词组、 以及 与热点词组相关的网络资源的标识作为一个热点组进行存储时, 需要存储的 关键词组的字段如表 1所示, 包括: 热点组 ID、 关键词组、 状态 (用于标 识关键词组是否有效) 、 入库存储时间、 修改时间、 以及扩展字段。
表 1
表 2
字段名称 类型 约束 说明
group— id int(l l) 索引 热点组 id
wordstr varchar(255) 唯一索引 热点词组
reg time datetime 入库时间
mod time timestamp 修改时间
ext tinyint(4) 扩展字段 需要说明的是, 在实际应用中, 可能由于同一组中的热点词组比较少, 不能再聚合出关键词组, 因此, 在一个热点组中可能出现只有热点词组, 没 有关键词组的情况。
优选地, 执行完上述处理后, 可以对存储的热点组中的热点数据进行统 计分析、 展现、 和 /或提供查询服务。 上述热点数据包括: 关键词组、 与关键 词组相对应的热点词组、 以及与热点词组相关的网络资源。
具体地,在实际应用中,还需要记录如表 3所示的热点趋势数据, 包括: 热点组 ID、 日期、 对应帖子数、 浏览数、 回复数、 热度值、 BBS帖子质量、 BBS帖子质量分数(pr— rank )、 入库时间、 修改时间、 以及扩展字段。 根据 表 3 , 周期内可以按照热点趋势排序统计热点, 例如, 按照热度值, 相关帖 数, 浏览数, 回复数等进行排序, 可以查询热点组内对应词组、 帖子, 还可 以画出热点趋势图、 展现周期内热点的变化趋势。
表 3
LCS进行数据抓取, 对讨论的热点话题进行聚合, 随后, 计算出热点对应的 关键词组, 优选地,还可以根据关键词组对应的相关帖数、 浏览数、 回复数、 以及讨论数等对热点进行排序。根据本发明实施例的技术方案不釆用分词技 术, 釆用 LCS算法对主题抽取关键词以及对关键词进行分组聚合, 避免了 分词带来的一些问题, 例如, 新词发现的滞后行、 以及词典维护运营成本高 等, 本发明实施例的技术方案能够实时釆集、 实时计算, 并快速地发现热点 事件。
需要说明的是, 本发明实施例的热点聚合方法可以应用在 BBS、 以及 BLOG热点聚合上, 需要基于 BBS、 以及 BLOG进行数据抓取, 并对讨论 的话题进行聚合, 计算出热点对应的关键词组, 根据其对应的相关帖数, 浏 览数, 回复数, 讨论数等对热点进行排序, 可以快速发现热点事件。 本发明 实施例的技术方案的应用并不只限定于 BBS、 以及 BLOG数据, 它同样可 以应用在网页、 新闻、 以及微博等其他网络资源上。
借助于本发明实施例的上述技术方案, 通过利用 LCS算法对网络资源 进行热点聚合,解决了现有技术中通过分词技术进行热点聚合而导致的热点 词发现滞后、 以及进行词典维护的运维成本高的问题, 能够降低运维成本和 计算的复杂度, 提高了热点聚合的速度, 能够实时釆集, 实时计算, 快速发 现热点事件, 基本没有滞后。
根据本发明的实施例, 提供了一种热点聚合装置, 图 2是本发明实施例 的热点聚合装置的结构示意图, 如图 2所示, 根据本发明实施例的热点聚合 装置包括: 网络抓取模块 20、 匹配模块 22、 以及生成模块 24, 以下对本发 明实施例的各个模块进行详细的说明。
网络抓取模块 20, 用于抓取互联网上的网络资源; 其中, 上述网络资源 包括: 网页、 帖子、 微博、 博客等。
优选地, 在实际应用中, 网络抓取模块 20需要从文件系统中获取以预 定时间周期分割后的网络资源, 其中, 该文件系统可以为分布式文件系统 ( moosefs ) , 也可以为普通的文件系统。 网络抓取模块 20可以从 moosefs 上釆集按一定切分周期(即上述预定时间周期)切分好的网络资源。 在实际 应用中, 切分周期可以根据网络资源的种类(或者网络资源更新的速度)的 不同进行不同的配置, 以控制计算的周期。 例如, 由于 BBS的网络资源更 新较快,因此, BBS可以按小时对网络资源进行切分(即切分周期为一小时 ),
由于 BLOG的网络资源更新较慢, 因此, BLOG可以按天对相关网络资源进 行切分(即切分周期为一天 24小时) 。
优选地, 上述装置还包括: 过滤模块, 用于在网络抓取模块 20抓取互 联网上的网络资源之后, 对网络资源进行过滤; 具体地, 上述过滤模块具体 包括以下至少之一:
1、 域名过滤子模块, 用于过滤域名 ( filter— host ) : 根据预先配置的域 名列表, 滤除非重点域名的网络资源, 可以减少垃圾数据;
2、 白名单过滤子模块, 用于进行白名单过滤(filter— blog— list blog ) : 根据预先配置的网络白名单, 保留与网络白名单相应的网络资源, 例如, 根 据博客白名单, 保留重点博客的数据;
3、 浏览数过滤子模块, 用于进行浏览数过滤(filter— viewcount ): 根据 网页的浏览数对网络资源进行过滤; 例如, 根据对网页或帖子的浏览数的多 少, 过滤出浏览数低于一定门限的网页或帖子, 还需要过滤出浏览数高于一 定门限的网页或帖子。例如,对浏览数为 0或 1的过滤掉;对浏览数为 10000 以上的过滤掉, 浏览数为 10000以上的大多为抓错或旧帖;
4、 回复数过滤子模块, 用于进行回复数过滤(filter— replycount ): 根据 新闻、 博客、 或者帖子的回复数对网络资源进行过滤; 例如, 如果对某个帖 子的回复数大于 10000以上的帖子进行过滤, 大多为抓错或旧帖;
5、 发布日期过滤子模块, 用于进行发帖日期过滤 ( filter_publictime ) : 根据网页的发布日期对网络资源进行过滤;例如,将一天前的帖子进行过滤。
6、 标题过滤子模块, 用于过滤掉题目里的版块名称、 说明、 以及求助 等无用前缀信息( filter— title ): 即, 对网络资源的标题中的无用信息进行过 滤;
7、 常用词过滤子模块, 用于进行常用词过滤( filter— comm— word ): 对 网络资源中的常用词进行过滤,例如,对一些常用的、无意义的词进行过滤。
通过过滤模块对网络资源的过滤处理, 能够过滤掉网络资源中大部分的 干扰网络资源和垃圾网络资源, 为下一步匹配打下良好的基础。
匹配模块 22, 用于釆用 LCS算法对网络资源进行匹配, 获取匹配结果; 具体地, 匹配模块 22釆用 LCS算法对网络资源进行匹配, 获取匹配结 果具体包括如下处理: 匹配模块 22通过 LCS算法, 釆用矩阵记录两个字符 串中相应位置上的两个字符之间的匹配关系, 并计算矩阵中对角线最长的匹 配序列, 才艮据匹配序列在矩阵中的位置, 获取最长匹配子串的位置(即上述
匹配结果) ;
例如, LCS算法使用一个矩阵来记录两个字符串中所有位置的两个字 符之间的匹配情况, 若是匹配则为 1 , 否则为 0。 然后求出对角线最长的 1 序列, 其对应的位置就是最长匹配子串的位置。 需要说明的是, LCS是计算 两个字符串相似程度的一种方法: LCS计算出的最长匹配子串越长, 两个字 符串越相似。 所以, 用它可以对相似主题进行聚集, 用来达到发现相同主题 的目的。
生成模块 24, 用于根据匹配结果生成热点词组。
具体地,生成模块 24根据匹配模块 22获取的最长匹配子串的位置(即, 匹配结果)生成热点词组。
优选地, 为了获取更准确的热点词组, 生成模块 24具体用于: 设置釆 用 LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数; 获取所 涉及网络资源的个数大于所述最少个数的匹配结果, 并根据该匹配结果生成 热点词组。
优选地, 在本发明实施例中, 热点聚合装置还包括:
存储模块, 用于获取与各个热点词组相关的网络资源的标识, 将每个热 点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储。 其中, 网络资源的标识可以为网络资源的链接、 或者网络资源的统一资源定 位符 ( Uniform / Universal Resource Locator, 简称为 URL )地址。 当然, 在 本发明实施例中, 也可以直接对相关的网络资源进行存储。
为了进一步对热点词组进行聚合, 在本发明实施例中, 优选地, 匹配模 块 22还用于: 在根据匹配结果生成热点词组之后, 可以釆用 LCS算法对热 点词组再次进行匹配, 生成关键词组; 随后, 存储模块将每个关键词组、 与 关键词组相对应的热点词组、 以及与热点词组相关的网络资源的标识作为一 个热点组进行存储。
也就是说, 匹配模块 22将 LCS算法计算出的最长匹配子串, 做为分组 词组, 对同一组中的词组再使用 LCS算法计算出关键词组, 并将关键词组、 与关键词组对应的所有热点词组、 以及对应网络资源 (网站、 帖子、 博客、 以及微博等) 的标识归为一个热点, 作为一个热点组。
在实际应用中, 将每个关键词组、 与关键词组相对应的热点词组、 以及 与热点词组相关的网络资源的标识作为一个热点组进行存储时, 需要存储的 关键词组的字段如表 1所示, 包括: 热点组 ID、 关键词组、 状态 (用于标
识关键词组是否有效) 、 入库存储时间、 修改时间、 以及扩展字段。
表 1
需要存储的热点词组的字段如表 2所示, 包括: 热点组 ID、 热点词组、 入库存储时间、 修改时间、 以及扩展字段。 如表 1和表 2所示, 热点词组和 关键词组通过热点组 ID这个字段相对应。
表 2
根据本发明实施例, 热点聚合装置还包括: 统计分析模块, 用于对存储 的热点组中的热点数据进行统计分析、 展现、 和 /或查询。
具体地, 在执行完上述处理后, 统计分析模块可以对存储的热点组中的 热点数据进行统计分析、展现、 和 /或提供查询服务。 上述热点数据包括: 关 键词组、 与关键词组相对应的热点词组、 以及与热点词组相关的网络资源。
具体地,在实际应用中,还需要记录如表 3所示的热点趋势数据, 包括: 热点组 ID、 日期、 对应帖子数、 浏览数、 回复数、 热度值、 BBS帖子质量、 BBS帖子质量分数(pr— rank )、 入库时间、 修改时间、 以及扩展字段。 根据
表 3 , 周期内可以按照热点趋势排序统计热点, 例如, 按照热度值, 相关帖 数, 浏览数, 回复数等进行排序, 可以查询热点组内对应词组、 帖子, 还可 以画出热点趋势图、 展现周期内热点的变化趋势。
表 3
图 3是本发明实施例的热点聚合装置的详细结构示意图, 如图 3所示, 根据本发明实施例的无词典的热点聚合装置, 首先通过配置将 moosefs中的 网络资源进行切分(BLOG按照天进行切分, BBS按照小时进行切分), 然 后对数据进行过滤, 通过 LCS算法对过滤后的数据进行抓取, 对讨论的热 点话题进行聚合, 计算出热点词组; 随后, 对热点词组进行分组归并, 计算 出对应的关键词组, 最后, 将计算出的热点词组、 关键词组、 以及热点事件
(上述网络资源)存储到数据库(hotding )中; 优选地, 还可以根据 hotding 中存储的数据进行统计分析, 例如, 可以根据关键词组对应的相关帖数、 浏 览数、 回复数、 以及讨论数等对热点进行排序。 根据本发明实施例的技术方 案不釆用分词技术, 釆用 LCS算法对主题抽取关键词以及对关键词进行分 组聚合, 避免了分词带来的一些问题, 例如, 新词发现的滞后行、 以及词典 维护运营成本高等, 本发明实施例的技术方案能够实时釆集、 实时计算, 并 快速地发现热点事件。
需要说明的是, 本发明实施例的热点聚合方法可以应用在 BBS、 以及
BLOG热点聚合上, 需要基于 BBS、 以及 BLOG进行数据抓取, 并对讨论 的话题进行聚合, 计算出热点对应的关键词组, 根据其对应的相关帖数, 浏 览数, 回复数, 讨论数等对热点进行排序, 可以快速发现热点事件。 本发明 实施例的技术方案的应用并不只限定于 BBS、 以及 BLOG数据, 它同样可 以应用在网页、 新闻、 以及微博等其他网络资源上。
借助于本发明实施例的上述技术方案, 通过利用 LCS 算法对网络资源 进行热点聚合,解决了现有技术中通过分词技术进行热点聚合而导致的热点 词发现滞后、 以及进行词典维护的运维成本高的问题, 能够降低运维成本和 计算的复杂度, 提高了热点聚合的速度, 能够实时釆集, 实时计算, 快速发 现热点事件, 基本没有滞后。
本发明的各个部件实施例可以以硬件实现, 或者以在一个或者多个 处理器上运行的软件模块实现, 或者以它们的组合实现。 本领域的技术 人员应当理解, 可以在实践中使用微处理器或者数字信号处理器 (DSP ) 来实现根据本发明实施例的热点聚合装置中的一些或者全部部件的一些 或者全部功能。 本发明还可以实现为用于执行这里所描述的方法的一部 分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。 这样的实现本发明的程序可以存储在计算机可读介质上, 或者可以具有 一个或者多个信号的形式。 这样的信号可以从因特网网站上下载得到, 或者在载体信号上提供, 或者以任何其他形式提供。
例如, 图 4示出了可以实现根据本发明的热点聚合方法的服务器, 例 如应用服务器。 该服务器传统上包括处理器 410和以存储器 420形式的 计算机程序产品或者计算机可读介质。 存储器 420 可以是诸如闪存、 EEPROM (电可擦除可编程只读存储器 ) 、 EPROM、 硬盘或者 ROM之 类的电子存储器。 存储器 420 具有用于执行上述方法中的任何方法步骤 的程序代码 431的存储空间 430。 例如, 用于程序代码的存储空间 430可 以包括分别用于实现上面的方法中的各种步骤的各个程序代码 431。这些 程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个 或者多个计算机程序产品中。 这些计算机程序产品包括诸如硬盘, 紧致 盘 (CD ) 、 存储卡或者软盘之类的程序代码载体。 这样的计算机程序产 品通常为如参考图 5 所述的便携式或者固定存储单元。 该存储单元可以 具有与图 4的服务器中的存储器 420类似布置的存储段、 存储空间等。 程序代码可以例如以适当形式进行压缩。 通常, 存储单元包括计算机可
读代码 43Γ , 即可以由例如诸如 410之类的处理器读取的代码, 这些代 码当由服务器运行时, 导致该服务器执行上面所描述的方法中的各个步 骤。
本文中所称的 "一个实施例"、 "实施例"或者"一个或者多个实施例 "意 味着, 结合实施例描述的特定特征、 结构或者特性包括在本发明的至少 一个实施例中。 此外, 请注意, 这里"在一个实施例中"的词语例子不一定 全指同一个实施例。
在此处所提供的说明书中, 说明了大量具体细节。 然而, 能够理解, 本发明的实施例可以在没有这些具体细节的情况下被实践。 在一些实例 中, 并未详细示出公知的方法、 结构和技术, 以便不模糊对本说明书的 理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限 制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计 出替换实施例。 在权利要求中, 不应将位于括号之间的任何参考符号构 造成对权利要求的限制。单词"包含"不排除存在未列在权利要求中的元件 或步骤。 位于元件之前的单词 "一"或"一个"不排除存在多个这样的元件。 本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计 算机来实现。 在列举了若干装置的单元权利要求中, 这些装置中的若干 个可以是通过同一个硬件项来具体体现。 单词第一、 第二、 以及第三等 的使用不表示任何顺序。 可将这些单词解释为名称。
此外, 还应当注意, 本说明书中使用的语言主要是为了可读性和教 导的目的而选择的, 而不是为了解释或者限定本发明的主题而选择的。 因此, 在不偏离所附权利要求书的范围和精神的情况下, 对于本技术领 域的普通技术人员来说许多修改和变更都是显而易见的。 对于本发明的 范围, 对本发明所做的公开是说明性的, 而非限制性的, 本发明的范围 由所附权利要求书限定。
Claims
1、 一种网络热点聚合方法, 其包括:
抓取互联网上的网络资源;
釆用最长公共子序列 LCS算法对所述网络资源进行匹配, 获取匹配结 果;
才艮据所述匹配结果生成热点词组。
2、 如权利要求 1所述的方法, 其中, 根据所述匹配结果生成热点词组 具体包括:
设置釆用 LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个 数;
获取所涉及网络资源的个数大于所述最少个数的匹配结果, 并根据该匹 配结果生成热点词组。
3、 如权利要求 1所述的方法, 其中, 所述抓取互联网上的网络资源具 体包括:
从分布式文件系统中获取以预定时间周期分割后的网络资源。
4、 如权利要求 1或 2或 3所述的方法, 其中, 抓取互联网上的网络资 源之后, 所述方法还包括:
对所述网络资源进行过滤。
5、 如权利要求 4所述的方法, 其中, 对所述网络资源进行过滤的处理 具体包括以下至少之一:
根据预先配置的域名列表, 滤除指定域名的网络资源;
根据预先配置的网络白名单, 保留与所述网络白名单相应的网络资源; 根据网页的浏览数对所述网络资源进行过滤;
根据网页的发布日期对所述网络资源进行过滤;
根据新闻、 博客、 或者帖子的回复数对所述网络资源进行过滤; 对所述网络资源的标题中的无用信息进行过滤;
对所述网络资源中的常用词进行过滤。
6、 如权利要求 1所述的方法, 其中, 根据所述匹配结果生成热点词组 之后, 所述方法还包括:
获取与各个热点词组相关的网络资源的标识, 并将每个热点词组以及与 该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。
7、 如权利要求 6所述的方法, 其中, 根据所述匹配结果生成热点词组 之后, 所述方法还包括:
釆用 LCS算法对所述热点词组再次进行匹配, 生成关键词组; 将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热 点组进行存储具体包括:
将每个关键词组、 与所述关键词组相对应的热点词组、 以及与所述热点 词组相关的网络资源的标识作为一个热点组进行存储。
8、 如权利要求 1所述的方法, 其中,
釆用 LCS算法对所述网络资源进行匹配, 获取匹配结果具体包括: 通过所述 LCS算法, 釆用矩阵记录两个字符串中相应位置上的两个字 符之间的匹配关系, 并计算所述矩阵中对角线最长的匹配序列, 根据所述匹 配序列在所述矩阵中的位置, 获取最长匹配子串的位置;
根据所述匹配结果生成热点词组具体包括:
才艮据所述最长匹配子串的位置生成热点词组。
9、 如权利要求 6或 7所述的方法, 其中, 在将所述热点组进行存储之 后, 所述方法还包括:
对存储的所述热点组中的热点数据进行统计分析、 展现、 和 /或查询。
10、 一种热点聚合装置, 其包括:
网络抓取模块, 用于抓取互联网上的网络资源;
匹配模块, 用于釆用最长公共子序列 LCS算法对所述网络资源进行匹 配, 获取匹配结果;
生成模块, 用于才艮据所述匹配结果生成热点词组。
11、 如权利要求 10所述的装置, 其中, 所述生成模块具体用于: 设置釆用 LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个 数;
获取所涉及网络资源的个数大于所述最少个数的匹配结果, 并根据该匹 配结果生成热点词组。
12、 如权利要求 10所述的装置, 其中, 所述网络抓取模块具体用于: 从分布式文件系统中获取以预定时间周期分割后的网络资源。
13、 如权利要求 10或 11或 12所述的装置, 其中, 所述装置还包括: 过滤模块, 用于在所述网络抓取模块抓取互联网上的网络资源之后, 对 所述网络资源进行过滤。
14、 如权利要求 13所述的装置, 其中, 所述过滤模块具体包括以下至 少之一:
域名过滤子模块, 用于根据预先配置的域名列表, 滤除指定域名的网络 资源;
白名单过滤子模块, 用于根据预先配置的网络白名单, 保留与所述网络 白名单相应的网络资源;
浏览数过滤子模块, 用于根据网页的浏览数对所述网络资源进行过滤; 发布日期过滤子模块, 用于根据网页的发布日期对所述网络资源进行过 滤;
回复数过滤子模块, 用于根据新闻、 博客、 或者帖子的回复数对所述网 络资源进行过滤;
标题过滤子模块, 用于对所述网络资源的标题中的无用信息进行过滤; 常用词过滤子模块, 用于对所述网络资源中的常用词进行过滤。
15、 如权利要求 10所述的装置, 其中, 所述装置还包括:
存储模块, 用于获取与各个热点词组相关的网络资源的标识, 将每个热 点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储。
16、 如权利要求 15所述的装置, 其中,
所述匹配模块还用于: 釆用 LCS算法对所述热点词组再次进行匹配, 生成关键词组;
所述存储模块具体用于: 将每个关键词组、 与所述关键词组相对应的热 点词组、 以及与所述热点词组相关的网络资源的标识作为一个热点组进行存 储。
17、 如权利要求 10所述的装置, 其中,
所述匹配模块具体用于: 通过所述 LCS算法, 釆用矩阵记录两个字符 串中相应位置上的两个字符之间的匹配关系, 并计算所述矩阵中对角线最长 的匹配序列, 才艮据所述匹配序列在所述矩阵中的位置, 获取最长匹配子串的 位置;
所述生成模块具体用于: 根据所述最长匹配子串的位置生成热点词组。
18、 如权利要求 15或 16所述的装置, 其中, 所述装置还包括: 统计分析模块, 用于对存储的所述热点组中的热点数据进行统计分析、 展现、 和 /或查询。
19、 一种计算机程序, 包括计算机可读代码, 当所述计算机可读代
码在服务器上运行时,导致所述服务器执行根据权利要求 1-9中的任一个 所述的网络热点聚合方法。
20、 一种计算机可读介质, 其中存储了如权利要求 19所述的计算机 程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/409,859 US20150341771A1 (en) | 2012-06-20 | 2013-06-09 | Hotspot aggregation method and device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210210038.2A CN102710795B (zh) | 2012-06-20 | 2012-06-20 | 热点聚合方法及装置 |
CN201210210038.2 | 2012-06-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013189254A1 true WO2013189254A1 (zh) | 2013-12-27 |
Family
ID=46903341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2013/077100 WO2013189254A1 (zh) | 2012-06-20 | 2013-06-09 | 热点聚合方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150341771A1 (zh) |
CN (1) | CN102710795B (zh) |
WO (1) | WO2013189254A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105491117A (zh) * | 2015-11-26 | 2016-04-13 | 北京航空航天大学 | 面向实时数据分析的流式图数据处理系统及方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102710795B (zh) * | 2012-06-20 | 2015-02-11 | 北京奇虎科技有限公司 | 热点聚合方法及装置 |
US9094461B2 (en) * | 2012-10-19 | 2015-07-28 | Google Inc. | Filtering a stream of content |
CN103188347B (zh) * | 2013-03-15 | 2016-03-30 | 亿赞普(北京)科技有限公司 | 互联网事件分析方法与装置 |
CN103455572B (zh) * | 2013-08-20 | 2016-10-05 | 北京奇虎科技有限公司 | 获取网页中影视主体的方法及装置 |
CN103455758A (zh) * | 2013-08-22 | 2013-12-18 | 北京奇虎科技有限公司 | 恶意网站的识别方法及装置 |
CN103761234A (zh) * | 2013-10-29 | 2014-04-30 | 北京奇虎科技有限公司 | 一种用于优化网络资源点的搜索排名的方法和装置 |
CN103605670B (zh) * | 2013-10-29 | 2017-03-29 | 北京奇虎科技有限公司 | 一种用于确定网络资源点的抓取频率的方法和装置 |
CN106708816B (zh) * | 2015-07-16 | 2019-12-10 | 北京国双科技有限公司 | 网页解析中网页正文重复内容的处理方法及装置 |
CN109408794A (zh) * | 2017-08-17 | 2019-03-01 | 阿里巴巴集团控股有限公司 | 一种频次词典建立方法、分词方法、服务器和客户端设备 |
CN109271495B (zh) * | 2018-08-14 | 2023-02-17 | 创新先进技术有限公司 | 问答识别效果检测方法、装置、设备及可读存储介质 |
TWI752822B (zh) * | 2021-02-09 | 2022-01-11 | 阿物科技股份有限公司 | 有價字詞萃取及形成有價字詞網之方法及其系統 |
CN113051912B (zh) * | 2021-04-08 | 2023-01-20 | 云南电网有限责任公司电力科学研究院 | 一种基于成词率的领域词识别方法及装置 |
CN115719064A (zh) * | 2021-08-24 | 2023-02-28 | 北京有限元科技有限公司 | 行业新词识别方法、装置、系统和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6873982B1 (en) * | 1999-07-16 | 2005-03-29 | International Business Machines Corporation | Ordering of database search results based on user feedback |
CN101246499A (zh) * | 2008-03-27 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 网络信息搜索方法及系统 |
CN102710795A (zh) * | 2012-06-20 | 2012-10-03 | 奇智软件(北京)有限公司 | 热点聚合方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7392390B2 (en) * | 2001-12-12 | 2008-06-24 | Valve Corporation | Method and system for binding kerberos-style authenticators to single clients |
US8346754B2 (en) * | 2008-08-19 | 2013-01-01 | Yahoo! Inc. | Generating succinct titles for web URLs |
TW201025035A (en) * | 2008-12-18 | 2010-07-01 | Univ Nat Taiwan | Analysis algorithm of time series word summary and story plot evolution |
CN102163198B (zh) * | 2010-02-24 | 2014-10-22 | 北京搜狗科技发展有限公司 | 提供新词或热词的方法及系统 |
-
2012
- 2012-06-20 CN CN201210210038.2A patent/CN102710795B/zh not_active Expired - Fee Related
-
2013
- 2013-06-09 US US14/409,859 patent/US20150341771A1/en not_active Abandoned
- 2013-06-09 WO PCT/CN2013/077100 patent/WO2013189254A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6873982B1 (en) * | 1999-07-16 | 2005-03-29 | International Business Machines Corporation | Ordering of database search results based on user feedback |
CN101246499A (zh) * | 2008-03-27 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 网络信息搜索方法及系统 |
CN102710795A (zh) * | 2012-06-20 | 2012-10-03 | 奇智软件(北京)有限公司 | 热点聚合方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105491117A (zh) * | 2015-11-26 | 2016-04-13 | 北京航空航天大学 | 面向实时数据分析的流式图数据处理系统及方法 |
CN105491117B (zh) * | 2015-11-26 | 2018-12-21 | 北京航空航天大学 | 面向实时数据分析的流式图数据处理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102710795B (zh) | 2015-02-11 |
US20150341771A1 (en) | 2015-11-26 |
CN102710795A (zh) | 2012-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2013189254A1 (zh) | 热点聚合方法及装置 | |
WO2019085355A1 (zh) | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 | |
US8161059B2 (en) | Method and apparatus for collecting entity aliases | |
WO2015196907A1 (zh) | 一种挖掘用户需求的搜索推送方法和装置 | |
WO2014000538A1 (zh) | 基于终端访问统计的云网址推荐方法及系统及相关设备 | |
US9047614B2 (en) | Adaptive gathering of structured and unstructured data system and method | |
US20150074289A1 (en) | Detecting error pages by analyzing server redirects | |
JP5292250B2 (ja) | 文書検索装置、文書検索方法、文書検索プログラム | |
WO2015196906A1 (zh) | 一种基于搜索获取疾病咨询信息的方法和装置 | |
US20070233808A1 (en) | Propagating useful information among related web pages, such as web pages of a website | |
WO2013044744A1 (zh) | 一种下载资源提供方法及装置 | |
WO2014000519A1 (zh) | 关键词过滤系统及方法 | |
WO2015081848A1 (zh) | 社交化扩展搜索方法及相应的装置、系统 | |
WO2017167208A1 (zh) | 识别恶意网站的方法、装置及计算机存储介质 | |
WO2021068681A1 (zh) | 标签分析方法、装置及计算机可读存储介质 | |
KR102009020B1 (ko) | 검색 엔진으로 웹 사이트 인증 데이터를 제공하기 위한 방법 및 장치 | |
US8954438B1 (en) | Structured metadata extraction | |
US8171020B1 (en) | Spam detection for user-generated multimedia items based on appearance in popular queries | |
WO2017000659A1 (zh) | 一种富集化url的识别方法和装置 | |
WO2014075504A1 (zh) | 一种运行应用程序的安全控制方法和装置 | |
CN104462613B (zh) | 热点聚合方法及装置 | |
CN104021143A (zh) | 一种记录网页访问行为的方法及装置 | |
WO2015043322A1 (zh) | 引擎抓取、验证和提供网页开放式摘要的方法及装置 | |
CN104978431B (zh) | 网页数据融合方法和装置 | |
US10839028B2 (en) | System for querying web pages using a real time entity authentication engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13807140 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 14409859 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13807140 Country of ref document: EP Kind code of ref document: A1 |