WO2008128442A1 - Procédé pour la surveillance d'un état anormal d'informations internet - Google Patents

Procédé pour la surveillance d'un état anormal d'informations internet Download PDF

Info

Publication number
WO2008128442A1
WO2008128442A1 PCT/CN2008/000840 CN2008000840W WO2008128442A1 WO 2008128442 A1 WO2008128442 A1 WO 2008128442A1 CN 2008000840 W CN2008000840 W CN 2008000840W WO 2008128442 A1 WO2008128442 A1 WO 2008128442A1
Authority
WO
WIPO (PCT)
Prior art keywords
day
keyword
vocabulary
keywords
internet
Prior art date
Application number
PCT/CN2008/000840
Other languages
English (en)
French (fr)
Inventor
Xun Liang
Hua Chen
Jian Yang
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to US12/525,780 priority Critical patent/US8185537B2/en
Publication of WO2008128442A1 publication Critical patent/WO2008128442A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Definitions

  • the invention belongs to the field of internet information mining technology, and specifically relates to a method for tracking and monitoring the degree of abnormality of internet information. Background technique
  • the large concentration of a certain keyword in Internet information often means the occurrence of a hot news or hot event, and when a news or event that is widely concerned occurs, it will be on the network.
  • a large number of texts with related keywords are concentrated. Therefore, the large changes in the number of hot keywords in the Internet text often reflect the emergence or cooling of social hot news or events, and the texts on the Internet that reflect hot news or events will further promote the attention of netizens to relevant news and events. Degree and opinion. That is to say, abnormally high keyword frequency and significant hot news and events have a certain coupling relationship. Therefore, in the present invention, the prediction of the problem of a small change in the word frequency is avoided, and only the amount of word frequency change of the abnormality is concerned.
  • the present invention is a valuable tool for automatically monitoring the frequency of hot vocabulary occurrences for network regulators, institutions that focus on social hot news and events.
  • Different words have different word frequencies, and on a certain day, the same number of occurrences of different words with different word frequencies have different meanings.
  • the historical mean and historical standard deviation of the word frequency are large, for example, 500 times/day and 350 times/day, respectively. If on a certain day, its Internet frequency increases by 300 times and becomes 800 times, that is, it increases by about 1 time, it is still normal. However, if its Internet frequency becomes 1200 times, it increases by about 2 times. It will indicate that there is a corresponding hot news or event.
  • the average daily Internet frequency and its standard deviation are small, for example, 20 times and 15 times respectively. If on a certain day, its Internet frequency increases by 30 times, it becomes 50 times, that is, It has been increased by more than one time, and it is still normal. However, if on a certain day, the amount of information on the Internet increases by 300 times and becomes 320 times, it indicates that there is a corresponding hot event or news.
  • the same increase is 300 times, and the high frequency word is still normal; for the low frequency word, it indicates that an abnormal event has occurred. That is, the metrics for words with different word frequencies are different.
  • the main object of the present invention is to monitor an abnormally high word frequency increase, thereby predicting the occurrence or cooling of network hotspot information, and performing necessary alarms.
  • Khoo KB et al. proposed a method to track hot topics. Regularly count the word frequency of some keyword items on some fixed-point websites or web pages, and use the tfidf formula to calculate the current weight of each term. Get the current hot topic (Khoo KB, Mitsuru I. Emerging Topic Tracking System. Advanced Issues of E-Commerce and Web-Based Information Systems, WECWIS 2001, Third International Workshop on. 2-11. 2001.), hereinafter referred to as There is technology 1.
  • prior art 1 gives a standardized formula to calculate the current weight of each term. As time changes, this weight will also change, reflecting the change of Internet information hotspots. .
  • the main disadvantage is that the historical mean and historical standard deviation of each term are not considered. Therefore, the abnormal hotspots cannot be accurately measured according to the historical expressions of high-frequency words and low-frequency words, and only horizontal comparisons can be made for each term. Summary of the invention
  • a method for monitoring abnormal state of Internet information is to monitor the abnormal state of the Internet information that the user pays attention in combination with the hot word vocabulary that the user pays attention to, and specifically includes the following steps: 1. Obtaining a general vocabulary on the Internet of the day The word frequency data of the day that appears in the page is stored in the database. Timely crawling the webpages of the Internet, and obtaining the frequency of words of each common vocabulary in each webpage; accumulating the frequency of words of the common vocabulary in all webpages, and obtaining the word frequency data of the common vocabulary in the Internet information of the day, and Save to the database. You can follow these steps:
  • the Chinese word segmentation method is used to perform Chinese word segmentation on each webpage document of the day to obtain all the common words in the webpage (can be performed by the current more mature Chinese word segmentation dictionary, such as the massive dictionary of the Institute of Computing Technology of the Chinese Academy of Sciences).
  • Second, combined with the hot vocabulary dictionary that the user pays attention to, determine the keyword of the day of each page, merge the keywords of the day of all the pages, and get the set of keywords of the Internet information ⁇ ti, i l... M ⁇ , M is the key of the day The number of keywords in the vocabulary.
  • the method for determining the keywords of each web page on the day can be as follows:
  • ie tfidf - [ freq(p, D) I size(D)] * [ log(df(p)/ )], where: freq(p, D) is the number of occurrences of the generic vocabulary p in the web page D, size(D) is the number of all common vocabularies contained in the web page D, and df(p) is the general purpose of the webpage collection on the current day.
  • freq(p, D) is the number of occurrences of the generic vocabulary p in the web page D
  • size(D) is the number of all common vocabularies contained in the web page D
  • df(p) is the general purpose of the webpage collection on the current day.
  • the number of articles in the vocabulary p, N is the number N of web pages in the collection of web pages of the day;
  • the historical volatility ⁇ is calculated (regardless of the frequency rise and fall, the invention defines the volatility to take the absolute value of the word frequency change rate, that is, the volatility is always a positive number).
  • c is a constant that can be given by the user based on experience, representing the expansion of the word abnormal threshold.
  • the above method further includes the following steps:
  • step 6 is drawn to the user according to the coordinates of the hot words on the canvas and the predicted word frequency anomaly according to the Java Applet technology and the Java AWT interface. Among them, the longer the graph bar, the greater the abnormality of the word frequency of the Internet.
  • the color of the graphic bar is determined by: according to the length of the graphic bar, by looking up a table of 20 lengths and 20 colors one by one, to determine the color that should be drawn (see Figure 2).
  • the length and color of the graphic strip are respectively
  • the length is L and the color is red (corresponding to the word frequency anomaly of 100).
  • the highest score 99 corresponds to the length L
  • the abnormal threshold 90 points corresponds to the length L / 2
  • the abnormality 0 points corresponds to the length 0.
  • the above method further includes the following steps:
  • the system alerts the user when the alarm line is reached or exceeded.
  • the present invention differs from the prior art 1 in the following three points.
  • the prior art 1 uses the tfidf formula to measure the importance of the keyword items, without considering the historical mean and standard deviation of each term, and there is no mechanism for separately processing the different situations of the high frequency word and the low frequency word;
  • the invention also designs a weight metric formula for vocabulary changes of different frequencies, and uses the historical mean value and the historical standard deviation to predict the volatility of the word frequency. Since the occurrence of anomalies in each keyword depends to a large extent on the historical frequency distribution of the keyword, the historical mean and standard deviation can be used to fundamentally improve the practical application effect of the keyword anomaly detection.
  • the change of the hot topic represented by the change of the word frequency is reflected in the prior art using the ranking of the weight of the term, and the present invention uses abnormal, semi-abnormal or normal as the detection standard, and the degree of abnormality is adopted by the day.
  • the word frequency deviates from the historical mean value.
  • the judged threshold also distinguishes between high-frequency words and low-frequency words, thus emphasizing the degree of abstract hotspot change and making it closer to actual use. occasion.
  • the prior art 1 does not perform graphical display, and is not convenient for practical application.
  • the method of the present invention further designs and implements a display method of the length and color of the graphic strip, and provides a visual expression manner for the word frequency fluctuation rate, and An alarm function is provided.
  • the invention monitors the change of the frequency of hot words in the internet information, calculates the abnormal degree of the keyword, and predicts and alarms the abnormal degree of the word frequency change of the hot words.
  • the invention can provide a timely hotspot information observation window, and find those events with abnormal degree as early as possible, can improve the vigilance of the large fluctuation of the hot word frequency, and react in the first time.
  • it is possible to predict changes in hotspot information and events from the perspective of the Internet, and The user can be alerted to the user fairly accurately. Since the amount of Internet information is usually large, the graphic output mode of the present invention substantially gives a summary information, thereby improving the efficiency of discovering hotspot information.
  • the hotspot information is stock market hotspot information
  • this monitoring technology can indirectly understand the changes in macroeconomic indicators and the impact of corporate financial changes on stock prices, and provide more theoretical basis for policy making of decision-making organs.
  • more financial information will be publicized through the channels of the Internet. Due to the extensiveness and anonymity of the Internet, it is likely to become a weapon for deliberate speculators.
  • research on Internet financial hotspot information can also help financial supervisory institutions to effectively implement financial supervision, improve information credibility, and combat malicious actions.
  • For business managers if they can grasp the possible impact of Internet financial information on their own stock market behavior in advance, they will certainly make more effective decisions, and they can also respond to false and speculative financial information in a timely manner. . DRAWINGS
  • Figure 1 is a flow chart showing the main steps of the method of the present invention.
  • Figure 2 shows the graphical display and alarm example of the degree of abnormality of hotspots using the change of word frequency on the Internet;
  • a method for monitoring an abnormal state of Internet information is to monitor an abnormal state of an Internet information that is of interest to a user in combination with a hotspot vocabulary dictionary that is of interest to the user, and includes the following steps:
  • This example uses interconnected news information data from the end of 2003 to the end of 2004.
  • the invention is not limited to crawling Internet news texts, and can capture any text that reflects hotspot information, such as forum text.
  • the word segmentation dictionary (such as the massive dictionary of the Institute of Computing Technology of the Chinese Academy of Sciences) is used to classify each page of the day into Chinese words, and the general vocabulary in the page is obtained.
  • All common vocabulary in the webpage crawled on the day is sorted according to the size of its tfidf value, and then compared with the hot vocabulary dictionary given by the user, and the words not appearing in the user dictionary are deleted, thereby forming an alternative key vocabulary. Then, according to the alternative keyword table, select the largest tfidf value from each webpage document captured on the current day.
  • the abnormal threshold is smooth transition between ⁇ and d + c (see table) 3).
  • the keyword “Olympic Games” has undergone significant abnormal changes, which are red; the keyword “education” also has abnormal changes, which are orange-red; while the keyword “Iraq” has a relatively low absolute value of word frequency, but Since the word frequency changes little and does not exceed the threshold, it is not considered that an abnormal change has occurred.
  • test set is used to evaluate the effectiveness of the present invention. This set is taken from news and messages of various portal websites, and the selected events cover a wide range of fields for the occurrence of abnormalities in the keywords of the hot event.
  • the present invention is based on the distribution of information on these portals.
  • a manual reference method for determining a hot word vocabulary (because the hot vocabulary is constantly changing over time, which may change every day) is performed in advance.
  • R (number of qualified hot words obtained) / (number of words in the hot vocabulary) The two indicators describe the performance from different sides.
  • the first test is to obtain a data collection.
  • the document time range is from August 1, 2004 to August 16, 2004.
  • the selected locations are from the websites listed in Table 1 above.
  • the first step method introduced by the present invention is used to obtain webpage data, and is stored locally for further evaluation.
  • the detailed description of the test document collection is shown in Appendix 4, which lists the number of successfully obtained documents, the number of words, and the document. size.
  • the document was processed in Chinese word segmentation, and the word segmentation was based on the massive dictionary of the Chinese Academy of Sciences, and the subsequent statistical calculation was based on the result of the word segmentation.
  • the abnormality results obtained for the keyword abnormality detection for this period of time are shown in Table 5.
  • the degree of abnormality of the day depends on the previous historical word frequency and fluctuation variation.
  • the daily keyword anomaly of the period varies with the historical mean and historical variance of the corresponding word frequency.
  • the abnormality of the hot words can be observed.
  • the relationship between change and historical mean and variance is taken as an example of the abnormality data of the first day of the test document. Based on the previous historical mean and variance, the abnormality data of the day may not indicate any problem, just in the
  • the word frequency itself is used to reflect the hot words of the day.
  • the word frequency is large, such as "Iraq”, the degree of abnormality is 99, the number of words on the day is 155, which accounts for a large proportion. It can be explained that there are many occurrences on the day, and after a week, the word frequency 145 of the word is still large, but the degree of abnormality is only 66, and the abnormal alarm limit is not reached.
  • the first is the statistics of word frequency, calculate the values of tf and idf, and extract the corresponding feature words according to the obtained characteristics of t idf. This process obtains a comparison process between the words and the keywords we provide. To verify the effect of extracting keywords in the early stage.
  • the hotspot vocabulary is detected and extracted by the method of the present invention, and the obtained extraction effect is shown in Table 7.
  • the extraction of hot words is based on the previous tf*idf value selection, according to the word frequency historical mean and historical variance, sorting the importance of the words, according to the mechanism of abnormality scoring, select the final hot words Meeting. Since the documents obtained on the Internet do not give keywords, and there is no objective off-the-shelf standard that can be used for comparison, for the verification of the present invention, we compare the extracted vocabulary by manually creating a hot keyword dictionary.
  • the hot word vocabulary found according to the method of the present invention that is, the keyword with high degree of abnormality detected by the detection, the precision and the recall rate of the document can be seen from Table 7, the hot spot in the present invention
  • the vocabulary detection method is based on keyword extraction and is the discovery of hot words in keywords. Therefore, the comprehensiveness of keyword extraction will affect the discovery of hot words.
  • a certain vocabulary becomes a vocabulary with a high degree of abnormality in a certain period of time. If the abnormality level is kept high, the growth of the word frequency is a strong incremental process, which is reflected by the tf*idf in Table 6.
  • the recall rate indicates that the words of the hotspot word discovery according to the method of the present invention occupy the hot word list ratio.
  • the recall rate is not too high (average 60.61%). This deficiency can be improved by expanding the sample set and increasing the number of key words to be automatically selected. Here is just a simple effect verification.
  • the detected hot vocabulary effect is evaluated and scored according to the precision in Table 7. Compared with the recall rate values, it can be used as a more objective reference data for evaluating hot words. The accuracy of scoring is comprehensively evaluated by the values of these two indicators. It is understood that there is no similar method for detecting hot words in Chinese.
  • the proposal of the present invention is original, and the evaluation of the two index values of the present invention can only be carried out from the effect of the patent itself.
  • the precision and recall rate changes, the initial first day's precision and recall rate indicators are not high, and the difference is large (probability rate of 68%, recall rate of 46%)
  • the historical word frequency fluctuations are combined, and the precision and recall rate have all rebounded, such as the hot words on August 13-16, 2004.
  • the average precision rate is 79.2%.
  • the full rate is 69.4%.
  • the standard serves as a reflection of the effect of the detection method of hot vocabulary.
  • the hot words we choose are based on the information of the main portal, which is relatively objective. In terms of purpose, it also adapts to the reference as a practical application.
  • Hot topic vocabulary of the present invention and a hot event keyword classification of a search engine The hot word vocabulary of the present invention accumulates a certain search engine hot event event keyword standard vocabulary cumulative time period 20040801-20040816 20040801-20040816 20040801-20040816 Taiwan, aircraft, Iraq, US Olympics, real estate, exchange competition, Greece, Chinese team, Olympics, military, competition, Chinese team, Olympic rate, Iraq, RMB, gold medal, Iraq, US military, terror, will, education, aviation, terror, share reform, environmental protection, currency Inflatable sand, telecommunications, najaf, olympus stadium, najaf, navy, word bulging, world cup, horror, gram, education, airplane, palestine, olympus, united nations, greece, palestine, taiwan, teaching aid, resources, aviation , opening ceremony, Afghanistan, war, resources, martial arts, banking, competitions, explosive admissions, films, renminbi, ban, equipment, gold medals, nuclear weapons, films, bombing
  • the comparison of the data in Table 8 shows that the present invention has a higher average precision, mainly because it better captures the characteristics of "hot words vocabulary at a certain point in time compared to their own history."
  • the present invention exhibits a lower average recall rate, which in turn indicates that hot words and other features are not summarized in the present invention.
  • the users of the present invention include: those who are more critical of the correct results, are satisfied with finding out most of the hot words of the day, and are not too concerned about individual hot words that cannot be found, including: time-consuming Government leaders, venture capitalists, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

一种对互联网信息进行异常状态监测的方法 技术领域
本发明属于互联网信息挖掘技术领域, 具体涉及的是对互联网信息进行异常程 度的跟踪和监测的方法。 背景技术
随着网络日益成为人们发布信息、 沟通信息的主要媒体, 网络上的信息也越来 越能反映人们关注的焦点和社会热点事件了。 因此, 通过监控网络信息中所反映的 热点问题和热点事件就成为一个自然的需求了。 不论是普通用户还是行业专家都希 望有一个自动化的工具或者方法帮助他们实时地跟踪他们所关注的领域的最新热点 话题或者新闻, 以便了解该领域的最新进展。
不难发现, 在一般情况下, 互联网信息中某个关键词大量集中出现往往意味着 某个热点新闻或者热点事件的发生, 而当发生了被广泛关注的新闻或事件时, 又会 在网络上集中出现大量的带有相关关键词的文本。 因此, 互联网文本中热点关键词 的数量的较大变化常常反映了社会热点新闻或事件的出现或降温, 而网络上反映热 点新闻或事件的文本又会进一步推动广大网民对于相关新闻和事件的关注程度和看 法。 也就是说, 异常高的关键词词频和显著的热点新闻和事件有一定的耦合关系。 所以, 在本发明中, 避开对词频小的变化问题的预测, 只关心异常髙的词频变化量。 本发明对于网络监管机构、 关注社会热点新闻和事件的机构来说, 是非常有价值的 自动跟踪热点词汇出现频率的工具。
以下讨论的关于词的方法, 均指互联网信息中的关键词。
不同词有不同的出现词频, 而在某日, 不同出现词频的词的相同出现次数有不 同含义。 对于一个使用频率很高的词来说, 词频的历史均值和历史标准差都很大, 例如, 分别是 500次 /天和 350次 /天。 如果在某一天, 其互联网频率增加了 300次, 变成了 800次, 即增加了大约 1倍, 那么一般仍然很正常; 但是, 如果其互联网频 率变成了 1200次,即增加了大约 2倍,就会预示着发生了相应的热点新闻或事件了。
而对一个频率比较低的词, 平均日互联网出现频率及其标准差很小, 例如, 分 别是 20次和 15次。 如果在某一天, 其互联网频率增加了 30次, 变成了 50次, 即 增加了大约 1倍多, 那么一般仍然很正常; 但是, 如果在某一天, 互联网上该词的 信息量增加了 300次, 变成了 320次, 则预示出现了相应的热点事件或新闻。
也就是说, 同样是增加 300次, 对高频词说, 仍然正常; 而对低频词来说, 则 说明出现了异常事件。 即对具有不同词频的词的度量, 标准是不同的。
对于低频词, 上述的 300次出现次数称为异常高的词频增加量。 本发明的主要 目标是监测异常高的词频增加量, 进而预测网络热点信息的出现或降温, 以及进行 必要的报警。
Khoo K. B.等人于 2001年提出了一种跟踪热点话题的方法, 对一些定点的网站 或者网页定期统计一些关键词项(term)的词频, 并利用 tfidf公式计算每个 term的 当前权重, 并从中得到当前的热点话题(Khoo K. B., Mitsuru I. Emerging Topic Tracking System. Advanced Issues of E-Commerce and Web-Based Information Systems, WECWIS 2001, Third International Workshop on. 2-11. 2001.), 以下称为现有技术 1。 其贡献之处在于,现有技术 1给出了一种标准化的公式来计算每个 term的当前权重, 随着时间的变化,这个权重也会随之变化, 从而反映出互联网信息热点的变化情况。 其主要缺点在于, 没有考虑每个 term的历史均值和历史标准差, 因此无法按照高频 词和低频词的历史表现对异常的热点进行准确的度量, 只能对各个 term进行横向的 比较。 发明内容
本发明的目的是提供一种通过对互联网信息中热点词汇的频率所发生的变化进 行监测, 从而对互联网信息进行异常状态监测的方法。
本发明的技术方案如下:
一种对互联网信息进行异常状态监测的方法, 所述的方法是结合用户关注的热 点词汇词典, 对用户关注的互联网信息进行异常状态的监测, 具体包括以下步骤: 一、 获取通用词汇在当日互联网页中出现的当日词频数据, 并存入数据库。 对互联网的网页进行定时抓取, 得出每个通用词汇在每篇网页中的词频数; 累 加所有网页中该通用词汇的词频数, 得到当日互联网信息中的该通用词汇的当日词 频数据, 并存入数据库。 可以按照以下步骤进行:
( 1.1 ) 给定欲抓取的互联网站点列表并存入数据库之中; ( 1.2) 遍历数据库站点列表中的每一条记录, 按照如下方法得到该站点中每 一个通用词汇的词频数: 根据互联网站点列表记录和通用词汇表, 得到需抓取的网 页链接地址; 根据需抓取的链接地址, 找出每一个通用词汇标有当天日期的信息, 并对这些信息计数;
( 1.3 ) 累加每一个通用词汇在数据库中所有站点列表中的词频数, 得到该通用 词汇的当日词频数据, 并再存入数据库的原位置。
使用上述步骤, 可以抓取并算出所有通用词汇的当日词频数据。需要说明的是, 使用本方面的方法, 需要按如上方法积累相对较长一段时间的上面的历史数据。
在得到历史数据之后, 就可以对新的一天的词频变化状况进行检测了。 首先利 用中文分词方法把当日每篇网页文档进行中文分词得到该网页中的所有通用词汇 (可借助当前较成熟的中文分词词典进行, 如中科院计算所的海量词典)。
二、 结合用户关注的热点词汇词典, 确定每篇网页的当日关键词, 合并所有网 页的当日关键词, 得到互联网信息的当日关键词集合 {ti, i=l…… M }, M为当日关 键词表中的关键词个数。
确定当日每篇网页的关键词的方法可以如下:
(2.1 )对于每篇网页中的每个通用词汇, 按照如下公式计算其信息特征值 tfidf, 即 tfidf = - [ freq(p, D) I size(D)] * [ log(df(p)/ ) ], 其中: freq(p, D)是通用词汇 p在网 页 D中的出现次数, size(D)是网页 D中包含的所有通用词汇的数量, df(p)是当日网 页集合中含有通用词汇 p的文章的数量, N是当日网页集合中网页的数量 N;
(2.2) 将该网页中的所有通用词汇与用户关注的热点词汇词典进行比较, 删去 其中不属于用户关注的热点词汇, 形成针对该网页的备选关键词表, 选取该网页备 选关键词表中 tfidf值较大的 K个关键词,得到该篇网页的当日关键词, K为正整数。
三、 确定当日关键词的权重。
在当日抓取的网页集合中对当日关键词集合中的所有关键词进行累加求和, 统 计出每个关键词的当日词频, 按照当日词频将所有当日关键词从小到大排序。
根据每个关键词的互联网词频的历史数据,计算历史均值 μί、历史波动率 σί (不 管频率升降, 本发明定义波动率均取词频变化率的绝对值, 即波动率永远为正数)。
然后计算关键词的权重: 将关键词 ti的 q值定义为其波动率的上取整值的倒数, 即 qi = 1 / (cein(ai)), i=l,...,M, 其中 cein()是上取整函数,那么关键词 ti的权重 wi = l时对应当日词频 fi最小的当曰关键词。
Figure imgf000006_0001
四、 确定当日关键词的异常阀值。
对于当日关键词 ti, 定义其异常阀值为 ai' = ai + c(wi/wl), i=l,...,M。 其中 c是 一个常数, 可以由用户根据经验来给出, 代表词语异常阀值的膨胀。
对于不常见词汇 ti, 由于 σί « σ1, 所以 σί' σί + c; 而对于最常见词汇, 其 σί 较大, 所以 σί' - σί; 而对于普通的词汇, 其异常阀值在 oi和 σί + c之间平滑过渡。
五、 检测当日关键词的异常程度并确定当日热点互联网信息:
定义当日关键词的偏移度 = (fi-μΐ) I σΐ' , 偏移度大的当日关键词所属的互联 网信息即为当日热点互联网信息。 进一步, 上述的方法中还包括如下步骤:
六. 按照如图 4所示的折线判别函数(需要取整)检测每个关键词的异常度 θί。 也就是说, ¾-∞< ΘΓ <0时, θί = 0; 当 0≤ θΐ' <1时, θϊ = ΑΟΟΓ(Ι ΟΘΪ'), 其中 floor( ) 是下取整函数; 当 1≤ θϊ, < 2时, θί = floor(8O(0i'-l)) + 10; 当 2≤ 0i, < 3时, θί = floor(9(9i'-2)) + 90; 当 3≤6i,< +∞时, θί = 99。 当关键词 ti的异常度 θί > 90分时, 认为该关键词发生异常变化, 该关键词所属的互联网信息为当日突发的热点信息。 进一步, 上述的方法中还包括如下步骤:
七. 将所有关键词的异常度得分以图 2所示的图形方式显示, 便于用户观察其 得分。 图形方式下:
将步骤 6的结果使用 Java Applet技术和 Java AWT接口, 根据各热点词汇在画 布上的坐标及其预测的词频异常度大小, 绘制给用户。 其中, 图形条越长, 表示互 联网词频的异常程度越大。 图形条的颜色的决定方法是: 按照图形条的长度, 通过 査一个 20个长度和 20个颜色一一对应的表, 来决定其应该绘制的颜色(见图 2)。
图形条的长度和颜色分别从
<7.1>长度为 0、 颜色为深绿色(对应词频异常度 0), 逐渐过度到
<7.2>长度为 颜色为橙 色(对应词频异常度 90), 再逐渐过度到
<7.3>长度为 L、颜色为大红色(对应词频异常度 100)。 其中, 图形条最大长度为 , 而且为了突出异常关键词的显示, 图形条的长度与关 键词的异常度分值并不是正比关系而是反方向的对数关系,即 / = (2-log(100 - 6i)) L / 2, 其中 log是以 10为底的对数函数。 这样, 最高分 99对应着长度 L, 异常临界值 90分对应着长度 L / 2, 异常度 0分对应着长度 0。
为及时提醒用户, 上述的方法进一步包括如下步骤:
当当日关键词 ti的异常度 6 i > 90分时, 向用户报警。 也即, 当图形条长度超 过或等于 L / 2 (这时颜色较偏红, 例如为大红色和橙色) 时, 即达到或超过报警线 时, 系统向用户报警。 本发明与现有技术 1的区别有以下三点。
第一, 现有技术 1使用了 tfidf公式来度量关键词项的重要程度, 而没有考虑各 个 term的历史均值和标准差, 也没有对高频词和低频词的不同情况进行分别处理的 机制; 本发明除了使用 tfidf公式选取当日的关键词, 还发明设计了对不同频率词汇 变化的权重度量公式, 使用历史均值和历史标准差对词频显著性波动, 进行预测。 由于每个关键词是否出现异常在很大程度上依赖于历史上该关键词的频率分布, 所 以利用历史均值和标准差可以从根本上提高关键词异常程度检测的实际应用效果。
第二, 对词频的变化所代表的热点话题的变化, 现有技术 1使用 term的权重的 排位来体现, 而本发明使用异常、 半异常或正常作为检测标准, 而异常程度是通过 当日的词频偏离历史均值的程度计算的, 判断的阔值除了建立在历史标准差之上, 还对高频词和低频词进行区分, 从而把抽象的热点变化程度具体化, 并使之更接近 实际使用场合。
第三, 现有技术 1没有进行图形化显示, 不方便实际应用, 本发明的方法进一 步设计和实现了图形条长度及颜色的显示方法, 对词频波动率大小给出了直观表达 的途径, 并提供了报警功能。
本发明通过对互联网信息中热点词汇的频率所发生的变化进行监测, 计算关键 词的异常程度, 对热点词汇的词频变化的异常程度进行预测和报警。 对网络监管部 门来说, 本发明可以提供一个及时的热点信息观察窗口, 尽早发现那些有异常程度 的事件, 可以对热点词汇词频的较大波动提高警惕性, 并在第一时间做出反应。 此 外, 根据本方法, 可以从互联网角度, 对热点信息和事件的变化情况进行预测, 并 可以相当地准确向用户报警。 由于通常互联网信息数量庞大, 本发明的图形输出方 式实质上是给出了一个总结性信息, 从而提高了发现热点信息的效率。 举例来说, 如果热点信息为股市热点信息, 通过此监控技术, 就可以间接地了解宏观经济指标 变动、 公司财务变化对股价的影响, 为决策机关的政策制定提供更多的理论依据。 随着互联网的进一步发展和渗透,将会有更多的金融信息通过网络的渠道进行公示, 而由于互联网的广泛性和匿名性, 很可能成为故意炒作者的利器。从这个意义上说, 对互联网金融热点信息进行研究还可以帮助金融监督机构有效地实现金融监管, 提 高信息可信度, 打击恶意操作的行为。 对于企业管理者而言, 如果可以提前把握互 联网金融信息对自身股市行为带来的可能影响, 那么势必将更为有效地做出决策, 同时也可以及时地对虚假和炒作的金融信息做出回应。 附图说明
图 1 本发明方法的主要步骤流程图;
图 2 利用互联网词频的变化预测热点异常程度的图形化显示及报警举例; 图 3 2006-09-11新浪网的新闻分页上的信息。
图 4 异常度折线判别函数图 具体实施方式
下面更详细的描述出本发明的一个实施例。
参见附图 1, 一种对互联网信息进行异常状态监测的方法, 所述的方法是结合 用户关注的热点词汇词典, 对用户关注的互联网信息进行异常状态的监测, 包括以 下步骤:
( 1 )抓取某日互联网新闻文本
<1>给出待抓取的网站列表并存入数据库之中, 表 1给出了一部分。
表 1 互联网新闻网站列表举例
序号 链接
1 http://news.sina.com.cn/
2 http://news.163.com/
3 http://cn.news.yahoo.com/
4 http://news.sohu.com/
5 http://news.tom.com/
6 http://sounews.ynet.com/shishi/shishi_class.htm 7 http://tv.pchome.nety
8 http://www.enet.com.cn/enews/
9 http://www.enet.com.cn/enews/
10 http ://news.chinabyte. com/
11 http://www.gov.cn/jrzg/zgyw.htm
12 http://news.hexun.com/
13 http ://news. china, com/
14 http://msn.ynet.com/
15 http://www.zaobao.com.sg/
16 http ://www.xinhua. org/
17 http://www.people.com.cn/
18 http://www.ce.cn/xwzx/
19 http:〃 www. cet. com.cn/
20 http:〃 news, cctv.com/index. shtml
<2>从数据库的站点列表中读取一条记录, 例如 http://news.sina.com.cn/。
<3>根据需抓取的链接地址, 找出标有当天日期 (例如 2005-12-6) 的信息, 并 计数(如果需要, 可以进入标有 "更多"的网页链接, 以找全当日所有信息), 例子 见图 3;
<4>生成用户热点词汇的词典 (表 2给出了一部分, 这是由用户给定的), 给出 每个热点词汇对应的历史平均词频和历史词频方差。
<5>对于每个网页,计算词典中的每个热点词汇在其中出现了多少次,与前面已 经抓取过的网页中所计算的词频相加, 存入数据库的原位置。
使用上述步骤, 可以抓取并算出所有热点词汇的当日词频。
本例子使用从 2003年末至 2004年末的互联新闻信息数据。
本发明并不限于抓取互联网新闻文本,可以抓取任何能够反映热点信息的文本, 例如论坛文本。
(2)数据预处理
如上得到历史数据之后, 下面可以对每天的关键词异常状态进行监测。 首先利 用中文分词方法借助分词词典 (如中科院计算所的海量词典) 把当日每篇网页文档 进行中文分词, 得到该篇网页中的通用词汇。 对于每个通用词汇, 计算其信息特征 值 tfidf, 即 tfidf = - freq(p, D) I size(D) * log(df(p) / N),其中: freq(p, D)是通用词汇 p 在网页 D中的出现次数, size(D)是网页 D中包含的所有通用词汇的数量, df(p)是当 日网页集合中含有通用词汇 p的文章的数量, N是当日网页集合中网页的数量。 (3)关键词自动选取
将当日抓取的网页中的所有通用词汇按照其 tfidf值的大小排序, 然后与用户给 定的热点词汇词典进行比较, 删去没有出现在用户词典中的单词, 从而形成备选关 键词表。 然后对照备选关键词表, 从当日抓取的每个网页文档中选取 tfidf值最大的
10个关键词, 合并得到当日关键词集合, 如表 2所示。
表 2 2004年 8月 16日的关键词表
Figure imgf000010_0002
(4)计算关键词权重
在当日抓取的网页集合中对当日关键词集合中的所有关键词进行累积求和, 统 计出每个关键词的当日词频 fi, 并按照当日词频从小到大将所有当日关键词排序, 方便按照词频大小顺序进行权重的计算过程, i= l时 fi最小。
根据每个关键词的互联网词频的历史数据,计算历史均值 历史波动率 (不 管频率升降, 我们定义波动率均取词频变化率的绝对值, 即波动率永远为正数)。然 后计算关键词的权重。 关键词 ti的权重 wi = 1 / (cein(oi)),
Figure imgf000010_0001
i=l,...,M, cein〇是上取整函数 (见表 3)。
(5)计算关键词的异常阀值
对于关键词 ti, 计算其异常阀值01' = 01 + (; ^ 1), i=l,...,M。这里默认的常数 c为 15, 由用户根据经验给出, 代表词语异常阀值的膨胀。
可以看到, 对于不常见词汇 ti, σί' ^ σϊ + c; 而对于最常见词汇, σί' - σί; 对于 普通的词汇, 其异常阀值在 σί和 d + c之间平滑过渡 (见表 3)。
(6)关键词异常程度检测以及图形化显示
计算关键词的偏移度 ΘΓ = (fi-μΐ) I σΐ', i=l,...,M。
然后按照图 4所示的折线函数测每个关键词的异常度 θί。 结果如表 3所示。 最后, 异常度 θί > 90分的关键词认为是发生了异常变化。 同时, 可以将所有关 键词的异常度得分以图 2所示的图形方式显示, 便于用户观察其得分。
表 3 2004年 8月 16日的关键词各属性值及其异常度指标 词汇 当日词频 历史均值 历史方差 权重 异常阀值 偏移度 异常度 伊拉克 108 72.75 36.99097 0.005504 46.99097 0.750144 7
爆炸 2 21.6 15.93542 0.012727 39.06042 -0.50179 0 美军 60 34.9 20.70418 0.009697 38.32323 0.654955 6 教育 101 37.2 16.14899 0.011979 37.9137 1.682769 64 资源 37 22.8 17.08389 0.011313 37.63945 0.377264 3 li运会 160 41.375 25.09189 0.007832 39.32266 3.016708 99
食品 19 9 12.729 0.015665 41.19053 0.242774 2 台湾 105 46.45 27.32155 0.007273 40.53584 1.444401 45 银行 43 24.9 24.92628 0.008146 39.72628 0.455618 4
27 9.45 8.173518 0.022627 49.28463 0.356095 3
西部 19 8.25 6.796552 0.029091 59.65369 0.180207 1 高考 19 5.95 6.984899 0.029091 59.84204 0.218074 2 中国队 21 25.05 28.95143 0.007022 41.71005 -0.0971 0
比赛 116 52.4 52.48914 0.003842 59.47027 1.069442 15 图 2所示的图形方式下, 按照图形条的长度, 通过查一个 20个长度和 20个颜 色一一对应的表, 来决定其应该绘制的颜色。 图形条表示关键词的异常程度, 图形 条越长, 表示互联网词频的异常程度越大。
图中可以看出, 关键词 "奥运会"发生了显著的异常变化, 为大红色; 关键词 "教 育"也有异常变化, 为橘红色; 而关键词"伊拉克 "虽然词频的绝对值较髙, 但是由于 词频变化较小, 没有超出阀值, 所以不认为发生了异常变化。
(7)报警
当图形条长度超过或等于 / 2 (这时颜色较偏红, 例如为大红色和橙色) 时, 即达到或超过报警线时, 系统向用户报警。 本发明的有效性评价:
本发明中采用一个测试集合来评价本发明的有效性, 这个集合取自各个门户网 站的新闻和消息, 为表现热点事件的关键词出现异常的全面情况, 选用的事件涵盖 了多个领域。
评价热点词汇的选择是否正确, 以及这些热点词汇的正确率多高需要一个参照 标准, 当前还没有一个客观的全面的标准来进行评价, 对于这种情形, 本发明根据 这些门户网站上的信息分布, 预先釆用人工的方式确定一个热点词汇的参照表 (由于 随着时间变动, 该热点词汇表也是不断变化的, 每天都可能改变)的方式来进行。
目前在信息检索领域, 用于评价词汇提取性能的最常用指标是召回率 (Recall)和 査准率 (Precision),在本发明的有效性评价中,采用这两个指标来进行,分别定义为: P = (获取的符合条件的热点词数目) /(获取的词汇总数目)
R = (获取的符合条件的热点词数目) /(热点词汇表中词数目) 两个指标分别从不同侧面刻画了性能的好坏。
测试首先是获取数据集合, 文档时间范围为 2004年 8月 1日至 2004年 8月 16 日, 选取的地点来自前面表 1所列举的网站。
采用本发明所介绍的第一步方法来获取网页数据, 并保存于本地供进一步评测 使用, 测试文档集合详细情形参见附表 4所示, 列出了成功获取的文档篇数、 词数 以及文档大小。 获取数据的同时, 对文档进行了中文分词处理, 分词基于中科院计 算所的海量词典进行, 后面的统计计算是基于分词后的结果。
Figure imgf000012_0001
针对该段时间的关键词异常度检测获得的异常度结果如表 5所示, 当日的异常 度依赖于前面的历史词频和波动变化。
表 5 2004年 8月 1日至 2004年 8月 16日部分关键词异常度 伊拉克 爆炸 美军 教育 银行 奥运会 恐怖 资源 台湾
20040801 99 68 25 3 0 - 0 2 1 0
20040802 93 20 25 6 3 0 4 3 6
20040803 7 0 28 7 1 … 0 5 3 62
20040804 95 6 7 86 82 90 4 45 95
20040805 3 1 3 4 0 9 5 7 1 20040806 24 2 5 29 1 5 96 7 30
20040807 93 6 49 63 72 2 5 2 14
20040808 92 3 7 2 4 2 15 1 26
20040809 66 8 16 59 2 99 21 59 6
20040810 17 0 0 78 1 92 3 5 93
20040811 3 4 5 9 3 7 2 5 33
20040812 87 9 95 41 86 8 3 94
20040813 4 7 1 7 99 99 8 1 90
20040814 0 0 6 0 0 96 2 1 0
20040815 82 0 32 0 0 91 5 0 0
20040816 7 0 6 64 4 99 0 3 45 在表 5中, 该段时间每日的关键词异常度随着相应词频的历史均值和历史方差 变动, 在这段时间内, 可以观察到热点词汇的异常变化与历史均值和方差之间的关 系, 以测试文档头一天的异常度数据为例, 在此前未有历史均值和方差的基础上, 该天的异常度数据可能说明不了什么问题, 仅仅只是在 tf*idf 值的基础上, 更多的 以词频本身来体现当天的热点词汇, 词频大的, 比如"伊拉克", 异常度为 99, 该天 的词频数量为 155, 占有很大的比重, 只能说明在该天的出现次数较多, 等到隔一 周时间之后, 该词的词频 145虽然还是很大, 但异常度就只有 66, 未达到异常报警 限。
平常词频均值较小的词语, 如"奥运会", 在测试文档第一天的数据中, 异常度 为 0, 词频数目 8很小, 但是到三天之后, 虽然词频仅有 67, 但是异常度已经达到 90了。 主要是由于词频的历史数据较大波动率所致。 而这与根据当天文档信息所产 生的热点词表符合度是较高的, 在后面的表 7数据分析中会进一步予以说明。
针对热点词汇的提取, 首先是对词频的统计, 计算其 tf和 idf的值, 根据得到 的 t idf 特征, 预先提取相应特征词汇, 这个过程获得词汇与我们提供的关键词有 个比较过程, 用以验证前期提取关键词的效果。
在利用 tf*idf值进行关键词自动选取之后, 得到的数据如表 6所示。
表 6 2004年 8月 1日至 2004年 8月 16日部分关键词 tfMdf值 伊拉克 爆炸 美军 教育 银行 奥运会 恐怖 资源 台湾
20040801 .0151 .0070 .0051 .0023 .0005 .0007 •0018 .0016 .0008
20040802 .0080 .0032 .0035 .0030 .0040 .0011 .0023 .0023 .0057
20040803 .0041 .0005 .0043 .0030 .0007 .0008 ,0024 .0018 .0055
20040804 .0079 .0018 .0019 .0049 .0046 .0095 .0015 .0044 .0059
20040805 .0033 .0012 .0018 .0020 .0007 .0041 .0025 .0028 .0016 W
Figure imgf000014_0001
可以看到, 关键词选取过程中的 tf*idf值的大小并不能完全说明关键词的热度, 以表 7中的 2004年 8月 16日关键词 t df值为例, 对比表 5中的异常度可以看到, "奥运会"的异常度 99在当天为最大, 但是 tf*idf值 0.0041却排在好几个词之后。
在接下来的步骤中, 采用本发明所述的方法检测并提取热点词汇, 得到的提取 效果如表 7所示。
表 7 基于统计异常度提取热点词汇的结果
Figure imgf000014_0002
热点词汇的提取, 在基于前面的 tf*idf 值的选取范围之内, 根据词频历史均值 和历史方差, 对词汇进行重要性排序, 按照异常度打分的机制, 选取最终的热点词 汇。 由于网上获取的文档没有给出关键词, 也没有较客观的现成标准可以用来对照, 对于本发明的验证我们通过手工建立的热点关键词词典,进而与提取词汇进行比较。
对于按照本发明的方法找出来的热点词汇, 也即经检测发现的异常度较大的关 键词, 其对于文档的査准率和査全率从表 7中可以看到, 本发明中的热点词汇检测 方法是建立在关键词提取基础上的, 是对关键词中的热点词汇的发现,因此关键词提 取的全面性会影响到热点词汇的发现。 本发明的效果验证过程, 某个词汇在一段时 间成为异常度较高的词汇, 如果异常度持续保持较高, 对于其词频的增长是个较强 的递增过程, 通过表 6中的 tf*idf体现出词汇出现频度的变动; 同时在一段时间内, 某个词汇异常度一直为较低, 会在出现一个较为可观的变动后, 异常度开始走高 (如 "奥运会", 在本发明中的测试数据集中, 以 13日为分界线, 此前异常度一直不是很 大不足 5.0, 异常度开始变为较大异常 90以上); 同时异常度在起初较大, 到后来随 着时间变化逐渐异常度减低 (如伊拉克, 在测试数据开始阶段, 从 6— 9 日异常度均 值 83.7, 逐渐变为不到 10), 可以从表 5中看出部分词汇异常度的走势。
可以观察到, 表 7中涉及的热点词提取的査准率是较高的,初始第一天的数据, 由于历史数据波动尚未考虑, 査准率较低, 包括第二、三天也是历史波动不太明显, 在此后的几日数据有了历史波动的参照和修正, 可以发现查准率均在 75%以上, 最 高达 89% (均值为 78.13%), 说明按照本发明的方法提取的热点词汇中的大部分符合 热点词表的词汇, 提取的结果比较准确。
在表 7中, 召回率表示按照本发明方法进行热点词发现的词占热点词表比例, 本发明所提供的热点词评价词典是人工产生的, 每天的词典不同, 词数也有差异, 都是根据当天以及前些天的网上信息得出, 由于在本次信息的提取中涉及到的样本 数量比较有限, 加上在关键词自动选取中根据 t «=idf 的大小选取词数较少, 验证中 的召回率不是太高 (均值为 60.61%)。 该处不足可以通过扩大样本集合, 并且增加关 键词自动选词数目来进行提高。 此处只是简单的效果验证, 在实际的应用中使用的 样本数量远远大于此处的测试集合, 而且实现中就不再仅限于按照 tf*idf 值提取当 天 10个词语作为关键词, 可根据需要扩大这个范围, 以免漏掉一些 t =idf值偏小但 是有可能是热点词汇的词语,通过实际应用大规模数据集和大量提取关键词的方式, 可相应提升召回率。
按照我们的方法, 检测出的热点词汇效果进行评价打分, 根据表 7中的查准率 和召回率数值来综合比较, 可作为评价热点词汇的一个较为客观的参考数据, 打分 的准确性由这两个指标数值进行综合评价, 据了解目前在中文的热点词检测方面并 没有同类的方法, 本发明的提出具有原创性, 我们对该处两个指标值的评价就只能 从专利的效果自身来进行。考查从 1日到 16日的査准率和召回率数值变化看来,初 始第一天的査准率和召回率指标均不高, 而且差异较大 (査准率 68%, 召回率 46%), 在其后的几日, 通过与人工热点词表的对照比较, 综合了历史词频的波动, 査准率 和召回率都有所回升, 比如在 2004年 8月 13-16日的热点词表中, 基于历史波动, 对"奥运会 "词频的增长做出了很好的判断, 并能正确的做出预警提示, 对于此段时 间的其他热点词汇, 平均査准率达 79.2%,平均査全率为 69.4%,考虑历史波动的累 积对评价指标值的提升有一定效果。
在本发明方法的效果评价过程中, 我们更多的依靠人的主观常识判断生成的热 点词汇作为标准, 可能会在一定程度上影响评价效果的客观性, 但是由于目前没有 现成的中文热点词表标准作为参照, 作为热点词汇的检测方法效果的体现, 暂时只 能以人工标准作为比对, 就某领域的重大事件而言, 我们选取的热点词是基于主要 门户网站的信息, 相对也是比较客观的,·从目的上来说它也适应作为实际应用的参 考。
进一步的我们对提取的一段时间的热门词, 对照了某搜索网站搜集并总结的以 周为单位的时间段内热门事件 (从 2004年 8月 1日到 8月 16日两周时间),对比结果 如表 8所示。
表 8 本发明的热点词汇与某搜索引擎的热门事件关键词 分类 本发明热点词汇累计 某搜索引擎热点事件关键词 标准词表累计 时间段 20040801-20040816 20040801-20040816 20040801-20040816 台湾、 飞机、 伊拉克、 美 奥运会、 房地产、 汇 比赛、希腊、中国队、奥运会、 军、 比赛、 中国队、 奥运 率、伊拉克、人民币、 金牌、 伊拉克、 美军、 恐怖、 会、 教育、 航空、 恐怖、 股改、 环保、 通货膨 加沙、 电信、纳杰夫、 奥林匹 体育场、 纳杰夫、 海军、 词例 胀、 世界杯、 恐怖、 克、 教育、 飞机、 巴勒斯坦、 奥委会、 联合国、 希腊、 巴勒斯坦、 台湾、 教 援助、 资源、 航空、 开幕式、 阿富汗、 战争、 资源、 武 育、 银行、 比赛、 爆 录取、 影片、 人民币、 禁赛、 器、金牌、核武器、影片、 炸、 中国队等等 纪录、 体育场等等 食品、 石油、 好莱坞、 市 政等等
总词数 160 196 210
符合标
125 138 -- 准词数 平均召
0.59524 0.65714 -- 回率
平均査
0.78125 0.70408 -- 准率 因为该搜索网站搜集的这些信息都是以消息标题形式呈现, 并且列出的是一段 时间的信息, 没有具体针对某一天的事件, 我们针对这些事件提取了关键词, 同时 列出了该段时间内我们的方法发现的热门词信息。 以前面每天手工产生的热门词表 的累积为标准来进行一下比较, 仍然按照前面定义的方式, 经过统计计算, 可以看 到该搜索引擎在该段时间内获取的信息平均査准率为 69.27%,平均召回率为 63.3%; 相应的,对于一段时间的统计结果,本发明验证的平均査准率 73.75,召回率 56.19%。 从这两样指标的数值看来, 本次测试中方法的平均召回率不及该搜索引擎的指标, 但是査确率却稍稍领先, 可能是受到此处验证使用的人工标准热点词表的影响, 但 是这里的差异都不是太大。
表 8中的数据对比可以看出, 本发明具有较高的平均査准率, 原因主要是因为 较好地抓住了 "热点词汇在某一特定时间点相较于自身历史回溯忽增的特点", 与此 同时, 另一方面本发明显示出较低的平均召回率, 这一特性又说明热点词汇还有其 他特点本发明没有概括进去。 这样, 综合看来, 本发明适合的用户包括: 那些比较 挑剔结果正确率, 满足于找出当天大部分热点词汇, 而对于个别未能找到的热点词 汇不太在意的人群, 包括: 时间紧张的政府领导人、 风险投资家等等。

Claims

权利要求书
1. 一种对互联网信息进行异常状态监测的方法,所述的方法是结合用户关注的 热点词汇词典, 对用户关注的互联网信息进行异常状态的监测, 其特征在于, 包括 以下步骤:
( 1 ) 获取通用词汇在当日互联网页中出现的当日词频数据, 并存入数据库;
(2)结合用户关注的热点词汇词典, 确定每篇网页的当日关键词, 合并所有网 页的当日关键词, 得到互联网信息的当日关键词集合 {ti, i=l…… M }, M为当日关 键词表中的关键词个数;
(3 )确定当日关键词的权重:
根据每个当日关键词 ti的互联网词频的历史数据, 计算其历史均值 μ、 历史波 动率 σί,波动率为词频变化率的绝对值;定义 qi = 1 / (cein(oi)), cein()是上取整函数, 当日关键词 ti的权重 wi l时对应当日词频 fi最小的当日关键词;
Figure imgf000018_0001
(4)确定当日关键词的异常阀值:
对于当日关键词 ti,定义其异常阀值为 ai' = ai + c(wi/wl),其中 c是用户根据经 验来给出的一个常数, 代表词语异常阀值的膨胀;
(5 )检测当日关键词的异常程度并确定当日热点互联网信息:
定义当日关键词的偏移度 = (fi-μΐ) I σί' , 偏移度大的当日关键词所属的互联 网信息即为当日热点互联网信息。
2. 如权利要求 1所述的自动监测方法, 其特征在于, 所述步骤 (1 ) 中通用词 汇的当日词频数据是按照如下方法得出:
( 1.1 ) 给定欲抓取的互联网站点列表并存入数据库之中;
( 1.2) 遍历数据库站点列表中的每一条记录, 按照如下方法得到该站点中每 一个通用词汇的词频数: 根据互联网站点列表记录和通用词汇表, 得到需抓取的网 页链接地址; 根据需抓取的链接地址, 找出每一个通用词汇标有当天日期的信息, 并对这些信息计数;
( 1.3 ) 累加每一个通用词汇在数据库中所有站点列表中的词频数, 得到该通用 词汇的当日词频数据。
3. 如权利要求 1所述的对互联网信息进行异常状态监测的方法, 其特征在于, 所述步骤 (2) 中确定当日每篇网页的关键词的方法如下: .
(2.1)对于每篇网页中的每个通用词汇, 按照如下公式计算其信息特征值 tfidf, 即 tfidf = - [ freq(p, D) / size(D)] * [ log(df(p)/N) ], 其中: freq(p, D)是通用词汇 p在网 页 D中的出现次数, size(D)是网页 D中包含的所有通用词汇的数量, df(p)是当日网 页集合中含有通用词汇 p的文章的数量, N是当日网页集合中网页的数量;
(2.2) 将该网页中的所有通用词汇与用户关注的热点词汇词典进行比较, 删去 其中不属于用户关注的热点词汇, 形成针对该网页的备选关键词表, 选取该网页备 选关键词表中 tfidf值较大的 K个关键词,得到该篇网页的当日关键词, K为正整数。
4. 如权利要求 1所述的自动监测方法, 其特征在于, 所述的方法进一步包括如 下步骤: 定义每个当日关键词的异常度 θί, 当 ~∞< θί' <0时, θΐ = 0; 当 0≤6i' <l时, θί = ΑοοΓ(ΙΟΘί'). 其中 floor( )是下取整函数; 当 1≤ θί, < 2时, θΐ = floor(8O(0i'-l)) + 10; 当 2≤ΘΓ < 3时, ei = floor(9(6i'-2)) + 90; 当 3≤θί,< +∞时, θί = 99; 当当日关 键词 ti的异常度 ei> 90时, 认为该关键词发生异常变化, 该关键词所属的互联网信 息为当日突发的热点信息。
5. 如权利要求 4所述的自动监测方法, 其特征在于, 所述的方法进一步包括如 下步骤: 将所有当日关键词的异常度得分进行图形化显示。
6. 如权利要求 4或 5所述的自动监测方法, 其特征在于, 所述的方法进一步包 括如下步骤: 当当日关键词 ti的异常度 θί > 90分时, 向用户报警。
PCT/CN2008/000840 2007-04-24 2008-04-24 Procédé pour la surveillance d'un état anormal d'informations internet WO2008128442A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/525,780 US8185537B2 (en) 2007-04-24 2008-04-24 Method for monitoring abnormal state of internet information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200710098645.3 2007-04-24
CNA2007100986453A CN101296128A (zh) 2007-04-24 2007-04-24 一种对互联网信息进行异常状态监测的方法

Publications (1)

Publication Number Publication Date
WO2008128442A1 true WO2008128442A1 (fr) 2008-10-30

Family

ID=39875081

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2008/000840 WO2008128442A1 (fr) 2007-04-24 2008-04-24 Procédé pour la surveillance d'un état anormal d'informations internet

Country Status (3)

Country Link
US (1) US8185537B2 (zh)
CN (1) CN101296128A (zh)
WO (1) WO2008128442A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112448861A (zh) * 2019-08-30 2021-03-05 北京国双科技有限公司 边缘设备的处理方法及装置、存储介质和处理器
CN113434751A (zh) * 2021-07-14 2021-09-24 国际关系学院 一种网络热点人工智能预警系统及方法
CN113836257A (zh) * 2021-10-13 2021-12-24 科大讯飞股份有限公司 一种热词挖掘方法、装置、设备及存储介质
CN117715089A (zh) * 2024-02-06 2024-03-15 湖南省通信建设有限公司 基于bim建模的通信基站能耗数据管理方法

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049443A (zh) * 2011-10-12 2013-04-17 腾讯科技(深圳)有限公司 一种挖掘热点词的方法与装置
CN103150310A (zh) * 2011-12-07 2013-06-12 腾讯科技(深圳)有限公司 一种提取热点信息的方法及装置
US9002702B2 (en) 2012-05-03 2015-04-07 International Business Machines Corporation Confidence level assignment to information from audio transcriptions
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法
CN103092950B (zh) * 2013-01-15 2016-01-06 重庆邮电大学 一种网络舆情地理位置实时监控系统和方法
US20140201227A1 (en) * 2013-01-15 2014-07-17 Getty Images (Us), Inc. Content-identification engine based on social media
CN104679768B (zh) * 2013-11-29 2019-08-09 百度在线网络技术(北京)有限公司 从文档中提取关键词的方法和设备
CN105653545B (zh) * 2014-11-10 2020-01-31 阿里巴巴集团控股有限公司 在页面中提供业务对象信息的方法及装置
CN104573008B (zh) * 2015-01-08 2017-11-21 广东小天才科技有限公司 一种网络信息的监控方法及装置
CN105069107B (zh) * 2015-08-07 2019-03-05 北京百度网讯科技有限公司 监控网站的方法和装置
CN106874745B (zh) * 2016-06-20 2020-01-21 阿里巴巴集团控股有限公司 风险检测方法及装置
CN106503256B (zh) * 2016-11-11 2019-05-07 中国科学院计算技术研究所 一种基于社交网络文档的热点信息挖掘方法
CN108241611B (zh) * 2016-12-26 2021-08-17 北京国双科技有限公司 一种关键词提取方法以及提取设备
JP7078244B2 (ja) * 2017-03-08 2022-05-31 株式会社Spectee データ処理装置、データ処理方法、データ処理システム及びプログラム
CN107203589A (zh) * 2017-04-21 2017-09-26 宁波公众信息产业有限公司 一种信息推送系统
CN109766367B (zh) * 2017-07-28 2021-06-08 腾讯科技(深圳)有限公司 热点事件确定方法及装置、计算机设备及存储介质
CN107423444B (zh) * 2017-08-10 2020-05-19 世纪龙信息网络有限责任公司 热词词组提取方法和系统
CN110020035B (zh) * 2017-09-06 2023-05-12 腾讯科技(北京)有限公司 数据识别方法和装置、存储介质及电子装置
CN107609173A (zh) * 2017-09-28 2018-01-19 云天弈(北京)信息技术有限公司 一种用于资讯内容违规量化分析的方法
CN109727049A (zh) * 2017-10-31 2019-05-07 北京国双科技有限公司 指标变化率分析方法及装置
CN107908618A (zh) * 2017-11-01 2018-04-13 中国银行股份有限公司 一种热点词发现方法和装置
CN108628832B (zh) * 2018-05-08 2022-03-18 中国联合网络通信集团有限公司 一种信息情报关键字获取方法及装置
CN109033468B (zh) * 2018-08-31 2022-09-16 创新先进技术有限公司 资源变动的处理方法及装置
CN109800431B (zh) * 2019-01-23 2020-07-28 中国科学院自动化研究所 事件信息关键词提取、监控方法及系统及存储和处理装置
CN110263169A (zh) * 2019-03-27 2019-09-20 青岛大学 一种基于卷积神经网络和关键词聚类的热点事件检测方法
CN110472191B (zh) * 2019-07-02 2021-03-12 北京大学 一种动态自适应的服务评价计算方法及装置
CN110852097B (zh) * 2019-10-15 2022-02-01 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备
CN111859238A (zh) * 2020-07-27 2020-10-30 平安科技(深圳)有限公司 基于模型的预测数据变化频率的方法、装置和计算机设备
CN112489646B (zh) * 2020-11-18 2024-04-02 北京华宇信息技术有限公司 语音识别方法及其装置
CN113076335B (zh) * 2021-04-02 2024-05-24 西安交通大学 一种网络模因检测方法、系统、设备及存储介质
CN113406935B (zh) * 2021-06-22 2022-09-02 惠民万顺节能新材料有限公司 一种热镀铝锌板生产过程监控系统
CN116400385B (zh) * 2023-03-21 2024-01-12 湖北珞珈实验室 一种底层大气与电离层耦合异常探测系统及方法
CN116611797B (zh) * 2023-07-20 2023-10-13 杭银消费金融股份有限公司 业务跟踪及监控方法、系统与存储介质
CN117669594B (zh) * 2024-02-02 2024-04-16 智器云南京信息科技有限公司 针对异常信息的大数据关系网络分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397211B1 (en) * 2000-01-03 2002-05-28 International Business Machines Corporation System and method for identifying useless documents
JP2002245061A (ja) * 2001-02-14 2002-08-30 Seiko Epson Corp キーワード抽出

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0936651B1 (en) * 1998-02-12 2004-08-11 Canon Kabushiki Kaisha Method for manufacturing electron emission element, electron source, and image forming apparatus
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US20060004732A1 (en) * 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
JP4254623B2 (ja) * 2004-06-09 2009-04-15 日本電気株式会社 トピック分析方法及びその装置並びにプログラム
US7426497B2 (en) * 2004-08-31 2008-09-16 Microsoft Corporation Method and apparatus for analysis and decomposition of classifier data anomalies
US7941436B2 (en) * 2006-11-30 2011-05-10 Yahoo, Inc. Keyword bidding strategy for novel concepts

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397211B1 (en) * 2000-01-03 2002-05-28 International Business Machines Corporation System and method for identifying useless documents
JP2002245061A (ja) * 2001-02-14 2002-08-30 Seiko Epson Corp キーワード抽出

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIANG X.: "Research on Stock Volatility Based on Web Statistic Information Mining", MICROCOMPUTER DEVELOPMENT, vol. 15, no. 8, August 2000 (2000-08-01), pages 81 - 84 *
LIU Z.: "Research on Personalized News Search System", JOURNAL OF ZHEJIANG WANLI UNIVERSITY, vol. 18, no. 4, August 2005 (2005-08-01), pages 32 - 34, 43 *
LUO J. ET AL.: "Research on Fast Text Classifier Based on New keywords Extraction Method", APPLICATION RESEARCH OF COMPUTERS, no. 4, 2006, pages 32 - 34 *
MO Q. AND LIU S.: "Design and Implementation of Topic News Information Porta System", COMPUTER ENGINEERING, vol. 32, no. 10, May 2006 (2006-05-01), pages 265 - 267 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112448861A (zh) * 2019-08-30 2021-03-05 北京国双科技有限公司 边缘设备的处理方法及装置、存储介质和处理器
CN112448861B (zh) * 2019-08-30 2022-07-29 北京国双科技有限公司 边缘设备的处理方法及装置、存储介质和处理器
CN113434751A (zh) * 2021-07-14 2021-09-24 国际关系学院 一种网络热点人工智能预警系统及方法
CN113434751B (zh) * 2021-07-14 2023-06-02 国际关系学院 一种网络热点人工智能预警系统及方法
CN113836257A (zh) * 2021-10-13 2021-12-24 科大讯飞股份有限公司 一种热词挖掘方法、装置、设备及存储介质
CN113836257B (zh) * 2021-10-13 2024-04-30 科大讯飞股份有限公司 一种热词挖掘方法、装置、设备及存储介质
CN117715089A (zh) * 2024-02-06 2024-03-15 湖南省通信建设有限公司 基于bim建模的通信基站能耗数据管理方法
CN117715089B (zh) * 2024-02-06 2024-04-12 湖南省通信建设有限公司 基于bim建模的通信基站能耗数据管理方法

Also Published As

Publication number Publication date
US20110191355A1 (en) 2011-08-04
CN101296128A (zh) 2008-10-29
US8185537B2 (en) 2012-05-22

Similar Documents

Publication Publication Date Title
WO2008128442A1 (fr) Procédé pour la surveillance d&#39;un état anormal d&#39;informations internet
CN107332848B (zh) 一种基于大数据的网络流量异常实时监测系统
US20210034819A1 (en) Method and device for identifying a user interest, and computer-readable storage medium
Brynielsson et al. Analysis of weak signals for detecting lone wolf terrorists
CN106570144A (zh) 推荐信息的方法和装置
US20090034851A1 (en) Multimodal classification of adult content
CN103854064B (zh) 一种面向特定区域的事件发生风险预测并预警方法
JP2010176666A (ja) ソーシャルインデックスにおける熱いトピック及び冷めたトピックを検出することによりユーザの関心を管理するためのシステム及び方法
CN111428113B (zh) 一种基于模糊综合评判的网络舆论引导效果预测方法
US9292615B2 (en) Method and a system for analysing impact of changes to content of a website
Luo et al. Answering relationship queries on the web
KR101685334B1 (ko) 키워드 관련도 기반의 재난 이슈별 재난 탐지 기술 및 이를 이용한 재난대처 방법
CN114692593B (zh) 一种网络信息安全监测预警方法
CN115660262A (zh) 一种基于数据库应用的工程智慧质检方法、系统及介质
JP5622969B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
WO2017033448A1 (ja) データ処理装置、データ処理方法、及びプログラム記録媒体
CN105447196A (zh) 一种重点博主追踪确认方法及装置
CN115858598A (zh) 基于企业大数据的目标信息筛选匹配方法及相关设备
CN112199601B (zh) 一种基于海量新闻数据事件热度的新闻推荐方法
CN112182390B (zh) 一种函件推送方法、装置、计算机设备及存储介质
JP4938367B2 (ja) セキュリティ診断システム
US20060005123A1 (en) Information retrieval terminal
Zhang et al. Social Bot Detection Using" Features Fusion"
Parra-Arnau et al. On the cost-effectiveness of mass surveillance
CN114610982B (zh) 一种计算机网络数据采集分析管理方法、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08734025

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08734025

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12525780

Country of ref document: US