WO2008128442A1

WO2008128442A1 - Procédé pour la surveillance d'un état anormal d'informations internet

Info

Publication number: WO2008128442A1
Application number: PCT/CN2008/000840
Authority: WO
Inventors: Xun Liang; Hua Chen; Jian Yang
Original assignee: Peking University
Priority date: 2007-04-24
Filing date: 2008-04-24
Publication date: 2008-10-30
Also published as: US20110191355A1; CN101296128A; US8185537B2

Description

一种对互联网信息进行异常状态监测的方法技术领域

本发明属于互联网信息挖掘技术领域，具体涉及的是对互联网信息进行异常程度的跟踪和监测的方法。背景技术

随着网络日益成为人们发布信息、沟通信息的主要媒体，网络上的信息也越来越能反映人们关注的焦点和社会热点事件了。因此，通过监控网络信息中所反映的热点问题和热点事件就成为一个自然的需求了。不论是普通用户还是行业专家都希望有一个自动化的工具或者方法帮助他们实时地跟踪他们所关注的领域的最新热点话题或者新闻，以便了解该领域的最新进展。

不难发现，在一般情况下，互联网信息中某个关键词大量集中出现往往意味着某个热点新闻或者热点事件的发生，而当发生了被广泛关注的新闻或事件时，又会在网络上集中出现大量的带有相关关键词的文本。因此，互联网文本中热点关键词的数量的较大变化常常反映了社会热点新闻或事件的出现或降温，而网络上反映热点新闻或事件的文本又会进一步推动广大网民对于相关新闻和事件的关注程度和看法。也就是说，异常高的关键词词频和显著的热点新闻和事件有一定的耦合关系。所以，在本发明中，避开对词频小的变化问题的预测，只关心异常髙的词频变化量。本发明对于网络监管机构、关注社会热点新闻和事件的机构来说，是非常有价值的自动跟踪热点词汇出现频率的工具。

以下讨论的关于词的方法，均指互联网信息中的关键词。

不同词有不同的出现词频，而在某日，不同出现词频的词的相同出现次数有不同含义。对于一个使用频率很高的词来说，词频的历史均值和历史标准差都很大，例如，分别是 500次 /天和 350次 /天。如果在某一天，其互联网频率增加了 300次，变成了 800次，即增加了大约 1倍，那么一般仍然很正常；但是，如果其互联网频率变成了 1200次，即增加了大约 2倍，就会预示着发生了相应的热点新闻或事件了。

而对一个频率比较低的词，平均日互联网出现频率及其标准差很小，例如，分别是 20次和 15次。如果在某一天，其互联网频率增加了 30次，变成了 50次，即增加了大约 1倍多，那么一般仍然很正常；但是，如果在某一天，互联网上该词的信息量增加了 300次，变成了 320次，则预示出现了相应的热点事件或新闻。

也就是说，同样是增加 300次，对高频词说，仍然正常；而对低频词来说，则说明出现了异常事件。即对具有不同词频的词的度量，标准是不同的。

对于低频词，上述的 300次出现次数称为异常高的词频增加量。本发明的主要目标是监测异常高的词频增加量，进而预测网络热点信息的出现或降温，以及进行必要的报警。

Khoo K. B.等人于 2001年提出了一种跟踪热点话题的方法，对一些定点的网站或者网页定期统计一些关键词项（term)的词频，并利用 tfidf公式计算每个 term的当前权重，并从中得到当前的热点话题（Khoo K. B.， Mitsuru I. Emerging Topic Tracking System. Advanced Issues of E-Commerce and Web-Based Information Systems, WECWIS 2001, Third International Workshop on. 2-11. 2001.), 以下称为现有技术 1。其贡献之处在于，现有技术 1给出了一种标准化的公式来计算每个 term的当前权重，随着时间的变化，这个权重也会随之变化，从而反映出互联网信息热点的变化情况。其主要缺点在于，没有考虑每个 term的历史均值和历史标准差，因此无法按照高频词和低频词的历史表现对异常的热点进行准确的度量，只能对各个 term进行横向的比较。发明内容

本发明的目的是提供一种通过对互联网信息中热点词汇的频率所发生的变化进行监测，从而对互联网信息进行异常状态监测的方法。

本发明的技术方案如下：

一种对互联网信息进行异常状态监测的方法，所述的方法是结合用户关注的热点词汇词典，对用户关注的互联网信息进行异常状态的监测，具体包括以下步骤：一、获取通用词汇在当日互联网页中出现的当日词频数据，并存入数据库。对互联网的网页进行定时抓取，得出每个通用词汇在每篇网页中的词频数；累加所有网页中该通用词汇的词频数，得到当日互联网信息中的该通用词汇的当日词频数据，并存入数据库。可以按照以下步骤进行：

( 1.1 ) 给定欲抓取的互联网站点列表并存入数据库之中； ( 1.2) 遍历数据库站点列表中的每一条记录，按照如下方法得到该站点中每一个通用词汇的词频数：根据互联网站点列表记录和通用词汇表，得到需抓取的网页链接地址；根据需抓取的链接地址，找出每一个通用词汇标有当天日期的信息，并对这些信息计数；

( 1.3 ) 累加每一个通用词汇在数据库中所有站点列表中的词频数，得到该通用词汇的当日词频数据，并再存入数据库的原位置。

使用上述步骤，可以抓取并算出所有通用词汇的当日词频数据。需要说明的是，使用本方面的方法，需要按如上方法积累相对较长一段时间的上面的历史数据。

在得到历史数据之后，就可以对新的一天的词频变化状况进行检测了。首先利用中文分词方法把当日每篇网页文档进行中文分词得到该网页中的所有通用词汇 (可借助当前较成熟的中文分词词典进行，如中科院计算所的海量词典)。

二、结合用户关注的热点词汇词典，确定每篇网页的当日关键词，合并所有网页的当日关键词，得到互联网信息的当日关键词集合 {ti， i=l…… M }， M为当日关键词表中的关键词个数。

确定当日每篇网页的关键词的方法可以如下：

(2.1 )对于每篇网页中的每个通用词汇，按照如下公式计算其信息特征值 tfidf, 即 tfidf = - [ freq(p, D) I size(D)] * [ log(df(p)/ ) ]，其中： freq(p, D)是通用词汇 p在网页 D中的出现次数， size(D)是网页 D中包含的所有通用词汇的数量， df(p)是当日网页集合中含有通用词汇 p的文章的数量， N是当日网页集合中网页的数量 N;

(2.2) 将该网页中的所有通用词汇与用户关注的热点词汇词典进行比较，删去其中不属于用户关注的热点词汇，形成针对该网页的备选关键词表，选取该网页备选关键词表中 tfidf值较大的 K个关键词，得到该篇网页的当日关键词， K为正整数。

三、确定当日关键词的权重。

在当日抓取的网页集合中对当日关键词集合中的所有关键词进行累加求和，统计出每个关键词的当日词频，按照当日词频将所有当日关键词从小到大排序。

根据每个关键词的互联网词频的历史数据，计算历史均值 μί、历史波动率 σί (不管频率升降，本发明定义波动率均取词频变化率的绝对值，即波动率永远为正数)。

然后计算关键词的权重：将关键词 ti的 q值定义为其波动率的上取整值的倒数, 即 qi = 1 / (cein(ai)), i=l,...,M，其中 cein()是上取整函数，那么关键词 ti的权重 wi = l时对应当日词频 fi最小的当曰关键词。

四、确定当日关键词的异常阀值。

对于当日关键词 ti，定义其异常阀值为 ai' = ai + c(wi/wl)， i=l,...,M。其中 c是一个常数，可以由用户根据经验来给出，代表词语异常阀值的膨胀。

对于不常见词汇 ti，由于 σί « σ1，所以 σί' σί + c; 而对于最常见词汇，其 σί 较大，所以 σί' - σί; 而对于普通的词汇，其异常阀值在 oi和 σί + c之间平滑过渡。

五、检测当日关键词的异常程度并确定当日热点互联网信息：

定义当日关键词的偏移度 = (fi-μΐ) I σΐ' , 偏移度大的当日关键词所属的互联网信息即为当日热点互联网信息。进一步，上述的方法中还包括如下步骤：

六. 按照如图 4所示的折线判别函数（需要取整）检测每个关键词的异常度 θί。也就是说， ¾-∞< ΘΓ <0时， θί = 0; 当 0≤ θΐ' <1时， θϊ = ΑΟΟΓ(Ι ΟΘΪ'), 其中 floor( ) 是下取整函数；当 1≤ θϊ， < 2时， θί = floor(8O(0i'-l)) + 10；当 2≤ 0i， < 3时， θί = floor(9(9i'-2)) + 90_; 当 3≤6i，< +∞时， θί = 99。当关键词 ti的异常度 θί > 90分时，认为该关键词发生异常变化，该关键词所属的互联网信息为当日突发的热点信息。进一步，上述的方法中还包括如下步骤：

七. 将所有关键词的异常度得分以图 2所示的图形方式显示，便于用户观察其得分。图形方式下：

将步骤 6的结果使用 Java Applet技术和 Java AWT接口，根据各热点词汇在画布上的坐标及其预测的词频异常度大小，绘制给用户。其中，图形条越长，表示互联网词频的异常程度越大。图形条的颜色的决定方法是：按照图形条的长度，通过査一个 20个长度和 20个颜色一一对应的表，来决定其应该绘制的颜色（见图 2)。

图形条的长度和颜色分别从

<7.1>长度为 0、颜色为深绿色（对应词频异常度 0), 逐渐过度到

<7.2>长度为颜色为橙色（对应词频异常度 90)，再逐渐过度到

<7.3>长度为 L、颜色为大红色（对应词频异常度 100)。其中，图形条最大长度为，而且为了突出异常关键词的显示，图形条的长度与关键词的异常度分值并不是正比关系而是反方向的对数关系，即 / = (2-log(100 - 6i)) L / 2，其中 log是以 10为底的对数函数。这样，最高分 99对应着长度 L, 异常临界值 90分对应着长度 L / 2，异常度 0分对应着长度 0。

为及时提醒用户，上述的方法进一步包括如下步骤：

当当日关键词 ti的异常度 6 i > 90分时，向用户报警。也即，当图形条长度超过或等于 L / 2 (这时颜色较偏红，例如为大红色和橙色）时，即达到或超过报警线时，系统向用户报警。本发明与现有技术 1的区别有以下三点。

第一，现有技术 1使用了 tfidf公式来度量关键词项的重要程度，而没有考虑各个 term的历史均值和标准差，也没有对高频词和低频词的不同情况进行分别处理的机制；本发明除了使用 tfidf公式选取当日的关键词，还发明设计了对不同频率词汇变化的权重度量公式，使用历史均值和历史标准差对词频显著性波动，进行预测。由于每个关键词是否出现异常在很大程度上依赖于历史上该关键词的频率分布，所以利用历史均值和标准差可以从根本上提高关键词异常程度检测的实际应用效果。

第二，对词频的变化所代表的热点话题的变化，现有技术 1使用 term的权重的排位来体现，而本发明使用异常、半异常或正常作为检测标准，而异常程度是通过当日的词频偏离历史均值的程度计算的，判断的阔值除了建立在历史标准差之上，还对高频词和低频词进行区分，从而把抽象的热点变化程度具体化，并使之更接近实际使用场合。

第三，现有技术 1没有进行图形化显示，不方便实际应用，本发明的方法进一步设计和实现了图形条长度及颜色的显示方法，对词频波动率大小给出了直观表达的途径，并提供了报警功能。

本发明通过对互联网信息中热点词汇的频率所发生的变化进行监测，计算关键词的异常程度，对热点词汇的词频变化的异常程度进行预测和报警。对网络监管部门来说，本发明可以提供一个及时的热点信息观察窗口，尽早发现那些有异常程度的事件，可以对热点词汇词频的较大波动提高警惕性，并在第一时间做出反应。此外，根据本方法，可以从互联网角度，对热点信息和事件的变化情况进行预测，并可以相当地准确向用户报警。由于通常互联网信息数量庞大，本发明的图形输出方式实质上是给出了一个总结性信息，从而提高了发现热点信息的效率。举例来说，如果热点信息为股市热点信息，通过此监控技术，就可以间接地了解宏观经济指标变动、公司财务变化对股价的影响，为决策机关的政策制定提供更多的理论依据。随着互联网的进一步发展和渗透，将会有更多的金融信息通过网络的渠道进行公示，而由于互联网的广泛性和匿名性，很可能成为故意炒作者的利器。从这个意义上说，对互联网金融热点信息进行研究还可以帮助金融监督机构有效地实现金融监管，提高信息可信度，打击恶意操作的行为。对于企业管理者而言，如果可以提前把握互联网金融信息对自身股市行为带来的可能影响，那么势必将更为有效地做出决策，同时也可以及时地对虚假和炒作的金融信息做出回应。附图说明

图 1 本发明方法的主要步骤流程图；

图 2 利用互联网词频的变化预测热点异常程度的图形化显示及报警举例；图 3 2006-09-11新浪网的新闻分页上的信息。

图 4 异常度折线判别函数图具体实施方式

下面更详细的描述出本发明的一个实施例。

参见附图 1，一种对互联网信息进行异常状态监测的方法，所述的方法是结合用户关注的热点词汇词典，对用户关注的互联网信息进行异常状态的监测，包括以下步骤：

( 1 )抓取某日互联网新闻文本

<1>给出待抓取的网站列表并存入数据库之中，表 1给出了一部分。

表 1 互联网新闻网站列表举例

序号链接

1 http://news.sina.com.cn/

2 http://news.163.com/

3 http://cn.news.yahoo.com/

4 http://news.sohu.com/

5 http://news.tom.com/

6 http://sounews.ynet.com/shishi/shishi_class.htm 7 http://tv.pchome.nety

8 http://www.enet.com.cn/enews/

9 http://www.enet.com.cn/enews/

10 http ://news.chinabyte. com/

11 http://www.gov.cn/jrzg/zgyw.htm

12 http://news.hexun.com/

13 http ://news. china, com/

14 http://msn.ynet.com/

15 http://www.zaobao.com.sg/

16 http ://www.xinhua. org/

17 http://www.people.com.cn/

18 http://www.ce.cn/xwzx/

19 http：〃 www. cet. com.cn/

20 http：〃 news, cctv.com/index. shtml

<2>从数据库的站点列表中读取一条记录，例如 http://news.sina.com.cn/。

<3>根据需抓取的链接地址，找出标有当天日期（例如 2005-12-6) 的信息，并计数（如果需要，可以进入标有 "更多"的网页链接，以找全当日所有信息），例子见图 3;

<4>生成用户热点词汇的词典（表 2给出了一部分，这是由用户给定的），给出每个热点词汇对应的历史平均词频和历史词频方差。

<5>对于每个网页，计算词典中的每个热点词汇在其中出现了多少次，与前面已经抓取过的网页中所计算的词频相加，存入数据库的原位置。

使用上述步骤，可以抓取并算出所有热点词汇的当日词频。

本例子使用从 2003年末至 2004年末的互联新闻信息数据。

本发明并不限于抓取互联网新闻文本，可以抓取任何能够反映热点信息的文本，例如论坛文本。

(2)数据预处理

如上得到历史数据之后，下面可以对每天的关键词异常状态进行监测。首先利用中文分词方法借助分词词典（如中科院计算所的海量词典）把当日每篇网页文档进行中文分词，得到该篇网页中的通用词汇。对于每个通用词汇，计算其信息特征值 tfidf, 即 tfidf = - freq(p, D) I size(D) * log(df(p) / N),其中： freq(p， D)是通用词汇 p 在网页 D中的出现次数， size(D)是网页 D中包含的所有通用词汇的数量， df(p)是当日网页集合中含有通用词汇 p的文章的数量， N是当日网页集合中网页的数量。 (3)关键词自动选取

将当日抓取的网页中的所有通用词汇按照其 tfidf值的大小排序，然后与用户给定的热点词汇词典进行比较，删去没有出现在用户词典中的单词，从而形成备选关键词表。然后对照备选关键词表，从当日抓取的每个网页文档中选取 tfidf值最大的

10个关键词，合并得到当日关键词集合，如表 2所示。

表 2 2004年 8月 16日的关键词表

(4)计算关键词权重

在当日抓取的网页集合中对当日关键词集合中的所有关键词进行累积求和，统计出每个关键词的当日词频 fi，并按照当日词频从小到大将所有当日关键词排序，方便按照词频大小顺序进行权重的计算过程， i= l时 fi最小。

根据每个关键词的互联网词频的历史数据，计算历史均值历史波动率 (不管频率升降，我们定义波动率均取词频变化率的绝对值，即波动率永远为正数）。然后计算关键词的权重。关键词 ti的权重 wi = 1 / (cein(oi)),

i=l,...,M， cein〇是上取整函数（见表 3)。

(5)计算关键词的异常阀值

对于关键词 ti，计算其异常阀值01' = ₀1 + (； ^ 1)， i=l,...,M。这里默认的常数 c为 15，由用户根据经验给出，代表词语异常阀值的膨胀。

可以看到，对于不常见词汇 ti， σί' ^ σϊ + c; 而对于最常见词汇， σί' - σί; 对于普通的词汇，其异常阀值在 σί和 d + c之间平滑过渡（见表 3)。

(6)关键词异常程度检测以及图形化显示

计算关键词的偏移度 ΘΓ = (fi-μΐ) I σΐ', i=l，...,M。

然后按照图 4所示的折线函数测每个关键词的异常度 θί。结果如表 3所示。最后，异常度 θί > 90分的关键词认为是发生了异常变化。同时，可以将所有关键词的异常度得分以图 2所示的图形方式显示，便于用户观察其得分。

表 3 2004年 8月 16日的关键词各属性值及其异常度指标词汇当日词频历史均值历史方差权重异常阀值偏移度异常度伊拉克 108 72.75 36.99097 0.005504 46.99097 0.750144 7

爆炸 2 21.6 15.93542 0.012727 39.06042 -0.50179 0 美军 60 34.9 20.70418 0.009697 38.32323 0.654955 6 教育 101 37.2 16.14899 0.011979 37.9137 1.682769 64 资源 37 22.8 17.08389 0.011313 37.63945 0.377264 3 li运会 160 41.375 25.09189 0.007832 39.32266 3.016708 99

食品 19 9 12.729 0.015665 41.19053 0.242774 2 台湾 105 46.45 27.32155 0.007273 40.53584 1.444401 45 银行 43 24.9 24.92628 0.008146 39.72628 0.455618 4

27 9.45 8.173518 0.022627 49.28463 0.356095 3

西部 19 8.25 6.796552 0.029091 59.65369 0.180207 1 高考 19 5.95 6.984899 0.029091 59.84204 0.218074 2 中国队 21 25.05 28.95143 0.007022 41.71005 -0.0971 0

比赛 116 52.4 52.48914 0.003842 59.47027 1.069442 15 图 2所示的图形方式下，按照图形条的长度，通过查一个 20个长度和 20个颜色一一对应的表，来决定其应该绘制的颜色。图形条表示关键词的异常程度，图形条越长，表示互联网词频的异常程度越大。

图中可以看出，关键词 "奥运会"发生了显著的异常变化，为大红色；关键词 "教育"也有异常变化，为橘红色；而关键词"伊拉克 "虽然词频的绝对值较髙，但是由于词频变化较小，没有超出阀值，所以不认为发生了异常变化。

(7)报警

当图形条长度超过或等于 / 2 (这时颜色较偏红，例如为大红色和橙色）时，即达到或超过报警线时，系统向用户报警。本发明的有效性评价：

本发明中采用一个测试集合来评价本发明的有效性，这个集合取自各个门户网站的新闻和消息，为表现热点事件的关键词出现异常的全面情况，选用的事件涵盖了多个领域。

评价热点词汇的选择是否正确，以及这些热点词汇的正确率多高需要一个参照标准，当前还没有一个客观的全面的标准来进行评价，对于这种情形，本发明根据这些门户网站上的信息分布，预先釆用人工的方式确定一个热点词汇的参照表 (由于随着时间变动，该热点词汇表也是不断变化的，每天都可能改变)的方式来进行。

目前在信息检索领域，用于评价词汇提取性能的最常用指标是召回率 (Recall)和査准率 (Precision),在本发明的有效性评价中，采用这两个指标来进行，分别定义为： P = (获取的符合条件的热点词数目) /(获取的词汇总数目）

R = (获取的符合条件的热点词数目) /(热点词汇表中词数目）两个指标分别从不同侧面刻画了性能的好坏。

测试首先是获取数据集合，文档时间范围为 2004年 8月 1日至 2004年 8月 16 日，选取的地点来自前面表 1所列举的网站。

采用本发明所介绍的第一步方法来获取网页数据，并保存于本地供进一步评测使用，测试文档集合详细情形参见附表 4所示，列出了成功获取的文档篇数、词数以及文档大小。获取数据的同时，对文档进行了中文分词处理，分词基于中科院计算所的海量词典进行，后面的统计计算是基于分词后的结果。

针对该段时间的关键词异常度检测获得的异常度结果如表 5所示，当日的异常度依赖于前面的历史词频和波动变化。

表 5 2004年 8月 1日至 2004年 8月 16日部分关键词异常度伊拉克爆炸美军教育银行奥运会恐怖资源台湾

20040801 99 68 25 3 0 - 0 2 1 0

20040802 93 20 25 6 3 0 4 3 6

20040803 7 0 28 7 1 … 0 5 3 62

20040804 95 6 7 86 82 90 4 45 95

20040805 3 1 3 4 0 9 5 7 1 20040806 24 2 5 29 1 5 96 7 30

20040807 93 6 49 63 72 2 5 2 14

20040808 92 3 7 2 4 2 15 1 26

20040809 66 8 16 59 2 99 21 59 6

20040810 17 0 0 78 1 92 3 5 93

20040811 3 4 5 9 3 7 2 5 33

20040812 87 9 95 41 86 8 3 94

20040813 4 7 1 7 99 99 8 1 90

20040814 0 0 6 0 0 96 2 1 0

20040815 82 0 32 0 0 91 5 0 0

20040816 7 0 6 64 4 99 0 3 45 在表 5中，该段时间每日的关键词异常度随着相应词频的历史均值和历史方差变动，在这段时间内，可以观察到热点词汇的异常变化与历史均值和方差之间的关系，以测试文档头一天的异常度数据为例，在此前未有历史均值和方差的基础上，该天的异常度数据可能说明不了什么问题，仅仅只是在 tf*idf 值的基础上，更多的以词频本身来体现当天的热点词汇，词频大的，比如"伊拉克"，异常度为 99，该天的词频数量为 155，占有很大的比重，只能说明在该天的出现次数较多，等到隔一周时间之后，该词的词频 145虽然还是很大，但异常度就只有 66，未达到异常报警限。

平常词频均值较小的词语，如"奥运会"，在测试文档第一天的数据中，异常度为 0，词频数目 8很小，但是到三天之后，虽然词频仅有 67，但是异常度已经达到 90了。主要是由于词频的历史数据较大波动率所致。而这与根据当天文档信息所产生的热点词表符合度是较高的，在后面的表 7数据分析中会进一步予以说明。

针对热点词汇的提取，首先是对词频的统计，计算其 tf和 idf的值，根据得到的 t idf 特征，预先提取相应特征词汇，这个过程获得词汇与我们提供的关键词有个比较过程，用以验证前期提取关键词的效果。

在利用 tf*idf值进行关键词自动选取之后，得到的数据如表 6所示。

表 6 2004年 8月 1日至 2004年 8月 16日部分关键词 tfMdf值伊拉克爆炸美军教育银行奥运会恐怖资源台湾

20040801 .0151 .0070 .0051 .0023 .0005 .0007 •0018 .0016 .0008

20040802 .0080 .0032 .0035 .0030 .0040 .0011 .0023 .0023 .0057

20040803 .0041 .0005 .0043 .0030 .0007 .0008 ,0024 .0018 .0055

20040804 .0079 .0018 .0019 .0049 .0046 .0095 .0015 .0044 .0059

20040805 .0033 .0012 .0018 .0020 .0007 .0041 .0025 .0028 .0016 W

可以看到，关键词选取过程中的 tf*idf值的大小并不能完全说明关键词的热度，以表 7中的 2004年 8月 16日关键词 t df值为例，对比表 5中的异常度可以看到， "奥运会"的异常度 99在当天为最大，但是 tf*idf值 0.0041却排在好几个词之后。

在接下来的步骤中，采用本发明所述的方法检测并提取热点词汇，得到的提取效果如表 7所示。

表 7 基于统计异常度提取热点词汇的结果

热点词汇的提取，在基于前面的 tf*idf 值的选取范围之内，根据词频历史均值和历史方差，对词汇进行重要性排序，按照异常度打分的机制，选取最终的热点词汇。由于网上获取的文档没有给出关键词，也没有较客观的现成标准可以用来对照，对于本发明的验证我们通过手工建立的热点关键词词典，进而与提取词汇进行比较。

对于按照本发明的方法找出来的热点词汇，也即经检测发现的异常度较大的关键词，其对于文档的査准率和査全率从表 7中可以看到，本发明中的热点词汇检测方法是建立在关键词提取基础上的，是对关键词中的热点词汇的发现,因此关键词提取的全面性会影响到热点词汇的发现。本发明的效果验证过程，某个词汇在一段时间成为异常度较高的词汇，如果异常度持续保持较高，对于其词频的增长是个较强的递增过程，通过表 6中的 tf*idf体现出词汇出现频度的变动；同时在一段时间内，某个词汇异常度一直为较低，会在出现一个较为可观的变动后，异常度开始走高 (如 "奥运会"，在本发明中的测试数据集中，以 13日为分界线，此前异常度一直不是很大不足 5.0, 异常度开始变为较大异常 90以上）；同时异常度在起初较大，到后来随着时间变化逐渐异常度减低 (如伊拉克，在测试数据开始阶段，从 6— 9 日异常度均值 83.7，逐渐变为不到 10), 可以从表 5中看出部分词汇异常度的走势。

可以观察到，表 7中涉及的热点词提取的査准率是较高的，初始第一天的数据，由于历史数据波动尚未考虑，査准率较低，包括第二、三天也是历史波动不太明显，在此后的几日数据有了历史波动的参照和修正，可以发现查准率均在 75%以上，最高达 89% (均值为 78.13%)，说明按照本发明的方法提取的热点词汇中的大部分符合热点词表的词汇，提取的结果比较准确。

在表 7中，召回率表示按照本发明方法进行热点词发现的词占热点词表比例，本发明所提供的热点词评价词典是人工产生的，每天的词典不同，词数也有差异，都是根据当天以及前些天的网上信息得出，由于在本次信息的提取中涉及到的样本数量比较有限，加上在关键词自动选取中根据 t «=idf 的大小选取词数较少，验证中的召回率不是太高 (均值为 60.61%)。该处不足可以通过扩大样本集合，并且增加关键词自动选词数目来进行提高。此处只是简单的效果验证，在实际的应用中使用的样本数量远远大于此处的测试集合，而且实现中就不再仅限于按照 tf*idf 值提取当天 10个词语作为关键词，可根据需要扩大这个范围，以免漏掉一些 t =idf值偏小但是有可能是热点词汇的词语，通过实际应用大规模数据集和大量提取关键词的方式，可相应提升召回率。

按照我们的方法，检测出的热点词汇效果进行评价打分，根据表 7中的查准率和召回率数值来综合比较，可作为评价热点词汇的一个较为客观的参考数据，打分的准确性由这两个指标数值进行综合评价，据了解目前在中文的热点词检测方面并没有同类的方法，本发明的提出具有原创性，我们对该处两个指标值的评价就只能从专利的效果自身来进行。考查从 1日到 16日的査准率和召回率数值变化看来，初始第一天的査准率和召回率指标均不高，而且差异较大 (査准率 68%，召回率 46%)，在其后的几日，通过与人工热点词表的对照比较，综合了历史词频的波动，査准率和召回率都有所回升，比如在 2004年 8月 13-16日的热点词表中，基于历史波动，对"奥运会 "词频的增长做出了很好的判断，并能正确的做出预警提示，对于此段时间的其他热点词汇，平均査准率达 79.2%，平均査全率为 69.4%,考虑历史波动的累积对评价指标值的提升有一定效果。

在本发明方法的效果评价过程中，我们更多的依靠人的主观常识判断生成的热点词汇作为标准，可能会在一定程度上影响评价效果的客观性，但是由于目前没有现成的中文热点词表标准作为参照，作为热点词汇的检测方法效果的体现，暂时只能以人工标准作为比对，就某领域的重大事件而言，我们选取的热点词是基于主要门户网站的信息，相对也是比较客观的，·从目的上来说它也适应作为实际应用的参考。

进一步的我们对提取的一段时间的热门词，对照了某搜索网站搜集并总结的以周为单位的时间段内热门事件 (从 2004年 8月 1日到 8月 16日两周时间)，对比结果如表 8所示。

表 8 本发明的热点词汇与某搜索引擎的热门事件关键词分类本发明热点词汇累计某搜索引擎热点事件关键词标准词表累计时间段 20040801-20040816 20040801-20040816 20040801-20040816 台湾、飞机、伊拉克、美奥运会、房地产、汇比赛、希腊、中国队、奥运会、军、比赛、中国队、奥运率、伊拉克、人民币、金牌、伊拉克、美军、恐怖、会、教育、航空、恐怖、股改、环保、通货膨加沙、电信、纳杰夫、奥林匹体育场、纳杰夫、海军、词例胀、世界杯、恐怖、克、教育、飞机、巴勒斯坦、奥委会、联合国、希腊、巴勒斯坦、台湾、教援助、资源、航空、开幕式、阿富汗、战争、资源、武育、银行、比赛、爆录取、影片、人民币、禁赛、器、金牌、核武器、影片、炸、中国队等等纪录、体育场等等食品、石油、好莱坞、市政等等

总词数 160 196 210

符合标

125 138 -- 准词数平均召

0.59524 0.65714 -- 回率

平均査

0.78125 0.70408 -- 准率因为该搜索网站搜集的这些信息都是以消息标题形式呈现，并且列出的是一段时间的信息，没有具体针对某一天的事件，我们针对这些事件提取了关键词，同时列出了该段时间内我们的方法发现的热门词信息。以前面每天手工产生的热门词表的累积为标准来进行一下比较，仍然按照前面定义的方式，经过统计计算，可以看到该搜索引擎在该段时间内获取的信息平均査准率为 69.27%,平均召回率为 63.3%; 相应的，对于一段时间的统计结果，本发明验证的平均査准率 73.75，召回率 56.19%。从这两样指标的数值看来，本次测试中方法的平均召回率不及该搜索引擎的指标，但是査确率却稍稍领先，可能是受到此处验证使用的人工标准热点词表的影响，但是这里的差异都不是太大。

表 8中的数据对比可以看出，本发明具有较高的平均査准率，原因主要是因为较好地抓住了 "热点词汇在某一特定时间点相较于自身历史回溯忽增的特点"，与此同时，另一方面本发明显示出较低的平均召回率，这一特性又说明热点词汇还有其他特点本发明没有概括进去。这样，综合看来，本发明适合的用户包括：那些比较挑剔结果正确率，满足于找出当天大部分热点词汇，而对于个别未能找到的热点词汇不太在意的人群，包括：时间紧张的政府领导人、风险投资家等等。

Claims

权利要求书

1. 一种对互联网信息进行异常状态监测的方法，所述的方法是结合用户关注的热点词汇词典，对用户关注的互联网信息进行异常状态的监测，其特征在于，包括以下步骤：

( 1 ) 获取通用词汇在当日互联网页中出现的当日词频数据，并存入数据库；

(2)结合用户关注的热点词汇词典，确定每篇网页的当日关键词，合并所有网页的当日关键词，得到互联网信息的当日关键词集合 {ti， i=l…… M }， M为当日关键词表中的关键词个数；

(3 )确定当日关键词的权重：

根据每个当日关键词 ti的互联网词频的历史数据，计算其历史均值 μ、历史波动率 _σί，波动率为词频变化率的绝对值；定义 qi = 1 / (cein(oi)), cein()是上取整函数，当日关键词 ti的权重 wi l时对应当日词频 fi最小的当日关键词;

(4)确定当日关键词的异常阀值：

对于当日关键词 ti,定义其异常阀值为 ai' = ai + c(wi/wl)，其中 c是用户根据经验来给出的一个常数，代表词语异常阀值的膨胀；

(5 )检测当日关键词的异常程度并确定当日热点互联网信息：

定义当日关键词的偏移度 = (fi-μΐ) I σί' , 偏移度大的当日关键词所属的互联网信息即为当日热点互联网信息。

2. 如权利要求 1所述的自动监测方法，其特征在于，所述步骤（1 ) 中通用词汇的当日词频数据是按照如下方法得出：

( 1.1 ) 给定欲抓取的互联网站点列表并存入数据库之中；

( 1.2) 遍历数据库站点列表中的每一条记录，按照如下方法得到该站点中每一个通用词汇的词频数：根据互联网站点列表记录和通用词汇表，得到需抓取的网页链接地址；根据需抓取的链接地址，找出每一个通用词汇标有当天日期的信息，并对这些信息计数；

( 1.3 ) 累加每一个通用词汇在数据库中所有站点列表中的词频数，得到该通用词汇的当日词频数据。

3. 如权利要求 1所述的对互联网信息进行异常状态监测的方法，其特征在于，所述步骤（2) 中确定当日每篇网页的关键词的方法如下： .

(2.1)对于每篇网页中的每个通用词汇，按照如下公式计算其信息特征值 tfidf, 即 tfidf = - [ freq(p, D) / size(D)] * [ log(df(p)/N) ]，其中： freq(p, D)是通用词汇 p在网页 D中的出现次数， size(D)是网页 D中包含的所有通用词汇的数量， df(p)是当日网页集合中含有通用词汇 p的文章的数量， N是当日网页集合中网页的数量；

4. 如权利要求 1所述的自动监测方法，其特征在于，所述的方法进一步包括如下步骤：定义每个当日关键词的异常度 θί，当 ~∞< θί' <0时， θΐ = 0; 当 0≤6i' <l时， θί = ΑοοΓ(ΙΟΘί'). 其中 floor( )是下取整函数；当 1≤ θί， < 2时， θΐ = floor(8O(0i'-l)) + 10；当 2≤ΘΓ < 3时， ei = floor(9(6i'-2)) + 90; 当 3≤θί，< +∞时， θί = 99_; 当当日关键词 ti的异常度 ei> 90时，认为该关键词发生异常变化，该关键词所属的互联网信息为当日突发的热点信息。

5. 如权利要求 4所述的自动监测方法，其特征在于，所述的方法进一步包括如下步骤：将所有当日关键词的异常度得分进行图形化显示。

6. 如权利要求 4或 5所述的自动监测方法，其特征在于，所述的方法进一步包括如下步骤：当当日关键词 ti的异常度 θί > 90分时，向用户报警。