WO2018068664A1

WO2018068664A1 - 网络信息识别方法和装置

Info

Publication number: WO2018068664A1
Application number: PCT/CN2017/104275
Authority: WO
Inventors: 刘杰
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-10-13
Filing date: 2017-09-29
Publication date: 2018-04-19
Also published as: US20190014071A1; US10805255B2

Abstract

本申请实施例公开了一种网络信息识别方法及装置，其中，网络信息识别方法包括：获取待识别网络信息；计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信，本申请实施例能够有效识别网络中的特定信息。

Description

网络信息识别方法和装置

本申请要求于2016年10月13日提交中国专利局、申请号为201610895856.9、发明名称为“一种网络信息识别方法及装置”的中国专利申请的优先权，以及2016年10月27日提交中国专利局、申请号为201610956467.2、发明名称为“社交网络信息识别方法、处理方法及装置”的中国专利申请的优先权，以及2016年10月31日提交中国专利局、申请号为201610929276.7、发明名称为“基于行为特征的多媒体文件识别方法、处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及网络应用领域，特别是涉及一种网络信息识别方法和装置。

背景技术

随着网络技术的发展，网络上可传播的信息越来越多，有些网络信息是真实的且不包含不良内容信息，而有些网络信息则是虚假信息或者包含不良内容的信息，例如色情或恐怖信息。网络的发展，助长虚假或者包含不良内容的信息的影响力，普通用户由于知识和信息量有限，无法识别此类信息。

发明内容

有鉴于此，本发明实施例提供了一种网络信息识别方法及装置，能够有效识别网络中的特定信息。

本发明实施例提供的网络信息识别方法，包括：

获取待识别网络信息；

计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；

根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信。

本发明实施例提供的网络信息识别装置，包括：

获取单元，用于获取待识别网络信息；

计算单元，用于计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；

确定单元，用于根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信。

一种网络信息识别方法，包括：

对目标文本进行分词处理，得到目标文本的分词；

按照各分词在目标文本中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，所述信息类型包括虚假信息、真实信息和无偏向信息；

对目标文本中所有词组的信息类型进行统计，得到统计结果；

根据统计结果确定所述目标文本的信息类型。

一种网络信息识别装置，包括：

分词单元，用于对目标文本进行分词处理，得到目标文本的分词；

第一确定单元，用于按照各分词在目标文本中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，所述信息类型包括虚假信息、真实信息和无偏向信息；

统计单元，用于对目标文本中所有词组的信息类型进行统计，得到统计结果；

第二确定单元，用于根据统计结果确定所述目标文本的信息类型。

一种网络信息识别方法，包括：

在多媒体文件播放过程中，获取观众用户的画像特征值和第一意愿特征值，所述画像特征值用于标识用户对特定内容的喜好，所述第一意愿特征值用于标识用户在预设时间段内希望观看特定内容的意愿；

根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率；

判断所述概率是否超过预设值，若是，则对所述多媒体文件进行特征检测；

根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件。

一种网络信息识别装置，包括：

获取单元，用于在多媒体文件播放过程中，获取观众用户的画像特征值和第一意愿特征值，所述画像特征值用于标识用户对特定内容的喜好，所述第一意愿特征值用于标识用户在预设时间段内希望观看特定内容的意愿；

计算单元，用于根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率；

检测单元，用于判断所述概率是否超过预设值，若是，则对所述多媒体文件进行特征检测；

确定单元，用于根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件。

本发明实施例中，后台可以自动获取待识别网络信息，根据待识别网络信息与可信网络信息的相似度，以及待识别网络信息与非可信网络信息的相似度，确定待识别网络信息是否可信，即利用相似度确定待识别网络信息是否可信，因而能够自动、有效地识别特定网络信息，例如谣言。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例所提供的网络信息识别方法的一个场景示意图；

图2是本发明实施例所提供的网络信息识别方法的一个流程示意图；

图3是本发明实施例所提供的网络信息识别方法的另一流程示意图；

图4是本发明实施例所提供的网络信息识别装置的一个结构示意图；

图5是本发明实施例所提供的网络信息识别装置的另一结构示意图；

图6是可用于实施本发明实施例的社交网络信息识别方法的计算机终端的硬件结构框图；

图7是本发明实施例揭示的社交网络信息识别方法的流程图；

图8是本发明实施例揭示的社交网络信息识别方法的流程图；

图9是本发明实施例揭示的确定词组所属信息类型的方法的流程图；

图10是本发明实施例揭示的社交网络信息处理方法的流程图；

图11是本发明实施例揭示的社交网络信息识别装置的示意图；

图12是本发明实施例揭示的社交网络信息识别装置的示意图；

图13是本发明实施例揭示的社交网络信息处理装置的示意图；

图14是根据本发明实施例的计算机终端的结构框图；

图15是可用于实施本发明实施例的基于行为特征的多媒体文件识别方法的计算机终端的硬件结构框图；

图16是本发明实施例揭示的基于行为特征的多媒体文件识别方法的流程图；

图17是本发明实施例揭示的基于行为特征的多媒体文件识别方法的流程图；

图18是本发明实施例揭示的多媒体文件处理方法的流程图；

图19是本发明实施例揭示的基于行为特征的多媒体文件识别装置的示意图；

图20是本发明实施例揭示的基于行为特征的多媒体文件识别装置的示意图；

图21是本发明实施例揭示的多媒体文件处理装置的示意图；

图22是根据本发明实施例的计算机终端的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于现有技术缺乏信息自动识别机制，用户只能凭借自身有限的知识自行识别网络信息是否可信，很多情况下，无法有效地识别出谣言，因而，本发明实施例提供了一种网络信息识别方法及装置，能够自动、有效地识别出谣言。本发明实施例提供的网络信息识别方法可实现在网络信息识别装置中，网络信息识别装置可以是后台服务器。本发明实施例网络信息识别方法一个具体实施场景可如图1所示，服务器获取待识别网络信息，待识别网络信息可以是用户在社交网络(例如微博、QQ空间)上发布的信息或言论，然后计算待识别网络信息与可信网络信息(可信数据库中的网络信息)的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息(非可信数据库中的网络信息)的相似度，记为第二相似度，根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信，然后输出识别结果，当确定待识别网络信息不可信时，服务器可以屏蔽掉待识别网络信息，以避免谣言继续传播，或者将待识别网络信息标记为可疑，以提示用户，即本发明实施例利用相似度来确定待识别网络信息是否可信，因而能够自动、有效地识别谣言。

以下分别进行详细说明，需说明的是，以下实施例的序号不作为对实施例顺序的限定。

实施例一

如图2所示，本实施例的方法包括以下步骤：

步骤201、获取待识别网络信息；

具体实现中，待识别网络信息可以是用户在社交网络(例如微博、QQ空间)上发布的信息或言论。当用户使用终端(例如手机、平板电脑、个人计算机等)在社交网络上发布信息或言论时，后台服务器可以获取用户发布的信息或言论，即获取待识别网络信息。

步骤202、计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；

具体实现中，可以预先收集可信网络信息及非可信网络信息，根据收集的可信网络信息建立可信数据库，以及根据收集的非可信网络信息建立非可信数据库。

可信网络信息可以从权威或可信的网站中提取，例如从百度百科、维基百科提取，因此，可信数据库中包含的网络信息可以认为是可信的。非可信网络信息目前可采用人工收集，非可信数据库中包含的网络信息可以认为是不可信的。

具体地，可以采用余弦定理算法计算待识别网络信息与可信数据库中的各个可信网络信息的相似度，此处可以得到多个相似度值。所计算得到的相似度值越大，说明两条信息的相似度越高，此步骤中，可以取计算所得的相似度的最大值记为第一相似度，即第一相似度为可信数据库中与待识别网络信息相似度最高的可信网络信息与待识别网络信息的相似度。

同样地，可以采用余弦定理算法计算待识别网络信息与非可信数据库中的各个非可信网络信息的相似度，此处可以得到多个相似度值。所计算得到的相似度值越大，说明两条信息的相似度越高，此步骤中，可以取计算所得的相似度的最大值记为第二相似度，即第二相似度为非可信数据库中与待识别网络信息相似度最高的非可信网络信息与待识别网络信息的相似度。

上面描述的方法，由于需要计算大量信息之间的相似度，而经实践证明，余弦定理算法的计算速度优于其他算法，因此，本实施例中，可以利用余弦定理算法计算两条信息的相似度，当然，除余弦定理算法之外，还可以采用其他算法计算两条信息的相似度，例如距离编辑算法等，此处对采用的具体算法不做限定。

另外，上面描述的方法，第一相似度与第二相似度是通过逐条计算待识别网络信息与可信数据库及非可信数据库中的各条网络信息的相似度得到的，实际中，还可以采用其他方式得到第一相似度及第二相似度。例如，采用关键字提取法，提取可信数据库中具有与待识别网络信息具有相同关键字的可信网络信息，计算该可信网络信息与待识别网络信息的相似度，记为第一相似度；提取非可信数据库中具有与待识别网络信息具有相同关键字的非可信网络信息，计算该非可信网络信息与待识别网络信息的相似度，记为第二相似度。

步骤203、根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信。

具体地，可以比较所述第一相似度与所述第二相似度的大小；当所述第一相似度大于所述第二相似度时，说明待识别网络信息与可信网络信息的相似度高于待识别网络信息与非可信网络信息的相似度，因此可以确定所述待识别网络信息可信；当所述第二相似度大于所述第一相似度时，说明待识别网络信息与非可信网络信息的相似度高于待识别网络信息与可信网络信息的相似度，因此可以确定所述待识别网络信息不可信。

以上识别方法同时使用到了可信数据库及非可信数据库，实际中，还可以单独采用其中一个数据库来识别网络信息是否可信。例如，仅采用可信数据库，通过余弦定理算法计算得到第一相似度，判断第一相似度是否大于第一预设阈值(例如0.8)，若大于，则认为待识别网络信息可信，若不大于，则认为待识别网络信息不可信；或者，仅采用非可信数据库，通过余弦定理算法计算得到第二相似度，判断第二相似度是否大于第二预设阈值(例如0.9)，若大于，则认为待识别网络信息不可信，若不大于，则认为待识别网络信息可信。

当确定待识别网络信息可信时，可以允许待识别网络信息显示在社交网络上；当确定待识别网络信息不可信时，可以采用一些处理措施，以提示其他用户或避免谣言传播，例如可以将所述待识别网络信息标记为可疑，或者屏蔽所述待识别网络信息。

本实施例中，后台服务器可以自动获取待识别网络信息，根据待识别网络信息与可信网络信息的相似度，以及待识别网络信息与非可信网络信息的相似度，确定待识别网络信息是否可信，即利用相似度确定待识别网络信息是否可信，因而能够自动、有效地识别谣言。

实施例二

实施例一所描述的方法，本实施例将举例作进一步详细说明，如图3所示，本实施例的方法包括：

步骤301、采集可信网络信息及非可信网络信息；

具体地，可信网络信息可以从权威或可信的网站中提取，例如从百度百科、维基百科提取，非可信网络信息目前可采用人工收集。

步骤302、根据采集的可信网络信息建立可信数据库，以及根据采集的非可信网络信息建立非可信数据库；

可信数据库中包含多个可信网络信息，可信数据库中包含的网络信息可以认为是可信的；非可信数据库中包含多个非可信网络信息，非可信数据库中包含的网络信息可以认为是非可信的。

步骤303、获取待识别网络信息；

步骤304、计算所述待识别网络信息与所述可信数据库中的各个可信网络信息的相似度，取计算所得的相似度的最大值记为第一相似度；

步骤305、计算所述待识别网络信息与所述非可信数据库中的各个非可信网络信息的相似度，取计算所得的相似度的最大值记为第二相似度；

下面举例说明采用余弦定理算法计算两条信息的相似度的过程，如下：

信息1：张三是一个歌手，也是一个演员。

信息2：张三不是一个演员，但是是一个歌手。

第一步：分词；

信息1：张三/是/一个/歌手，也/是/一个/演员。

信息2：张三/不/是/一个/演员，但是/是/一个/歌手。

第二步：去重复，列出识别的所有词；

张三、是、不、一个、演员、歌手、但是、也

第三步：计算词频(这里表示某个词在一个信息里出现的次数)；

信息1：张三1、是2、不0、一个2、演员1、歌手1、但是0、也1；

信息2：张三1、是2、不1、一个2、演员1、歌手1、但是1、也0；

第四步：构造词频向量；

信息1：[1,2,0,2,1,1,0,1]

信息2：[1,2,1,2,1,1,0,1]

上面构造的是两个多维的向量，其中每个维度的值就是词频，构造出了上面两个多维向量后，计算两条信息的相似度就变成了计算这两个向量的相似度了，我们知道，两个向量的相似度，可以通过向量的夹角的大小θ来表示，具体地，可以用两个向量的夹角的余弦值表示，余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，即“余弦相似性”。

第五步：计算两个向量的夹角的余弦值；

Cosθ＝(1*1+2*2+0*1+2*2+1*1+1*1+0*0+1*1)/(sqrt(1^2+2^2+0^2+2^2+1^2+1^2+0^2+1^2)*sqrt(1^2+2^2+1^2+2^2+1^2+1^2+1^2+0^2+1^2))；

最终计算得到Cosθ≈0.961。

即这两个信息的相似度为0.961，相似度的值接近1，相似度较高。

需要说明的是，实际中，步骤304与步骤305的执行顺序也可以不分先后。

另外，步骤304、步骤305描述的方法，第一相似度与第二相似度是通过逐条计算待识别网络信息与可信数据库及非可信数据库中的各条网络信息的相似度得到的，实际中，还可以采用其他方式得到第一相似度及第二相似度。例如采用关键字提取法，提取可信数据库中具有与待识别网络信息具有相同关键字的可信网络信息，计算该可信网络信息与待识别网络信息的相似度，记为第一相似度；提取非可信数据库中具有与待识别网络信息具有相同关键字的非可信网络信息，计算该非可信网络信息与待识别网络信息的相似度，记为第二相似度。

步骤306、判断所述第一相似度是否大于所述第二相似度，若所述第一相似度大于所述第二相似度，则执行步骤307，若所述第一相似度小于所述第二相似度，则执行步骤308；

步骤307、确定所述待识别网络信息可信；

步骤308、确定所述待识别网络信息不可信。

实施例三

为了更好地实施以上方法，本发明实施例还提供一种网络信息识别装置，如图4所示，本实施例的装置包括：获取单元401，计算单元402及确定单元403，如下：

(1)获取单元401；

获取单元401，用于获取待识别网络信息。

具体实现中，待识别网络信息可以是用户在社交网络(例如微博、QQ空间)上发布的信息或言论。当用户使用终端(例如手机、平板电脑、个人计算机等)在社交网络上发布信息或言论时，获取单元401可以获取用户发布的信息或言论，即获取待识别网络信息。

(2)计算单元402；

计算单元402，用于计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；

具体实现中，本实施例的网络信息识别装置还可以包括采集单元及建立单元，其中：

采集单元可以预先收集可信网络信息及非可信网络信息，建立单元可以根据收集的可信网络信息建立可信数据库，以及根据收集的非可信网络信息建立非可信数据库。

具体地，计算单元402可以包括第一计算子单元及第二计算子单元，其中：

第一计算子单元可以采用余弦定理算法计算待识别网络信息与可信数据库中的各个可信网络信息的相似度，此处可以得到多个相似度值。所计算得到的相似度值越大，说明两条信息的相似度越高，此步骤中，第一计算子单元可以取计算所得的相似度的最大值记为第一相似度，即第一相似度为可信数据库中与待识别网络信息相似度最高的可信网络信息与待识别网络信息的相似度。

同样地，第二计算子单元也可以采用余弦定理算法计算待识别网络信息与非可信数据库中的各个非可信网络信息的相似度，此处可以得到多个相似度值。所计算得到的相似度值越大，说明两条信息的相似度越高，此步骤中，第二计算子单元可以取计算所得的相似度的最大值记为第二相似度，即第二相似度为非可信数据库中与待识别网络信息相似度最高的非可信网络信息与待识别网络信息的相似度。

上面描述的方法，由于需要计算大量信息之间的相似度，而经实践证明，余弦定理算法的计算速度优于其他算法，因此，本实施例中，第一计算子单元及第二计算子单元可以利用余弦定理算法计算两条信息的相似度，当然，除余弦定理算法之外，还可以采用其他算法计算两条信息的相似度，例如距离编辑算法等，此处对采用的具体算法不做限定。

另外，上面描述的方法，第一相似度与第二相似度是通过逐条计算待识别网络信息与可信数据库及非可信数据库中的各条网络信息的相似度得到的，实际中，还可以采用其他方式得到第一相似度及第二相似度。例如采用关键字提取法，提取可信数据库中具有与待识别网络信息具有相同关键字的可信网络信息，计算该可信网络信息与待识别网络信息的相似度，记为第一相似度；提取非可信数据库中具有与待识别网络信息具有相同关键字的非可信网络信息，计算该非可信网络信息与待识别网络信息的相似度，记为第二相似度。

(3)确定单元403；

确定单元403，用于根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信。

具体地，确定单元403可以包括比较子单元，第一确定子单元及第二确定子单元，其中：

比较子单元可以比较所述第一相似度与所述第二相似度的大小，当所述第一相似度大于所述第二相似度时，说明待识别网络信息与可信网络信息的相似度高于待识别网络信息与非可信网络信息的相似度，因此第一确定子单元可以确定所述待识别网络信息可信；当所述第二相似度大于所述第一相似度时，说明待识别网络信息与非可信网络信息的相似度高于待识别网络信息与可信网络信息的相似度，因此第二确定子单元可以确定所述待识别网络信息不可信。

另外，本实施例的网络信息识别装置还可以包括处理单元，当确定待识别网络信息可信时，处理单元可以允许待识别网络信息显示在社交网络上；当确定待识别网络信息不可信时，处理单元可以采用一些处理措施，以提示其他用户或避免谣言传播，例如处理单元可以将所述待识别网络信息标记为可疑，或者屏蔽所述待识别网络信息。

需要说明的是，上述实施例提供的网络信息识别装置在实现网络信息识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的网络信息识别装置与网络信息识别方法属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

本实施例中，获取单元可以自动获取待识别网络信息，计算单元计算待识别网络信息与可信网络信息的相似度，以及计算待识别网络信息与非可信网络信息的相似度，确定单元根据所计算的相似度确定待识别网络信息是否可信，即本实施例中，利用相似度确定待识别网络信息是否可信，因而能够自动、有效地识别谣言。

实施例四

本发明实施例还提供了一种网络信息识别装置，如图5所示，其示出了本发明实施例所涉及的装置的结构示意图，具体来讲：

该装置可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、射频(Radio Frequency，RF)电路503、电源505、输入单元505、以及显示单元506等部件。本领域技术人员可以理解，图5中示出的装置结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该装置的控制中心，利用各种接口和线路连接整个装置的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行装置的各种功能和处理数据，从而对装置进行整体监控。处理器501可包括一个或多个处理核心；处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据装置的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

RF电路503可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器501处理；另外，将涉及上行的数据发送给基站。通常，RF电路503包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路503还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务 (GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

装置还包括给各个部件供电的电源504(比如电池)，，电源504可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源504还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该装置还可包括输入单元505，该输入单元505可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元505可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器501，并能接收处理器501发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元505还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

该装置还可包括显示单元506，该显示单元506可用于显示由用户输入的信息或提供给用户的信息以及装置的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元506可包括显示面板，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器501以确定触摸事件的类型，随后处理器501根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图5中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

尽管未示出，装置还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，装置中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取待识别网络信息；

具体地，处理器501可以采用余弦定理算法计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及采用余弦定理算法计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度。

进一步地，处理器501还用于，

在获取待识别网络信息之前，采集可信网络信息及非可信网络信息；

根据采集的可信网络信息建立可信数据库，以及根据采集的非可信网络信息建立非可信数据库。

具体地，处理器501可以计算所述待识别网络信息与所述可信数据库中的各个可信网络信息的相似度，取计算所得的相似度的最大值记为第一相似度；

计算所述待识别网络信息与所述非可信数据库中的各个非可信网络信息的相似度，取计算所得的相似度的最大值记为第二相似度。

具体地，处理器501可按照如下方式确定待识别网络信息是否可信：

比较所述第一相似度与所述第二相似度的大小；

当所述第一相似度大于所述第二相似度时，确定所述待识别网络信息可信；

当所述第二相似度大于所述第一相似度时，确定所述待识别网络信息不可信。

进一步地，在确定所述待识别网络信息不可信时，处理器501还可以将所述待识别网络信息标记为可疑，或者屏蔽所述待识别网络信息。

由上可知，本实施例的装置可以自动获取待识别网络信息，然后计算待识别网络信息与可信网络信息的相似度，以及计算待识别网络信息与非可信网络信息的相似度，最后根据所计算的相似度确定待识别网络信息是否可信，即本实施例的装置可以利用相似度确定待识别网络信息是否可信，因而能够自动、有效地识别谣言。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，装置，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供一种社交网络信息识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图6是可用于实施本发明实施例的社交网络信息识别方法的计算机终端的硬件结构框图。如图6所示，计算机终端600可以包括一个或多个(图中仅示出一个)处理器602(处理器602可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器604、以及用于通信功能的传输装置606。本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端600还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。

存储器604可用于存储应用软件的软件程序以及模块，如本发明实施例中的社交网络信息识别方法对应的程序指令/模块，处理器602通过运行存储在存储器604内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的社交网络信息识别方法。存储器604可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器604可进一步包括相对于处理器602远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端600的通信供应商提供的无线网络。在一个实例中，传输装置606包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置606可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本申请提供了如图7所示的一种社交网络信息识别方法。该方法可以应用于智能终端设备中，由智能终端设备中的处理器执行，智能终端设备可以是智能手机、平板电脑等。智能终端设备中安装有至少一个应用程序，本发明实施例并不限定应用程序的种类，可以为系统类应用程序，也可以为软件类应用程序。

图7是本发明实施例一揭示的社交网络信息识别方法的流程图。如图7所示，该方法的一种方案包括如下步骤：

步骤S701，对目标文本进行分词处理，得到目标文本的分词；

步骤S702，按照各分词在目标文本中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，所述信息类型包括虚假信息、真实信息和无偏向信息；

步骤S703，对目标文本中所有词组的信息类型进行统计，得到统计结果；

步骤S704，根据统计结果确定所述目标文本的信息类型。

作为步骤S702的一种实施方式，所述根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，包括：

步骤1，根据公式X(W12)＝C(W2)*C(W12)/C(W1)计算得到每个词组中两个分词的关联值；其中，X(W12)表示所述词组中两个分词的关联值，C(W1)表示所述词组中的第一个分词在目标文本中出现的频次，C(W2)表示所述词组中的第二个分词在目标文本中出现的频次，C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次，所述第一个分词在目标文本中的出现顺序早于第二个分词；

步骤2，提取虚假信息库中对应的所述两个分词的关联值，作为第一关联值；提取真实信息库中对应的所述两个分词的关联值，作为第二关联值；根据所述关联值分别与第一关联值和第二关联值的接近程度，确定所述词组的信息类型；具体包括：计算所述关联值与第一关联值的差值，得到第一差值；计算所述关联值与第二关联值的差值，得到第二差值；比较所述第一差值的绝对值和第二差值的绝对值的大小，若第一差值的绝对值大于第二差值的绝对值，则确定该词组的信息类型为真实信息，若第一差值的绝对值小于第二差值的绝对值，则确定该词组的信息类型为虚假信息，若第一差值的绝对值与第二差值的绝对值相等，则确定该词组的信息类型为无偏向信息。

本发明实施例通过建立虚假信息库和真实信息库，对虚假信息和对应的真实信息进行分析，计算得到虚假信息中相邻关键词的相关度和真实信息中相邻关键词的相关度，通过判断目标文本中相邻关键词的相关度与二者的接近程度，来确定目标文本中相邻关键词的信息类型，并进一步通过统计目标文本中所有相邻关键词的信息类型得到目标文本的信息类型，实现了通过较为简单的算法快速识别网络虚假信息，可以为网络管理者快速反应提供重要的依据。

本实施例提供一种社交网络信息识别方法。在如实施例的运行环境下，本申请实施例提供了如图8所示的社交网络信息识别方法。如图8所示，图8是根据本发明实施例的社交网络信息识别方法的流程图，该方法的一种方案包括如下步骤：

步骤一：对虚假信息库中的虚假信息样本及真实信息库中的真实信息样本进行处理。

虚假信息库中的虚假信息样本可以通过人工收集获得，真实信息库中的真实信息样本可以从已知的知识库(如各种百科知识)里提取得到。较优的，虚假信息样本和真实信息样本一一对应收录，当收集到一个错误的虚假信息样本，则对应的查找一个正确的真实信息样本，将虚假信息样本存入虚假信息库，将该真实信息样本存入真实信息库。

对信息样本的处理过程包括：对虚假信息库中的虚假信息样本进行分词处理，得到虚假信息样本的分词，按照各分词在该虚假信息样本中的出现顺序，计算得到相邻两个分词的关联值；对真实信息库中的真实信息样本进行分词处理，得到真实信息样本的分词，按照各分词在该真实信息样本中的出现顺序，计算得到相邻两个分词的关联值。

由于对虚假信息样本的预处理过程和对真实信息样本的预处理过程相同，下面就以虚假信息样本为例对预处理过程展开说明。

参见图8，对虚假信息样本的预处理过程包括：

第一，从虚假信息库中提取虚假信息样本，将虚假信息样本输入分词模块。

第二，利用分词模块对虚假信息样本进行分词处理，得到虚假信息样本的分词结果。

具体包括：

首先对虚假信息样本进行预处理，去除虚假信息样本中的停用词，停用词是人工收集得到的，主要包含标点符号、代词、语气词、助词、连词等，这些停用词一般没有特殊的意义，经常搭配别的词构成词或短语。

然后对去除停用词的虚假信息样本采用字典分词法进行分词，分词时可以采用正向最大匹配算法、逆向最大匹配算法或双向最大匹配算法，其中，正向最大匹配算法和逆向最大匹配算法是常用的分词方法，其具体步骤在此不再赘述，双向最大匹配算法具体为：对待分词文本分别采用正向最大匹配算法和逆向最大匹配算法进行分词，当正向最大匹配算法和逆向最大匹配算法得到的分词结果中词数不一致时，取分词数量较少的作为最终结果，若两种方法得到的分词结果中词数一致，则任取一个分词结果作为最终结果。

之后，统计各个分词在虚假信息样本中的出现频次，按照各分词在虚假信息样本中的出现顺序进行正向排序，并对应记录各分词在虚假信息样本中的出现频次。例如文本Q：温、热性的狗、羊肉就不能与寒、凉性的绿豆、西瓜同食。对文本Q进行分词处理后，可以得到一个矩阵样式的分词结果，如表一所示。

表一：

第三，将分词结果输入相关性计算模块，按照各分词在虚假信息样本中的出现顺序，计算相邻两个分词的相关性，得到相邻两个分词的关联值。

具体地，可以按照各分词在虚假信息样本中的出现顺序，根据公式X(W)＝C(W02)*C(W)/C(W01)计算相邻两个分词的关联值；

其中，X(W)表示相邻两个分词的关联值，C(W01)表示两个分词中的第一个分词在虚假信息样本中出现的频次，C(W02)表示两个分词中的第二个分词在虚假信息样本中出现的频次，第一个分词的出现顺序早于第二个分词，C(W)表示第一个分词和第二个分词在虚假信息样本中有顺序的同时连续出现的频次。

第四，将相邻两个分词及其关联值对应存储。

步骤二：对目标文本进行分词处理，得到目标文本的分词。

对目标文本进行分词处理，得到目标文本的分词，具体包括：

第一，获取目标文本；目标文本可以从社交应用软件中获取得到，例如从微博中提取微博信息，将微博信息作为目标文本，从微信提取公众号文章或微信朋友圈消息，将该文章或者朋友圈消息作为目标文本。

第二，对所述目标文本进行预处理，去除目标文本中的停用词。

停用词是人工收集得到的，主要包含标点符号、代词、语气词、助词、连词等，这些停用词一般没有特殊的意义，经常搭配别的词构成词或短语，术语一般不包含停用词。停用词示例：“啊”、“哦”、“呃”、“以及”、“的”、“得”、“几乎”、“什么”、“我”、“它”、“我们”等。

第三，采用字典分词法对所述目标文本进行分词处理，得到目标文本的分词。

对去除停用词的目标文本采用字典分词法进行分词，分词时可以采用正向最大匹配算法、逆向最大匹配算法或双向最大匹配算法，其中，正向最大匹配算法和逆向最大匹配算法是常用的分词方法，其具体步骤在此不再赘述，双向最大匹配算法具体为：对待分词文本分别采用正向最大匹配算法和逆向最大匹配算法进行分词，当正向最大匹配算法和逆向最大匹配算法得到的分词结果中词数不一致时，取分词数量较少的作为最终结果，若两种方法得到的分词结果中词数一致，则任取一个分词结果作为最终结果。然后，统计各个分词在目标文本中的出现频次，按照各分词在文本中的出现顺序进行正向排序，并对应记录各分词在虚假信息样本中的出现频次，得到一个用矩阵表示的分词结果。

步骤三：按照各分词在目标文本中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，所述信息类型包括虚假信息、真实信息和无偏向信息。

图9是本发明实施例揭示的确定词组所属信息类型的方法的流程图。参见图9，确定词组所属信息类型的方法包括：

S901：计算每个词组中两个分词的关联值。

具体地，可以根据公式X(W12)＝C(W2)*C(W12)/C(W1)计算得到词组中两个分词的关联值；其中，X(W12)表示所述词组中两个分词的关联值，C(W1)表示所述词组中的第一个分词在目标文本中出现的频次，C(W2)表示所述词组中的第二个分词在目标文本中出现的频次，C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次，所述第一个分词在目标文本中的出现顺序早于第二个分词。

S902：提取虚假信息库中对应的所述两个分词的关联值，作为第一关联值；提取真实信息库中对应的所述两个分词的关联值，作为第二关联值。

S903：根据所述关联值分别与第一关联值和第二关联值的接近程度，确定所述词组的信息类型。

所述根据所述关联值分别与第一关联值和第二关联值的接近程度，确定所述词组的信息类型，包括：

计算所述关联值与第一关联值的差值，得到第一差值；计算所述关联值与第二关联值的差值，得到第二差值；

比较所述第一差值的绝对值和第二差值的绝对值的大小，若第一差值的绝对值大于第二差值的绝对值，则确定该词组的信息类型为真实信息，若第一差值的绝对值小于第二差值的绝对值，则确定该词组的信息类型为虚假信息，若第一差值的绝对值与第二差值的绝对值相等，则确定该词组的信息类型为无偏向信息。

例如，目标文本中相邻的两个分词“羊肉”、“绿豆”的关联值是4，虚假信息库中对应的两个词“羊肉”、“绿豆”的关联值是1，真实信息库中对应的两个词“羊肉”、“绿豆”的关联值是3，则可以将1作为第一关联值，将3作为第二关联值；计算得到第一差值的绝对值为3，第二差值的绝对值为1，可以确定该词组(“羊肉”和“绿豆”)的信息类型为真实信息。

步骤四：对目标文本中所有词组的信息类型进行统计，得到统计结果。

该步骤包括：获取目标文本中所有词组的信息类型；统计各个信息类型的出现频次，得到统计结果。

步骤五：根据统计结果确定所述目标文本的信息类型。

所述根据统计结果确定所述目标文本的信息类型，包括：

比较虚假信息和真实信息的出现频次，将出现频次较高的信息类型确定为所述目标文本的信息类型，如果虚假信息的出现频次和真实信息的出现频次相同，则确定所述目标文本的信息类型为无偏向信息。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例所涉及的动作和模块并不一定是本发明实施例所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

本实施例提供一种社交网络信息处理方法。在如实施例的运行环境下，本申请提供了如图10所示的社交网络信息处理方法。如图10所示，图10是根据本发明实施例的社交网络信息处理方法的流程图，该方法的一种方案包括如下步骤：

S1001：对目标文本进行分词处理，得到目标文本的分词；

S1002：按照各分词在目标文本中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，所述信息类型包括虚假信息、真实信息和无偏向信息；

S1003：对目标文本中所有词组的信息类型进行统计，得到统计结果；

S1004：根据统计结果确定所述目标文本的信息类型；

S1005：根据目标文本的信息类型对所述目标文本进行处理。

所述根据目标文本的信息类型对所述目标文本进行处理，包括：若所述目标文本的信息类型为虚假信息，则删除社交网络中的所述目标文本。

其中，目标文本可以从社交应用软件中获取得到，例如从微博中提取微博信息，将微博信息作为目标文本，从微信提取公众号文章或微信朋友圈消息，将该文章或者朋友圈消息作为目标文本。当确定所述目标文本的信息类型为虚假信息时，则删除社交网络中对应的目标文本，例如目标文本为微信朋友圈消息，当确定该目标文本是虚假信息时，可通知网络管理者手动处理该信息，或则自动删除该朋友圈消息。

本实施例实现了通过较为简单的算法快速识别网络虚假信息，可以为网络管理者快速反应提供重要的依据，便于网络管理者及时处理网络虚假信息，降低或避免虚假信息传播造成的不良影响。

本实施例提供一种社交网络信息识别装置。如图11所示，该装置包括分词单元1110、第一确定单元1120、统计单元1130和第二确定单元1140。

分词单元1110，用于对目标文本进行分词处理，得到目标文本的分词；

第一确定单元1120，用于按照各分词在目标文本中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，所述信息类型包括虚假信息、真实信息和无偏向信息；

统计单元1130，用于对目标文本中所有词组的信息类型进行统计，得到统计结果；

第二确定单元1140，用于根据统计结果确定所述目标文本的信息类型。

该实施例的社交网络信息识别装置中，分词单元1110用于执行本发明实施例中的步骤S701，第一确定单元1120用于执行本发明实施例中的步骤S702，统计单元1130用于执行本发明实施例中的步骤S703，第二确定单元1140用于执行本发明实施例中的步骤S704。

参见图12，作为一种实施方式，所述分词单元1210包括第一获取子单元12101、处理子单元12102和分词子单元12103。

第一获取子单元12101，用于获取目标文本；

处理子单元12102，用于对所述目标文本进行预处理，去除目标文本中的停用词；

分词子单元12103，用于采用字典分词法对经过处理子单元处理后的目标文本进行分词处理，得到目标文本的分词。

作为一种实施方式，所述第一确定单元1220包括计算子单元12201、提取子单元12202和确定子单元12203。

计算子单元12201，用于计算每个词组中两个分词的关联值；

提取子单元12202，用于提取虚假信息库中对应的所述两个分词的关联值，作为第一关联值，提取真实信息库中对应的所述两个分词的关联值，作为第二关联值；

确定子单元12203，用于根据所述关联值分别与第一关联值和第二关联值的接近程度，确定所述词组的信息类型。

进一步地，所述确定子单元1203包括计算模块122031和确定模块122032。

计算模块122031，用于计算所述关联值与第一关联值的差值，得到第一差值；计算所述关联值与第二关联值的差值，得到第二差值；

确定模块122032，用于比较所述第一差值的绝对值和第二差值的绝对值的大小，若第一差值的绝对值大于第二差值的绝对值，则确定该词组的信息类型为真实信息，若第一差值的绝对值小于第二差值的绝对值，则确定该词组的信息类型为虚假信息，若第一差值的绝对值与第二差值的绝对值相等，则确定该词组的信息类型为无偏向信息。

所述计算子单元12201，具体用于根据公式X(W12)＝C(W2)*C(W12)/C(W1)计算得到词组中两个分词的关联值；其中，X(W12)表示所述词组中两个分词的关联值， C(W1)表示所述词组中的第一个分词在目标文本中出现的频次，C(W2)表示所述词组中的第二个分词在目标文本中出现的频次，C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次，所述第一个分词在目标文本中的出现顺序早于第二个分词。

作为一种实施方式，所述统计单元1230包括：

第二获取子单元12301，用于获取目标文本中所有词组的信息类型，

统计子单元12302，用于统计各个信息类型的出现频次，得到统计结果；

所述第二确定单元1240，具体用于比较虚假信息和真实信息的出现频次，将出现频次较高的信息类型确定为所述目标文本的信息类型，如果虚假信息的出现频次和真实信息的出现频次相同，则确定所述目标文本的信息类型为无偏向信息。

进一步地，所述装置还包括预处理单元和存储单元。

所述预处理单元，用于对虚假信息库中的虚假信息样本进行分词处理，得到虚假信息样本的分词，按照各分词在该虚假信息样本中的出现顺序，计算得到相邻两个分词的关联值；还用于对真实信息库中的真实信息样本进行分词处理，得到真实信息样本的分词，按照各分词在该真实信息样本中的出现顺序，计算得到相邻两个分词的关联值；

所述存储单元包括第一存储模块和第二存储模块，所述第一存储模块用于存储对虚假信息样本进行预处理得到的关联值及对应的分词，所述第二存储模块用于存储对真实信息样本进行预处理得到的关联值及对应的分词。

本发明实施例通过对目标文本进行分词，将相邻两个分词作为一个词组，计算每个词组中两个分词的关联值，将其与虚假信息库和真实信息库中对应的两个词的关联值进行比对，根据关联值接近程度来确定目标文本中每个词组的信息类型，进而通过统计目标文本中所有词组的信息类型来确定目标文本的信息类型，实现了通过较为简单的算法快速识别网络虚假信息，可以为网络管理者快速反应提供重要的依据，便于网络管理者及时处理网络虚假信息，降低虚假信息传播造成的不良影响。

本实施例提供一种社交网络信息处理装置。如图13所示，该装置包括分词单元1310、第一确定单元1320、统计单元1330、第二确定单元1340和处理单元1350。

分词单元1310，用于对目标文本进行分词处理，得到目标文本的分词；

第一确定单元1320，用于按照各分词在目标文本中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，所述信息类型包括虚假信息、真实信息和无偏向信息；

统计单元1330，用于对目标文本中所有词组的信息类型进行统计，得到统计结果；

第二确定单元1340，用于根据统计结果确定所述目标文本的信息类型；

处理单元1350，用于根据目标文本的信息类型对所述目标文本进行处理。

该实施例的社交网络信息识别装置中，分词单元1310用于执行本发明实施例中的步骤S1001，第一确定单元1320用于执行本发明实施例中的步骤S1002，统计单元1330用于执行本发明实施例中的步骤S1003，第二确定单元1340用于执行本发明实施例中的步骤S1004，处理单元1350用于执行本发明实施例中的步骤S1005。

所述处理单元1350，具体用于当第二确定单元确定所述目标文本的信息类型为虚假信息时，删除社交网络中的所述目标文本。

本发明的实施例还提供了一种存储介质。在本实施例中，上述存储介质可以用于保存上述实施例的一种社交网络信息识别方法所执行的程序代码。

在本实施例中，上述存储介质可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

第一步，对目标文本进行分词处理，得到目标文本的分词。

第二步，按照各分词在目标文本中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，所述信息类型包括虚假信息、真实信息和无偏向信息。

第三步，对目标文本中所有词组的信息类型进行统计，得到统计结果。

第四步，根据统计结果确定所述目标文本的信息类型。

存储介质还被设置为存储用于执行以下步骤的程序代码：获取目标文本；对所述目标文本进行预处理，去除目标文本中的停用词；采用字典分词法对所述目标文本进行分词处理，得到目标文本的分词。

存储介质还被设置为存储用于执行以下步骤的程序代码：计算每个词组中两个分词的关联值；提取虚假信息库中对应的所述两个分词的关联值，作为第一关联值；提取真实信息库中对应的所述两个分词的关联值，作为第二关联值；根据所述关联值分别与第一关联值和第二关联值的接近程度，确定所述词组的信息类型。

存储介质还被设置为存储用于执行以下步骤的程序代码：计算所述关联值与第一关联值的差值，得到第一差值；计算所述关联值与第二关联值的差值，得到第二差值；比较所述第一差值的绝对值和第二差值的绝对值的大小，若第一差值的绝对值大于第二差值的绝对值，则确定该词组的信息类型为真实信息，若第一差值的绝对值小于第二差值的绝对值，则确定该词组的信息类型为虚假信息，若第一差值的绝对值与第二差值的绝对值相等，则确定该词组的信息类型为无偏向信息。

存储介质还被设置为存储用于执行以下步骤的程序代码：获取目标文本中所有词组的信息类型；统计各个信息类型的出现频次，得到统计结果。

存储介质还被设置为存储用于执行以下步骤的程序代码：比较虚假信息和真实信息的出现频次，将出现频次较高的信息类型确定为所述目标文本的信息类型，如果虚假信息的出现频次和真实信息的出现频次相同，则确定所述目标文本的信息类型为无偏向信息。

存储介质还被设置为存储用于执行以下步骤的程序代码：对虚假信息库中的虚假信息样本进行分词处理，得到虚假信息样本的分词，按照各分词在该虚假信息样本中的出现顺序，计算得到相邻两个分词的关联值；对真实信息库中的真实信息样本进行分词处理，得到真实信息样本的分词，按照各分词在该真实信息样本中的出现顺序，计算得到相邻两个分词的关联值。

在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的实施例还提供了一种存储介质。在本实施例中，上述存储介质可以用于保存上述实施例的一种社交网络信息处理方法所执行的程序代码。

第一步，对目标文本进行分词处理，得到目标文本的分词；

第二步，按照各分词在目标文本中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，所述信息类型包括虚假信息、真实信息和无偏向信息；

第三步，对目标文本中所有词组的信息类型进行统计，得到统计结果；

第四步，根据统计结果确定所述目标文本的信息类型；

第五步，根据目标文本的信息类型对所述目标文本进行处理。

存储介质还被设置为存储用于执行以下步骤的程序代码：当所述目标文本的信息类型为虚假信息时，删除社交网络中的所述目标文本。

本发明的实施例还提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

图14是根据本发明实施例的计算机终端的结构框图。如图14所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器1401、存储器1403、以及传输装置1405。

其中，存储器1403可用于存储软件程序以及模块，如本发明实施例中的社交网络信息识别方法和装置对应的程序指令/模块，处理器1401通过运行存储在存储器1403内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的社交网络信息识别。存储器1403可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1403可进一步包括相对于处理器1401远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1405用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1405包括一个网络适配器，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1405为射频模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1403用于存储预设动作条件和预设权限用户的信息、以及应用程序。

处理器1401可以通过传输装置调用存储器1403存储的信息及应用程序，以执行下述步骤：

第一步，对目标文本进行分词处理，得到目标文本的分词。

第四步，根据统计结果确定所述目标文本的信息类型。

本实施例提供一种基于行为特征的多媒体文件识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图15是可用于实施本发明实施例的基于行为特征的多媒体文件识别方法的计算机终端的硬件结构框图。如图15所示，计算机终端1500可以包括一个或多个(图中仅示出一个)处理器1502(处理器1502可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1504、以及用于通信功能的传输装置1506。本领域普通技术人员可以理解，图15所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端1500还可包括比图15中所示更多或者更少的组件，或者具有与图15所示不同的配置。

存储器1504可用于存储应用软件的软件程序以及模块，如本发明实施例中的基于行为特征的多媒体文件识别方法对应的程序指令/模块，处理器1502通过运行存储在存储器1504内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于行为特征的多媒体文件识别方法。存储器1504可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1504可进一步包括相对于处理器1502远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端1500。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端1500的通信供应商提供的无线网络。在一个实例中，传输装置1506包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置1506可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本申请实施例提供了如图16所示的一种基于行为特征的多媒体文件识别方法。该方法可以应用于智能终端设备中，由智能终端设备中的处理器执行，智能终端设备可以是智能手机、平板电脑等。智能终端设备中安装有至少一个应用程序，本发明实施例并不限定应用程序的种类，可以为系统类应用程序，也可以为软件类应用程序。

图16是本发明实施例一揭示的基于行为特征的多媒体文件识别方法的流程图。如图16所示，该方法的一种方案包括如下步骤：

步骤S1601，在多媒体文件播放过程中，获取观众用户的画像特征值和第一意愿特征值，所述画像特征值用于标识用户对特定内容的喜好，所述第一意愿特征值用于标识用户在预设时间段内希望观看特定内容的意愿；

步骤S1602，根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率；

步骤S1603，判断所述概率是否超过预设值，若是，则对所述多媒体文件进行特征检测；

步骤S1604，根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件。

作为步骤S1602的一种实施方式，所述根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率，包括：

根据所述画像特征值和第一意愿特征值确定每个用户的第二意愿特征值；

根据所有用户的第二意愿特征值计算所述多媒体文件包含特定内容的概率。

本发明实施例分析用户的上网行为与观看特定内容的关联，提出在多媒体文件播放过程中，通过获取观众用户的画像特征值和用于表示用户在预设时间内希望观看特定内容的第一意愿特征值，进而根据各个用户的画像特征值和第一意愿特征值来计算该多媒体文件包含特定内容的概率，并将所述概率与预设值进行比对来确定是否需要进一步检测该多媒体文件，由此通过用户行为特征辅助筛选得到待分析的多媒体文件，对筛选出来的多媒体文件进行特定内容检测，提高了对特定内容的多媒体文件的识别效率和准确性。将本发明实施例用于多媒体文件的色情、恐怖等不良内容的检测中，可以极大的提高检测效率和可靠性，方便多媒体文件的管控。

本实施例提供一种基于行为特征的视频内容识别方法。在如实施例的运行环境下，本申请实施例提供了如图17所示的基于行为特征的多媒体文件识别方法。如图17所示，图17是根据本发明实施例的基于行为特征的多媒体文件识别方法的流程图，该方法的一种方案包括如下步骤：

步骤1701：分析用户的行为数据，确定用户的画像特征值和第一意愿特征值。

用户的上网行为可以反映用户的喜好，通过分析用户的搜索、浏览、点击推荐信息等行为可以确定用户画像，例如用户画像为喜好色情视频，相应地，用户画像也可以辅助判断用户当前或未来的上网行为，例如喜好色情视频的用户当下或未来观看色情视频的几率较不喜好色情视频的用户更大。用户画像往往可以反映用户的多种喜好，因而仅依靠用户画像来判断用户当下或未来的行为还不够准确，由于用户的上网行为往往具有连续性，对某一内容的搜索或浏览往往会持续一段时间，例如用户在前几分钟关注了色情内容，在当前或未来一段时间继续浏览色情相关内容的几率就较大，基于此，可以参考当前时间之前的一时间段内用户的行为特点来辅助判断用户当下或未来的行为。

分析用户行为数据，可以用画像特征值标识用户对特定内容的喜好，用第一意愿特征值标识用户在当前时间之前的一段时间内关注特定内容的意愿。

其中，分析用户的行为数据，确定用户的画像特征值，包括：获取用户的行为数据，所述行为数据包括浏览特定内容相关文本的第一行为数据、浏览特定内容相关图片的第二行为数据、访问特定内容相关论坛的第三行为数据和在特定内容相关的聊天群里聊天的第四行为数据；分别判断所述第一行为数据、第二行为数据、第三行为数据和第四行为数据是否为空，若为空则记为0，若不为空则记为1，对应得到第一判断结果R1、第二判断结果R2、第三判断结果R3和第四判断结果R4；

根据预先设定的所述第一判断结果的第一权重W1、所述第二判断结果的第二权重W3、所述第三判断结果的第三权重W3和所述第四判断结果的第四权重W4，对所述第一判断结果、第二判断结果、第三判断结果和第四判断结果进行分配整合，得到所述用户的行为特征值。作为一种方式，行为特征值 B＝W1*R1+W2*R2+W3*R3+W4*R4，作为另一种方式，行为特征值B＝(W1*R1+W2*R2+W3*R3+W4*R4)/4。

分析用户的行为数据，确定用户的第一意愿特征值，可以通过两种方式实现：(1)通过用户终端上运行的电脑管家等类似软件，获取用户的屏幕显示内容来判断；(2)可以在网络上捕获用户的流量，比如路由器上抓包，从而分析出用户正在进行的操作。具体步骤包括：获取用户在最近一段时间内的行为数据，所述行为数据包括浏览特定内容相关文本的第一时间、浏览特定内容相关图片的第二时间、访问特定内容相关论坛的第三时间和在特定内容相关的聊天群里聊天的第四时间；为所述第一时间赋予所述第一权重W1、所述第二时间赋予所述第二权重W2、所述第三时间赋予所述第三权重W3、所述第四时间赋予所述第四权重W4，对所述第一时间、第二时间、第三时间和第四时间进行加权平均，得到用户的第一意愿特征值。

举例说明，假设特定内容为色情内容，画像特征值表示用户对色情内容的喜好程度，第一意愿特征值表示用户在此刻之前一段时间内希望观看色情视频的意愿，分析该用户的上网行为，主要包括用户在最近一段时间是否浏览过色情相关的文字、图片以及是否访问色情相关的论坛、是否在色情聊天群里发言，其中，浏览色情小说、色情相关的段子或微博等可以视为浏览过色情相关的文字，浏览被标记为色情的图片、色情网站上的图片以及正常网站上的各种美女图片可以视为浏览过色情相关的图片；然后根据这些行为特征的权重，计算用户的画像特征值，如浏览色情相关的文字对应的权重为0.4，浏览色情相关的图片对应的权重为0.3，访问色情论坛的权重为0.6，在色情聊天群里发言的权重是0.5，如果用户在最近一段时间内浏览过色情相关的图片、访问了色情相关的论坛并且还在色情聊天群里发言，则该用户的行为特征值B＝0.4*0+0.6*1+0.3*1+0.5*1＝1.4，依照历史数据分析，大于1说明用户较多关注色情内容，可以标记用户为色情用户。若用户在当前时刻之前的40分钟内花费10分钟看色情小说、10分钟看色情图片、20分钟访问色情论坛，则第一意愿特征值为(0.4*10+0.3*10+0.6*20)/40＝0.475。

步骤1702：在多媒体文件播放过程中，获取观众用户的画像特征值和第一意愿特征值。

多媒体文件包括文本、图片、视频和音频文件，本方案可用于识别这些文件是否包含特定内容，特定内容可以是恐怖和/或色情内容，例如采用本发明实施例方案识别文本是否为色情文本、图片是否为色情图片、视频是否为色情视频。

当多媒体文件为视频文件时，所述视频可以是点播视频或直播视频，所述直播视频包括直播间播放的视频。在视频播放过程中，获取观众用户的画像特征值和第一意愿特征值，所述画像特征值用于标识用户对特定内容的喜好程度，所述第一意愿特征值用于标识用户在预设时间段内希望观看特定内容的意愿，预设时间段一般是指当前时间往前推移的一时间段，比如当前时间之前的40分钟。

步骤1703：根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率。

所述根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率具体包括：根据所述画像特征值和第一意愿特征值确定每个用户的第二意愿特征值；根据所有用户的第二意愿特征值计算所述多媒体文件包含特定内容的概率。综合画像特征值和第一意愿特征值，可以提高判断所述多媒体文件是否包含特定内容的准确性。

在一个实施例中，可以通过对所述画像特征值和第一意愿特征值进行求和，得到所述第二意愿特征值；通过分别将各个用户的第二意愿特征值与预设的阈值进行比对，计算所述第二意愿特征值超过阈值的用户数量与用户总数量的比值，得到所述多媒体文件包含特定内容的概率。

在另一个实施例中，还可以根据预先为画像特征值和第一意愿特征值设定的权重，对所述画像特征值和第一意愿特征值进行加权平均，得到第二意愿特征值；通过分别将各个用户的第二意愿特征值与预设的阈值进行比对，计算所述第二意愿特征值超过阈值的用户数量与用户总数量的比值，得到所述多媒体文件包含特定内容的概率。

步骤1704：判断所述概率是否超过预设值，若是，则执行步骤1705，对所述多媒体文件进行特征检测，否则执行步骤1708，正常播放该多媒体文件。

预设值可以人为设定，预设值可以结合多媒体文件是否为特定内容的多媒体文件的判断结果进行调整，以提高最终判断结果的准确性。如果所述概率没有超过预设值，说明正在播放的多媒体文件包含特定内容的可能性较小，为提高检测效率和准确性，可以放弃对这类多媒体文件的进一步检测，不对其进行任何处理。如果所述概率超过预设值，说明所述视频包含特定内容的可能性较大，需要进一步检测多媒体文件内容。

对于文本文件，进一步检测包括对文本内容进行字符检测。可以预先建立字符特征库，用于存放从特定内容文件(例如色情小说、色情图片等)中提取的特征字符，然后利用字符特征库中的特征字符与文本内容进行匹配，当匹配结果超过预设的匹配阈值后，说明文本文件包含的特征字符较多，可以确定其为特定内容的文本。

对于图片文件，进一步检测包括对图片进行字符检测、敏感部位检测、肤色像素检测、血色像素检测等。字符检测利用字符特征库进行特征字符匹配来进行检测，敏感部位检测利用敏感部位特征库进行敏感部位匹配来进行检测，血色像素检测和肤色像素检测可以首先建立血色模型和肤色模型，再根据血色模型和肤色模型对图片进行血色像素检测和肤色像素检测。血色模型和肤色模型的构建方法为现有技术，在此不再赘述。

对于音频文件，进一步检测时，可以训练一个音频检测模型，将待检测的音频文件输入音频检测模型，来获取是否包含特定内容的检测结果。音频检测模型的构建方法为现有技术，在此不再赘述。

对于视频文件，进一步检测包括音频检测和图像检测；其中，音频检测可以采用音频检测模型进行检测；图像检测包括提取所述视频的图像，对所述图像进行特征检测。具体的，所述提取所述视频的图像，对所述图像进行特征检测，包括：对所述视频等时间间隔提取预设数目的图像，例如通过对视频间断10s截屏来提取图像；然后对每张图像进行特征检测，判断图像是否包含特定特征，特征检测包括运动检测、字符检测、敏感部位检测、肤色像素检测、血色像素检测等。

步骤1706：根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件。

所述多媒体文件为视频文件，在一个实施例中，可以通过统计包含特定特征的图片数目，判断该数目是否大于预先设定的阈值P，当判断出包含特定特征的图像数目大于预先设定的阈值P时，确定所述视频为特定内容视频，否则判断所述视频为正常视频。在另一个实施例中，可以通过统计包含特定特征的图片数目，确定判断出的包含特定特征的图像数目与针对该视频检测提取得到的图像总数目的比值，在确定的比值大于阈值Q时，判断所述视频为特定内容视频，执行步骤1707，对该多媒体文件进行处理，否则，执行步骤1708，判断所述视频为正常视频，正常播放该多媒体文件。

对于判断为特定内容的视频，可以进行进一步处理，例如对视频进行分类、分级或退出播放。

上述方法可用于识别色情视频，其中，对视频图像的特征检测包括敏感部位检测和肤色像素检测。

敏感部位检测的一种可实现方法包括：

步骤一，查找预先存储的人体敏感部位索引中与待识别图像匹配的人体敏感部位图片所对应的特征数据。人体敏感部位索引可以将人体敏感部位图片的特征数据按一定方式有序地组织、存储起来，方便查找。人体敏感部位图片可以通过在色情图片中标注出人体敏感部位并生成图片而获得。特征数据可以是向量特征，该向量特征可以是现有图像识别方法中的任意特征，比如描述纹理、HOG(Histogram of Oriented Gradient，图像梯度方向直方图)或LBP(Local Binary Patterns，局部二值模式)等等。可以通过提取待识别图像的特征数据，并计算待识别图像的特征数据与人体敏感部位图片的特征数据的距离，从而根据距离判断待识别图片与人体敏感部位图片是否匹配。比如，可以使用欧氏距离来表示距离，如果待识别图像的特征数据与其中一个人体敏感部位图片的特征数据的欧氏距离最短，且该欧式距离小于欧式距离阈值，则待识别图像与该人体敏感部位图片是匹配的。可以理解的是，还可以通过其他的相似性度量来判断是否匹配，比如相关系数等，这里不一一列举。

步骤二，根据匹配的特征数据计算待识别图像对应的置信度。置信度用来衡量某种判断与实际观测结果之间匹配程度的函数。置信度越高，待识别图像与人体敏感部位图片的匹配程度越高。在一个实施例中，待识别图像的特征数据与匹配的特征数据之间的欧式距离和置信度是负相关的关系，可以使用一个负相关的函数表示两者之间的关系，比如c＝e-x，其中x是待识别图像的特征数据与匹配的特征数据之间的欧式距离，c是置信度。

步骤三，根据待识别图像对应的置信度判断待识别图像是否为色情图像。当置信度高于第一置信度阈值时，说明待识别图像与匹配的人体敏感部位图片的匹配程度很高，待识别图像是色情图像。

肤色像素检测的一种可实现方法包括：

步骤一，检测视频图像中人体区域像素和人头区域像素。

人体检测一般采用Adaboost(一种迭代算法)人体检测算法(当然，也可以采用其他算法)，通过基于边缘直方图特征的Adaboost人体检测算法判断图像中是否有人体存在，首先计算视频图像的积分图，提取边缘直方图特征，根据已设定好的分类器特征库，运行级联的方法在图像中搜索人体区域。其中分类器特征库训练方法包括：计算样本图像的积分图，提取样本图像的类矩形特征；根据Adaboost算法筛选有效的特征，构成弱分类器；通过组合多个弱分类器，构成强分类器；级联多个强分类器，形成人体检测的分类器特征库。在人体检测单元检测出存在人体时，再对视频图像进行检测，并判断是否存在人头。

人头检测采用Adaboost人头检测算法，通过基于类矩形特征的Adaboost人头检测算法判断图像中是否有人头存在，首先计算图像的积分图，提取边缘直方图特征，根据已训练好的分类器特征库，运行cascade级联的方法在图像中搜索人头区域。其中分类器特征库训练方法包括：计算样本图像的积分图，提取样本图像的类矩形特征；根据Adaboost算法筛选有效的特征，构成弱分类器；通过组合多个弱分类器，构成强分类器；级联多个强分类器，形成人头检测的分类器特征库。

步骤二，统计每张视频图像中肤色像素与图像像素的比例、肤色像素和人体区域像素的比例以及人头区域像素与肤色像素的比例。

步骤三，根据预先设定的肤色像素与图像像素的第一比例阈值，肤色像素和人体区域像素的第二比例阈值、人头区域像素与肤色像素的第三比例阈值和预设的判断策略判断视频图像是否为色情图像。

首先判断所述肤色像素与图像像素的比例是否大于第一比例阈值、所述肤色像素和人体区域像素的比例是否大于第二比例阈值、所述人头区域像素与肤色像素的比例是否大于第三比例阈值，分别得到第一结果、第二结果和第三结果；然后判断第一结果、第二结果和第三结果是否满足判断策略，若满足，说明视频图像的肤色像素符合色情图像特点，确定该视频图像是色情图像。判断策略可以是满足肤色像素与图像像素的比例大于第一比例阈值、肤色像素和人体区域像素的比例大于第二比例阈值、人头区域像素与肤色像素的比例大于第三比例阈值中的至少两个条件。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于实施例，所涉及的动作和模块并不一定是本发明实施例所必须的。

本实施例提供一种多媒体文件处理方法。在如实施例的运行环境下，本申请提供了如图18所示的多媒体文件处理方法。如图18所示，图18是根据本发明实施例的多媒体文件处理方法的流程图，该方法的一种方案包括如下步骤：

S1801：在多媒体文件播放过程中，获取观众用户的画像特征值和第一意愿特征值，所述画像特征值用于标识用户对特定内容的喜好，所述第一意愿特征值用于标识用户在预设时间段内希望观看特定内容的意愿；

S1802：根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率；

S1803：判断所述概率是否超过预设值，若是，则对所述多媒体文件进行特征检测；

S1804：根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件；

S1805：根据所述判断结果对所述多媒体文件进行处理。

所述多媒体文件为点播视频或直播视频，所述特定内容为色情内容；所述根据所述判断结果对所述多媒体文件进行处理包括：若多媒体文件是点播的色情视频，则退出点播视频的播放；若多媒体文件是直播的色情视频，则关闭播放该视频的视频直播间。

本实施例实现了通过用户行为特征对多媒体文件进行初步筛选，再对筛选出来的多媒体文件进行特定内容检测，提高了对特定内容的识别效率和准确性。将本发明实施例用于色情视频检测可以极大的提高检测效率和可靠性，方便多媒体视频的管控。

本实施例提供一种基于行为特征的多媒体文件识别装置。如图19所示，该装置包括获取单元1920、计算单元1930、检测单元1940和确定单元1950。

获取单元1920，用于在多媒体文件播放过程中，获取观众用户的画像特征值和第一意愿特征值，所述画像特征值用于标识用户对特定内容的喜好，所述第一意愿特征值用于标识用户在预设时间段内希望观看特定内容的意愿；

计算单元1930，用于根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率；

检测单元1940，用于判断所述概率是否超过预设值，若是，则对所述多媒体文件进行特征检测；

确定单元1950，用于根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件。

该实施例的基于行为特征的多媒体文件识别装置中，获取单元1920用于执行本发明实施例中的步骤S1601，计算单元1930用于执行本发明实施例中的步骤S1602，检测单元1940用于执行本发明实施例中的步骤S1603，确定单元1950用于执行本发明实施例中的步骤S1604。

参见图20，作为一种实施方式，所述计算单元2030包括：

第一计算子单元20301，用于根据所述画像特征值和第一意愿特征值确定每个用户的第二意愿特征值；

第二计算子单元20302，用于根据所有用户的第二意愿特征值计算所述多媒体文件包含特定内容的概率。

作为一种实施方式，所述第一计算子单元20301包括：

第一计算模块203011，用于对所述画像特征值和第一意愿特征值进行求和，得到所述第二意愿特征值；

第二计算模块203012，用于根据预先为画像特征值和第一意愿特征值设定的权重，对所述画像特征值和第一意愿特征值进行加权平均，得到第二意愿特征值。

进一步地，所述第二计算子单元20302包括：

比对模块203021，用于分别将各个用户的第二意愿特征值与预设的阈值进行比对；

概率计算模块203022，用于计算所述第二意愿特征值超过阈值的用户数量与用户总数量的比值，得到所述多媒体文件包含特定内容的概率。

进一步地，所述装置还包括预处理单元2010，预处理单元2010用于分析用户的行为数据，确定用户的画像特征值和第一意愿特征值。所述预处理单元2010包括第一预处理子单元20101和第二预处理子单元20102。

第一处理子单元20101，用于：获取用户的行为数据，所述行为数据包括浏览特定内容相关文本的第一行为数据、浏览特定内容相关图片的第二行为数据、访问特定内容相关论坛的第三行为数据和在特定内容相关的聊天群里聊天的第四行为数据；分别判断所述第一行为数据、第二行为数据、第三行为数据和第四行为数据是否为空，对应得到第一判断结果、第二判断结果、第三判断结果和第四判断结果；根据预先设定的所述第一判断结果的第一权重、所述第二判断结果的第二权重、所述第三判断结果的第三权重和所述第四判断结果的第四权重，对所述第一判断结果、第二判断结果、第三判断结果和第四判断结果进行分配整合，得到所述用户的行为特征值；

第二处理子单元20102，用于:获取用户在最近一段时间内的行为数据，所述行为数据包括浏览特定内容相关文本的第一时间、浏览特定内容相关图片的第二时间、访问特定内容相关论坛的第三时间和在特定内容相关的聊天群里聊天的第四时间；为所述第一时间赋予所述第一权重、所述第二时间赋予所述第二权重、所述第三时间赋予所述第三权重、所述第四时间赋予所述第四权重，对所述第一时间、第二时间、第三时间和第四时间进行加权平均，得到用户的意愿特征值。

作为一种实施方式，所述多媒体文件为视频，所述检测单元2040包括：

提取子单元20401，用于对所述视频等时间间隔提取预设数目的图像；

检测子单元20402，用于对每张图像进行特征检测，判断所述图像是否包含特定特征，所述特征检测包括敏感部位检测和肤色像素检测。

作为一种的实施方式，所述确定单元2050包括：

第一确定子单元20501，用于在判断出包含特定特征的图像数目大于预先设定的阈值P时，判断所述视频为特定内容视频，否则判断所述视频为正常视频；或

第二确定子单元20502，用于确定判断出的包含特定特征的图像数目与针对该视频检测提取得到的图像总数目的比值，在确定的比值大于阈值Q时，判断所述视频为特定内容视频，否则判断所述视频为正常视频。

作为本实施例的方式，所述特定内容为色情内容，所述视频为点播视频或直播视频。

本实施例提供一种多媒体文件处理装置。如图21所示，该装置包括获取单元2120、计算单元2130、检测单元2140、确定单元2150和处理单元2160。

获取单元2120，用于在多媒体文件播放过程中，获取观众用户的画像特征值和第一意愿特征值，所述画像特征值用于标识用户对特定内容的喜好，所述第一意愿特征值用于标识用户在预设时间段内希望观看特定内容的意愿；

计算单元2130，用于根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率；

检测单元2140，用于判断所述概率是否超过预设值，若是，则对所述多媒体文件进行特征检测；

确定单元2150，用于根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件；

处理单元2160，用于根据所述判断结果对所述多媒体文件进行处理。

该实施例的多媒体文件处理装置中，获取单元2120用于执行本发明实施例中的步骤S1801，计算单元2130用于执行本发明实施例中的步骤S1802，检测单元2140用于执行本发明实施例中的步骤S1803，确定单元2150用于执行本发明实施例中的步骤S1804，处理单元2160用于执行本发明实施例中的步骤S1805。

所述多媒体文件为点播视频或直播视频，所述特定内容为色情内容。所述处理单元2160具体用于：在确定多媒体文件是点播的色情视频时，退出点播视频的播放；在确定多媒体文件是直播的色情视频时，关闭播放该视频的视频直播间。

本发明的实施例还提供了一种存储介质。在本实施例中，上述存储介质可以用于保存上述实施例的一种基于行为特征的多媒体文件识别方法所执行的程序代码。

第一步，在多媒体文件播放过程中，获取观众用户的画像特征值和第一意愿特征值，所述画像特征值用于标识用户对特定内容的喜好，所述第一意愿特征值用于标识用户在预设时间段内希望观看特定内容的意愿；

第二步，根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率；

第三步，判断所述概率是否超过预设值，若是，则对所述多媒体文件进行特征检测；

第四步，根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件。

存储介质还被设置为存储用于执行以下步骤的程序代码：根据所述画像特征值和第一意愿特征值确定每个用户的第二意愿特征值；根据所有用户的第二意愿特征值计算所述多媒体文件包含特定内容的概率。

存储介质还被设置为存储用于执行以下步骤的程序代码：对所述画像特征值和第一意愿特征值进行求和，得到所述第二意愿特征值，或者，根据预先为画像特征值和第一意愿特征值设定的权重，对所述画像特征值和第一意愿特征值进行加权平均，得到第二意愿特征值。

存储介质还被设置为存储用于执行以下步骤的程序代码：分别将各个用户的第二意愿特征值与预设的阈值进行比对；计算所述第二意愿特征值超过阈值的用户数量与用户总数量的比值，得到所述多媒体文件包含特定内容的概率。

存储介质还被设置为存储用于执行以下步骤的程序代码：分析用户的行为数据，确定用户的画像特征值和第一意愿特征值。

存储介质还被设置为存储用于执行以下步骤的程序代码：所述多媒体文件为视频时，对视频等时间间隔提取预设数目的图像；对每张图像进行特征检测，判断所述图像是否包含特定特征，所述特征检测包括敏感部位检测和肤色像素检测。

存储介质还被设置为存储用于执行以下步骤的程序代码：当判断出包含特定特征的图像数目大于预先设定的阈值P时，判断所述视频为特定内容视频，否则判断所述视频为正常视频；或，确定判断出的包含特定特征的图像数目与针对该视频检测提取得到的图像总数目的比值，在确定的比值大于阈值Q时，判断所述视频为特定内容视频，否则判断所述视频为正常视频。

本发明的实施例还提供了一种存储介质。在本实施例中，上述存储介质可以用于保存上述实施例的一种视频处理方法所执行的程序代码。

第四步，根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件；

第五步，根据所述判断结果对所述多媒体文件进行处理。

存储介质还被设置为存储用于执行以下步骤的程序代码：当多媒体文件是点播的色情视频时，退出点播视频的播放；当多媒体文件是直播的色情视频时，关闭播放该视频的视频直播间。

图22是根据本发明实施例的计算机终端的结构框图。如图22所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器2201、存储器2203、以及传输装置2205。

其中，存储器2203可用于存储软件程序以及模块，如本发明实施例中的基于行为特征的多媒体文件识别方法及装置对应的程序指令/模块，处理器2201通过运行存储在存储器2203内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的多媒体文件识别方法。存储器2203可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器2203可进一步包括相对于处理器2201远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置2205用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置2205包括一个网络适配器，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置2205为射频模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器2203用于存储预设动作条件和预设权限用户的信息、以及应用程序。

处理器2201可以通过传输装置调用存储器2203存储的信息及应用程序，以执行下述步骤：

在本申请一实施例提供一种网络信息识别方法，该方法包括如下步骤：

步骤一、获取待识别网络信息。

在本步骤中，待识别网络信息可以包括目标文本。

步骤二、对网络信息进行分词处理，得到网络信息的分词。

在本步骤中，可以对目标文本进行分词处理，得到该目标文本的分词。

步骤三、根据预存的可信网络信息和非可信网络信息确定该网络信息的各分词所属的信息的类型。

在本步骤中，可信网络信息可以为真实信息库中的信息，非可信网络信息可以为虚假信息库中的信息。根据预存的可信网络信息和非可信网络信息确定该网络信息的各分词所述的信息的类型可以包括：按照各分词在网络信息中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型。

在本步骤中，可以计算每个词组中两个分词的关联值，提取虚假信息库中对应的所述两个分词的关联值，作为第一关联值；提取真实信息库中对应的所述两个分词的关联值，作为第二关联值，计算所述关联值与第一关联值的差值，得到第一差值；计算所述关联值与第二关联值的差值，得到第二差值，比较所述第一差值的绝对值和第二差值的绝对值的大小，若第一差值的绝对值大于第二差值的绝对值，则确定该词组的信息类型为真实信息，若第一差值的绝对值小于第二差值的绝对值，则确定该词组的信息类型为虚假信息，若第一差值的绝对值与第二差值的绝对值相等，则确定该词组的信息类型为无偏向信息。

步骤四、根据各分词所属的信息的类型进行统计，确定该网络信息所属的信息类型。

本实施例中的具体示例可以参考上述实施例和实施例中所描述的示例，在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，装置，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种网络信息识别方法，其特征在于，包括：

获取待识别网络信息；

计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；

根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信。
根据权利要求1所述的方法，其特征在于，所述计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度包括：

采用余弦定理算法计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及采用余弦定理算法计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度。
根据权利要求1或2所述的方法，其特征在于，在获取待识别网络信息之前，所述方法还包括：

采集可信网络信息及非可信网络信息；

根据采集的可信网络信息建立可信数据库，以及根据采集的非可信网络信息建立非可信数据库。
根据权利要求3所述的方法，其特征在于，所述计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度包括：

计算所述待识别网络信息与所述可信数据库中的各个可信网络信息的相似度，取计算所得的相似度的最大值记为第一相似度；

计算所述待识别网络信息与所述非可信数据库中的各个非可信网络信息的相似度，取计算所得的相似度的最大值记为第二相似度。
根据权利要求4所述的方法，其特征在于，所述根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信包括：

比较所述第一相似度与所述第二相似度的大小；

当所述第一相似度大于所述第二相似度时，确定所述待识别网络信息可信；

当所述第二相似度大于所述第一相似度时，确定所述待识别网络信息不可信。
根据权利要求5所述的方法，其特征在于，在确定所述待识别网络信息不可信时，所述方法还包括：

将所述待识别网络信息标记为可疑，或者屏蔽所述待识别网络信息。
一种网络信息识别装置，其特征在于，包括：

获取单元，用于获取待识别网络信息；

计算单元，用于计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；

确定单元，用于根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信。
根据权利要求7所述的装置，其特征在于，所述计算单元具体用于，

采用余弦定理算法计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及采用余弦定理算法计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度。
根据权利要求7所述的装置，其特征在于，所述计算单元包括：

第一计算子单元，用于计算所述待识别网络信息与所述可信数据库中的各个可信网络信息的相似度，取计算所得的相似度的最大值记为第一相似度；

第二计算子单元，用于计算所述待识别网络信息与所述非可信数据库中的各个非可信网络信息的相似度，取计算所得的相似度的最大值记为第二相似度；所述确定单元包括：

比较子单元，用于比较所述第一相似度与所述第二相似度的大小；

第一确定子单元，用于当所述第一相似度大于所述第二相似度时，确定所述待识别网络信息可信；

第二确定子单元，用于当所述第二相似度大于所述第一相似度时，确定所述待识别网络信息不可信。
根据权利要求9所述的装置，其特征在于，所述装置还包括：

处理单元，用于在所述第二确定子单元确定所述待识别网络信息不可信时，将所述待识别网络信息标记为可疑，或者屏蔽所述待识别网络信息。
一种网络信息识别方法，其特征在于，包括：

对目标文本进行分词处理，得到目标文本的分词；

按照各分词在目标文本中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，所述信息类型包括虚假信息、真实信息和无偏向信息；

对目标文本中所有词组的信息类型进行统计，得到统计结果；

根据统计结果确定所述目标文本的信息类型。
根据权利要求11所述的方法，其特征在于，所述对目标文本进行分词处理，得到目标文本的分词，包括：

获取目标文本；

对所述目标文本进行预处理，去除目标文本中的停用词；

采用字典分词法对所述目标文本进行分词处理，得到目标文本的分词。
根据权利要求11所述的方法，其特征在于，所述根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，包括：

计算每个词组中两个分词的关联值；

提取虚假信息库中对应的所述两个分词的关联值，作为第一关联值；提取真实信息库中对应的所述两个分词的关联值，作为第二关联值；

根据所述关联值分别与第一关联值和第二关联值的接近程度，确定所述词组的信息类型。
根据权利要求13所述的方法，其特征在于，所述根据所述关联值分别与第一关联值和第二关联值的接近程度，确定所述词组的信息类型，包括：

计算所述关联值与第一关联值的差值，得到第一差值；计算所述关联值与第二关联值的差值，得到第二差值；

比较所述第一差值的绝对值和第二差值的绝对值的大小，若第一差值的绝对值大于第二差值的绝对值，则确定该词组的信息类型为真实信息，若第一差值的绝对值小于第二差值的绝对值，则确定该词组的信息类型为虚假信息，若第一差值的绝对值与第二差值的绝对值相等，则确定该词组的信息类型为无偏向信息。
根据权利要求13所述的方法，其特征在于，所述计算每个词组中两个分词的关联值，包括：

根据公式X(W12)＝C(W2)*C(W12)/C(W1)计算得到词组中两个分词的关联值；

其中，X(W12)表示所述词组中两个分词的关联值，C(W1)表示所述词组中的第一个分词在目标文本中出现的频次，C(W2)表示所述词组中的第二个分词在目标文本中出现的频次，C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次，所述第一个分词在目标文本中的出现顺序早于第二个分词。
根据权利要求11所述的方法，其特征在于，所述对目标文本中所有词组的信息类型进行统计，得到统计结果，包括：

获取目标文本中所有词组的信息类型；所述根据统计结果确定所述目标文本的信息类型，包括：

比较虚假信息和真实信息的出现频次，将出现频次较高的信息类型确定为所述目标文本的信息类型，如果虚假信息的出现频次和真实信息的出现频次相同，则确定所述目标文本的信息类型为无偏向信息。
根据权利要求11所述的方法，其特征在于，所述对目标文本进行分词处理，得到目标文本的分词之前，还包括：

对虚假信息库中的虚假信息样本进行分词处理，得到虚假信息样本的分词，按照各分词在该虚假信息样本中的出现顺序，计算得到相邻两个分词的关联值；

对真实信息库中的真实信息样本进行分词处理，得到真实信息样本的分词，按照各分词在该真实信息样本中的出现顺序，计算得到相邻两个分词的关联值。
根据权利要求11所述的方法，其特征在于，进一步包括：

若所述目标文本的信息类型为虚假信息，则删除网络中的所述目标文本。
一种网络信息识别装置，其特征在于，包括：

分词单元，用于对目标文本进行分词处理，得到目标文本的分词；

第一确定单元，用于按照各分词在目标文本中的出现顺序，将相邻两个分词作为一个词组，根据虚假信息库和真实信息库中的信息，确定每个词组的信息类型，所述信息类型包括虚假信息、真实信息和无偏向信息；

统计单元，用于对目标文本中所有词组的信息类型进行统计，得到统计结果；

第二确定单元，用于根据统计结果确定所述目标文本的信息类型。
根据权利要求19所述的装置，其特征在于，所述分词单元包括：

第一获取子单元，用于获取目标文本；

处理子单元，用于对所述目标文本进行预处理，去除目标文本中的停用词；

分词子单元，用于采用字典分词法对经过处理子单元处理后的目标文本进行分词处理，得到目标文本的分词。
根据权利要求19所述的装置，其特征在于，所述第一确定单元包括：

计算子单元，用于计算每个词组中两个分词的关联值；

提取子单元，用于提取虚假信息库中对应的所述两个分词的关联值，作为第一关联值，提取真实信息库中对应的所述两个分词的关联值，作为第二关联值；

确定子单元，用于根据所述关联值分别与第一关联值和第二关联值的接近程度，确定所述词组的信息类型。
一种网络信息识别方法，其特征在于，包括：

在多媒体文件播放过程中，获取观众用户的画像特征值和第一意愿特征值，所述画像特征值用于标识用户对特定内容的喜好，所述第一意愿特征值用于标识用户在预设时间段内希望观看特定内容的意愿；

根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率；

判断所述概率是否超过预设值，若是，则对所述多媒体文件进行特征检测；

根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件。
根据权利要求22所述的方法，其特征在于，所述根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率，包括：

根据所述画像特征值和第一意愿特征值确定每个用户的第二意愿特征值；

根据所有用户的第二意愿特征值计算所述多媒体文件包含特定内容的概率。
根据权利要求23所述的方法，其特征在于，所述根据所述画像特征值和第一意愿特征值确定每个用户的第二意愿特征值，包括：

对所述画像特征值和第一意愿特征值进行求和，得到所述第二意愿特征值，或者，

根据预先为画像特征值和第一意愿特征值设定的权重，对所述画像特征值和第一意愿特征值进行加权平均，得到第二意愿特征值。
根据权利要求23所述的方法，其特征在于，所述根据所有用户的第二意愿特征值计算所述多媒体文件包含特定内容的概率，包括：

分别将各个用户的第二意愿特征值与预设的阈值进行比对；

计算所述第二意愿特征值超过阈值的用户数量与用户总数量的比值，得到所述多媒体文件包含特定内容的概率。
根据权利要求22所述的方法，其特征在于，还包括：

获取用户的行为数据，所述行为数据包括浏览特定内容相关文本的第一行为数据、浏览特定内容相关图片的第二行为数据、访问特定内容相关论坛的第三行为数据和在特定内容相关的聊天群里聊天的第四行为数据；

分别判断所述第一行为数据、第二行为数据、第三行为数据和第四行为数据是否为空，对应得到第一判断结果、第二判断结果、第三判断结果和第四判断结果；

根据预先设定的所述第一判断结果的第一权重、所述第二判断结果的第二权重、所述第三判断结果的第三权重和所述第四判断结果的第四权重，对所述第一判断结果、第二判断结果、第三判断结果和第四判断结果进行分配整合，得到所述用户的行为特征值。
根据权利要求26所述的方法，其特征在于，所述分析用户的行为数据，确定用户的第一意愿特征值，包括：

获取用户在最近一段时间内的行为数据，所述行为数据包括浏览特定内容相关文本的第一时间、浏览特定内容相关图片的第二时间、访问特定内容相关论坛的第三时间和在特定内容相关的聊天群里聊天的第四时间；

为所述第一时间赋予所述第一权重、所述第二时间赋予所述第二权重、所述第三时间赋予所述第三权重、所述第四时间赋予所述第四权重，对所述第一时间、第二时间、第三时间和第四时间进行加权平均，得到用户的意愿特征值。
根据权利要求22所述的方法，其特征在于，所述多媒体文件为视频；

所述对所述多媒体文件进行特征检测，包括：

对视频等时间间隔提取预设数目的图像；

对每张图像进行特征检测，判断所述图像是否包含特定特征，所述特征检测包括敏感部位检测和肤色像素检测。
根据权利要求28所述的方法，其特征在于，所述根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件，包括：

当判断出包含特定特征的图像数目大于预先设定的阈值P时，判断所述视频为特定内容视频，否则判断所述视频为正常视频；或

确定判断出的包含特定特征的图像数目与针对该视频检测提取得到的图像总数目的比值，在确定的比值大于阈值Q时，判断所述视频为特定内容视频，否则判断所述视频为正常视频。
根据权利要求22所述的方法，其特征在于，所述特定内容为色情内容，所述视频为点播视频或直播视频。
根据权利要求22所述的方法，其特征在于，所述多媒体文件为点播视频或直播视频，所述特定内容为色情内容；

该方法进一步包括：若多媒体文件是点播的色情视频，则退出点播视频的播放；若多媒体文件是直播的色情视频，则关闭播放该视频的视频直播间。
一种网络信息识别装置，其特征在于，包括：

获取单元，用于在多媒体文件播放过程中，获取观众用户的画像特征值和第一意愿特征值，所述画像特征值用于标识用户对特定内容的喜好，所述第一意愿特征值用于标识用户在预设时间段内希望观看特定内容的意愿；

计算单元，用于根据所述画像特征值和第一意愿特征值计算所述多媒体文件包含特定内容的概率；

检测单元，用于判断所述概率是否超过预设值，若是，则对所述多媒体文件进行特征检测；

确定单元，用于根据特征检测结果判断所述多媒体文件是否为特定内容的多媒体文件。
根据权利要求32所述的装置，其特征在于，所述多媒体文件为视频；

所述检测单元包括：

提取子单元，用于对视频等时间间隔提取预设数目的图像；

检测子单元，用于对每张图像进行特征检测，判断所述图像是否包含特定特征，所述特征检测包括敏感部位检测和肤色像素检测。
根据权利要求33所述的装置，其特征在于，所述确定单元包括：

第一确定子单元，用于在判断出包含特定特征的图像数目大于预先设定的阈值P时，判断所述视频为特定内容视频，否则判断所述视频为正常视频；

第二确定子单元，用于确定判断出的包含特定特征的图像数目与针对该视频检测提取得到的图像总数目的比值，在确定的比值大于阈值Q时，判断所述视频为特定内容视频，否则判断所述视频为正常视频。
一种非易失性存储介质，用于存储机器可读指令，当所述机器可读指令被执行时，执行所述权利要求1至6，11至18、22至31任一项所述的方法。