WO2016015471A1

WO2016015471A1 - 一种预测用户离网的方法及装置

Info

Publication number: WO2016015471A1
Application number: PCT/CN2015/073872
Authority: WO
Inventors: 曾嘉; 袁明轩; 戴文渊
Original assignee: 华为技术有限公司
Priority date: 2014-07-30
Filing date: 2015-03-09
Publication date: 2016-02-04
Also published as: US20170109756A1; CN105447583A

Abstract

本发明实施例公开了一种预测用户离网的方法及装置，方法包括：获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据，所述位置活动特征数据指的是所述用户在所述第一预置时间段内与各个基站通信的相关数据，所述社交网络特征数据指的是在所述第一预置时间段内所述用户与社交网络中的其他用户通信的相关数据；将获取的所述业务消费特征数据、所述位置活动特征数据及所述社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果，所述计算结果为所述用户的离网预测结果。本发明实施例能够提高用户离网预测的准确度。

Description

一种预测用户离网的方法及装置

本申请要求于2014年7月30日提交中国专利局、申请号为201410371307.2、发明名称为“一种预测用户离网的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种预测用户离网的方法及装置。

背景技术

对于多数基于入网服务的企业来说，预测用户未来是否离网及其离网的主要原因至关重要。例如，电信运营商非常关心其在网用户未来是否可能离网及离网的时间和原因，然后利用这些结果针对性的为可能离网的用户进行维系和挽留活动，从而保障存量用户的价值，持续为电信运营商提供稳定的利润。通常，运营商希望能够提前一段时间预测出用户离网的倾向，从而有足够的时间来维系和挽留用户。

现有的预测用户离网的技术，主要是基于用户早期的业务消费特征数据，这些数据可以来自用户的账单、话单等，例如：用户每天的通话时长、每天使用的数据流量、发送的短信条数、每月消费金额等。而这些数据对用户离网特征刻画的不够全面，常常不能准确地预测出用户未来的离网状况，例如，用户可能在离网前的半年内，每天的通话时长、每天使用的数据流量、发送的短信条数、每月消费金额变化不大，这样就很难预测半年后用户的状态。

发明内容

有鉴于此，本发明实施例提供了一种预测用户离网的方法及装置，能够提高用户离网预测的准确度。

第一方面，本发明实施例提供的预测用户离网的方法，包括：

获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据，所述位置活动特征数据指的是所述用户在所述第一预置时间段内与各个基站通信的相关数据，所述社交网络特征数据指的是在所述第一预置时间段内所述用户与社交网络中的其他用户通信的相关数据；

将获取的所述业务消费特征数据、所述位置活动特征数据及所述社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果，所述计算结果为所述用户的离网预测结果。

结合第一方面，在第一方面的第一种实施方式中，所述获取用户在第一预置时间段内的位置活动特征数据包括：

从位置活动特征矩阵中抽取所述用户的位置活动特征数据，所述位置活动特征矩阵为在所述第一预置时间段内各个用户与各个基站通信的相关数据构成的矩阵。

结合第一方面，或第一方面的第一种实施方式，在第一方面的第二种实施方式中，所述获取用户在第一预置时间段内的社交网络特征数据包括：

从社交网络特征矩阵中抽取所述用户的社交网络特征数据，所述社交网络特征矩阵为在所述第一预置时间段内所述社交网络中各个用户相互通信的相关数据构成的矩阵。

结合第一方面，或第一方面的第一种实施方式，或第一方面的第二种实施方式，在第一方面的第三种实施方式中，在获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据之后，所述方法还包括：

将所述位置活动特征数据的维度降低到预设维度，以及根据所述社交网络特征数据计算所述用户在所述社交网络中的影响力；

所述将获取的所述业务消费特征数据、所述位置活动特征数据及所述社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果包括：

将所述业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的所述用户在所述社交网络中的影响力输入到预先训练好的分类器进行计算并输出计算结果。

结合第一方面的第三种实施方式，在第一方面的第四种实施方式中，所述将所述业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的所述用户在所述社交网络中的影响力输入到预先训练好的分类器进行计算的过程中，所述业务消费特征数据越大，所述用户离网的概率越低；所述用户在所述社交网络中的影响力越大，所述用户离网的概率越低；当所述用户与同一网络中的不同基站通信时，所述用户与网络中通信质量越差的基站通信的相关数据越小，所述用户离网的概率越低，当所述用户与不同网络中的基站通信时，与所述用户通信的相关数据越大的基站，所述用户离开其所在的网络的概率越低。

结合第一方面，或第一方面的第一种实施方式，或第一方面的第二种实施方式，或第一方面的第三种实施方式，或第一方面的第四种实施方式，在第一方面的第五种实施方式中，在获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据之前，所述方法还包括训练所述分类器，具体方法如下：

将各个用户在第二预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据作为所述分类器的第一输入，将所述各个用户当前的网络状态作为所述分类器的第二输入，利用预设的算法对输入所述分类器的第一输入及第二输入进行训练得到所述分类器，所述第二预置时间段大于所述第一预置时间段，所述预设的算法包括：随机森林算法、支持向量机算法、深层神经网络算法及逻辑回归算法。

本发明实施例第二方面提供了一种预测用户离网的装置，包括：

获取单元，用于获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据，所述位置活动特征数据指的是所述用户在所述第一预置时间段内与各个基站通信的相关数据，所述社交网络特征数据指的是在所述第一预置时间段内所述用户与社交网络中的其他用户通信的相关数据；

处理单元，用于将所述获取单元获取的所述业务消费特征数据、所述位置活动特征数据及所述社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果，所述计算结果为所述用户的离网预测结果。

结合第二方面，在第二方面的第一种实施方式中，所述获取单元获取所述用户在第一预置时间段内的位置活动特征数据包括：

所述获取单元从位置活动特征矩阵中抽取所述用户的位置活动特征数据，所述位置活动特征矩阵为在所述第一预置时间段内各个用户与各个基站通信的相关数据构成的矩阵。

结合第二方面，或第二方面的第一种实施方式，在第二方面的第二种实施方式中，所述获取单元获取所述用户在第一预置时间段内的社交网络特征数据包括：

所述获取单元从社交网络特征矩阵中抽取所述用户的社交网络特征数据，所述社交网络特征矩阵为在所述第一预置时间段内所述社交网络中各个用户相互通信的相关数据构成的矩阵。

结合第二方面，或第二方面的第一种实施方式，或第二方面的第二种实施方式，在第二方面的第三种实施方式中，所述处理单元包括：

第一处理子单元，用于将所述获取单元获取的所述位置活动特征数据的维度降低到预设维度；

第二处理子单元，用于根据所述获取单元获取的所述社交网络特征数据计算所述用户在所述社交网络中的影响力；

第三处理子单元，用于将所述业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的所述用户在所述社交网络中的影响力输入到预先训练好的分类器进行计算并输出计算结果。

结合第二方面的第三种实施方式，在第二方面的第四种实施方式中，在所述第三处理子单元将所述业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的所述用户在所述社交网络中的影响力输入到预先训练好的分类器进行计算的过程中，所述业务消费特征数据越大，所述用户离网的概率越低；所述用户在所述社交网络中的影响力越大，所述用户离网的概率越低；当所述用户与同一网络中的不同基站通信时，所述用户与网络中通信质量越差的基站通信的相关数据越小，所述用户离网的概率越低，当所述用户与不同网络中的基站通信时，与所述用户通信的相关数据越大的基站，所述用户离开其所在的网络的概率越低。

结合第二方面，或第二方面的第一种实施方式，或第二方面的第二种实施方式，或第二方面的第三种实施方式，或第二方面的第四种实施方式，在第二方面的第五种实施方式中，所述装置还包括分类器训练单元，用于训练所述分类器，所述分类器训练单元具体用于：

将各个用户在第二预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据作为所述分类器的第一输入，将所述各个用户当前的网络状态作为所述分类器的第二输入，利用预设的算法对输入所述分类器的第一输入及第二输入进行训练得到所述分类器，所述第二预置时间段大于所述第一预置时间段，所述预设的算法包括：随机森林算法、支持向量机算法、深层神经网络算法及逻辑回归算法。从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，获取用户的业务消费特征数据、位置活动特征数据及社交网络特征数据，将这三类数据输入到分类器对用户进行离网预测。相较于现有技术中只用用户的业务消费特征数据对用户的离网特征进行刻画的方法，本发明实施例新增了用户的位置活动特征数据及社交网络特征数据，利用这三类数据对用户离网特征进行了全面的刻画，根据这三类数据对用户进行离网预测，预测结果更加可靠准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明预测用户离网的方法一个实施例示意图；

图2为本发明预测用户离网的方法另一实施例示意图；

图3为本发明预测用户离网的装置一个实施例示意图；

图4为本发明预测用户离网的装置另一实施例示意图；

图5为本发明预测用户离网的装置另一实施例示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种预测用户离网的方法及装置，能够准确地预测用户未来离网的状况。

请参阅图1，本发明预测用户离网的方法一个实施例包括：

101、获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据；

其中，业务消费特征数据指的是用户的账单、话单上呈现的数据，例如：用户每天的通话时长、每天使用的数据流量，每月的消费金额等；位置活动特征数据指的是用户在第一预置时间段内与各个基站通信的相关数据，例如与用户通信的基站的标识，用户与基站连接的频率、时长等；社交网络特征数据指的是在第一预置时间段内用户与社交网络中的其他用户通信的相关数据，例如与用户通信的其他用户的标识，用户与其他用户通信的时长、频率等。

在具体实现中，用户的业务消费特征数据、位置活动特征数据及社交网络特征数据可以从运营商处获取，运营商包括但不限于例如电信运营商、移动运营商或联通运营商。第一预置时间段可预先设定，例如三个月、六个月等，通常可以利用用户前M个月的相关数据预测用户未来N个月的离网状况，其中，M与N均为正整数，M可以大于等于N，也可M小于N，但是M大于等于N时预测的结果比M小于N时预测的结果准确，具体可根据实际需要预设M与N，此处不做具体限定。

102、将获取的业务消费特征数据、位置活动特征数据及社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果，所述计算结果为用户的离网预测结果。

本发明实施例中，获取用户的业务消费特征数据、位置活动特征数据及社交网络特征数据，将这三类数据输入到分类器对用户进行离网预测。本发明实施例结合用户的位置活动特征数据及社交网络特征数据对用户离网特征进行了全面的刻画，根据上述三类数据对用户进行离网预测，预测结果更加可靠准确。

为便于理解，下面以一个具体实施例对本发明预测用户离网的方法进行描述，请参阅图2，本实施例的方法包括：

201、将各个用户在第二预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据作为分类器的第一输入，将各个用户当前的网络状态作为分类器的第二输入，利用预设的算法对第一输入及第二输入进行训练得到分类器；

本实施例中的分类器f可以是二值分类器，所谓二值分类器指的是一种将输入的样本特征向量x_n映射到两值y_n＝{0，1}的函数，由若干参数构成，通常参数的具体值待定，通过训练得到。

分类器f的训练指的是：给定已知的正样本和负样本{x_n，y_n}对，估计函数f的参数的过程，其中，属于y_n＝1的样本x_n称为正样本，属于y_n＝0的样本x_n称为负样本。

具体在本实施例中，分类器的训练过程是将各个用户在第二预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据作为分类器的第一输入，将各个用户当前的网络状态(包括离网或在网)作为分类器的第二输入，利用预设的算法对第一输入及第二输入进行训练得到分类器，其中，预设的算法包括：随机森林算法、支持向量机算法、深层神经网络算法及逻辑回归算法等。即本实施例中分类器的训练指的是已知分类器f的输入为各个用户的业务消费特征数据、位置活动特征数据及社交网络特征数据，且已知分类器f的输出为各个用户当前的网络状态，估计函数f的参数的过程。

202、获取用户在第一预置时间段内的业务消费特征数据，从位置活动特征矩阵中抽取用户的位置活动特征数据，从社交网络特征矩阵中抽取用户的社交网络特征数据；

业务消费特征数据指的是用户的账单、话单上呈现的数据，例如：用户每天的通话时长、每天使用的数据流量，每月的消费金额等，业务消费特征数据可直接从用户的账单、话单中直接获取。

位置活动特征数据指的是用户在第一预置时间段内与各个基站通信的相关数据，例如与用户通信的基站的标识，用户与基站连接的频率、时长等。本实施例中，将在第一预置时间段内各个用户与各个基站通信的相关数据构成一个矩阵，将该矩阵称为位置活动特征矩阵，矩阵中的每一个元素代表一个用户与一个基站通信的相关数据，然后从位置活动特征矩阵中抽取用户与各个基站通信的相关数据作为该用户的位置活动特征数据。

社交网络特征数据指的是在第一预置时间段内用户与社交网络中的其他用户通信的相关数据，例如与用户通信的其他用户的标识，用户与其他用户通信的时长、频率等。本实施例中，将在第一预置时间段内社交网络中各个用户相互通信的相关数据构成一个矩阵，将该矩阵称为社交网络特征矩阵，矩阵中的每一个元素代表一个用户与另一个用户通信的相关数据，然后从社交网络特征矩阵中抽取用户与其他用户通信的相关数据作为该用户的社交网络特征数据。

在具体实现中，第一预置时间段可预先设定，例如三个月、六个月等，通常可以利用用户前M个月的相关数据预测用户未来N个月的离网状况，其中，M与N均为正整数，M可以大于等于N，也可M小于N，但是M大于等于N时预测的结果比M小于N时预测的结果准确，具体可根据实际需要预设M与N，此处不做具体限定。

另外，需要说明的是，第二预置时间段需要大于第一预置时间段。

203、将用户的位置活动特征数据的维度降低到预设维度，根据用户的社交网络特征数据计算用户在社交网络中的影响力；

通常来说，用户的位置活动特征数据的维度会比较高，通常维度M≥10⁵，无法直接使用。因此，本实施例中，在获取用户的位置活动特征数据之后，需要对位置活动特征数据进行降维处理，降维处理的算法包括但不限于：主成分分析(Principal Component Analysis，PCA)算法、隐含狄利克雷分布(Latent Dirichlet allocation，LDA)算法及概率矩阵分解(Probabilistic Matrix Factorization，PMF)算法。因为用户在不同的时间段内仅连接部分基站，所以用于表示用户的位置活动特征数据的矩阵是个稀疏矩阵，即矩阵中的大部分元素为0，具体地，可采用LDA算法来降维，将用于表示用户的位置活动特征数据的稀疏矩阵分解成θ_N×K和φ_K×M的乘积，即

其中，K为用户指定的值，例如K＝100，K远小于M，矩阵θ_N×K的维度为K，从而达到降维的效果。在LDA降维算法的作用下得到矩阵θ_N×K，将矩阵θ_N×K作为降低到预设维度的位置活动特征数据。

对于社交网络特征数据，可以根据用户的社交网络特征数据计算用户在社交网络中的影响力。因为在社交网络中，与用户通信的其他用户一般只集中在几个固定的用户，因此，用于表示用户的社交网络特征数据的矩阵

仍是一个稀疏矩阵，矩阵中的大多数元素为0，接下来采用预设的影响力传递算法计算用户在社交网络中的影响力，上述影响力传递算法包括但不限于网页排名 PageRank算法、基于超链接分析的主题搜索Hypertext-Induced Topic Search算法，随机游走Random Walk算法。

204、将用户的业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的用户在社交网络中的影响力输入到训练好的分类器进行计算并输出计算结果，所述计算结果为用户的离网预测结果。

在上述计算的过程中，用户的业务消费特征数据越大，计算结果中用户离网的概率越低；用户在社交网络中的影响力越大，计算结果中用户离网的概率越低；当用户与同一网络中的不同基站通信时，用户与网络中通信质量越差的基站通信的相关数据越小，计算结果中用户离网的概率越低，当用户与不同网络中的基站进行通信时，与用户通信的相关数据越大的基站，计算结果中用户离开其所在的网络的概率越低。

因为用户的业务消费特征数据越大，说明用户离网的成本越高，用户就不会轻易离网。同样社交网络中影响力越大的用户离网成本也会越高，用户也不会轻易离网。根据用户的位置活动特征数据就可以得知与用户通信的基站及其他相关数据，当用户与同一网络中的不同基站通信，例如用户与同一网络中的A、B、C三个基站通信，经过前期调查统计发现基站A的通信质量优于基站B，基站B的通信质量优于基站C，如果用户经常与通信质量很差的基站C通信，那么用户体验到的服务就很差，最终导致未来离网，相反，如果用户经常与基站A通信，那么用户体验到的服务就很好，未来离网的概率就会变低；当用户与不同网络中的基站进行通信时，例如在预置的时间段内，用户与X网络(X地的通信网络)中的A基站有过通信，且与Y网络(Y地的通信网络)中的基站B有过通信，且用户与A基站通信的时长、频率相比之前都有所减小，相反与基站B通信的时长、频率相比之前都有所增加，此时有可能用户从X地来到了Y地，那么用户未来离开X网络的概率就会变大。

本实施例中，获取用户的业务消费特征数据、位置活动特征数据及社交网络特征数据，将这三类数据输入到分类器对用户进行离网预测。相较于现有技术，本发明实施例利用用户的业务消费特征数据、位置活动特征数据及社交网络特征数据对用户离网特征进行了全面的刻画，根据这三类数据对用户进行离网预测，预测结果更加可靠准确，实验证明，采用本实施例所提供的方法进行离网预测，预测的AUC值大于0.8。其中，AUC值指的是分类器预测精度的指标，AUC值一般大于0小于1，值越大代表预测精度越高。

下面对本发明实施例提供预测用户离网的装置进行描述，请参阅图3，本实施例的装置300包括：

获取单元301，用于获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据，位置活动特征数据指的是用户在第一预置时间段内与各个基站通信的相关数据，社交网络特征数据指的是在第一预置时间段内用户与社交网络中的其他用户通信的相关数据；

处理单元302，用于将获取单元301获取的业务消费特征数据、位置活动特征数据及社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果，计算结果为用户的离网预测结果。

为便于理解，下面以一个具体实施例对本发明预测用户离网的装置进行描述，请参阅图4，本实施例的装置400包括：

分类器训练单元401，用于训练分类器，具体为：将各个用户在第二预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据作为所述分类器的第一输入，将各个用户当前的网络状态作为所述分类器的第二输入，利用预设的算法对输入所述分类器的第一输入及第二输入进行训练得到所述分类器，第二预置时间段大于第一预置时间段，所述预设的算法包括：随机森林算法、支持向量机算法、深层神经网络算法及逻辑回归算法；

获取单元402，用于获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据；

处理单元403，用于将获取单元获取的业务消费特征数据、位置活动特征数据及社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果，计算结果为用户的离网预测结果。

其中，处理单元403包括：

第一处理子单元4031，用于将获取单元402获取的位置活动特征数据的维度降低到预设维度；

第二处理子单元4032，用于根据所述获取单元402获取的所述社交网络特征数据计算所述用户在所述社交网络中的影响力；

第三处理子单元4033，用于将业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的用户在社交网络中的影响力输入到预先训练好的分类器进行计算并输出计算结果。

为进一步理解，下面以一个实际应用场景对本实施例中预测用户离网的装置400内的各单元之间的交互方式进行描述，具体如下：

首先，分类器训练单元401将各个用户在第二预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据作为分类器的第一输入，将各个用户当前的网络状态作为分类器的第二输入，利用预设的算法对第一输入及第二输入进行训练得到分类器。其中，预设的算法包括：随机森林算法、支持向量机算法、深层神经网络算法及逻辑回归算法等。即本实施例中分类器的训练指的是已知分类器f的输入为各个用户的业务消费特征数据、位置活动特征数据及社交网络特征数据，且已知分类器f的输出为各个用户当前的网络状态，估计函数f的参数的过程。

在分类器训练单元401训练好分类器之后，获取单元402获取用户在第一预置时间段内的业务消费特征数据，位置活动特征数据及社交网络特征数据。

其中，业务消费特征数据指的是用户的账单、话单上呈现的数据，例如：用户每天的通话时长、每天使用的数据流量，每月的消费金额等，业务消费特征数据可直接从用户的账单、话单中直接获取。

位置活动特征数据指的是用户在第一预置时间段内与各个基站通信的相关数据，例如与用户通信的基站的标识，用户与基站连接的频率、时长等。本实施例中，先将在第一预置时间段内各个用户与各个基站通信的相关数据构成一个矩阵，将该矩阵称为位置活动特征矩阵，矩阵中的每一个元素代表一个用户与一个基站通信的相关数据，然后获取单元402从位置活动特征矩阵中抽取用户与各个基站通信的相关数据作为该用户的位置活动特征数据。

社交网络特征数据指的是在第一预置时间段内用户与社交网络中的其他用户通信的相关数据，例如与用户通信的其他用户的标识，用户与其他用户通信的时长、频率等。本实施例中，可先将在第一预置时间段内社交网络中各个用户相互通信的相关数据构成一个矩阵，将该矩阵称为社交网络特征矩阵，矩阵中的每一个元素代表一个用户与另一个用户通信的相关数据，然后获取单元 402从社交网络特征矩阵中抽取用户与其他用户通信的相关数据作为该用户的社交网络特征数据。

接下来第一处理子单元4031将获取单元402获取的用户的位置活动特征数据的维度降低到预设维度。因为用户的位置活动特征数据的维度会比较高，通常维度M≥10⁵，无法直接使用。因此，本实施例中，在获取用户的位置活动特征数据之后，第一处理子单元4031需要对位置活动特征数据进行降维处理，降维处理的算法包括但不限于：主成分分析(Principal Component Analysis，PCA)算法、隐含狄利克雷分布(Latent Dirichlet allocation，LDA)算法及概率矩阵分解(Probabilistic Matrix Factorization，PMF)算法。因为用户在不同的时间段内仅连接部分基站，所以用于表示用户的位置活动特征数据的矩阵是个稀疏矩阵，即矩阵中的大部分元素为0，具体地，可采用LDA算法来降维，将用于表示用户的位置活动特征数据的稀疏矩阵

分解成θ_N×K和φ_K×M的乘积，即

对于社交网络特征数据，第二处理子单元4032可以根据用户的社交网络特征数据计算用户在社交网络中的影响力。因为在社交网络中，与用户通信的其他用户一般只集中在几个固定的用户，因此，用于表示用户的社交网络特征数据的矩阵

仍是一个稀疏矩阵，矩阵中的大多数元素为0，接下来第二处理子单元4032采用预设的影响力传递算法计算用户在社交网络中的影响力，上述影响力传递算法包括但不限于网页排名PageRank算法、基于超链接分析的主题搜索Hypertext-Induced Topic Search算法，随机游走Random Walk算法。

第三处理子单元4033将用户的业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的用户在社交网络中的影响力输入到训练好的分类器进行计算并输出计算结果，所述计算结果为用户的离网预测结果。

本实施例中，获取单元获取用户的业务消费特征数据、位置活动特征数据及社交网络特征数据，处理单元将这三类数据输入到分类器对用户进行离网预测。相较于现有技术，本发明实施例利用用户的业务消费特征数据、位置活动特征数据及社交网络特征数据对用户离网特征进行了全面的刻画，根据这三类数据对用户进行离网预测，预测结果更加可靠准确。

下面请参阅图5，图5提供了本发明预测用户离网的装置的另一实施例示意图，本实施例的预测用户离网的装置500可以用于实施上述实施例提供的预测用户离网的方法，在实际应用中，预测用户离网的装置500可以集成到电子设备中，该电子设备可以计算机等。具体来讲：

预测用户离网的装置500可以包括RF(Radio Frequency，射频)电路510、包括有一个或一个以上计算机可读存储介质的存储器520、输入单元530、显示单元540、传感器550、音频电路560、WiFi(wireless fidelity，无线保真)模块570、包括有一个或者一个以上处理核心的处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的结构并不构成对预测用户离网的装置500的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路510可用于收发消息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器580处理；另外，将涉及上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据存储设备的使用创建数据(比如音频数据、电话本等)。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器520还可以包括存储器控制器，以提供处理器580和输入单元530对存储器520的访问。

输入单元530可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元530可包括触敏表面531以及其他输入设备532。触敏表面531，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面531上或在触敏表面531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面531。除了触敏表面531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及装置的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元540可包括显示面板541，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板541。进一步的，触敏表面531可覆盖显示面板541，当触敏表面531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触敏表面531与显示面板541是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面531与显示面板541集成而实现输入和输出功能。

预测用户离网的装置500还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在装置500移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别装置姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于装置500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与装置之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一装置，或者将音频数据输出至存储器520以便进一步处理。音频电路560还可能包括耳塞插孔，以提供外设耳机与装置的通信。

WiFi属于短距离无线传输技术，预测用户离网的装置500通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570，但是可以理解的是，其并不属于装置的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是预测用户离网的装置的控制中心，利用各种接口和线路连接整个装置的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行存储设备的各种功能和处理数据，从而对存储设备进行整体监控。可选的，处理器580可包括一个或多个处理核心；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

预测用户离网的装置500还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源590还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，预测用户离网的装置500还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，预测用户离网的装置500包括有存储器520，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器520中，且经配置以由一个或者一个以上处理器580执行上述一个或者一个以上程序包含用于进行以下操作的指令：

获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据，位置活动特征数据指的是用户在第一预置时间段内与各个基站通信的相关数据，社交网络特征数据指的是在第一预置时间段内用户与社交网络中的其他用户通信的相关数据；

将获取的业务消费特征数据、位置活动特征数据及社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果，计算结果为用户的离网预测结果。

可选的，获取用户在第一预置时间段内的位置活动特征数据包括：

从位置活动特征矩阵中抽取用户的位置活动特征数据，位置活动特征矩阵为在第一预置时间段内各个用户与各个基站通信的相关数据构成的矩阵。

可选的，获取用户在第一预置时间段内的社交网络特征数据包括：

从社交网络特征矩阵中抽取用户的社交网络特征数据，社交网络特征矩阵为在第一预置时间段内社交网络中各个用户相互通信的相关数据构成的矩阵。

可选的，在获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据之后，所述方法还包括：

将位置活动特征数据的维度降低到预设维度，以及根据社交网络特征数据计算用户在社交网络中的影响力；

将获取的所述业务消费特征数据、位置活动特征数据及社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果包括：

将业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的用户在社交网络中的影响力输入到预先训练好的分类器进行计算并输出计算结果。

可选的，将业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的用户在社交网络中的影响力输入到预先训练好的分类器进行计算的过程中，业务消费特征数据越大，用户离网的概率越低；用户在社交网络中的影响力越大，用户离网的概率越低；当用户与同一网络中的不同基站通信时，用户与网络中通信质量越差的基站通信的相关数据越小，用户离网的概率越低，当用户与不同网络中的基站进行通信时，与用户通信的相关数据越大的基站，用户离开其所在的网络的概率越低。

可选的，在获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据之前，所述方法还包括训练所述分类器，具体方法如下：

将各个用户在第二预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据作为分类器的第一输入，将各个用户当前的网络状态作为分类器的第二输入，利用预设的算法对输入分类器的第一输入及第二输入进行训练得到所述分类器，第二预置时间段大于第一预置时间段，预设的算法包括：随机森林算法、支持向量机算法、深层神经网络算法及逻辑回归算法。

需要说明的是，本发明实施例提供的预测用户离网的装置500，还可以用于实现上述装置实施例中的其它功能，在此不再赘述。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上对本发明实施例所提供的一种预测用户离网的方法及装置进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，因此，本说明书内容不应理解为对本发明的限制。

Claims

一种预测用户离网的方法，其特征在于，包括：

获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据，所述位置活动特征数据指的是所述用户在所述第一预置时间段内与各个基站通信的相关数据，所述社交网络特征数据指的是在所述第一预置时间段内所述用户与社交网络中的其他用户通信的相关数据；

将获取的所述业务消费特征数据、所述位置活动特征数据及所述社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果，所述计算结果为所述用户的离网预测结果。
如权利要求1所述的方法，其特征在于，所述获取用户在第一预置时间段内的位置活动特征数据包括：

从位置活动特征矩阵中抽取所述用户的位置活动特征数据，所述位置活动特征矩阵为在所述第一预置时间段内各个用户与各个基站通信的相关数据构成的矩阵。
如权利要求1或2所述的方法，其特征在于，所述获取用户在第一预置时间段内的社交网络特征数据包括：

从社交网络特征矩阵中抽取所述用户的社交网络特征数据，所述社交网络特征矩阵为在所述第一预置时间段内所述社交网络中各个用户相互通信的相关数据构成的矩阵。
如权利要求1至3任意一项所述的方法，其特征在于，在获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据之后，所述方法还包括：

将所述位置活动特征数据的维度降低到预设维度，以及根据所述社交网络特征数据计算所述用户在所述社交网络中的影响力；

所述将获取的所述业务消费特征数据、所述位置活动特征数据及所述社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果包括：

将所述业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的所述用户在所述社交网络中的影响力输入到预先训练好的分类器进行计算并输出计算结果。
如权利要求4所述的方法，其特征在于，所述将所述业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的所述用户在所述社交网络中的影响力输入到预先训练好的分类器进行计算的过程中，所述业务消费特征数据越大，所述用户离网的概率越低；所述用户在所述社交网络中的影响力越大，所述用户离网的概率越低；当所述用户与同一网络中的不同基站通信时，所述用户与网络中通信质量越差的基站通信的相关数据越小，所述用户离网的概率越低，当所述用户与不同网络中的基站通信时，与所述用户通信的相关数据越大的基站，所述用户离开其所在的网络的概率越低。
如权利要求1至5任意一项所述的方法，其特征在于，在获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据之前，所述方法还包括训练所述分类器，具体方法如下：

将各个用户在第二预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据作为所述分类器的第一输入，将所述各个用户当前的网络状态作为所述分类器的第二输入，利用预设的算法对输入所述分类器的第一输入及第二输入进行训练得到所述分类器，所述第二预置时间段大于所述第一预置时间段，所述预设的算法包括：随机森林算法、支持向量机算法、深层神经网络算法及逻辑回归算法。
一种预测用户离网的装置，其特征在于，包括：

获取单元，用于获取用户在第一预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据，所述位置活动特征数据指的是所述用户在所述第一预置时间段内与各个基站通信的相关数据，所述社交网络特征数据指的是在所述第一预置时间段内所述用户与社交网络中的其他用户通信的相关数据；

处理单元，用于将所述获取单元获取的所述业务消费特征数据、所述位置活动特征数据及所述社交网络特征数据输入预先训练好的分类器进行计算并输出计算结果，所述计算结果为所述用户的离网预测结果。
如权利要求7所述的装置，其特征在于，所述获取单元获取所述用户在第一预置时间段内的位置活动特征数据包括：

所述获取单元从位置活动特征矩阵中抽取所述用户的位置活动特征数据，所述位置活动特征矩阵为在所述第一预置时间段内各个用户与各个基站通信的相关数据构成的矩阵。
如权利要求7或8所述的装置，其特征在于，所述获取单元获取所述用户在第一预置时间段内的社交网络特征数据包括：

所述获取单元从社交网络特征矩阵中抽取所述用户的社交网络特征数据，所述社交网络特征矩阵为在所述第一预置时间段内所述社交网络中各个用户相互通信的相关数据构成的矩阵。
如权利要求7至9任意一项所述的装置，其特征在于，所述处理单元包括：

第一处理子单元，用于将所述获取单元获取的所述位置活动特征数据的维度降低到预设维度；

第二处理子单元，用于根据所述获取单元获取的所述社交网络特征数据计算所述用户在所述社交网络中的影响力；

第三处理子单元，用于将所述业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的所述用户在所述社交网络中的影响力输入到预先训练好的分类器进行计算并输出计算结果。
如权利要求9所述的装置，其特征在于，在所述第三处理子单元将所述业务消费特征数据、降低到预设维度的位置活动特征数据及计算所得的所述用户在所述社交网络中的影响力输入到预先训练好的分类器进行计算的过程中，所述业务消费特征数据越大，所述用户离网的概率越低；所述用户在所述社交网络中的影响力越大，所述用户离网的概率越低；当所述用户与同一网络中的不同基站通信时，所述用户与网络中通信质量越差的基站通信的相关数据越小，所述用户离网的概率越低，当所述用户与不同网络中的基站通信时，与所述用户通信的相关数据越大的基站，所述用户离开其所在的网络的概率越低。
如权利要求7至11任意一项所述的装置，其特征在于，所述装置还包括分类器训练单元，用于训练所述分类器，所述分类器训练单元具体用于：

将各个用户在第二预置时间段内的业务消费特征数据、位置活动特征数据及社交网络特征数据作为所述分类器的第一输入，将所述各个用户当前的网络状态作为所述分类器的第二输入，利用预设的算法对输入所述分类器的第一输入及第二输入进行训练得到所述分类器，所述第二预置时间段大于所述第一预置时间段，所述预设的算法包括：随机森林算法、支持向量机算法、深层神经网络算法及逻辑回归算法。