WO2022160958A1

WO2022160958A1 - 一种页面分类方法、页面分类装置和终端设备

Info

Publication number: WO2022160958A1
Application number: PCT/CN2021/136531
Authority: WO
Inventors: 田舒; 徐仕勤; 赵安; 甘雯辉
Original assignee: 华为技术有限公司
Priority date: 2021-01-29
Filing date: 2021-12-08
Publication date: 2022-08-04
Also published as: CN114816610A; CN114816610B

Abstract

一种页面分类方法、页面分类装置和终端设备，涉及人工智能领域，尤其涉及分类技术。该方法包括：检测到终端设备的前台页面切换（S502），其中，所述前台页面的切换由用户操作触发；获取切换后的所述前台页面的目标控件的属性信息，所述属性信息包括目标控件的类型和坐标位置（S504），其中，所述目标控件至少包括可见控件；根据所述目标控件的类型和坐标位置对所述前台页面进行分类（S506）。其根据页面的控件类型和坐标位置呈现的布局信息对页面进行分类，能够准确识别App的使用场景，对该使用场景的页面进行精准分类，从而更加全面地感知用户行为习惯，更好地为用户提供智能化建议服务。

Description

一种页面分类方法、页面分类装置和终端设备

本申请要求于2021年01月29日提交中国国家知识产权局、申请号为202110130728.6、申请名称为“一种页面分类方法、页面分类装置和终端设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能(Artificial Intelligence，AI)领域的分类技术，具体涉及一种页面分类方法、页面分类装置和终端设备。

背景技术

随着科技的飞速发展，手机已然成为人们生活中必不可少的工具。早晨起床第一件事情是打开手机，查看是否有新消息；晚上睡觉前最后一件事情也是玩手机；吃饭的时候、等车的时候、无聊的时候人们都会选择拿出手机进行玩耍。实际上，手机提供给人们娱乐的同时，也在消耗人们大量的时间。因此很多防沉迷类型的功能出现，帮助用户统计他们在每个应用软件(Application，App)上花费的时间，展示各App自动分类生成的分类模块使用的时长结果。有些App甚至开设了按照约定的使用时长，超时不让进入App或手机功能失效的功能，以帮助用户摆脱沉迷手机的困扰，让用户享受更健康的数字生活。但目前对使用的App进行分类的方法不准确，无法精准感知用户行为。

发明内容

本申请实施例提供的页面分类方法、页面分类装置和终端设备，能够准确识别App的使用场景，对该使用场景的页面进行精准分类，从而更加全面地感知用户行为习惯，更好地为用户提供智能化建议服务。

第一方面，本申请实施例提供了一种页面分类方法，所述页面分类方法包括：检测到终端设备的前台页面切换，其中，所述前台页面的切换由用户操作触发；获取切换后的所述前台页面的目标控件的属性信息，其中，所述目标控件至少包括可见控件，所述属性信息包括目标控件的类型和坐标位置；根据所述目标控件的类型和坐标位置对所述前台页面进行分类。

也就是说，本申请实施例的页面分类方法不是根据App类型进行分类，而是根据页面的控件类型和坐标位置呈现出的布局信息对页面进行分类，页面可为网络页面或app的界面，从而能够准确识别使用场景，对该使用场景的页面进行精准分类，更加全面地感知用户行为习惯，更好地为用户提供智能化建议服务。

在一种可能的实现方式中，所述根据所述目标控件的类型和坐标位置对所述前台页面进行分类，包括：基于所述目标控件的类型和坐标位置生成所述前台页面的布局框图；根据所述布局框图对所述前台页面进行分类。

也就是说，在该实现方式中，可将前台页面转化为布局框图，在该布局框图中用矩形框表示前台页面的目标控件所在位置，由于相同类型的页面具有类似的布局结构，故可基于该布局框图对前台页面进行分类。

在一种可能的实现方式中，所述前台页面的目标控件包括多种类型，所述根据所述目标控件的类型和坐标位置对所述前台页面进行分类，包括：将所述目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件；基于多组所述目标控件的类型和坐标位置分别生成多个布局框图；根据所述多个布局框图对所述前台页面进行分类。

也就是说，在该实现方式中，当前台页面的目标控件包括多种类型时，可先按照类型将目标控件分为多组，然后再将每组的目标控件根据坐标位置生成布局框图，这样可通过将每组目标控件生成的多个布局框图与已知类型的页面按照控件类型生成的多个布局框图进行对比，从而获知前台页面的类型。

在一种可能的实现方式中，所述页面分类方法还包括：获取与切换后的所述前台页面相关的辅助信息，所述辅助信息包括所述目标控件的语义信息、所述终端设备的物理器件的使用情况信息和所述终端设备的软件的使用情况信息中的至少一者，其中，所述物理器件包括麦克风、扬声器和摄像头中的至少一者，所述软件包括输入法；所述根据所述目标控件的类型和坐标位置对所述前台页面进行分类包括：根据所述目标控件的类型和坐标位置以及所述辅助信息对所述前台页面进行分类。

也就是说，在该实现方式中，除了根据前台页面的目标控件的类型和坐标位置对前台页面进行分类外，还可借助一些辅助信息对前台页面进行分类。辅助信息可为目标控件的语义信息。若通过前台页面的目标控件的类型和坐标位置判断前台页面可能为通讯类和购物类，当语义信息例如为“你吃饭了吗？”，则可判断该前台页面为通讯类。当语义信息例如为“价格是多少呢？”，则可判断该前台页面为购物类。辅助信息还可为物理器件的使用情况，例如，当麦克风和扬声器等物理器件处于使用状态中时，表示正在通话，该页面为通讯类。辅助信息还可为软件的使用情况，软件可为输入法，当输入法处于使用状态中时，表示正在聊天，该页面为通讯类。

在一种可能的实现方式中，所述前台页面的目标控件包括多种类型，所述根据所述目标控件的类型和坐标位置对所述前台页面进行分类，包括：将所述目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件；将多组所述目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内，其中，多组所述目标控件的属性信息与所述多个输入通道一一对应；使用所述预先训练的分类器模型对所述前台页面进行分类。

也就是说，在该实现方式中，可将目标控件按照类型划分为多组，再将多组目标控件的属性信息输入分类器模型的多个输入通道内，这样每个通道处理一组目标控件的属性信息，有助于降低分类器模型处理数据的复杂程度，提高分类器模型的分类准确率。

在一种可能的实现方式中，所述将多组所述目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内，包括：将每组所述目标控件的属性信息按照数据形式输入预先训练的分类器模型的通道内；或，按照每组所述目标控件的属性信息的坐标位置绘制布局框图；将每组所述目标控件的的类型和代表所述坐标位置的所述布局框图输入预先训练的分类器模型的通道内。

也就是说，在该实现方式中，分组后的目标控件的属性信息可以按照数据信息输入预先训练的模型的通道内，也可先按照坐标位置绘制出每组目标控件的布局框图，再将布局框图输入预先训练的分类器模型的通道内。

在一种可能的实现方式中，所述的页面分类方法还包括：获取与切换后的所述前台页面相关的辅助信息，所述辅助信息包括所述目标控件的语义信息、所述终端设备的物理器件的使用情况信息和所述终端设备的软件的使用情况信息中的至少一者，其中，所述物理器件包括麦克风、扬声器和摄像头中的至少一者，所述软件包括输入法；所述将多组所述目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内包括：将多组目标控件的属性信息和所述辅助信息分别输入预先训练的分类器模型的多个输入通道内。

也就是说，在该实现方式中，不仅可将目标控件的类型和坐标位置输入分类器模型，还可将辅助信息输入分类器模型，从而提高分类器模型的输出结果的准确率。具体地，当辅助信息包括目标控件的语义信息时，可将多组目标控件的属性信息和语义信息分别输入预先训练的分类器模型的多个输入通道内；当辅助信息包括终端设备的物理器件和软件的使用情况信息中的至少一者，可将多组目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内，物理器件的使用情况信息和软件的使用情况信息中的至少一者可输入分类器模型的特定通道内，该特定通道可与输入目标控件的属性信息和语义信息的多个输入通道不同。

在一种可能的实现方式中，所述目标控件的类型包括按钮控件、文本控件、图像控件和编辑文本控件中的至少一者。例如，目标控件的类型可仅包括文本控件，或者包括文本控件和图像控件。

在一种可能的实现方式中，所述前台页面的类型包括通讯类、购物类、阅读类、视频类、游戏类、音乐类和其他类。其中，“其他类”是指除通讯类、购物类、阅读类、视频类、游戏类、音乐类这六类以外的其他类别。

在一种可能的实现方式中，所述获取切换后的所述前台页面的目标控件的属性信息，包括：获取切换后的所述前台页面的decorView的布局信息，所述布局信息为多叉树结构；从所述decorView的布局信息中获取所述多叉树结构的叶子节点控件的属性信息，所述叶子节点控件包括所述前台页面的可见控件和不可见控件，其中，所述叶子节点控件为所述多叉树结构的倒数第N层，N大于或等于1。

也就是说，在该实现方式中，可借助decorView中的多叉树结构来获得控件的属性信息，即控件类型和坐标位置，以便对页面进行准确分类，更加全面地感知用户行为习惯，更好地为用户提供智能化建议服务。由于仅需获取用户可见的叶子节点控件信息，在实际操作中可以减少功耗，提高分类器模型的训练效率。

在一种可能的实现方式中，所述获取切换后的所述前台页面的目标控件的属性信息，还包括：对所述叶子节点控件进行筛选，以获取所述前台页面的可见控件的属性信息。

也就是说，在该实现方式中，由于多叉树结构的叶子节点控件包括可见控件和不可见控件，而用户一般不会操作不可见控件，因此可仅筛选可见控件的属性信息，从而可以更加精准的感知用户的操作行为。

第二方面，本申请实施例提供一种页面分类装置，所述页面分类方法装置包括：检测模块，用于检测到终端设备的前台页面切换，其中，所述前台页面的切换由用户操作触发；获取模块，用于获取切换后的所述前台页面的目标控件的属性信息，其中，所述目标控件至少包括可见控件，所述属性信息包括目标控件的类型和坐标位置；分类模块，用于根据所述目标控件的类型和坐标位置对所述前台页面进行分类。

在一种可能的实现方式中，所述分类模块具体用于：基于所述目标控件的类型和坐标位置生成所述前台页面的布局框图；根据所述布局框图对所述前台页面进行分类。

在一种可能的实现方式中，所述前台页面的目标控件包括多种类型，所述分类模块具体用于：将所述目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件；基于多组所述目标控件的类型和坐标位置分别生成多个布局框图；根据所述多个布局框图对所述前台页面进行分类。

在一种可能的实现方式中，所述获取模块，还用于获取与切换后的所述前台页面相关的辅助信息，所述辅助信息包括所述目标控件的语义信息、所述终端设备的物理器件的使用情况信息和所述终端设备的软件的使用情况信息中的至少一者，其中，所述物理器件包括麦克风、扬声器和摄像头中的至少一者，所述软件包括输入法；所述分类模块用于根据所述目标控件的类型和坐标位置以及所述辅助信息对所述前台页面进行分类。

在一种可能的实现方式中，所述前台页面的目标控件包括多种类型，所述分类模块具体用于：将所述目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件；将多组所述目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内，其中，多组所述目标控件的属性信息与所述多个输入通道一一对应；使用所述预先训练的分类器模型对所述前台页面进行分类。

在一种可能的实现方式中，所述分类模块还具体用于：将每组所述目标控件的属性信息按照数据形式输入预先训练的分类器模型的通道内；或，按照每组所述目标控件的属性信息的坐标位置生成布局框图；将每组所述目标控件的的类型和代表所述坐标位置的所述布局框图输入预先训练的分类器模型的通道内。

在一种可能的实现方式中，所述获取模块，还用于获取与切换后的所述前台页面相关的辅助信息，所述辅助信息包括所述目标控件的语义信息、所述终端设备的物理器件的使用情况信息和所述终端设备的软件的使用情况信息中的至少一者，其中，所述物理器件包括麦克风、扬声器和摄像头中的至少一者，所述软件包括输入法；所述分类模块还具体用于将多组目标控件的属性信息和所述辅助信息分别输入预先训练的分类器模型的多个输入通道内。

在一种可能的实现方式中，所述目标控件的类型包括按钮控件、文本控件、图像控件和编辑文本控件中的至少一者。

在一种可能的实现方式中，所述前台页面的类型包括通讯类、购物类、阅读类、视频类、游戏类、音乐类和其他类。

在一种可能的实现方式中，所述获取模块具体用于：获取切换后的所述前台页面的decorView的布局信息，所述布局信息为多叉树结构；从所述decorView的布局信息中获取所述多叉树结构的叶子节点控件的属性信息，所述叶子节点控件包括所述前台页面的可见控件和不可见控件，其中，所述叶子节点控件为所述多叉树结构的倒数第N层，N大于或等于1。

在一种可能的实现方式中，所述获取模块还具体用于：对所述叶子节点控件进行筛选，以获取所述前台页面的可见控件的属性信息。

第三方面，本申请实施例提供了一种终端设备，所述终端设备包括存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在调用所述计算机程序时执行上述第一方面或第一方面任一种可能实现方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，用于存储计算机程序，当所述计算机程序被终端设备的处理器执行时，使得所述终端设备实现上述第一方面或第一方面任一种可能实现方式中的方法。

第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括计算机程序/指令，当所述计算机程序/指令在终端设备上运行时，使得所述终端设备实现上述第一方面或第一方面任一种可能实现方式中的方法。

本申请实施例的页面分类方法和页面分类装置，不是根据App类型进行分类，而是实时根据页面的控件的类型和坐标位置呈现的布局结构对页面进行分类，可将页面的布局结构输入CNN神经网络进行模型训练，即可应用训练好的分类器模型对用户的操作行为进行分类，能够准确识别App的使用场景，对该使用场景的页面进行精准分类，从而更加全面地感知用户行为习惯，更好地为用户提供智能化建议服务。相比于传统的基于图片的CNN识别算法，本申请实施例的方案仅需获取用户可见的叶子节点控件信息，在实际操作中可以减少功耗，提高模型训练效率。

附图说明

图1为一种手机的硬件结构示意图；

图2为图1的手机所采用的软件系统的结构示意图；

图3-1至图3-6为六种类型的页面的示例图；

图4为终端设备的页面的结构原理图；

图5为本申请实施例提供的一种页面分类方法的流程图；

图6是图5中的步骤S506的一种具体流程图；

图7是图5中的步骤S506的另一种具体流程图；

图8是图5中的步骤S506的又一种具体流程图；

图9-图11为由前台页面获得输入图像的具体过程图；

图12为将一种类型的控件的布局框图转化为方格矩阵的过程图；

图13为将前台页面输入分类器模型进行分类的过程图；

图14为本申请实施例应用的系统架构的示意图；

图15为本申请实施例提供的另一种页面分类方法的流程图；

图16为本申请实施例的分类操作时长统计图；

图17为本申请实施例的健康使用手机提醒图；

图18为本申请实施例提供的一种页面分类装置的结构示意图；

图19为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。

在本说明书的描述中“一个实施例”或“一些实施例”等意味着在本说明书的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。

其中，在本说明书的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1为一种手机的硬件结构示意图。如图1所示，手机100可以包括处理器110、外部存储器接口120、内部存储器121、通用串行总线(universal serial bus，USB)接口130、充电管理模块140、电源管理模块141、电池142、天线1、天线2、射频模块150、通信模块160、音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、传感器模块180、按键190、马达191、指示器192、摄像头193、屏幕194、以及用户标识模块(subscriber identification module，SIM)卡接口195等。

可以理解的是，本申请实施例示意的结构并不构成对手机100的具体限定。在本申请另一些实施例中，手机100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

例如，本申请实施例中的终端设备可包括处理器110、通信模块160、音频模块170、扬声器170A、受话器170B、麦克风170C、摄像头193以及屏幕194等。传感器模块180可包括压力传感器180A和触摸传感器180K等，可用于检测用户的按压和触摸操作来进行相应动作，例如切换页面。处理器110可以运行本申请实施例提供的页面分类方法，实现根据页面的控件类型和坐标位置呈现的布局信息对页面进行分类，以便准确识别App的使用场景，对该使用场景的页面进行精准分类，从而更加全面地感知用户行为习惯，更好地为用户提供智能化建议服务。处理器110可以包括不同的器件，比如集成CPU和NPU(AI芯片)时，CPU和NPU可以配合执行申请实施例的页面分类方法，比如检测前台页面切换和获取切换后的前台页面的目标控件的属性信息等由CPU执行，例如分类器模型训练及应用等由NPU执行，以得到较快的处理效率。

当处理器110运行本申请实施例的页面分类方法后，终端设备可以控制屏幕194响应用户操作来切换前台页面(即用户可见页面)，并显示该前台页面的分类结果。进一步地，屏幕194还可显示基于本申请实施例的页面分类方法的分类统计结果如图16所示，以及根据统计结果从健康角度对用户提供的智能化建议服务，如长时间使用手机进行文章或新闻阅读，弹出卡片提醒用户休息一下或者滴眼药水保护视力等，如图17所示。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)、调制解调处理器110、图形处理器110(graphics processing unit，GPU)、图像信号处理器110(image signal processor，ISP)、控制器、存储器、视频编解码器、数字信号处理器110(digital signal processor，DSP)、基带处理器110和/或神经网络处理器110(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器110中。

其中，控制器可以是手机100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。

电源管理模块141用于连接电池142、充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110、内部存储器121、外部存储器、屏幕194、摄像头193、通信模块160等供电。电源管理模块141还可以用于监测电池容量、电池循环次数、电池健康状态(漏电，阻抗)等参数。手机100的无线通信功能可以通过天线1、天线2、射频模块150、通信模块160、调制解调处理器110以及基带处理器110等实现。

天线1和天线2用于发射和接收电磁波信号。手机100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。射频模块150可以提供应用在手机100上的包括2G/3G/4G/5G等无线通信的解决方案。射频模块150可以包括至少一个滤波器、开关、功率放大器、低噪声放大器(low noise amplifier，LNA)等。射频模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波、放大等处理，传送至调制解调处理器110进行解调。射频模块150还可以对经调制解调处理器110调制后的信号放大，经天线1转为电磁波辐射出去。

调制解调处理器110可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器110处理。低频基带信号经基带处理器110处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过屏幕194显示图像或视频。通信模块160可以提供应用在手机100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)、蓝牙(Bluetooth，BT)、全球导航卫星系统(global navigation satellite system，GNSS)、调频(frequency modulation，FM)、近距离无线通信技术(near field communication，NFC)、红外技术(infrared，IR)等无线通信的解决方案。通信模块160可以是集成至少一个通信处理模块的一个或多个器件。通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，手机100的天线1和射频模块150耦合，天线2和通信模块160耦合，使得手机100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)、通用分组无线服务(general packet radio service，GPRS)、码分多址接入(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access，WCDMA)、时分码分多址(time-division code division multiple access，TD-SCDMA)、长期演进(long term evolution，LTE)、5G、BT、GNSS、WLAN、NFC、FM、和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)、全球导航卫星系统(global navigation satellite system，GLONASS)、北斗卫星导航系统(beidou navigation satellite system，BDS)、准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

手机100可以通过ISP、摄像头193、视频编解码器、GPU、屏幕194，以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头193感光元件上，光信号转换为电信号，摄像头193感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点、亮度和肤色进行算法优化。ISP还可以对拍摄场景的曝光、色温等参数优化。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，手机100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器110用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当手机100在频点选择时，数字信号处理器110用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。手机100可以支持一种或多种视频编解码器。这样，手机100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1、MPEG2、MPEG3、MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。在本申请实施例中，NPU可用于训练分类器模型。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

图2为图1的手机所采用的软件系统的结构示意图。如图2所示，通常可以将Android系统分为四层，从上至下依次为应用程序层、应用程序框架层、系统库和安卓运行时(Android runtime)、内核层，每一层都有清晰的角色和分工，层与层之间通过软件接口进行通信。

应用程序层包括部署在手机100上的一系列应用程序。示例性的，应用程序层包括但不限于桌面启动器(Launcher)、设置模块、日历模块、相机模块、通话模块和短信模块。

应用程序框架层可以为应用程序层中的应用程序提供应用编程接口(application programming interface，API)和编程框架，还可以包括一些预先定义的功能模块/服务。示例性的，应用程序框架层中包括但不限于窗口管理器(Window manager)、活动管理器(Activity manager)、包管理器(Package manager)、资源管理器(Resource manager)和电源管理器(Power manager)。其中，活动管理器用于管理应用程序的生命周期，以及实现各个应用程序的导航回退功能。示例性的，活动管理器可以负责活动(Activity)进程的创建和已经创建的Activity进程的生命周期的维护。窗口管理器用于管理窗口程序。可以理解，应用程序的图形用户界面通常由一个或多个Activity组成，而Activity又由一个或多个视图View组成；窗口管理器可以将需要显示的图形用户界面所包括的View添加到屏幕194上，或者用于从屏幕194上显示的图形用户界面中移除View。

位于应用程序框架层以下的安卓运行时和系统库、内核层等可称为底层系统，底层系统中包括用于提供显示服务的底层显示系统，底层显示系统可以包括但不限于位于系统库的表面管理器(surface manager)以及位于内核层的显示驱动。内核层是硬件和软件之间的层，内核层中包括若干硬件的驱动程序。示例性的，内核层可以包括显示驱动、摄像头驱动、音频驱动以及触控驱动。各个驱动程序可以各自搜集相应的硬件所采集的信息，并向系统库中的状态监测服务或其它功能模块上报相应的监测数据。

随着科技的飞速发展，手机等终端设备已然成为人们生活中必不可少的工具。为了帮助用户统计他们在每个App上花费的时间以及展示各个App自动分类生成的不同类型的分类模块的使用时长结果，有些App开设了按照约定的使用时长的功能，超时不让进入App或手机功能失效，以帮助用户摆脱沉迷手机的困扰，让用户享受更健康的数字生活。

各种防沉迷方案的初衷是很好的，但是真正的应用到人们的生活中就会出现一些问题。例如人们每天会使用很多App，单纯只统计每个App的使用时长，不能让人一眼发现用户的手机使用习惯。并且，对各App进行自动分类统计也存在一些问题。比如系统对App的分类方式并不准确，像浏览器这种综合性的应用，用户可能用浏览器进行购物、观看视频、查阅新闻等等，那么应该把浏览器按照什么类型的应用进行归类呢？再比如，目前各App都在扩展自己的业务范围，不再局限于App创建之初设立的App业务形象，例如短视频App已经不再单纯的只支持发布短视频、观看短视频、点赞、评论等功能，短视频中也增加了聊天的窗口，方便用户的聊天交友需求，例如抖音App既支持短视频也支持聊天。这样如果把短视频App归类为视频类App类型进行时长统计又会造成误差。

另外，基于页面截图识别图片内容的分类方法，主要使用卷积神经网络(convolution neural network，CNN)对图片进行分类。由于图片包含的信息过于丰富，例如包括图形、图像和文本等对于页面图片识别是冗余的信息，影响分类结果的准确率，且使功耗和训练成本增加。

综上所述，如何准确对用户使用手机等终端设备的情况进行统计和分类，以便更好地感知用户行为，绘制更加精准的用户画像，面临巨大挑战。

鉴于此，本申请实施例提供一种页面分类方法、页面分类装置和终端设备，不是根据App类型进行分类，而是实时根据页面的布局信息对页面进行分类，能够准确识别App的使用场景，对该使用场景的页面进行精准分类，从而更加全面地感知用户行为习惯，更好地为用户提供智能化建议服务。具体地，可根据页面布局将页面分成7 大类别，即通讯类、购物类、阅读类、视频类、游戏类、音乐类、其他类，当然也可根据实际需要将页面划分为更多类别或更少类别。同时，还可将页面的布局结构输入CNN神经网络进行模型训练，即可应用训练好的分类器模型对用户的操作行为进行分类。相比于传统的基于图片的CNN识别算法，本申请实施例的方案仅需获取用户可见的叶子节点控件信息，在实际操作中可以减少功耗，提高模型训练效率。另外，需说明的是，本申请实施例的页面分类方法适用于任何有页面的终端设备，包括但不限于手机、平板电脑(PAD)、智慧屏(电视)等日常使用的设备。

图3-1至图3-6为六种类型的页面的示例图。具体地，图3-1为通讯类页面，图3-2为购物类页面，图3-3为阅读类页面，图3-4为视频类页面，图3-5为游戏类页面，图3-6为音乐类页面。目前虽然无法对浏览器App进行分类，并且很多App也已经不再受限于自身最初的业务类型，如视频类app也可进行聊天，但不难发现相同业务场景的页面布局都是惊人的相似的。例如图3-1所示的通讯类页面，通常分为三部分，最上面是导航栏，表明聊天的对象；中间是聊天的主体内容部分，特点在于最左侧和右侧都是头像，以头像为起始点向左或向右增加消息，消息可以是文字也可以是图片等等；最下面是工具栏，提供了切换成语音输入的按钮、输入栏和表情与扩展功能按钮等等。再例如图3-2所示的购物类页面，通常由四部分组成，最上面是导航栏，提供搜索、返回、分享等按钮操作；下面一层是商品展示栏，配置各种商品的图片展示；再下面一层是关于商品的文字介绍；最下边是工具栏，提供客服、收藏、加入购物车、提交购买等按钮操作。基于此，提出了按照业务场景对操作页面进行分类统计的方法，不再受限于App类型和图像内容，能够更准确地感知用户的操作行为习惯。

图4为终端设备的页面的结构原理图。如图4所示，在Android系统中，打开一个应用，实际上会打开一个主Activity，用户可以通过触摸屏幕上不同的控件实现在多个Activity之间来回切换的操作。例如：可从菜单键打开一个菜单的小窗口；又或者点击一个按钮从一个页面跳转到另一个页面。Activity启动过程中实际上是首先初始化PhoneWindow，然后PhoneWindow中的内部类DecorView加载Activity中设置的布局。而WindowManager中的ViewRoot才是真正处理DecorView中的视图绘制以及其他事件的管理类。Window通过WindowManager与WindowManagerService进行交互，最终呈现给用户具体的页面视图。

也就是说，用户看到的页面视图都是处理了decorView中的布局展示出来的，相似的页面视图有着相似的布局结构。当页面的图片、文字不同时，整体基于图片的分类相似度很低，但是从页面的布局结构看，相似度却很高。因此只需提取出页面的布局结构，即可根据页面的布局结构来对前台页面进行分类。

图5为本申请实施例提供的一种页面分类方法的流程图。如图5所示，页面分类方法包括以下步骤：

步骤S502，检测到终端设备的前台页面切换，其中，前台页面的切换由用户操作触发。

步骤S504，获取切换后的前台页面的目标控件的属性信息，其中，目标控件至少包括可见控件，属性信息包括目标控件的类型和坐标位置。目标控件的类型包括按钮控件、文本控件、图像控件和编辑文本控件中的至少一者。例如，包括按钮控件，或包括按钮控件和文本控件。当然，目标控件的类型还可包括更多种，例如列表控件。具体地，可先获取切换后的前台页面的decorView的布局信息，布局信息为多叉树结构。再从decorView的布局信息中获取多叉树结构的叶子节点控件的属性信息，叶子节点控件包括前台页面的可见控件和不可见控件，其中，叶子节点控件为多叉树结构的倒数第N层，N大于或等于1。

也就是说，在该实现方式中，可借助decorView中的多叉树结构来获得控件的属性信息，从而获得前台页面的控件类型和控件布局，以便对页面进行准确分类，更加全面地感知用户行为习惯，更好地为用户提供智能化建议服务。同时，由于仅需获取用户可见的叶子节点控件信息，在实际操作中可以减少功耗，提高分类器模型的训练效率。

接着，还可对叶子节点控件进行筛选，以获取前台页面的可见控件的属性信息。由于多叉树结构的叶子节点控件包括可见控件和不可见控件，而用户一般不会操作不可见控件，因此可仅筛选可见控件的属性信息，从而可以更加精准的感知用户的操作行为。

步骤S506，根据目标控件的类型和坐标位置对前台页面进行分类。前台页面的类型包括通讯类、购物类、阅读类、视频类、游戏类、音乐类和其他类。其中，“其他类”是指除通讯类、购物类、阅读类、视频类、游戏类、音乐类这六类以外的其他类别。

另外，除了根据目标控件的类型和坐标位置对页面进行分类外，还可结合页面的一些辅助信息进行判断。因此，页面分类方法还可包括以下步骤：

步骤S505，获取与切换后的前台页面相关的辅助信息，辅助信息包括目标控件的语义信息、终端设备的物理器件的使用情况信息和终端设备的软件的使用情况信息中的至少一者，其中，物理器件包括麦克风、扬声器和摄像头中的至少一者，软件包括输入法。

步骤S506’，根据目标控件的类型和坐标位置以及辅助信息对前台页面进行分类。

具体地，当辅助信息可为目标控件的语义信息时，若通过前台页面的目标控件的类型和坐标位置判断前台页面可能为通讯类和购物类，当语义信息例如为“你吃饭了吗？”，则可判断该前台页面为通讯类。当辅助信息为物理器件的使用情况时，例如麦克风和扬声器等物理器件处于使用状态中，表示正在通话状态，则该页面为通讯类。当辅助信息为软件的使用情况时，例如软件可为输入法，当输入法处于使用状态中时，表示正在聊天，该页面为通讯类。

图6是图5中的步骤S506的一种具体流程图。如图6所示，步骤S506可包括以下具体步骤：

步骤S5062，基于目标控件的类型和坐标位置生成前台页面的布局框图。

步骤S5064，根据布局框图对前台页面进行分类。

也就是说，可将前台页面转化为布局框图，在该布局框图中用矩形框表示前台页面的目标控件所在位置，由于相同类型的页面具有类似的布局结构，故可基于该布局框图对前台页面进行分类。

图7是图5中的步骤S506的另一种具体流程图。如图7所示，前台页面的目标控件包括多种类型，步骤S506可包括以下具体步骤：

步骤S5062’，将目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件。

步骤S5064’，基于多组目标控件的类型和坐标位置分别生成多个布局框图.

步骤S5066’，根据多个布局框图对前台页面进行分类。

也就是说，当前台页面的目标控件包括多种类型时，可先按照类型将目标控件分为多组，然后再将每组的目标控件根据坐标位置生成布局框图，这样可通过将每组目标控件生成的多个布局框图与已知类型的页面按照控件类型生成的多个布局框图进行对比，从而获知前台页面的类型。

本申请实施例的页面分类方法不是根据App类型进行分类，而是根据页面的控件类型和布局信息(即坐标位置)对页面进行分类，页面可为网络页面或app的界面，能够准确识别使用场景，对该使用场景的页面进行精准分类，从而更加全面地感知用户行为习惯，更好地为用户提供智能化建议服务。

另外，还可将页面的布局结构输入CNN神经网络进行模型训练，即可应用训练好的分类器模型对用户的操作行为进行分类。

图8是图5中的步骤S506的又一种具体流程图。如图8所示，前台页面的目标控件包括多种类型，步骤S506可包括以下具体步骤：

步骤S5062”，将目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件。

步骤S5064”，将多组目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内，其中，多组目标控件的属性信息与多个输入通道一一对应。

具体地，可将每组目标控件的属性信息按照数据形式输入预先训练的分类器模型的通道内。或者，先按照每组目标控件的属性信息的坐标位置绘制布局框图。再将每组目标控件的的类型和代表坐标位置的布局框图输入预先训练的分类器模型的通道内。

步骤S5066”，使用预先训练的分类器模型对前台页面进行分类。

也就是说，可将目标控件按照类型划分为多组，再将多组目标控件的属性信息输入分类器模型的多个输入通道内，这样每个通道处理一组目标控件的属性信息，有助于降低分类器模型处理数据的复杂程度，提高分类器模型的分类准确率。

另外，在步骤S5066”前，还可先进行步骤S5065”，先获取与切换后的前台页面相关的辅助信息，辅助信息包括目标控件的语义信息、终端设备的物理器件的使用情况信息和终端设备的软件的使用情况信息中的至少一者，其中，物理器件包括麦克风、扬声器和摄像头中的至少一者，软件包括输入法，再将多组目标控件的属性信息和辅助信息分别输入预先训练的分类器模型的多个输入通道内。

也就是说，不仅可将目标控件的类型和坐标位置输入分类器模型，还可将辅助信息输入分类器模型，从而提高分类器模型的输出结果的准确率。具体地，当辅助信息包括目标控件的语义信息时，可将多组目标控件的属性信息和语义信息分别输入预先训练的分类器模型的多个输入通道内；当辅助信息包括终端设备的物理器件和软件的使用情况信息中的至少一者，可将多组目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内，物理器件的使用情况信息和软件的使用情况信息中的至少一者可单独输入分类器模型的特定通道内，该特定通道可以与输入目标控件的属性信息的多个输入通道不同。

下面按照模型训练阶段和模型应用阶段对本申请实施例的页面分类方法进行介绍。

一、模型训练阶段

首先，尽可能多地收集各种APP在七大类别(通讯类、购物类、阅读类、视频类、游戏类、音乐类、其他类)上的页面信息，即收集训练数据。

图9-图11为由前台页面获得输入图像的具体过程图。如图9所示，获取前台页面对应的多叉树信息，层次遍历每一棵树，找到最底层的叶子节点，获取对应的叶子节点控件的属性信息。其中，属性信息包括控件的类型、控件的坐标位置和语义内容。需注意的是，针对不同类型的终端设备，由于对应的屏幕尺寸和App的风格模式不同，需要进行不同的模型训练。

其次，对收集到的控件的属性信息进行预处理，如图10所示，筛选出前台可见的控件。如图11所示，仅获取Button、textView、imageView、editTextView四种类型的控件；按照控件的类型对筛选出的控件进行分类；然后把整个屏幕进行分割，例如可以按照对应的分辨率进行分割，如果屏幕为1920x1080的分辨率，则可将整个屏幕分割成192x108的方格矩阵；接着，对于每一种类型的控件利用其坐标信息绘制对应的基于屏幕的方格矩阵。

图12为将一种类型的控件的布局框图转化为方格矩阵的过程图。如图12所示，如果矩阵对应位置被该类型的控件覆盖，对应矩阵位置的值为1，否则为0。若开始设定了四种类型的控件，则包括四种类型的控件的页面处理后会得到四个方格矩阵。

传统的基于CNN的图像识别分类算法利用图片的颜色特征信息来表示一张图片，基于组成图像的颜色三要素RGB信息，将一张图片分为3个通道进行输入，即分别以R、G、B三个维度来代表一张图像，并利用矩阵二维信息来表示对应颜色基于图片的位置。本申请的分类器模型主要用来对页面布局进行分类，可利用控件特征信息来表示一种类型的页面，可基于组成页面的控件信息，将一个页面分为多个通道进行输入，即分别以各种类型的控件作为维度来表示一种类型的页面，并利用矩阵二维信息来表示对应控件基于页面的位置。这样能够降低处理数据的复杂程度，有助于提高模型处理速度和分类准确率。

接着，将处理后的页面输入模型进行训练。图13为将前台页面输入分类器模型进行分类的过程图。如图13所示，选取CNN卷积神经网络进行模型训练，输入为四个方格矩阵，中间为卷积层、池化层、全连接层，滤波器个数等参数设置可在训练的时候进行调优，最后输出为对应页面的分类，即通讯类、购物类、阅读类、视频类、游戏类、音乐类、其他类共七大类别之一。经过模型训练，将可得到多叉树页面布局分类器模型，用于后续实例分析。

图14为本申请实施例应用的系统架构的示意图。如图14所示，本申请实施例的系统架构主要包括三部分。第一部分包括Activity变化监听器和decorView信息提取器，位于安卓框架(Android Framework)层。具体地，Activity变化监听器可位于图2的活动管理器中，主要用于监听终端的页面变化情况。decorView信息提取器可位于图2的窗口管理器中，主要用于获取当前页面的decorView信息。第二部分为页面分析(Page Analysis)，Page Analysis为核心，包括decorView信息筛选与分类处理、绘制布局框图和CNN神经网络的模型训练Model training。具体地，Page Analysis用于对Framework层获取到的decorView信息进行处理，筛选出用户可见的叶子控件，然后进行分类处理，并将分类后的控件信息进行转换与映射，绘制成不同类型控件的布局框图，然后将其作为模型的参数进行输入，以便得出最后的分类结果。同时，Page Analysis层还涉及CNN神经网络分类器模型的提前训练，将主要通过CNN卷积神经网络进行实现。第三部分为页面分类(Page Classification)，包括页面分类和分类结果后处理，具体地，Page Classification主要用于进行页面的分类，并结合一些辅助感知能力，如麦克风、扬声器、输入法等的使用情况，融合感知页面的状况，对分类的结果进行辅助判断。其中，Page Analysis和Page Classification可位于图2的应用程序层或应用程序框架层。

二、模型应用阶段

图15为本申请实施例提供的另一种页面分类方法的流程图。如图15所示，本申请实施例的页面分类方法包括以下步骤：

步骤S1502，监听页面activity变化。例如，通过安卓framework层实时监听页面的activity变化。

步骤S1504，确定变化后，基于最新的activity活动页面进行页面感知，从decorView中获取前台页面的多叉树信息。

如前所述，每一个展示给用户的前台页面都是通过窗口window处理了decorView中的布局展示出来的，因此可基于深度搜索层次遍历方法反过来提取出前台页面对应的多叉树布局信息。在图9中，左侧视图为前台页面，右侧视图为该前台页面的多叉树结构。具体地，基于多叉树结构可获取多叉树中每个节点对应的详细信息，如控件类型、控件坐标、控件的语义内容等，再结合整个屏幕的范围，对展示在前台屏幕中的控件进行筛选。其中，父节点实际上会包含子节点，但本申请的方案中不需要考虑重叠关系，只需获取最终呈现给用户的可见控件，因此只需筛选出最底层的叶子节点控件，如图9中右侧和图10中左侧的多叉树结构的最后一层view。

也就是说，在步骤S1504，对多叉树信息进行了整合，剔除不必要的信息，只保留了对应的布局信息(即页面的框架信息)，如图10中右侧的对应的布局框图，整个页面看起来与最初用户看见的前台页面如图9中左侧的前台页面视图相似。另外，除了利用可见的叶子节点控件信息，还可利用对应的多叉树层次结构以及控件中的语义内容信息，从而更加全面的感知用户的日常场景与行为习惯。

步骤S1506，绘制各种类型叶子控件的页面布局框图，即对于不同类型的叶子节点控件(例如，按钮Button控件、文本text控件、图片image控件、编辑文本editText控件、列表list控件等等)绘制对应控件基于页面的布局框图。如图11中右侧的视图所示，共包括四种类型控件的视图，即按钮button、文本视图textView、图像视图imageView和编辑文本视图editTextView。对于整个页面布局来说，每一种类型的控件都有其独特性，对于这种明显的特征，可将其作为特征维度，分类汇总数据。利用上一步中获取到的用户可见的叶子控件信息，可实现对每一种控件进行抽离，生成对应每一种控件在屏幕中的版面图。

步骤S1508，将所有类型控件的布局框图输入预先训练的分类器模型以对前台页面进行分类，如图13所示。其中，分类器模型可为CNN卷积神经网络。

本申请实施例的页面分类方法基于分类器模型进行，可通过framework层获取前台页面的多叉树信息，从多叉树信息中提取前台页面可见的叶子控件信息，根据叶子控件信息分别绘制不同类型控件对应的布局框图，将不同类型控件对应的布局框图作为多通道输入预先训练的分类器模型，从而实现页面的实时多分类。

在有页面变换的场景下，实时对变换后的页面的类型进行分类与统计，根据不同的分类结果及汇总的统计结果可提供进一步的智能化建议服务。具体地，当通过framework层监听到页面变化时，从framework层获取对应页面的多叉树信息，对数据进行预处理后，通过多叉树页面布局分类器模型得出页面分类结果。接着，记录用户在该页面的停留时长等信息。用户可对七大类别设立每日的使用时长统计量，将页面停留时长记录累加到对应类别的时长统计量中。对七大类别的使用时长统计量进行业务运用。例如实时展示手机使用情况条形图。再如，设置提醒规则：达到规则阈值则弹出卡片提醒。

图16为本申请实施例的分类操作时长统计图。如图16所示，统计了用户每日在七大类别上的操作行为时长，使用户对其使用手机的操作行为一目了然。图17为本申请实施例的健康使用手机提醒图。如图17所示，对用户不同操作的使用时间进行分析，在特定的时间推送对应习惯操作的相关内容或者提醒；更进一步地，可从健康的角度对用户提供智能化建议服务，如长时间使用手机进行文章或新闻阅读，弹出卡片提醒用户休息一下或者滴眼药水保护视力等。

本申请实施例的上述页面分类方法不再依赖用户使用的App类型对用户行为进行统计和分类，而是更精准地通过页面布局感知用户的手机使用情况，可以更准确地总结出用户使用手机的特征，为用户提供更好的服务。例如，使用户对其使用手机的情况一目了然，让用户一眼就能了解到其每天在购物、阅读、视频等方面的消耗时长，帮助用户更好地安排和利用自己的时间。再例如，在合适的时间对用户进行健康提醒，防止用户因为沉迷手机而产生健康问题。同时，本发明只利用控件信息进行页面分类，相比于图片识别大大降低了手机使用的功耗，相比之下能更好的落地于产品，为用户服务。

图18为本申请实施例提供的一种页面分类装置的结构示意图。如图18所示，页面分类方法装置包括检测模块1801、获取模块1802和分类模块1803。检测模块1801用于检测到终端设备的前台页面切换，其中，前台页面的切换由用户操作触发。获取模块1802用于获取切换后的前台页面的目标控件的属性信息，其中，目标控件至少包括可见控件，可见控件为用户可见的控件。属性信息包括目标控件的类型和坐标位置。分类模块1803用于根据目标控件的类型和坐标位置对前台页面进行分类。目标控件的类型可包括文本控件、图像控件、编辑文本控件和列表控件中的至少一者。前台页面的类型可包括通讯类、购物类、阅读类、视频类、游戏类、音乐类和其他类。

具体地，在本申请实施例中，前述图1中的处理器110中的CPU可实现检测模块1801和获取模块1802的功能，分类模块1803的功能可通过CPU来实现，或者通过集成在处理器110中的CPU和NPU来共同实现，具体地，CPU可用于将目标控件按照类型划分为多组和根据目标控件的属性信息生成布局框图等，NPU可用于分类器模型的训练和应用。

进一步地，获取模块1802还可用于获取与切换后的前台页面相关的辅助信息，辅助信息包括目标控件的语义信息、终端设备的物理器件的使用情况信息和终端设备的软件的使用情况信息中的至少一者，其中，物理器件包括麦克风、扬声器和摄像头中的至少一者，软件包括输入法。分类模块1803用于根据目标控件的类型和坐标位置以及辅助信息对前台页面进行分类。

分类模块1803可具体用于基于目标控件的类型和坐标位置生成前台页面的布局框图和根据布局框图对前台页面进行分类。

当前台页面的目标控件包括多种类型，分类模块1803可具体用于将目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件，接着，基于多组目标控件的类型和坐标位置分别生成多个布局框图，然后，根据多个布局框图对前台页面进行分类。

或者，当前台页面的目标控件包括多种类型，分类模块1803可具体用于将目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件，接着，将多组目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内，其中，多组目标控件的属性信息与多个输入通道一一对应，然后，使用预先训练的分类器模型对前台页面进行分类。

分类模块1803还可具体用于将每组目标控件的属性信息按照数据形式输入预先训练的分类器模型的通道内。或者，分类模块1803还可具体用于按照每组目标控件的属性信息的坐标位置生成布局框图。输入单元332用于将每组目标控件的的类型和代表坐标位置的布局框图输入预先训练的分类器模型的通道内。

进一步地，获取模块1802还用于获取与切换后的前台页面相关的辅助信息，辅助信息包括目标控件的语义信息、终端设备的物理器件的使用情况信息和终端设备的软件的使用情况信息中的至少一者，其中，物理器件包括麦克风、扬声器和摄像头中的至少一者，软件包括输入法。分类模块1803还可具体用于将多组目标控件的属性信息和辅助信息分别输入预先训练的分类器模型的多个输入通道内。

获取模块1802可具体用于获取切换后的前台页面的decorView的布局信息，布局信息为多叉树结构，接着，从decorView的布局信息中获取多叉树结构的叶子节点控件的属性信息，叶子节点控件包括前台页面的可见控件和不可见控件，其中，叶子节点控件为多叉树结构的倒数第N层，N大于或等于1。然后，获取模块1802可对叶子节点控件进行筛选，以获取前台页面的可见控件的属性信息。

图19为本申请实施例提供的一种终端设备的结构示意图。如图19所示，所述终端设备1900包括处理器1901和存储器1902。存储器1902用于存储计算机程序。处理器1901用于在调用所述计算机程序时执行上述的页面分类方法。进一步地，终端设备还可包括总线1903、麦克风1904、扬声器1905、显示器1906和摄像头1907。其中，处理器1901、存储器1902、麦克风1904、扬声器1905、显示器1906和摄像头1907通过总线1903进行通信，也可以通过无线传输等其他手段实现通信。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

Claims

一种页面分类方法，其特征在于，包括：

检测到终端设备的前台页面切换，其中，所述前台页面的切换由用户操作触发；

获取切换后的所述前台页面的目标控件的属性信息，其中，所述目标控件至少包括可见控件，所述属性信息包括目标控件的类型和坐标位置；

根据所述目标控件的类型和坐标位置对所述前台页面进行分类。
根据权利要求1所述的页面分类方法，其特征在于，所述根据所述目标控件的类型和坐标位置对所述前台页面进行分类，包括：

基于所述目标控件的类型和坐标位置生成所述前台页面的布局框图；

根据所述布局框图对所述前台页面进行分类。
根据权利要求1所述的页面分类方法，其特征在于，所述前台页面的目标控件包括多种类型，所述根据所述目标控件的类型和坐标位置对所述前台页面进行分类，包括：

将所述目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件；

基于多组所述目标控件的类型和坐标位置分别生成多个布局框图；

根据所述多个布局框图对所述前台页面进行分类。
根据权利要求1-3中任一项所述的页面分类方法，其特征在于，所述页面分类方法还包括：获取与切换后的所述前台页面相关的辅助信息，所述辅助信息包括所述目标控件的语义信息、所述终端设备的物理器件的使用情况信息和所述终端设备的软件的使用情况信息中的至少一者，其中，所述物理器件包括麦克风、扬声器和摄像头中的至少一者，所述软件包括输入法；

所述根据所述目标控件的类型和坐标位置对所述前台页面进行分类包括：根据所述目标控件的类型和坐标位置以及所述辅助信息对所述前台页面进行分类。
根据权利要求1所述的页面分类方法，其特征在于，所述前台页面的目标控件包括多种类型，所述根据所述目标控件的类型和坐标位置对所述前台页面进行分类，包括：

将所述目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件；

将多组所述目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内，其中，多组所述目标控件的属性信息与所述多个输入通道一一对应；

使用所述预先训练的分类器模型对所述前台页面进行分类。
根据权利要求5所述的页面分类方法，其特征在于，所述将多组所述目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内，包括：

将每组所述目标控件的属性信息按照数据形式输入预先训练的分类器模型的通道内；或，

按照每组所述目标控件的属性信息的坐标位置绘制布局框图；

将每组所述目标控件的的类型和代表所述坐标位置的所述布局框图输入预先训练的分类器模型的通道内。
根据权利要求5或6所述的页面分类方法，其特征在于，所述的页面分类方法还包括：

获取与切换后的所述前台页面相关的辅助信息，所述辅助信息包括所述目标控件的语义信息、所述终端设备的物理器件的使用情况信息和所述终端设备的软件的使用情况信息中的至少一者，其中，所述物理器件包括麦克风、扬声器和摄像头中的至少一者，所述软件包括输入法；

所述将多组所述目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内包括：

将多组目标控件的属性信息和所述辅助信息分别输入预先训练的分类器模型的多个输入通道内。
根据权利要求1-7中任一项所述的页面分类方法，其特征在于，所述目标控件的类型包括按钮控件、文本控件、图像控件和编辑文本控件中的至少一者。
根据权利要求1-8中任一项所述的页面分类方法，其特征在于，所述前台页面的类型包括通讯类、购物类、阅读类、视频类、游戏类、音乐类和其他类。
根据权利要求1-9中任一项所述的页面分类方法，其特征在于，所述获取切换后的所述前台页面的目标控件的属性信息，包括：

获取切换后的所述前台页面的decorView的布局信息，所述布局信息为多叉树结构；

从所述decorView的布局信息中获取所述多叉树结构的叶子节点控件的属性信息，所述叶子节点控件包括所述前台页面的可见控件和不可见控件，其中，所述叶子节点控件为所述多叉树结构的倒数第N层，N大于或等于1。
根据权利要求10所述的页面分类方法，其特征在于，所述获取切换后的所述前台页面的目标控件的属性信息，还包括：

对所述叶子节点控件进行筛选，以获取所述前台页面的可见控件的属性信息。
一种页面分类装置，其特征在于，包括：

检测模块，用于检测到终端设备的前台页面切换，其中，所述前台页面的切换由用户操作触发；

获取模块，用于获取切换后的所述前台页面的目标控件的属性信息，其中，所述目标控件至少包括可见控件，所述属性信息包括目标控件的类型和坐标位置；

分类模块，用于根据所述目标控件的类型和坐标位置对所述前台页面进行分类。
根据权利要求12所述的页面分类装置，其特征在于，所述分类模块具体用于：

基于所述目标控件的类型和坐标位置生成所述前台页面的布局框图；

根据所述布局框图对所述前台页面进行分类。
根据权利要求12所述的页面分类装置，其特征在于，所述前台页面的目标控件包括多种类型，所述分类模块具体用于：

将所述目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件；

基于多组所述目标控件的类型和坐标位置分别生成多个布局框图；

根据所述多个布局框图对所述前台页面进行分类。
根据权利要求12-14中任一项所述的页面分类装置，其特征在于：

所述获取模块，还用于获取与切换后的所述前台页面相关的辅助信息，所述辅助信息包括所述目标控件的语义信息、所述终端设备的物理器件的使用情况信息和所述终端设备的软件的使用情况信息中的至少一者，其中，所述物理器件包括麦克风、扬声器和摄像头中的至少一者，所述软件包括输入法；

所述分类模块用于根据所述目标控件的类型和坐标位置以及所述辅助信息对所述前台页面进行分类。
根据权利要求12所述的页面分类装置，其特征在于，所述前台页面的目标控件包括多种类型，所述分类模块具体用于：

将所述目标控件按照类型划分为多组，每组包括一种或两种以上类型的目标控件；

将多组所述目标控件的属性信息分别输入预先训练的分类器模型的多个输入通道内，其中，多组所述目标控件的属性信息与所述多个输入通道一一对应；

使用所述预先训练的分类器模型对所述前台页面进行分类。
根据权利要求16所述的页面分类装置，其特征在于，所述分类模块还具体用于：

将每组所述目标控件的属性信息按照数据形式输入预先训练的分类器模型的通道内；或，

按照每组所述目标控件的属性信息的坐标位置生成布局框图；

将每组所述目标控件的的类型和代表所述坐标位置的所述布局框图输入预先训练的分类器模型的通道内。
根据权利要求16或17所述的页面分类装置，其特征在于，所述获取模块，还用于获取与切换后的所述前台页面相关的辅助信息，所述辅助信息包括所述目标控件的语义信息、所述终端设备的物理器件的使用情况信息和所述终端设备的软件的使用情况信息中的至少一者，其中，所述物理器件包括麦克风、扬声器和摄像头中的至少一者，所述软件包括输入法；

所述分类模块还具体用于将多组目标控件的属性信息和所述辅助信息分别输入预先训练的分类器模型的多个输入通道内。
根据权利要求12-18中任一项所述的页面分类装置，其特征在于，所述目标控件的类型包括按钮控件、文本控件、图像控件和编辑文本控件中的至少一者。
根据权利要求12-19中任一项所述的页面分类装置，其特征在于，所述前台页面的类型包括通讯类、购物类、阅读类、视频类、游戏类、音乐类和其他类。
根据权利要求12-20中任一项所述的页面分类装置，其特征在于，所述获取模块具体用于：

获取切换后的所述前台页面的decorView的布局信息，所述布局信息为多叉树结构；

从所述decorView的布局信息中获取所述多叉树结构的叶子节点控件的属性信息，所述叶子节点控件包括所述前台页面的可见控件和不可见控件，其中，所述叶子节点控件为所述多叉树结构的倒数第N层，N大于或等于1。
根据权利要求21所述的页面分类装置，其特征在于，所述获取模块还具体用于：

对所述叶子节点控件进行筛选，以获取所述前台页面的可见控件的属性信息。
一种终端设备，其特征在于，包括存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在调用所述计算机程序时执行权利要求1-11中任一项所述的方法。
一种计算机可读存储介质，其特征在于，用于存储计算机程序，当所述计算机程序被计算机执行时，使得所述终端设备实现权利要求1至11中任一项所述的方法。