WO2020232612A1

WO2020232612A1 - 降低用于数据可视化的数据量的方法和装置

Info

Publication number: WO2020232612A1
Application number: PCT/CN2019/087661
Authority: WO
Inventors: 罗章维; 朱景文; 俞悦; 于世强; 施内加斯·丹尼尔; 李聪超
Original assignee: 西门子股份公司; 西门子（中国）有限公司
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2020-11-26

Abstract

提供了一种降低用于数据可视化的数据量的方法，包括：针对一组数据点来绘制多个数据分布图，其中，每个数据分布图用于呈现从所述一组数据点中选取的一不同比例的数据点；将每个数据分布图的图像作为输入提供给基于神经网络模型的分类器，以获得所述分类器的输出，其中，所述分类器的输出指示每个图像属于特定分类的概率；基于所述分类器的输出来确定一取值区间，其中，对于所述多个数据分布图中其相对应的比例落入所述取值区间内的第二多个数据分布图，所述第二多个数据分布图中的每一个的图像属于所述特定分类的概率不小于一阈值；以及相对于所述一组数据点的数量，按照从所述取值区间内选择的一目标比例来降低用于数据可视化的数据点数量。

Description

降低用于数据可视化的数据量的方法和装置

技术领域

本公开总体上涉及信息处理，更具体地，涉及有效降低用于数据可视化的数据量的机制。

背景技术

数据可视化是指对数据的视觉表现，其旨在以图形化手段来清楚高效地传达数据所包含的信息。数据可视化已经成为数据分析中的重要一环。

在一种示例性的典型应用场景中，数据可视化工具可以获取由多个物联网(IoT)传感器按一定频率采集的数据，例如温度数据、压力数据、湿度数据，等等，对由这些传感器数据构造的大量数据点进行可视化处理，将其绘制成图表呈现在可视化用户界面上。图表展示的数据分布可以在一定程度上反映出构成数据点的至少两种成分数据之间的相关性。在典型的数据可视化工具中，数据分布图是交互式的，操作者可以对选择该图进行缩放、平移等操作，以便于查看数据分布形态等；操作者也可以对图中所示的单独的数据点进行选取等操作，以便于查看进一步的信息、进行相关的计算，等等。

发明内容

提供本发明内容部分来以简化的形式介绍一些选出的概念，其将在下面的具体实施方式部分中被进一步描述。该发明内容部分并非是要标识出所要求保护的主题的任何关键特征或必要特征，也不是要被用于帮助确定所要求保护的主题的范围。

根据本公开的一个方面，提供了一种降低用于数据可视化的数据量的方法，包括：针对一组数据点来绘制多个数据分布图，其中，每个数据分布图用于呈现从所述一组数据点中选取的一不同比例的数据点；将每个数据分布图的图像作为输入提供给基于神经网络模型的分类器，以获得所述分类器的输出，其中，所述分类器的输出指示每个图像属于特定分类的概率；基于所述分类器的输出来确定一取值区间，其中，对于所述多个数据分布图中其相对应的比例落入所述取值区间内的第二多个数据分布图，所述第二多个数据分布图中的每一个的图像属于所述特定分类的概率不小于一阈值；以及相对于所述一组数据点的数量，按照从所述取值区间内选择的一目标比例来降低用于数据可视化的数据点数量。

本公开的该方面提供了一种基于机器学习的方法，其能够有效降低用于数据可视化的数据点数量，同时仍然能够保持数据分布中所包含的有价值信息，因而不会影响相关的数据分析。有利地，用于数据可视化的数据点数量实质性减少能够降低数据可视化工具运行时对于计算资源的需求，这不但加快了对数据的可视化处理，也能够有效减少用户与数据分布图进行各种交互时的卡顿等情形的出现，带来了更加顺滑的用户体验。

此外，在前述方法的一个示例中，所述多个数据分布图中的每个数据分布图的图像可以仅包含相应的数据点的分布形态。

有利地，上述示例还可以避免非必要信息(例如，原数据分布图中包含的坐标轴等信息)对于与神经网络模型相关的操作的干扰，由此可以提高分类器的分类准确性。

此外，在前述方法的一个示例中，该方法还可以包括：使用训练数据集对所述神经网络模型进行训练，其中，所述训练数据集包括：第一部分，其包括被标记为属于所述特定分类的所有数据分布图的图像，以及第二部分，其包括被标记为不属于所述特定分类的所有数据分布图的图像，其中，基于在0-50％之间选择的一划分值k，对于所述多个数据分布图中的每个数据分布图对应于的比例f，如果f＞(100％-k)，则将该数据分布图的图像标记为属于所述特定分类，而如果f＜k，则将该数据分布图的图像标记为不属于所述特定分类。

有利地，上述示例还可以将数据分布图的分类进行明确划分，并且利用带标记的训练数据集，可以以监督学习的方式对所述神经网络模型进行有针对性的训练。

此外，在前述方法的一个示例中，基于所述分类器的输出来确定所述取值区间可以包括：针对所述多个数据分布图的图像来绘制一关系图，所述关系图反映每个图像属于所述特定分类的概率与相应的数据分布图对应于的比例二者之间的相关性；以及确定所述关系图中与不小于所述阈值的概率相对应的比例区间，作为所述取值区间。

有利地，在上述示例中，使用关系图可以清楚反映数据分布图的图像属于特定分类的概率以及相应的数据分布图对应于的比例二者之间的相关性，进而可以明确合适的取值区间。

此外，在前述方法的一个示例中，所选择的目标比例可以对应于所述取值区间的下限。

有利地，在上述示例中，通过使用对应于所确定的取值区间的下限的目标比例，还可以最大化地降低用于数据可视化的数据量。

此外，在前述方法的一个示例中，该方法还可以包括：根据所选择的目标比例对采集的数据点进行存储。

有利地，上述示例还可以降低对存储和计算资源的需求，增强数据记录和检索的可持续性。

此外，在前述方法的一个示例中，测试数据集包括所述多个数据分布图的图像中不属于所述训练数据集的所有数据分布图的图像，并且其中，基于所述分类器的输出，如果确定所述第二部分中的至少一个图像被所述分类器判断为属于所述特定分类的概率大于0，或者如果确定所述概率从0到1的转变不是出现在所述测试数据集中，则：重新选择一个更小的划分值k；利用所述多个数据分布图的图像，基于重新选择的所述划分值k来重新构造所述训练数据集；以及使用重新构造的所述训练数据集来重新训练所述神经网络模型。

有利地，上述示例中通过对划分值的调整，可以更准确地确定合适的取值区间。

此外，在前述方法的一个示例中，所述一组数据点中的每个数据点可以包含从至少一个传感器采集的数据，并且其中所述方法还可以包括：根据所选择的目标比例指示所述传感器降低数据采样频率。

有利地，在上述示例中，在作为数据来源的传感器的采样频率可调的情况下，可以降低传感器的功耗，从源头上直接减少用于数据可视化的数据量。

根据本公开的另一个方面，提供了一种降低用于数据可视化的数据量的装置，包括：用于针对一组数据点来绘制多个数据分布图的模块，其中，每个数据分布图用于呈现从所述一组数据点中选取的一不同比例的数据点；用于将每个数据分布图的图像作为输入提供给基于神经网络模型的分类器，以获得所述分类器的输出的模块，其中，所述分类器的输出指示每个图像属于特定分类的概率；用于基于所述分类器的输出来确定一取值区间的模块，其中，对于所述多个数据分布图中其相对应的比例落入所述取值区间内的第二多个数据分布图，所述第二多个数据分布图中的每一个的图像属于所述特定分类的概率不小于一阈值；以及用于相对于所述一组数据点的数量，按照从所述取值区间内选择的一目标比例来降低用于数据可视化的数据点数量的模块。

根据本公开的再一个方面，提供了一种计算设备，包括：存储器，其用于存储指令；以及至少一个处理器，其耦合到所述存储器，其中，所述指令在由所述至少一个处理器执行时，使得所述至少一个处理器执行本文中所述的方法。

根据本公开的又一个方面，提供了一种计算机可读存储介质，其上存储有指令，所述指令在由至少一个处理器执行时，使得所述至少一个处理器本文中所述的方法。

附图说明

在附图中对本公开的实现以示例的形式而非限制的形式进行了说明，附图中相似的附图标记表示相同或类似的部件，其中：

图1示出了可以在其中实施本公开的一些实现的示例性环境；

图2是根据本公开的一个实现的示例性方法的流程图；

图3是根据本公开的一个实现的示例性方法的流程图；

图4A-4C示出了三个示例性的数据点全集的数据分布图；

图5A-5C示出了三个示例性的数据点子集的数据分布图；

图6A-6C示出了三个示例性的数据点子集的数据分布图的图像；

图7A-7C示出了三个示例性的关系图；

图8A-8C示出了三个示例性的数据点全集的数据分布图与降低数据量后的数据分布图的对比；

图9是根据本公开的一个实现的示例性装置的框图；以及

图10是根据本公开的一个实现的示例性计算设备的框图。

附图标记列表

110：终端设备 120：一个或多个数据源 130：网络

210：绘制数据分布图

220：获得数据分布图的图像属于特定分类的概率

230：基于概率确定取值区间

240：使用取值区间内的目标比例来降低数据量

305：选择百分比f

310：选取总量的百分比f的数据点

315：绘制选取的数据点的数据分布图

320：将数据分布图转换为图像

325：判断是否得到期望数目的图像

330：根据选择的划分值K确定训练数据集和测试数据集

335：使用训练数据集来训练基于神经网络模型的分类器

340：获得分类器输出的每个输入图像属于特定分类的概率

345：针对所有图像绘制关系图

350：使用关系图判断是否满足条件

355：找到概率不小于阈值对应的百分比取值区间

910-940：模块

1010：处理器

1020：存储器

具体实施方式

在以下的说明书中，出于解释的目的，阐述了大量具体细节。然而，可以理解的是，本发明的实现无需这些具体细节就可以实施。在其它实例中，并未详细示出公知的电路、结构和技术，以免影响对说明书的理解。

说明书通篇中对“一种实现”、“实现”、“示例性实现”、“一些实现”、“各种实现”等的引述表示所描述的本发明的实现可以包括特定的特征、结构或特性，然而，并不是说每个实现都必须要包含这些特定的特征、结构或特性。此外，一些实现可以具有针对其它实现描述的特征中的一些、全部，或者不具有针对其它实现描述的特征。

在下面的说明书和权利要求书中，可能会用到术语“耦合”和“连接”及其派生词。需要理解的是，这些术语并非是要作为彼此的同义词。相反，在特定的实现中，“连接”用于表示两个或更多部件彼此直接物理或电接触，而“耦合”则用于表示两个或更多部件彼此协作或交互，但是它们可能、也可能不直接物理或电接触。

数据可视化工具可以绘制针对大量数据点(例如，来自于多个IoT传感器的高频数据采集)的数据分布图以将其呈现给用户，并且需要对用户与数据分布图的交互(例如，通过使用指点工具或触摸来进行缩放、拖拽、选取其中一组数据点进行计算等)做出响应，这需要占用大量计算资源。随着数据量的增加，这些操作中延迟和卡顿等情形越来越多出现，既影响了效率也影响了用户体验。

本公开旨在提供一种基于机器学习的机制来解决上述问题。借助该机制，用于数据可视化的数据数量级能够得到有效降低，同时仍然保持数据分布中所包含的有价值信息，因而不会影响数据分析。由此，可以减轻数据可视化工具对计算资源的需求，加快处理效率和响应速度。

下面参照图1，其示出了可以在其中实施本公开的一些实现的示例性操作环境100。操作环境100可以包括终端设备110和一个或多个数据源120。在一些实现中，终端设备110和数据源120可以通过网络130来彼此通信地耦合。

在一些示例中，终端设备110上可以运行有数据可视化工具，其用于对获取自一个或多个数据源120的数据进行可视化处理。在一些示例中，本公开中提供的基于机器学习的机制可以被实施为数据可视化工具的一部分，例如用作其插件。在另一些示例中，所述机制可以被实施为一个单独的组件。

终端设备110的示例可以包括但不限于：移动设备，个人数字助理(PDA)，可穿戴设备，智能电话，蜂窝电话，手持设备，消息传送设备，计算机，个人计算机(PC)，台式计算机，膝上型计算机，笔记本计算机，手持计算机，平板计算机，工作站，迷你计算机，大型计算机，超级计算机，网络设备，web设备，基于处理器的系统，多处理器系统，消费电子设备，可编程消费电子设备，电视，数字电视，机顶盒，或其任意组合。

一个或多个数据源120用于提供数据以供终端设备110上的数据可视化工具操纵。作为示例而非限制，数据源120可以包括各种类型的传感器，例如温度传感器、压力传感器、湿度传感器、电流传感器，等等。在一些示例中，传感器120可以被配置为按照固定的频率来采集数据，而在另外一些示例中，传感器120的数据采样频率是可调整的，例如，响应于来自外部(例如终端设备110)的指示信号。

一个或多个数据源120所采集的数据可以直接提供给终端设备110进行数据可视化操作，也可以先存储在终端设备110中(例如其中包含的存储器中)或者与终端设备110和/或数据源120通过网络130通信地耦合的数据库/服务器(未示出)中，待需要时被取用。

网络130可以包括任意类型的有线或无线通信网络，或者有线和无线网络的组合。在一些示例中，网络130可以包括广域网(WAN)、局域网(LAN)、无线网、公共电话网、内联网、物联网(IoT)等等。此外，尽管这里示出了单个网络130，但是网络130可以被配置为包括多个网络。

此外，尽管在上面结合图1描述了根据本公开的一些实现的示例性操作环境，在另一些实现中，终端设备110与一个或多个数据源120之间的通信也可以不通过网络而直接通信地耦合。本公开并不限于图1所示的特定架构。

此外，在一些示例中，上文提及的数据可视化工具、以及本公开中提供的降低用于数据可视化的数据量的机制也可以被部署在分布式计算环境中，并且也可以使用云计算技术来实现。

图2示出了根据本公开的一个实现的示例性方法200的流程图。

示例性方法200有助于降低用于数据可视化的数据量。参见图2，方法200开始于步骤210，在该步骤中，针对一组(例如，总量为N个)数据点来绘制多个数据分布图，其中，每个数据分布图用于呈现从所述一组数据点中选取的一个不同比例的数据点。这里，每个比例用来表示总量的一部分，例如，其可以采用分数的形式(例如，1/3、3/7，等等)，也可以采用百分比的形式(例如，27％、43％，等等)，本公开并不限于上述或任何其他特定形式。可以理解，选择的比例越高，从数据点总量中选择的数据点的数目越多。也就是说，所述多个数据分布图中的每个数据分布图呈现的分别是N个数据点的一个不同子集的数据分布形态。在一些示例中，所述数据分布图可以包括散点图，散点图能够有效反映数据点的两个或更多个元素值之间的关系，更好地揭示数据分布形态/趋势。

接着，在步骤220，将每个数据分布图的图像作为输入提供给基于神经网络模型的分类器，以获得所述分类器的输出，其中，所述分类器的输出指示每个图像属于特定分类的概率。在一些示例中，基于神经网络模型的分类器可以采用卷积神经网络模型。卷积神经网络针对图像分类有很高的准确性。

在获得分类器的输出之后，方法200前进到步骤230，在该步骤中，基于所述分类器的输出来确定一取值区间，其中，对于所述多个数据分布图中其相对应的比例落入所述取值区间内的第二多个数据分布图，所述第二多个数据分布图中的每一个的图像属于所述特定分类的概率不小于一阈值。所述阈值可以根据实际需要来设置，例如，其可以被设为95％、或者99％，等等。此外，在一个示例中，可以确定一取值区间以满足落入该取值区间内的比例值对应的所述概率稳定为1，即100％。

然后，在步骤240中，相对于所述一组数据点的数量，按照从所述取值区间内选择的一目标比例来降低用于数据可视化的数据点数量。例如，假设取值区间被确定为从2/5至1(例如2/5对应于所述概率开始稳定为1的最小比例值)，则相对于总量N，可以选择2/5至1之间的一个目标比例f _t，将用于数据可视化的数据点数量降低至N*f _t。可以理解，在该示例中，用于数据可视化的数据点的最小量为N*2/5。

借助于通过神经网络模型实现图像分类(这里是对N个数据点的多个不同子集的数据分布图的图像进行分类)的优秀能力，针对降低用于数据可视化的数据量这一方向，本公开的上述实现提供的机制可以准确确定出可允许的数据量降低/缩减范围，亦即上面步骤中确定的取值区间。相对于原来的数据总量N，在该区间内选择的比例可以有效降低数据量同时仍保持数据分布中所包含的有价值信息。

下面参考图3，结合一些具体示例来描述根据本公开的一个实现的示例性方法300的具体实现。

首先，取得一组数据点(例如，总量为N个)，每个数据点可以是由多于一个元素值构成的向量。所述元素值例如可以来自于传感器。在一些示例中，所述元素值也可以包括时间信息。作为示例而非显示，第一种数据点是来自一个传感器的数据加上时间戳，第二种数据点是来自两个传感器的数据(没有时间戳)，第三种数据点是来自两个传感器的数据加上时间戳。本领域技术人员可以理解，其它类型的数据点也同样可以使用，本公开并不是要在此方面做出限制。图4A-4C分别示出了针对这三种示例性情况，绘制出的N个数据点的全集的数据分布图。

图4A所示的数据分布图针对的数据点是来自一个传感器的数据加上时间戳。在图4A中，水平方向表示时间量，而垂直方向表示纵坐标，例如纵坐标可以与该传感器采集的数据的计量单位相关联。图4B所示的数据分布图针对的数据点是来自两个传感器的数据(没有时间戳)。在图4B中，水平方向表示横坐标，垂直方向表示纵坐标，例如横、纵坐标可以分别与这两个传感器采集的数据的计量单位相关联。图4C所示的数据分布图针对的数据点是来自两个传感器的数据加上时间戳。例如，这两个传感器均为电流传感器。在图4C中，水平方向表示第一电流值，垂直方向表示第二电流值，深浅表示出现时间。

回到图3，示例性方法300旨在确定可允许的相对于全集数据量的缩减范围，即比例取值区间。为了便于说明，在图3的示例中，比例的具体取值采用百分比的形式，然而本领域技术人员可以理解，用于表示比例的方式，包括分数等，也同样是可行的，本公开并不限于此。方法300开始于步骤305。在该步骤中，从0-100％的范围内选择一个百分比f。在一些示例中，该百分比f是在上述范围内随机选择的。而在另一些示例中，该百分比f是在上述范围内按照指定的间隔选择的。其它选取方式也是可行的。

接着，在步骤310中，从N个数据点中选取该百分比f的数据点。例如，假定当前选择的f为25％，则从N个数据点中选取N*25％个数据点。在一些示例中，这25％的数据点是从N个数据点中随机选择的。而在另一些示例中，这25％的数据点是从N个数据点中按照指定的间隔选择的。其它选取方式也是可行的。

然后，方法300前进到步骤315。在该步骤中，绘制在步骤310中选取的数据点的数据分布图。如前所述，在一些示例中，所述数据分布图可以包括散点图。在另一些示例中，所述数据分布图可以包括柱状图。然而，本公开并不限于此。

图5A-5C分别示出了针对前述的三种示例性数据点构成而绘制的N个数据点的一个子集(N*f)的数据分布图。其中，图5A中，当前的百分比f选择为10％；图5B中，当前的百分比f选择为50％；另外，图5C中，当前的百分比f选择为5％。需要注意的是，上述百分比f的具体选择仅是为了举例说明的目的。

回到方法300，现在前进到步骤320。在该步骤中，将在步骤315中绘制的数据分布图转换为图像。在一些示例中，在转换之前，包括坐标轴等在内的所有非必要信息均被从数据分布图中移除，而仅包含那些数据点，这样获得的结果图像仅包含那些数据点的分布形态，由此可以避免对后续步骤中的神经网络的训练和使用造成干扰，提高分类的准确性。另外，在一些示例中，转换后的图像采用JPEG格式，然而本公开并不限于此。

图6A-6C分别示出了将图5A-5C中所示的数据分布图进行转换后获得的图像，可以看到，之前的数据分布图中所有非必要信息均被移除了。

接下来，方法300进行到步骤325。在该步骤中，确定是否已经得到了期望数目(例如，M个)的图像。如果在该步骤的判断为“否”，则方法300跳回到步骤305，重复执行步骤305-320以生成更多的图像。如果在该步骤的判断为“是”，则方法300前进到步骤330。

在步骤330中，从0-50％的范围内选择一个划分值k，并根据百分比f与划分值k的关系，来将前面步骤中得到的所有图像中的一些图像标记为属于特定分类(例如，分类A)而将另一些图像标记为不属于该特定分类；剩余的图像保持不被标记，待用作测试数据集。在一些示例中，如果一个图像对应于的百分比f满足f＞(100％-k、)，则将该图像标记为属于特定分类A；而如果一个图像对应的百分比f满足f＜k，则将该图像标记为不属于该特定分类A。所有的M个图像中，落入这两个集合的全部图像被当作训练数据集。剩余的全部图像被当作测试数据集。

接下来，方法300前进到步骤335。在该步骤中，使用所述训练数据集中的图像来训练基于神经网络模型的分类器，以使其能够识别一个输入图像是否属于特定分类A并给出相应的概率。训练数据集中的图像带有相应的标签(属于特定分类A、不属于该特定分类A)，因此，训练过程是以有监督学习的方式进行的。在一些示例中，考虑到前面步骤中得到的训练数据集中的图像数量可能并不足以完整地训练一个未经训练过的神经网络模型，可以选取已经使用其它图像数据(例如，并非数据分布图转换成的图像数据)部分训练过的神经网络模型，例如，可以采用基于迁移学习的神经网络模型。此外，在一些示例中，所述神经网络模型可以包括卷积神经网络模型。

在结束了步骤335中对分类器进行的训练之后，方法300继续进行到步骤340。在该步骤中，将前面得到的所有图像(既包括属于训练数据集的那些图像，也包括属于测试数据集的那些图像)作为输入分别提供给训练好的分类器，该分类器的输出包括每个图像属于特定分类A的概率。

之后，在步骤345中，可以针对所有图像来绘制一关系图，以反映每个图像属于特定分类A的概率(即，在步骤340中所述分类器所输出的)与该图像相应的数据分布图对应于的百分比f二者之间的相关性。使用关系图可以更清楚地以可视的形式反映出上述相关性。可以理解，在一些示例中，步骤345中绘制关系图的操作并不是必须的，利用前面步骤的结果，可以直接判断出每个图像属于特定分类A的概率与相应的数据分布图对应于的百分比f二者之间的相关性。参见图7A-7C，其分别示出了针对前述的三种示例性数据点，在经历了前述的处理之后，在步骤345中绘制出的关系图。图中每一个点代表一个数据分布图的图像，其纵坐标值表示该图像属于特定分类A的概率，而其横坐标值表示该数据分布图/图像对应于的百分比f。

接下来，方法300前进到步骤350，在这里，判断以下条件是否满足：训练数据集中满足f＜k的那一部分中有至少一个图像被训练好的分类器判断为属于特定分类A的概率大于0，或者，所述概率从0到1的转变不是出现在测试数据集中。如果这里的判断结果为“是”，则说明之前选择的k值偏大，那么方法300跳转到步骤330，重复执行步骤330-345。

反之，如果步骤350中的两种情况均未出现，则所述方法可以进行到步骤355。在该步骤中，基于分类器的输出找到所述概率稳定为不小于一阈值的一个区间，作为取值区间。继续参照图7A-7C的图示，图中圆形圈住的位置指示从这里开始，所述概率稳定为不小于一阈值。例如，阈值可以被设为95％、或者99％，等等，可以根据实际需要来进行设置。在一个优选的实现中，所找的取值区间可以是所述概率开始稳定为1(即100％)的那个区间。这个位置相对应的百分比f，可以记为f _min。f _min和100％之间的区间，被确定为取值区间。方法300可以在这里结束。

对于所确定的取值区间，可以从中选取一目标百分比f _t，基于这样选取的f _t来降低用于数据可视化的数据量，即数据点的数量从原先的N降为N*f _t，仍旧能保持数据分布中包含的有价值信息，进而不会对数据分析造成影响。优选地，在一些示例中，所选取的目标百分比f _t对应于该取值区间的下限，即f _min，以此来最大化地降低数据量。

图8A-8C分别示出了针对前述的三种示例性数据点，N个数据点的全集的数据分布图与步骤355中确定的f _min的数据点子集的数据分布图二者的对照。可以看到，相比于数据点全集的数据分布图，降低数据量后的数据分布图仍能保持整体一致的数据分布。

此外，在一些实例中，利用在上述取值区间内选取的目标比例f _t，针对数据可视化应用，对于每次采集的N个数据点，可以只存储从中选取的N*f _t个数据点，而无需将全部N个数据点都进行存储。这样可以大大降低对存储和计算资源的需求，增强数据记录和检索的可持续性。

此外，在一些实例中，在作为数据来源的传感器的数据采样频率时可调整的情况下，可以利用在上述取值区间内选取的目标比例f _t，来指示传感器相应地降低采样频率，由此可以降低传感器的功耗，并且能够从源头上直接减少用于数据可视化的数据量。

下面参考图9，图9是根据本公开的一个实现的示例性装置900的框图。例如，装置900可以在图1中所示的终端设备110或任何类似的或相关的实体中实现。

示例性装置900用于降低用于数据可视化的数据量。如图9所示，示例性装置900可以包括模块910，该模块910用于针对一组数据点来绘制多个数据分布图，其中，每个数据分布图用于呈现从所述一组数据点中选取的一不同比例的数据点。示例性装置900还可以包括模块920，该模块920用于将每个数据分布图的图像作为输入提供给基于神经网络模型的分类器，以获得所述分类器的输出，其中，所述分类器的输出指示每个图像属于特定分类的概率。此外，示例性装置900还可以包括模块930，该模块930用于基于所述分类器的输出来确定一取值区间，其中，对于所述多个数据分布图中其相对应的比例落入所述取值区间内的第二多个数据分布图，所述第二多个数据分布图中的每一个的图像属于所述特定分类的概率不小于一阈值。此外，示例性装置900还可以包括模块940，该模块940用于相对于所述一组数据点的数量，按照从所述取值区间内选择的一目标比例来降低用于数据可视化的数据点数量。

此外，在一些示例中，装置900还可以包括附加的模块，用于执行说明书中已经描述的其它操作。本领域技术人员可以理解，示例性装置900可以用软件、硬件、固件、或其任意组合来实现。

现在转到图10，这里示出了根据本公开的一个实现的示例性计算设备1000的框图。如图所示，示例性计算设备1000可以包括一个或多个处理单元1010。处理单元1010可以包括任意类型的通用处理单元/核心(例如但不限于：CPU、GPU)，或者专用处理单元、核心、电路、控制器，等等。此外，示例性计算设备1000还可以包括存储器1020。存储器1020可以包括任意类型的可以用于存储数据的介质。在一个实现中，存储器1020被配置为存储指令，所述指令在执行时使得一个或多个处理单元1010执行本文中所述的方法，例如，示例性方法200、示例性方法300，等等。

本公开的各种实现可以使用硬件单元、软件单元或其组合来实现。硬件单元的示例可以包括设备、部件、处理器、微处理器、电路、电路元件(例如、晶体管、电阻器、电容器、电感器，等等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、存储单元、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组，等等。软件单元的示例可以包括软件部件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或其任意组合。确定一个实现是使用硬件单元和/或软件单元来实施的可以取决于多种因素而变化，例如期望的计算速率、功率级别、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度，以及其它的设计或性能约束，正如一个给定的实现所期望的。

本公开的一些实现可以包括制品。制品可以包括存储介质，其用于存储逻辑。存储介质的示例可以包括一种或多种类型的能够存储电子数据的计算机可读存储介质，包括易失性存储器或非易失性存储器、可移动或不可移动存储器、可擦除或不可擦除存储器、可写或可重写存储器，等等。逻辑的示例可以包括各种软件单元，例如软件部件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或其任意组合。在一些实现中，例如，制品可以存储可执行的计算机程序指令，其在被处理单元执行时，使得处理单元执行本文中所述的方法和/或操作。可执行的计算机程序指令可以包括任意合适类型的代码，例如，源代码、编译代码、解释代码、可执行代码、静态代码、动态代码，等等。可执行的计算机程序指令可以根据预定义的用于命令计算机来执行特定功能的计算机语言、方式或语法来实现。所述指令可以使用任意适当的高级的、低级的、面向对象的、可视化的、编译的和/或解释的编程语言来实现。

上面已经描述的包括所公开的架构的示例。当然并不可能描述部件和/或方法的每种可以想见的组合，但是本领域技术人员可以理解，许多其它的组合和排列也是可行的。因此，该新颖架构旨在涵盖落入所附权利要求的精神和范围之内的所有这样的替代、修改和变型。

Claims

一种降低用于数据可视化的数据量的方法，包括：

针对一组数据点来绘制多个数据分布图，其中，每个数据分布图用于呈现从所述一组数据点中选取的一不同比例的数据点；

将每个数据分布图的图像作为输入提供给基于神经网络模型的分类器，以获得所述分类器的输出，其中，所述分类器的输出指示每个图像属于特定分类的概率；

基于所述分类器的输出来确定一取值区间，其中，对于所述多个数据分布图中其相对应的比例落入所述取值区间内的第二多个数据分布图，所述第二多个数据分布图中的每一个的图像属于所述特定分类的概率不小于一阈值；以及

相对于所述一组数据点的数量，按照从所述取值区间内选择的一目标比例来降低用于数据可视化的数据点数量。
根据权利要求1所述的方法，其中：

所述多个数据分布图中的每个数据分布图的图像仅包含相应的数据点的分布形态。
根据权利要求1所述的方法，还包括：

使用训练数据集对所述神经网络模型进行训练，其中，所述训练数据集包括：

第一部分，其包括被标记为属于所述特定分类的所有数据分布图的图像，以及

第二部分，其包括被标记为不属于所述特定分类的所有数据分布图的图像，

其中，基于在0-50％之间选择的一划分值k，对于所述多个数据分布图中的每个数据分布图对应于的比例f，如果f＞(100％-k)，则将该数据分布图的图像标记为属于所述特定分类，而如果f＜k，则将该数据分布图的图像标记为不属于所述特定分类。
根据权利要求1所述的方法，其中，基于所述分类器的输出来确定所述取值区间包括：

针对所述多个数据分布图的图像来绘制一关系图，所述关系图反映每个图像属于所述特定分类的概率与相应的数据分布图对应于的比例二者之间的相关性；以及

确定所述关系图中与不小于所述阈值的概率相对应的比例区间，作为所述取值区间。
根据权利要求1所述的方法，其中，所选择的目标比例对应于所述取值区间的下限。
根据权利要求1所述的方法，还包括：

根据所选择的目标比例对采集的数据点进行存储。
根据权利要求3所述的方法，其中，测试数据集包括所述多个数据分布图的图像中不属于所述训练数据集的所有数据分布图的图像，并且其中，基于所述分类器的输出，如果确定所述第二部分中的至少一个图像被所述分类器判断为属于所述特定分类的概率大于0，或者如果确定所述概率从0到1的转变不是出现在所述测试数据集中，则：

重新选择一个更小的划分值k；

利用所述多个数据分布图的图像，基于重新选择的所述划分值k来重新构造所述训练数据集；以及

使用重新构造的所述训练数据集来重新训练所述神经网络模型。
根据权利要求1所述的方法，其中，所述一组数据点中的每个数据点包含从至少一个传感器采集的数据，并且其中，所述方法还包括：根据所选择的目标比例指示所述传感器降低数据采样频率。
一种降低用于数据可视化的数据量的装置，包括：

用于针对一组数据点来绘制多个数据分布图的模块，其中，每个数据分布图用于呈现从所述一组数据点中选取的一不同比例的数据点；

用于将每个数据分布图的图像作为输入提供给基于神经网络模型的分类器，以获得所述分类器的输出的模块，其中，所述分类器的输出指示每个图像属于特定分类的概率；

用于基于所述分类器的输出来确定一取值区间的模块，其中，对于所述多个数据分布图中其相对应的比例落入所述取值区间内的第二多个数据分布图，所述第二多个数据分布图中的每一个的图像属于所述特定分类的概率不小于一阈值；以及

用于相对于所述一组数据点的数量，按照从所述取值区间内选择的一目标比例来降低用于数据可视化的数据点数量的模块。
根据权利要求9所述的装置，还包括：

用于使用训练数据集对所述神经网络模型进行训练的模块，其中，所述训练数据集包括：

第一部分，其包括被标记为属于所述特定分类的所有数据分布图的图像，以及

第二部分，其包括被标记为不属于所述特定分类的所有数据分布图的图像，

其中，基于在0-50％之间选择的一划分值k，对于所述多个数据分布图中的每个数据分布图对应于的比例f，如果f＞(100％-k)，则将该数据分布图的图像标记为属于所述特定分类，而如果f＜k，则将该数据分布图的图像标记为不属于所述特定分类。
根据权利要求10所述的装置，其中，测试数据集包括所述多个数据分布图的图像中不属于所述训练数据集的所有数据分布图的图像，并且其中，基于所述分类器的输出，如果确定所述第二部分中的至少一个图像被所述分类器判断为属于所述特定分类的概率大于0，或者如果确定所述概率从0到1的转变不是出现在所述测试数据集中，则：

重新选择一个更小的划分值k；

利用所述多个数据分布图的图像，基于重新选择的所述划分值k来重新构造所述训练数据集；以及

使用重新构造的所述训练数据集来重新训练所述神经网络模型。
一种计算设备，包括：

存储器，其用于存储指令；以及

至少一个处理器，其耦合到所述存储器，其中，所述指令在由所述至少一个处理器执行时，使得所述至少一个处理器执行根据权利要求1-8中的任意一项所述的方法。
一种计算机可读存储介质，其上存储有指令，所述指令在由至少一个处理器执行时，使得所述至少一个处理器根据权利要求1-8中的任意一项所述的方法。