WO2024078339A1

WO2024078339A1 - 基于车辆历史数据的故障预测方法、系统和存储介质

Info

Publication number: WO2024078339A1
Application number: PCT/CN2023/122028
Authority: WO
Inventors: 巩鑫; 魏浩
Original assignee: 蔚来动力科技(合肥)有限公司
Priority date: 2022-10-09
Filing date: 2023-09-27
Publication date: 2024-04-18
Also published as: CN115563503A

Abstract

本申请涉及车辆故障预测，具体而言，涉及一种基于车辆历史数据的故障预测方法、用于车辆故障预测的计算机系统和计算机存储介质。该方法包括：A、基于不同的样本选择策略从车辆历史数据中提取多个样本数据集；B、分别针对多个样本数据集中的每个进行无效特征剔除以及可用性筛选；以及C、利用多个样本数据集中的每个对组合模型进行训练，并基于经训练的组合模型获取故障预测结果。本申请所提出的故障预测方案采用组合视角与组合模型相结合的方式，在提升数据挖掘准确度和全面性的同时，提高了故障预测的准确度。

Description

基于车辆历史数据的故障预测方法、系统和存储介质

技术领域

本发明涉及车辆故障预测，具体而言，涉及一种基于车辆历史数据的故障预测方法、用于车辆故障预测的计算机系统和计算机存储介质。

背景技术

目前，针对车辆故障的处理方式大多停留在客户抱怨后进行的被动维修操作阶段。随着信息技术和机器学习技术的发展，部分现有技术尝试利用大数据分析和预见性模型来对车辆故障进行提前预警。然而，由于部分车辆故障的发生存在突然性，故障发生前缺少相应的故障征兆，因此使得采集的车辆运行数据中缺少表征故障的征兆信息，从而导致故障查全率低、故障预测准确度低等问题。

发明内容

为了解决或至少缓解以上问题中的一个或多个，本发明提出了一种基于车辆历史数据的故障预测方法、用于车辆故障预测的计算机系统和计算机存储介质。本发明所提出的故障预测方案采用组合视角与组合模型相结合的方式，在提升数据挖掘准确度和全面性的同时，提高了故障预测的准确度。

按照本发明的第一方面，提供一种基于车辆历史数据的故障预测方法，该方法包括：A、基于不同的样本选择策略从所述车辆历史数据中提取多个样本数据集；B、分别针对所述多个样本数据集中的每个进行无效特征剔除以及可用性筛选；以及C、利用所述多个样本数据集中的每个对组合模型进行训练，并基于经训练的组合模型获取故障预测结果。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，步骤A包括：A1、接收故障车辆簇和非故障车辆簇的车辆历史数据，其中所述车辆历史数据包括车辆内的至少一个来源在以出现故障的时间点为终点的第一时段期间的历史数据；A2、基于正样本选取策略从所述车辆历史数据中提取正样本数据；A3、基于多种负样本选取策略从所述车辆历史数据中提取多组负样本数据；以及A4、将所述正样本数据分别与所述多组负样本数据中的每一组相组合，以生成用于故障预测的多个样本数据集。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，在步骤A2中，所述正样本选取策略包括：从所述故障车辆簇的车辆历史数据中提取以出现故障的时间点为终点的第二时段期间的历史数据，其中所述第二时段小于所述第一时段。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，在步骤A3中，所述负样本选取策略包括以下各项中的至少两项：从所述非故障车辆簇中随机选取非故障车辆子集，并从所述非故障车辆子集的车辆历史数据中随机提取第一组负样本数据；从所述故障车辆簇的车辆历史数据中提取以所述第二时段的起点为终点的第三时段期间的历史数据以作为第二组负样本数据，其中所述第三时段小于所述第一时段；以及从所述故障车辆簇中选取累计运行时长小于最小故障时长的故障车辆子集，并从所述故障车辆子集的车辆历史数据中提取第三组负样本数据。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，步骤B包括以下之一：利用方差过滤法，剔除每个样本数据集中的非发散特征；将所述样本数据集分别输入至算法模型以计算每个特征的特征重要度，并基于所述特征重要度的大小进行特征剔除。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，步骤B包括：B1、针对每个样本数据集，计算样本数据集中每个特征的方差并从所述样本数据集中剔除方差为零的特征。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，步骤B包括针对每个样本数据集进行下列操作：B2、将原始样本数据集输入至第一算法模型，以获取每个特征的实际特征重要度；B3、将原始样本数据集中的标签随机打乱，并将经打乱的样本数据集输入至所述第一算法模型，以获取每个特征在随机标签下的特征重要度；B4、将步骤B3重复N次，以获取每个特征在随机标签下的N个特征重要度；以及B5、将所述实际特征重要度与随机标签下的所述N个特征重要度进行比较，并基于比较结果进行特征剔除。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，步骤B5包括：针对每个特征，计算所述N个特征重要度的统计特征值，所述统计特征值包括所述N个特征重要度的75％分位数；计算所述实际特征重要度与所述统计特征值的差值；以及若所述差值小于或等于第一阈值，则剔除该特征。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，步骤B进一步包括：利用第一算法模型对所述多个样本数据集中的每个分别进行可用性评估，并且筛除AUC值小于或等于第二阈值的样本数据集。

作为以上方案的替代或补充，在根据本发明一实施例的方法中，步骤C包括：C1、分别利用M个样本数据集中的每个对第一算法模型进行训练，以获得M个经训练的第一算法模型；C2、分别利用M个样本数据集中的每个对第二算法模型进行训练，以获得M个经训练的第二算法模型；C3、利用所述M个样本数据集中的一个对所述M个经训练的第一算法模型和所述M个经训练的第二算法模型进行测试，以获取每个模型的准确率；以及C4、以所述每个模型的准确率为权重，对所述M个经训练的第一算法模型和所述M个经训练的第二算法模型的预测结果进行加权平均，以获取组合模型下的故障预测结果。

根据本发明的第二方面，提供一种用于车辆故障预测的计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现根据本发明第一方面所述的方法中的任意一项。

根据本发明的第三方面，提供一种计算机存储介质，所述计算机存储介质包括指令，所述指令在运行时执行根据本发明第一方面所述的方法中的任意一项。

一方面，根据本发明的一个或多个实施例的故障预测方案采用组合视角的方式(例如，基于多种样本选择策略提取多个样本数据集)来避免从单个角度定义正负样本带来的偏颇，从而能够更全面、准确地挖掘车辆历史运行数据中的故障征兆信息。

另一方面，根据本发明的一个或多个实施例的故障预测方案基于例如方差过滤法或特征重要度对样本数据集中的无效特征进行剔除，并进一步采用组合模型的方式提升模型的性能，从而能够实现整体计算量以及模型的故障预测准确度之间的平衡。

附图说明

本发明的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解，附图中相同或相似的单元采用相同的标号表示。在所述附图中：

图1为按照本发明的一个或多个实施例的基于车辆历史数据的故障预测方法10的流程图；以及

图2为按照本发明的一个或多个实施例的用于车辆故障预测的计算机系统20的框图。

具体实施方式

以下具体实施方式的描述本质上仅仅是示例性的，并且不旨在限制所公开的技术或所公开的技术的应用和用途。此外，不意图受在前述技术领域、背景技术或以下具体实施方式中呈现的任何明示或暗示的理论的约束。

在实施例的以下详细描述中，阐述了许多具体细节以便提供对所公开技术的更透彻理解。然而，对于本领域普通技术人员显而易见的是，可以在没有这些具体细节的情况下实践所公开的技术。在其他实例中，没有详细描述公知的特征，以避免不必要地使描述复杂化。

诸如“包含”和“包括”之类的用语表示除了具有在说明书中有直接和明确表述的单元和步骤以外，本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。本文中的术语“车辆”或者其它类似的术语包括一般的机动车辆以及混合动力汽车、电动车、插电式混动电动车等。

在下文中，将参考附图详细地描述根据本发明的各示例性实施例。

图1为按照本发明的一个或多个实施例的基于车辆历史数据的故障预测方法10的流程图。

如图1所示，在步骤S110中，基于不同的样本选择策略从车辆历史数据中提取多个样本数据集。如背景技术部分所述，由于部分车辆故障的发生存在突然性，故障发生前缺少相应的故障征兆，因此仅凭借专家经验分析难以从车辆历史运行数据中发现明显的故障征兆信息，从而导致故障查全率低、故障预测准确度低。本发明采用组合视角的方式，也即，基于不同的样本选择策略(例如，多种负样本选择策略)、从多个角度定义样本数据集，从而能够避免从单个角度定义样本数据集带来的偏颇，更全面、准确地从车辆历史运行数据中挖掘故障征兆信息。

可选地，在步骤S110中，首先接收故障车辆簇(例如，故障车辆集合)和非故障车辆簇(例如，非故障车辆集合)的车辆历史数据。由于车辆的实际故障与特定环境下的各种物理量是关联的，因而车辆历史数据与车辆故障之间存在客观的关联，也因此可以用于车辆故障预测。例如，车辆历史数据可以包括转向机的偏转角度，这一数据可以用于分析转向故障。

示例性地，车辆历史数据包括车辆内的至少一个来源(例如，车载传感器、电子控制单元)在以出现故障的时间点为终点的第一时段期间的历史数据。在本申请的一些实施例中，车辆历史数据是基于车辆的传感器数据生成的。继续上面的示例，转向机的偏转角度可以通过例如角偏转传感器采集。在其他一些示例中还可以通过例如位置传感器、加速度传感器、温度传感器等来收集车辆历史数据。当然，车辆历史数据还可以从其他来源获得。例如，电机扭矩可以根据由电子控制单元生成的扭矩指令产生，因而还可以从诸如电子控制单元之类的车辆控制器采集车辆历史数据。

样本数据的提取策略可以分为正样本数据提取策略和负样本数据提取策略。可选地，可以基于相同的正样本选取策略从车辆历史数据中提取正样本数据，例如，可以从故障车辆簇的车辆历史数据中提取以出现故障的时间点为终点的第二时段(第二时段小于第一时段)期间的历史数据。由于故障发生前一段时间内数据存在异常的概率最大，因此可以将该段时间(即，第二时段)视为数据劣化期，并将数据劣化期内的数据作为正样本。具体的第二时段的时长可以根据故障类型结合业务经验确定，本发明对此不作具体限定。

可选地，可以基于多种不同的负样本选取策略从车辆历史数据中提取多组负样本数据。示例性地，负样本选取策略包括以下详述的策略1-策略3中的至少两种。

策略1，从非故障车辆簇中随机选取非故障车辆子集，并从非故障车辆子集的车辆历史数据中随机提取第一组负样本数据。

策略2，从故障车辆簇的车辆历史数据中提取以第二时段的起点为终点的第三时段期间的历史数据以作为第二组负样本数据，其中第三时段小于第一时段。可以理解的是，通过同一车辆的数据劣化期(例如，第二时段)与非数据劣化期(例如，第三时段)的数据对比，更容易找出真正的故障信息，因此，故障车辆簇的车辆历史数据亦可作为负样本数据的来源。

策略3，从故障车辆簇中选取累计运行时长小于最小故障时长的故障车辆子集，并从故障车辆子集的车辆历史数据中提取第三组负样本数据。上述累计运行时长指代车辆从生产下线开始的累计运行时间，最小故障时长指代故障车辆簇中车辆从生产下线到发生故障的最小时间间隔。

可选地，将上述正样本数据分别与多组负样本数据中的每一组(例如，第一组负样本数据、第二组负样本数据以及第三组负样本数据)相组合，以生成用于故障预测的多个样本数据集(例如，第一样本数据集、第二样本数据集以及第三样本数据集)。

在步骤S120中，分别针对多个样本数据集中的每个进行无效特征剔除以及可用性筛选。可以理解的是，针对样本数据集的无效特征剔除以及可用性筛选至少能够带来以下好处：减少训练数据大小，降低整体计算量，加快模型训练速度；减少模型复杂度，避免过拟合；减少特征输入，有利于解释模型；以及提升模型准确率。

可选地，在无效特征剔除阶段，可以利用方差过滤法，分别剔除每个样本数据集(例如，第一样本数据集、第二样本数据集以及第三样本数据集)中的非发散特征。非发散特征指代样本在该特征上基本没有差异，也就是说，该特征对于样本的区分没有起到作用。示例性地，特征的发散性可以基于方差进行判断，例如，针对每个样本数据集，计算样本数据集中每个特征的方差并从样本数据集中剔除方差为零的特征。

替代地，还可以基于算法模型进行无效特征剔除。示例性地，可以将每个样本数据集分别输入至算法模型(例如，LightGBM模型、随机森林模型、XGBoost模型)，以计算每个特征的特征重要度，并基于特征重要度的大小进行特征剔除。具体而言，提供以下两种基于算法模型的无效特征剔除策略。

第一，将每个样本数据集分别输入至诸如LightGBM模型之类的第一算法模型，并输出各特征的特征重要度(例如，包括信息增益和分裂次数)，剔除信息增益为零或特征重要度为零的特征。

第二，将每个样本数据集分别输入至第一算法模型，以获取每个特征的实际特征重要度；将原始样本数据集中的标签随机打乱，并将经打乱的样本数据集再次输入至上述第一算法模型，以获取每个特征在随机标签下的特征重要度；将上述打乱后的输入操作重复N(N为正整数)次，以获取每个特征在随机标签下的N个特征重要度；以及将实际特征重要度与随机标签下的N个特征重要度进行比较，并基于比较结果进行特征剔除。

可以理解的是，真正稳定且重要的优质特征在随机标签下的重要性会变差。相反地，若某个特征的实际特征重要度较低，但在随机标签下的重要性反而升高，则该特征为劣质特征，需要进行剔除。在一个示例中，可以基于特征重要度的统计特征值进行无效特征剔除。例如，针对每个特征，计算N个特征重要度的统计特征值，该统计特征值可以是N个特征重要度的75％分位数、平均值、或其他分位数；并且若实际特征重要度与该统计特征值的差值小于或等于第一阈值(例如，0)，则剔除该特征，反之则保留该特征。

进一步地，在可用性筛选阶段，可以利用第一算法模型(例如，LightGBM模型、随机森林模型、XGBoost模型)分别对多个样本数据集中的每个进行可用性评估，并基于评估结果确定样本数据集是否可以用于后续建模操作。示例性地，可以将每个样本数据集的训练数据分别输入至第一算法模型以进行模型训练，并基于经训练的模型获取测试效果，其中可以基于AUC(Area Under Curve，面积下曲线)指标对测试效果进行判断，例如，如果AUC值小于或等于第二阈值(例如，0.5)，则该样本数据集可以用于后续建模操作；反之，则删除该样本数据集。

在无效特征剔除以及可用性筛选之后，为了更有效地获取车辆历史数据中的时序信息，应对各样本数据集进行时序特征提取。时序特征提取可以是基于本领域已知的时序特征提取方法，包括但不限于时序数据完整性判断、时序信息特征构造、无关特征和冗余特征剔除等步骤，本发明对此不做具体限定。

接下来，在步骤S130中，利用多个样本数据集中的每个对组合模型进行训练，并基于经训练的组合模型获取故障预测结果。应理解的是，如步骤S130所述的样本数据集应包括已经过时序特征提取的时序特征数据。上述组合模型包括至少两个异质分类模型，例如，随机森林模型、LightGBM模型、神经网络(NN)模型、K最邻近(KNN)模型等。

在步骤S130的模型训练阶段，分别利用多个(M个，其中M为大于1的正整数)样本数据集中的每个对第一算法模型(例如，LightGBM模型)进行训练，以获得M个经训练的第一算法模型；并且分别利用M个样本数据集中的每个对第二算法模型(例如，随机森林模型)进行训练，以获得M个经训练的第二算法模型。接着，利用M个样本数据集中的一个(例如，第一样本数据集、或第二样本数据集、或第三样本数据集)对M个经训练的第一算法模型和M个经训练的第二算法模型进行测试，以获取每个模型的准确率。在模型的集成阶段，以每个模型的准确率为权重，对M个经训练的第一算法模型和M个经训练的第二算法模型的预测结果进行加权平均，以获取组合模型下的故障预测结果。

按照本发明的方法10采用组合视角的方式(例如，基于多种样本选择策略提取多个样本数据集)来避免从单个角度定义正负样本带来的偏颇，从而能够更全面、准确地挖掘车辆历史运行数据中的故障征兆信息。此外，按照本发明的方法10基于例如方差过滤法或特征重要度对样本数据集中的无效特征进行剔除，并进一步采用组合模型的方式提升模型的性能，从而能够实现整体计算量以及模型的故障预测准确度之间的平衡。

图2为按照本发明的一个实施例的用于车辆故障预测的计算机系统20的框图。如图2中所示，计算机系统20包括存储器210、处理器220和存储在存储器210上并可在处理器220上运行的计算机程序230。处理器220执行计算机程序230时能够实现如图1所示的方法10。

另外，如上所述，本发明也可以被实施为一种计算机存储介质，在其中存储有用于使计算机执行如图1所示的方法10的程序。在此，作为计算机存储介质，可以采用盘类(例如，磁盘、光盘等)、卡类(例如，存储卡、光卡等)、半导体存储器类(例如，ROM、非易失性存储器等)、带类(例如，磁带、盒式磁带等)等各种方式的计算机存储介质。

在可适用的情况下，可以使用硬件、软件或硬件和软件的组合来实现由本发明提供的各种实施例。而且，在可适用的情况下，在不脱离本发明的范围的情况下，本文中阐述的各种硬件部件和/或软件部件可以被组合成包括软件、硬件和/或两者的复合部件。在可适用的情况下，在不脱离本发明的范围的情况下，本文中阐述的各种硬件部件和/或软件部件可以被分成包括软件、硬件或两者的子部件。另外，在可适用的情况下，预期的是，软件部件可以被实现为硬件部件，以及反之亦然。

根据本发明的软件(诸如程序代码和/或数据)可以被存储在一个或多个计算机存储介质上。还预期的是，可以使用联网的和/或以其他方式的一个或多个通用或专用计算机和/或计算机系统来实现本文中标识的软件。在可适用的情况下，本文中描述的各个步骤的顺序可以被改变、被组合成复合步骤和/或被分成子步骤以提供本文中描述的特征。

提供本文中提出的实施例和示例，以便最好地说明按照本发明及其特定应用的实施例，并且由此使本领域的技术人员能够实施和使用本发明。但是，本领域的技术人员将会知道，仅为了便于说明和举例而提供以上描述和示例。所提出的描述不是意在涵盖本发明的各个方面或者将本发明局限于所公开的精确形式。

Claims

一种基于车辆历史数据的故障预测方法，其特征在于，包括：

A、基于不同的样本选择策略从所述车辆历史数据中提取多个样本数据集；

B、分别针对所述多个样本数据集中的每个进行无效特征剔除以及可用性筛选；以及

C、利用所述多个样本数据集中的每个对组合模型进行训练，并基于经训练的组合模型获取故障预测结果。
根据权利要求1所述的方法，其中，步骤A包括：

A1、接收故障车辆簇和非故障车辆簇的车辆历史数据，其中所述车辆历史数据包括车辆内的至少一个来源在以出现故障的时间点为终点的第一时段期间的历史数据；

A2、基于正样本选取策略从所述车辆历史数据中提取正样本数据；

A3、基于多种负样本选取策略从所述车辆历史数据中提取多组负样本数据；以及

A4、将所述正样本数据分别与所述多组负样本数据中的每一组相组合，以生成用于故障预测的多个样本数据集。
根据权利要求2所述的方法，在步骤A2中，所述正样本选取策略包括：从所述故障车辆簇的车辆历史数据中提取以出现故障的时间点为终点的第二时段期间的历史数据，其中所述第二时段小于所述第一时段。
根据权利要求3所述的方法，在步骤A3中，所述负样本选取策略包括以下各项中的至少两项：

从所述非故障车辆簇中随机选取非故障车辆子集，并从所述非故障车辆子集的车辆历史数据中随机提取第一组负样本数据；

从所述故障车辆簇的车辆历史数据中提取以所述第二时段的起点为终点的第三时段期间的历史数据以作为第二组负样本数据，其中所述第三时段小于所述第一时段；以及

从所述故障车辆簇中选取累计运行时长小于最小故障时长的故障车辆子集，并从所述故障车辆子集的车辆历史数据中提取第三组负样本数据。
根据权利要求1所述的方法，其中，步骤B包括以下之一：

利用方差过滤法，剔除每个样本数据集中的非发散特征；

将所述样本数据集分别输入至算法模型以计算每个特征的特征重要度，并基于所述特征重要度的大小进行特征剔除。
根据权利要求1所述的方法，其中，步骤B包括：

B1、针对每个样本数据集，计算样本数据集中每个特征的方差并从所述样本数据集中剔除方差为零的特征。
根据权利要1所述的方法，其中，步骤B包括针对每个样本数据集进行下列操作：

B2、将原始样本数据集输入至第一算法模型，以获取每个特征的实际特征重要度；

B3、将原始样本数据集中的标签随机打乱，并将经打乱的样本数据集输入至所述第一算法模型，以获取每个特征在随机标签下的特征重要度；

B4、将步骤B3重复N次，以获取每个特征在随机标签下的N个特征重要度；以及

B5、将所述实际特征重要度与随机标签下的所述N个特征重要度进行比较，并基于比较结果进行特征剔除。
根据权利要求7所述的方法，其中，步骤B5包括：

针对每个特征，计算所述N个特征重要度的统计特征值，所述统计特征值包括所述N个特征重要度的75％分位数；

计算所述实际特征重要度与所述统计特征值的差值；以及

若所述差值小于或等于第一阈值，则剔除该特征。
根据权利要求1所述的方法，其中，步骤B进一步包括：

利用第一算法模型对所述多个样本数据集中的每个分别进行可用性评估，并且筛除AUC值小于或等于第二阈值的样本数据集。
根据权利要求1所述的方法，其中，步骤C包括：

C1、分别利用M个样本数据集中的每个对第一算法模型进行训练，以获得M个经训练的第一算法模型；

C2、分别利用M个样本数据集中的每个对第二算法模型进行训练，以获得M个经训练的第二算法模型；

C3、利用所述M个样本数据集中的一个对所述M个经训练的第一算法模型和所述M个经训练的第二算法模型进行测试，以获取每个模型的准确率；以及

C4、以所述每个模型的准确率为权重，对所述M个经训练的第一算法模型和所述M个经训练的第二算法模型的预测结果进行加权平均，以获取组合模型下的故障预测结果。
一种用于车辆故障预测的计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10中任一项所述的方法。
一种计算机存储介质，其特征在于，所述计算机存储介质包括指令，所述指令在运行时执行根据权利要求1至10中任一项所述的方法。