WO2021057069A1

WO2021057069A1 - 计算机执行的车辆定损方法及装置

Info

Publication number: WO2021057069A1
Application number: PCT/CN2020/093890
Authority: WO
Inventors: 蒋晨; 程远; 郭昕
Original assignee: 支付宝(杭州)信息技术有限公司
Priority date: 2019-09-27
Filing date: 2020-06-02
Publication date: 2021-04-01
Also published as: CN110647853A

Abstract

本说明书实施例提供一种计算机执行的车辆定损方法，基于对受损车辆进行拍摄产生的视频流进行智能定损。具体的，首先对视频流中的图像帧进行初步的目标检测和特征提取，得到视频流特征矩阵。并且，还对视频流中的关键帧再次进行目标检测，得到关键帧向量。接着，分别针对各个部件，融合视频流特征矩阵和关键帧向量中的特征，生成部件的综合损伤特征。另一方面，还基于视频流特征矩阵进行初步定损，得到初步定损结果。最后，基于初步定损结果和各个部件的综合损伤特征再次进行定损，得到针对视频流的最终定损结果。

Description

计算机执行的车辆定损方法及装置

技术领域

本说明书一个或多个实施例涉及视频处理技术领域，尤其涉及利用机器学习处理视频流以进行车辆智能定损的方法和装置。

背景技术

在传统车险理赔场景中,保险公司需要派出专业的查勘定损人员到事故现场进行现场查勘定损，给出车辆的维修方案和赔偿金额，并拍摄现场照片，定损照片留档以供后台核查人员核损核价。由于需要人工查勘定损，保险公司需要投入大量的人力成本，和专业知识的培训成本。从普通用户的体验来说，理赔流程由于等待人工查勘员现场拍照、定损员在维修地点定损、核损人员在后台核损，理赔周期长达1-3天，用户的等待时间较长，体验较差。

针对需求背景中提到的这一人工成本巨大的行业痛点，开始设想将人工智能和机器学习应用到车辆定损的场景中，希望能够利用人工智能领域计算机视觉图像识别技术，根据普通用户拍摄的现场损失图片，自动识别图片中反映的车损状况，并自动给出维修方案。如此，无需人工查勘定损核损，大大减少了保险公司的成本，提升了普通用户的车险理赔体验。

不过，目前的智能定损方案，对车损进行确定的准确度还有待进一步提高。因此，希望能有改进的方案，能够对车辆损伤的检测结果进行进一步优化，提高识别准确度。

发明内容

本说明书一个或多个实施例描述了基于视频流的车辆智能定损的方法和装置，可以全面提高智能定损的准确性。

根据第一方面，提供一种计算机执行的车辆定损方法，该方法包括：获取视频流的特征矩阵，所述视频流针对损伤车辆而拍摄，所述特征矩阵至少包括与所述视频流中N个图像帧分别对应、且按照所述N个图像帧的时序排列的N个M维向量，每个M维向量至少包括，针对对应的图像帧，通过预先训练的第一部件检测模型得到的部件检测信息，以及通过预先训练的第一损伤检测模型得到的损伤检测信息；获取所述视频流中的K个关键帧；针对所述K个关键帧，生成对应的K个关键帧向量，每个关键帧向量包括，针对对应的关键帧图像，通过预先训练的第二部件检测模型得到的部件检测信息，以及通过预先训练的第二损伤检测模型得到的损伤检测信息；融合所述N个M维向量和所述K个关键帧向量中的部件检测信息和损伤检测信息，得到各个部件的综合损伤特征；获取初步损伤结果，所述初步损伤结果包括，将所述特征矩阵输入预先训练的卷积神经网络后得到的所述各个部件的损伤结果；将所述各个部件的综合损伤特征和所述初步损伤结果输入预先训练的决策树模型，得到针对所述视频流的最终定损结果。

在一个实施例中，获取视频流的特征矩阵包括，从移动终端接收所述特征矩阵。

在一个实施例中，获取视频流的特征矩阵包括：获取所述视频流；针对所述N个图像帧中的各个图像帧，通过所述第一部件检测模型进行部件检测，得到部件检测信息，并通过所述第一损伤检测模型进行损伤检测，得到损伤检测信息；至少基于所述部件检测信息和所述损伤检测信息，形成各个图像帧对应的M维向量；根据N个图像帧各自的M维向量，生成所述特征矩阵。

在一个实施例中，获取所述视频流中的K个关键帧包括：从移动终端接收所述K个关键帧。

在一个实施例中，所述第二部件检测模型不同于所述第一部件检测模型，所述第二损伤检测模型不同于所述第一损伤检测模型。

在一个实施例中，融合所述N个M维向量和所述K个关键帧向量中的部件检测信息和损伤检测信息，得到各个部件的综合损伤特征，包括：确定至少一个备选受损部件，其中包括第一部件；对于所述N个M维向量和所述K个关键帧向量中的各个向量，通过对单个向量中的部件检测信息和损伤检测信息进行帧内融合，得到所述第一部件的帧综合特征，并通过将针对各个向量得到的所述第一部件的帧综合特征进行帧间融合，得到所述第一部件的综合损伤特征。

在一个实施例中，获取初步损伤结果包括，从移动端接收所述初步损伤识别结果。

在一个实施例中，所述特征矩阵包括M行S列，其中S不小于N，所述卷积神经网络包括若干一维卷积核，所述将所述特征矩阵输入预先训练的卷积神经网络，包括：利用所述若干一维卷积核在所述特征矩阵的行维度上，对所述特征矩阵进行卷积处理。

在一个实施例中，所述卷积神经网络通过以下方式训练：获取多个训练样本，其中每个训练样本包括每个视频流的样本特征矩阵和对应的损伤结果标签，所述每个视频流的样本特征矩阵至少包括与所述每个视频流中N个图像帧分别对应、且按照该N个图像帧的时序排列的N个M维向量；使用所述多个训练样本，训练所述卷积神经网络。

在一个具体的实施例中，所述损伤结果标签包括以下中的至少一种：损伤材质、损伤类别、损伤部件的部件类别。

在一个实施例中，在得到针对所述视频流的最终定损结果之后，所述方法还包括：根据所述最终定损结果，确定对应的换修方案。

根据第二方面，提供一种计算机执行的车辆定损装置，该装置包括：第一获取单元，配置为获取视频流的特征矩阵，所述视频流针对损伤车辆而拍摄，所述特征矩阵至少包括与所述视频流中N个图像帧分别对应、且按照所述N个图像帧的时序排列的N个M维向量，每个M维向量至少包括，针对对应的图像帧，通过预先训练的第一部件检测模型得到的部件检测信息，以及通过预先训练的第一损伤检测模型得到的损伤检测信息；第二获取单元，配置为获取所述视频流中的K个关键帧；生成单元，配置为针对所述K个关键帧，生成对应的K个关键帧向量，每个关键帧向量包括，针对对应的关键帧图像，通过预先训练的第二部件检测模型得到的部件检测信息，以及通过预先训练的第二损伤检测模型得到的损伤检测信息；融合单元，配置为融合所述N个M维向量和所述K个关键帧向量中的部件检测信息和损伤检测信息，得到各个部件的综合损伤特征；第三获取单元，配置为获取初步损伤结果，所述初步损伤结果包括，将所述特征矩阵输入预先训练的卷积神经网络后得到的所述各个部件的损伤结果；定损单元，配置为将所述各个部件的综合损伤特征和所述初步损伤结果输入预先训练的决策树模型，得到针对所述视频流的最终定损结果。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

根据本说明书实施例提供的方法和装置，基于对受损车辆进行拍摄产生的视频流进行智能定损。具体地，一方面，融合视频流的特征矩阵和关键帧的信息得到综合损伤特征，另一方面，将所述特征矩阵输入预先训练的卷积神经网络中得到初步损伤结果，再将综合损伤特征和初步损伤结果一起输入决策模型中，以得到最终的定损结果。通过以上方式，全面提升车辆智能定损的准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的典型实施场景示意图；

图2示出根据一个实施例的车辆定损方法的流程图；

图3a示出针对某个图像帧得到的部件检测信息的例子；

图3b示出针对某个图像帧得到的损伤检测信息的例子；

图4示出根据一个具体例子的对特征矩阵做卷积的示意图；

图5示出根据一个实施例的车辆定损装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

车辆智能定损，主要涉及从普通用户拍摄的车损现场的图片中，自动识别出车辆的受损状况。为了实现对车损状况的识别，业界普遍采用的方法是，将用户拍摄的待识别的车损图片，与海量历史数据库进行比对得到相似的图片，基于相似图片的定损结果来决定待识别图片上的损伤部件及其程度。然而，这样的方式损伤识别准确率不够理想。

根据一种实施方式，通过监督训练的机器学习方式，训练图片的目标检测模型，采用这样的模型对车辆的部件目标和损伤目标分别进行检测，然后基于检测结果的综合分析，确定图片中车辆的车损状况。

更进一步地，根据本说明书的构思和实施框架，考虑到视频流比孤立的图片更能准确反映车辆的全面信息，提出一种基于视频流的智能定损方式。图1为本说明书披露的一个实施例的典型实施场景示意图。如图1所示，用户可以通过便携式移动终端，例如智能手机，对车损现场进行拍摄，生成视频流。移动终端上可以安装有定损识别相关的应用或工具，该应用或工具可以对视频流进行初步处理，对其中的N个图像帧进行轻量级的、初步的目标检测和特征提取，每个帧的目标检测结果和特征提取结果可以构成一个M维向量。于是，移动终端通过对视频流的初步处理可以生成一个特征矩阵，该矩阵至少包括N个M维向量。移动终端中的应用还可以从视频流中确定出其中的关键帧，并且，利用CNN定损模型基于上述生成的特征矩阵进行初步定损，得到初步损伤结果。

接着，移动终端可以将上述特征矩阵、关键帧和初步损伤结果发送至服务端。

服务端一般具有更为强大和可靠的计算能力，因此，服务端可以利用更为复杂也更为准确的目标检测模型，对视频流中的关键帧再次进行目标检测，从中检测出车辆的部件信息和损伤信息。

然后，服务端将特征矩阵的信息和针对关键帧检测的信息进行融合，产生针对各个部件的综合损伤特征。此外需要理解的是，上述初步损伤结果中包括针对各个部件的定损结果。

在此基础上，可以将各个部件的综合损伤特征和上述初步损伤结果输入预先训练的决策树模型，得到针对视频流的最终定损结果，实现智能定损。

下面描述智能定损的具体实现过程。

图2示出根据一个实施例的车辆定损方法的流程图。该方法可以通过服务端执行，服务端可以体现为任何具有计算、处理能力的装置、设备、平台和设备集群。如图2所示，该方法至少包括以下步骤：

步骤21，获取视频流的特征矩阵，所述视频流针对损伤车辆而拍摄，所述特征矩阵至少包括与所述视频流中N个图像帧分别对应、且按照所述N个图像帧的时序排列的N个M维向量，每个M维向量至少包括，针对对应的图像帧，通过预先训练的第一部件检测模型得到的部件检测信息，以及通过预先训练的第一损伤检测模型得到的损伤检测信息；

步骤22，获取所述视频流中的K个关键帧；

步骤23，针对K个关键帧，生成对应的K个关键帧向量，每个关键帧向量包括，针对对应的关键帧图像，通过预先训练的第二部件检测模型得到的部件检测信息，以及通过预先训练的第二损伤检测模型得到的损伤检测信息；

步骤24，融合所述N个M维向量和所述K个关键帧向量中的部件检测信息和损伤检测信息，得到各个部件的综合损伤特征；

步骤25，获取初步损伤结果，所述初步损伤结果包括，将所述特征矩阵输入预先训练的卷积神经网络后得到的所述各个部件的损伤结果；

步骤26，将所述各个部件的综合损伤特征和初步损伤结果输入预先训练的决策树模型，得到针对所述视频流的最终定损结果。

下面描述以上各个步骤的执行方式。

首先，在步骤21，获取视频流的特征矩阵。

可以理解，在车辆定损的场景中，视频流为用户利用移动终端中的图像采集设备，如摄像头，针对车损现场的损伤车辆进行拍摄而产生。如前所述，移动终端可以通过对应的应用或工具，对该视频流进行初步处理，生成上述特征矩阵。

具体而言，可以从视频流中抽取N个图像帧，对其进行初步处理。这里的N个图像帧可以包括视频流中的每一图像帧，也可以是按照预定时间间隔(如500ms)抽取的图像帧，还可以是按照其他抽取方式从视频流中获得的图像帧。

对于抽取出的每个图像帧，对该图像帧进行目标检测和特征提取，从而针对每个图像帧生成M维向量。

如本领域技术人员所知，目标检测用于从图片中识别出特定的目标对象，并对目标对象进行分类。通过利用标注有目标位置和目标类别的图片样本进行训练，可以得到各种目标检测模型。其中，部件检测模型和损伤检测模型是目标检测模型的具体化应用。当将车辆部件作为目标对象进行标注和训练，可以得到部件检测模型；当将车辆上的损伤对象作为目标对象进行标注和训练，可以得到损伤检测模型。

在该步骤中，为了对每个图像帧进行初步处理，可以采用预先训练的部件检测模型，此处称为第一部件检测模型，对图像帧进行部件检测，得到部件检测信息；并且采用预先训练的损伤检测模型，此处称为第一损伤检测模型，对图像帧进行损伤检测，得到损伤检测信息。

需要理解，本文中的“第一”、“第二”等用语，仅仅是为了区分同类事物，并不意在对其顺序等其他方面进行限定。

在本领域中，目标检测模型多是在卷积神经网络CNN的基础上，通过各种检测算法来实现。为了优化传统的卷积神经网络CNN的计算效率，已经提出多种轻量级的网络结构，例如包括SqueezeNet、MobileNet、ShuffleNet、Xception等等。这些轻量级的神经网络结构，通过采用不同的卷积计算方式，减少网络参数，从而简化传统CNN的卷积计算，提高其计算效率。这样的轻量级的神经网络结构特别适合于在计算资源有限的移动终端中运行。

相应地，在一个实施例中，上述的第一部件检测模型和第一损伤检测模型，均采用以上轻量级的网络结构实现。

通过采用上述第一部件检测模型对图像帧进行部件检测，可以得到该图像帧中的部件检测信息。一般而言，部件检测信息可以包括，从对应图像帧中框选出车辆部件的部件检测框信息，以及针对该框选出的部件预测的部件类别。更具体地，部件检测框信息可以包括，部件检测框的位置，例如表示为(x，y，w，h)形式，以及从图像帧中提取的该部件检测框对应的图片卷积信息。

类似的，采用上述第一损伤检测模型对图像帧进行损伤检测，可以得到该图像帧中的损伤检测信息，该损伤检测信息可以包括，从对应图像帧中框选出损伤对象的损伤检测框信息，以及针对框选出的该处损伤进行预测的损伤类别。

图3a示出针对某个图像帧得到的部件检测信息的例子。可以看到，图3a中包括了若干部件检测框，每个部件检测框框选出一个部件。第一部件检测模型还可以针对每个部件检测框对应输出预测部件类别，例如各个矩形框左上角的数字即表示部件类别。例如，图3a中数字101代表右前门，102代表右后门，103代表门把手，等等。

图3b示出针对某个图像帧得到的损伤检测信息的例子。可以看到，图3b中包括了一系列矩形框，即为第一损伤检测模型输出的损伤检测框，每个损伤检测框框选出一处损伤。第一损伤检测模型还针对每个损伤检测框对应输出有预测损伤类别，例如各个矩形框左上角的数字即表示损伤类别。例如，图3b中数字12代表损伤类别为刮擦，还可能有其他数字代表其他损伤类别，例如用数字10代表变形，数字11代表撕裂，数字13代表(玻璃物件)的碎裂，等等。

在一个实施例中，上述第一部件检测模型还用于对检测的车辆部件进行图像分割，以得到对图像帧中各个部件的轮廓分割结果。

如本领域技术人员所知，图像分割是将图像分割或者划分为属于/不属于特定目标对象的区域，其输出可以表现为覆盖特定目标对象区域的蒙层(Mask)。在本领域中，已基于各种网络结构和各种分割算法提出了多种图像分割模型，例如基于CRF(条件随机场)的分割模型，Mask R-CNN模型等等。部件分割作为图像分割的一种具体应用，可以用于将车辆图片划分为属于/不属于特定部件的区域。部件分割可以采用任意的现有分割算法来实现。

在一个实施例中，上述第一部件检测模型被训练为，既可以对部件进行识别(即位置预测和类别预测)，又可以对部件进行分割。例如，可以采用基于Mask R-CNN的模型作为上述第一部件检测模型，该模型在基础卷积层后，通过两个网络分支，分别进行部件的识别和部件的分割。

在另一实施例中，上述第一部件检测模型包括用于部件识别的第一子模型，和用于部件分割的第二子模型。第一子模型输出部件识别结果，第二子模型输出部件分割结果。

在第一部件检测模型还用于进行部件分割的情况下，得到的部件检测信息还包括部件分割的结果。部件分割结果可以体现为各个部件的轮廓或覆盖区域。

如上，通过第一部件检测模型对某个图像帧进行部件检测，可以得到部件检测信息；通过第一损伤检测模型对该图像帧进行损伤检测，可以得到损伤检测信息。于是，可以基于部件检测信息和损伤检测信息，形成该图像帧对应的M维向量。

例如，在一个例子中，针对抽取的每个图像帧，形成60维向量，其中前30维的元素表示部件检测信息，后30维的元素表示损伤检测信息。

根据一种实施方式，除了对图像帧进行目标检测(包括部件检测和损伤检测)，还对图像帧进行其他方面的特征分析和提取，将其包含在上述M维向量中。

在一个实施例中，对抽取的图像帧，获取其视频连续性特征，该特征可以反映图像帧之间的变化，进而反映出视频的稳定性和连续性，还可以用于对图像帧中的目标进行追踪。

在一个例子中，对于当前图像帧，可以获取该图像帧相对于前一图像帧的光流变化特征作为其连续性特征。光流变化可以采用一些现有的光流模型来计算获得。

在一个例子中，对于当前图像帧，可以获取该图像帧与前一图像帧的图像相似性(Strcture Similarity)作为连续性特征。在一个具体例子中，图像相似性可以通过SSIM(structural similarity index measurement)指数来衡量。具体的，当前图像帧与前一图像帧之间的SSIM指数，可以基于当前图像帧中各像素点的平均灰度值和灰度方差、前一图像帧中各像素点的平均灰度值和灰度方差，以及当前图像帧和前一图像帧中各像素点的协方差等计算得到。SSIM指数的最大值为1，SSIM指数越大，图像的结构相似度越高。

在一个例子中，对于当前图像帧，可以获取该图像帧中若干特征点相对于前一图像帧的偏移特征，基于该偏移特征确定连续性特征。具体而言，图像的特征点是图像中具有鲜明特性并能够有效反映图像本质特征、能够标识图像中目标物体的点(例如左前车灯的左上角)。特征点可以通过诸如SIFT(Scale-invariant feature transform，尺度不变特征变换)、LBP(Local Binary Pattern，局部二值模式)之类的方式确定。如此，可以根据特征点的偏移，来评估相邻两幅图像帧的变化。典型地，特征点的偏移可以通过投影矩阵(projective matrix)来描述。举例而言，假设当前图像帧的特征点集合为Y，前一图像帧的特征点集合为X，可以求解一个变换矩阵w，使得f(X)＝Xw的结果尽可能接近Y，则求解出的变换矩阵w就可以作为前一图像帧到当前图像帧的投影矩阵。进一步地，可以将该投影矩阵作为当前图像帧的连续性特征。

可以理解，以上例子中的多种连续性特征，可以单独使用，也可以组合使用，在此不做限定。在更多实施方式中，还可以采用更多的方式确定图像帧之间的变化特征作为其连续性特征。

需要说明的是，在当前图像帧是视频流的第一个图像帧的情况下，确定其连续性特征时，可以将该图像帧本身作为它的前一图像帧进行对比，也可以直接将其连续性特征确定为预定值，例如投影矩阵的各个元素都为1，或者光流输出为0，等等。

根据一种实施方式，对于抽取的图像帧，还获取其图像帧质量特征，该特征可以反映图像帧的拍摄质量，也就是对于目标识别的有效性。一般而言，移动终端的应用中可以包含拍摄引导模型，用于引导用户的拍摄，例如距离的引导(更加靠近或者远离受损车辆)，角度的引导等等。拍摄引导模型在进行拍摄引导中，会分析产生图像帧质量特征。图像帧质量特征可以包括：表示图像帧是否模糊的特征、表示图像帧是否包含目标的特征、表示图像帧光照是否充足的特征、表示图像帧拍摄角度是否预定角度的特征等等。这些特征中的一项或多项也可以包含在前述的针对每个图像帧的M维向量中。

例如，在一个具体例子中，针对抽取的每个图像帧，形成80维向量，其中1-10维的元素表示图像帧质量特征，11-20维的元素表示视频连续性特征，21-50维的元素表示部件检测信息，51-80维的元素表示损伤检测信息。

如此，通过对视频流中抽取的N个图像帧分别进行目标检测和特征提取，为每个图像帧生成M维向量，于是生成了N个M维向量。

在一个实施例中，将这N个M维向量按照N个图像帧的时序进行排列，从而得到一个N*M维矩阵，作为视频流的特征矩阵。

在一个实施例中，还对N个图像帧对应的N个M维向量进行预处理，作为视频流的特征矩阵。该预处理可以包括归一化操作，从而将特征矩阵整理为固定的维度。

可以理解，特征矩阵的维度通常是预先设定的，而视频流中的图像帧往往是按照一定时间间隔抽取的，而视频流的长度一直在变化，且其总长度可能无法预先知晓。因此，将实际抽取的图像帧的M维向量直接进行组合并不总是能够符合特征矩阵的维度要求。在一个实施例中，假定特征矩阵的维度预先设定为S帧*M向量。如果从视频流中抽取的图像帧数目小于S，则可以通过补齐操作、插值操作、池化操作等方式，将抽取的图像帧对应的M维向量，整理为S*M维矩阵。在这样的情况下，S>N，N为特征矩阵中包含的实际抽取的图像帧的数目。在一个具体的实施例中，可以利用插值方式在N个M维向量中补充S-N个M维向量，以得到S行M列的特征矩阵。而如果从视频流中实际抽取的图像帧数目大于S，可以丢弃部分图像帧，最终使得特征矩阵满足预定的维度。在一个具体的实施例中，可以随机丢弃或者按照预定间隔丢弃一部分图像帧对应的M维向量，以生成S行M列的特征矩阵。在这样的情况下，S＝N，N为特征矩阵中最后保留的图像帧的数目。

如上，通过对视频流中图像帧的初步处理，生成了视频流的特征矩阵，该特征矩阵至少包括与视频流中N个图像帧分别对应、且按照N个图像帧的时序排列的N个M维向量，每个M维向量至少包括，针对对应的图像帧，通过预先训练的第一部件检测模型得到的部件检测信息，以及通过预先训练的第一损伤检测模型得到的损伤检测信息。

可以理解，在以上实施例中，图像帧的初步处理以及特征矩阵的生成通过移动终端执行。在这样的情况下，就服务端而言，在步骤21，仅需要从移动终端接收该特征矩阵。这样的方式适合于移动终端中已安装有定损识别对应的应用或工具，且具备一定的计算能力的情况。由于特征矩阵的传输数据量远远小于视频流本身，因此，这样的方式非常有利于网络传输。

在另一实施例中，移动终端在拍摄视频流之后，将视频流传送到服务端，由服务端对各个图像帧进行处理，生成特征矩阵。在这样的情况下，就服务端而言，在步骤21，从移动终端获取拍摄的视频流，然后从中抽取图像帧，并对抽取的图像帧进行目标检测和特征提取，生成M维向量。具体地，可以针对各个图像帧，通过前述的第一部件检测模型进行部件检测，得到部件检测信息，并通过第一损伤检测模型进行损伤检测，得到损伤检测信息；并且至少基于所述部件检测信息和所述损伤检测信息，形成各个图像帧对应的M维向量。然后，根据N个图像帧各自的M维向量，生成所述特征矩阵。以上过程与在移动终端中执行的过程相类似，不复赘述。

除了获取视频流的特征矩阵，在步骤22，服务端还获取所述视频流中的K个关键帧，其中K大于等于1，且小于前述的图像帧数目N。

在一个实施例中，由移动终端确定视频流中的K个关键帧，并将关键帧发送到服务端。因此，就服务端而言，在步骤22，仅需要从移动终端接收该K个关键帧。

或者，在另一实施例中，在步骤22，由服务端确定视频流中的关键帧。

不管是通过移动终端还是通过服务端，都可以采用多种已有的关键帧确定方式，确定出视频流中的关键帧。

例如，在一个实施例中，可以根据各个图像帧的质量特征，确定出综合质量较高的图像帧作为关键帧；在另一实施例中，可以根据各个图像帧的连续性特征，确定出相对于前一帧变化较大的图像帧作为关键帧。

取决于前述N个图像帧的抽取方式以及关键帧的确定方式，确定出的关键帧可以包含在N个图像帧中，也可以不同于前述的N个图像帧。

接着，在步骤23，对于步骤22获取的各个关键帧的图像，再次对其进行目标检测。具体地，可以通过预先训练的第二部件检测模型对该关键帧图像进行部件检测，得到部件检测信息，并通过预先训练的第二损伤检测模型对其进行损伤检测，得到损伤检测信息，基于该部件检测信息和损伤检测信息生成关键帧向量。

需要理解，此处的第二部件检测模型可以不同于为生成特征矩阵对图像帧进行初步处理所采用的第一部件检测模型。一般而言，第二部件检测模型是比第一部件检测模型更为准确更为复杂的模型，从而对视频流中的关键帧进行更为精准的部件检测。特别是，在特征矩阵由移动终端生成的情况下，第一部件检测模型通常是基于轻量级网络结构的模型，从而适合于移动终端有限的计算能力和资源；而第二部件检测模型可以是对计算能力有更高要求、适合于服务端的检测模型，从而对图像特征进行更为复杂的运算，得到更精确的结果。类似的，第二损伤检测模型也可以比前述的第一损伤检测模型更复杂更准确，从而对视频流中的关键帧进行更为精准的损伤检测。

在一个实施例中，第二部件检测模型还用于对部件进行图像分割。在这样的情况下，基于第二部件检测模型得到的部件检测信息中，还包括对关键帧图像中包含的部件进行图像分割的信息，即部件的轮廓信息。

如此，通过第二部件检测模型和第二损伤检测模型，对关键帧的图像再次进行目标检测，基于得到的部件检测信息和损伤检测信息，可以形成关键帧向量。针对K个关键帧，可以形成K个关键帧向量。

在一个具体例子中，关键帧向量为70维向量，其中1-35维的元素表示部件检测信息，36-70维的元素表示损伤检测信息。

接着，在步骤24，融合所述N个M维向量和所述K个关键帧向量中的部件检测信息和损伤检测信息，得到各个部件的综合损伤特征。

具体地，本步骤可以包括：确定至少一个备选受损部件，其中包括第一部件；对于所述N个M维向量和所述K个关键帧向量中的各个向量，通过对单个向量中的部件检测信息和损伤检测信息进行帧内融合，得到所述第一部件的帧综合特征，并通过将针对各个向量得到的所述第一部件的帧综合特征进行帧间融合，得到所述第一部件的综合损伤特征。

针对上述至少一个备选受损部件的确定，在一个实施例中，将车辆的各个部件均作为备选受损部件。例如，假设车辆预先被划分为100种部件，那么可以将这100种部件均作为备选受损部件。这样的方式不会出现遗漏，但是冗余计算较多，后续处理负担较大。

如前所述，在生成视频流的特征矩阵和关键帧向量时，均对图像帧进行了部件检测，得到的部件检测信息包含针对部件进行预测的部件类别。在一个实施例中，将部件检测信息中出现的部件类别作为备选受损部件。

更具体地，可以基于N个M维向量中的部件检测信息，确定第一备选部件集合。可以理解，每个M维向量的部件检测信息中可以包含若干部件检测框和对应的预测部件类别，可以将N个M维向量中预测部件类别的并集，作为第一备选部件集合。

类似的，可以基于K个关键帧向量中的部件检测信息，确定第二备选部件集合，即各个关键帧向量中预测部件类别的并集。然后，将上述第一备选部件集合和第二备选部件集合的并集中的部件，作为备选受损部件。换而言之，如果一个部件类别出现在视频流的特征矩阵中，或者出现在关键帧向量中，就意味着，在视频流的N个图像帧中检测到该类别的部件，或者在关键帧中检测到该部件，于是，可以将该类别的部件作为备选受损部件。

通过以上方式，可以得到多个备选受损部件。下面以其中任意的一个部件，(简单起见称为第一部件)为例，描述后续处理方式。

对于任意的第一部件，例如图3a所示的右后门，在步骤24，对视频流的特征矩阵以及各个关键帧向量进行融合，得到该第一部件的综合损伤特征。为了得到综合损伤特征，融合操作可以包括帧内融合(或称第一融合)和帧间融合(或称第二融合)。在帧内融合中，将各个帧对应的向量中的部件检测信息和损伤检测信息进行融合，得到该帧中关于第一部件的帧综合特征；然后结合时序信息，通过帧间融合将各个帧对应的第一部件的帧综合特征进行融合，得到该第一部件的综合损伤特征。下面分别描述帧内融合和帧间融合的过程。

帧内融合旨在获取到某个帧中关于第一部件的部件级损伤特征，又称为帧综合特征。在一个实施例中，第一部件的帧综合特征可以包括，该帧中第一部件的部件特征，以及与该第一部件相关的损伤特征。例如，可以将第一部件的帧综合特征对应的向量和该第一部件相关的损伤特征对应的向量进行拼接，将对应得到的拼接向量作为第一部件的帧综合特征。

一方面，在一个实施例中，上述N个图像帧包括第一图像帧，对应于第一M维向量；上述得到所述第一部件的帧综合特征包括：从所述第一M维向量中的部件检测信息中提取与所述第一部件有关的第一检测信息；基于所述第一检测信息，确定所述第一图像帧中所述第一部件的部件特征，作为与所述第一图像帧对应的、所述第一部件的帧综合特征的一部分。

在一个具体的实施例中，上述N个图像帧还包括在所述第一图像帧之后的第二图像帧，对应于第二M维向量；所述每个M维向量还包括，视频连续性特征；上述得到所述第一部件的帧综合特征还包括：从所述第二M维向量中提取视频连续性特征；基于所述第一检测信息和所述视频连续性特征，确定该第一部件在所述第二图像帧中的第二检测信息；基于所述第二检测信息，确定所述第一部件在所述第二图像帧中的部件特征，作为与所述第二图像帧对应的、所述第一部件的帧综合特征的一部分。

更具体地，在一个例子中，上述视频连续性特征包括以下中的至少一项：图像帧之间的光流变化特征，图像帧之间的相似性特征，基于图像帧之间的投影矩阵确定的变换特征。

另一方面，在一个实施例中，上述N个图像帧包括第一图像帧，对应于第一M维向量；所述第一M维向量中的损伤检测信息包括，从所述第一图像帧中框选出多个损伤对象的多个损伤检测框的信息；上述得到所述第一部件的帧综合特征包括：根据所述第一M维向量中的部件检测信息和所述多个损伤检测框的信息，确定同属于该第一部件的至少一个损伤检测框；获取所述至少一个损伤检测框的损伤特征；将所述至少一个损伤检测框的损伤特征进行第一融合操作，得到与第一部件相关的损伤特征，作为与所述第一图像帧对应的、所述第一部件的帧综合特征的一部分。

在一个具体的实施例中，所述第一M维向量中的部件检测信息包括，从所述第一图像帧中框选出多个部件的多个部件检测框的信息；所述确定同属于该第一部件的至少一个损伤检测框，包括：确定所述第一部件对应的第一部件检测框；根据所述多个损伤检测框与所述第一部件检测框的位置关系，确定同属于该第一部件的至少一个损伤检测框。

在另一个具体的实施例中，所述第一M维向量中的部件检测信息包括部件分割信息；所述确定同属于该第一部件的至少一个损伤检测框，包括：根据所述部件分割信息，确定所述第一部件覆盖的第一区域；根据所述多个损伤检测框的位置信息，确定其是否落入所述第一区域；将落入所述第一区域的损伤检测框确定为所述至少一个损伤检测框。

在一个具体的实施例中，所述至少一个损伤检测框包括第一损伤检测框；所述获取所述至少一个损伤检测框的损伤特征包括，获取所述第一损伤检测框对应的第一损伤特征，该第一损伤特征包括，与所述第一损伤检测框相关的图片卷积特征。

更具地，在一个例子中，所述损伤检测信息还包括，所述多个损伤检测框中各个损伤检测框对应的预测损伤类别；所述获取所述第一损伤检测框对应的第一损伤特征还包括，根据所述第一损伤检测框与所述多个损伤检测框中其他损伤检测框之间的关联关系，确定第一关联特征作为所述第一损伤特征的一部分，所述关联关系至少包括以下中的一项或多项：损伤检测框位置关联关系，预测损伤类别关联关系，以及通过所述图片卷积特征反映的框内容关联关系。

在一个具体的实施例中，所述第一融合操作包括以下中的一项或多项：取最大操作、取最小操作、求平均操作、求和操作、求中位数操作。

以上，针对第一图像帧可以分别获取到第一部件的部件特征和损伤特征。在此基础上，将以上获取的第一部件的部件特征和损伤特征拼接或组合在一起，就可以得到第一图像帧中第一部件的帧综合特征，也就是对第一图像帧关于第一部件进行了帧内融合。得到的第一部件的帧综合特征即为第一图像帧中第一部件的部件级损伤特征。

类似的，对于N个图像帧中每个图像帧，均可以基于其对应的M维向量进行上述帧内融合，得到该帧对应的第一部件的帧综合特征，记为第一向量。如此，对于N个图像帧可以得到N个第一向量，分别对应于，针对N个图像帧得到的第一部件的帧综合特征。

对于前述的K个关键帧中的各个关键帧，也可以基于其关键帧向量中的部件检测信息和损伤检测信息进行上述帧内融合，于是得到该关键帧的第一部件的帧综合特征，记为第二向量。如此，对于K个关键帧可以得到K个第二向量，分别对应于针对K个图像帧得到的第一部件的帧综合特征。

由于关键帧向量的维度与前述的M维向量可能有所不同，因此第一向量和第二向量的维度也有可能不同，不过其帧内融合的思路和过程是类似的。

接着，对于以上针对各个帧(包括N个图像帧和K个关键帧)获得的第一部件的帧综合特征进行帧间融合，从而得到第一部件的综合特征向量，作为所述综合损伤特征。

在一个实施例中，将N个第一向量进行第一组合，得到第一组合向量，其中N个第一向量分别对应于，针对所述N个图像帧得到的所述第一部件的帧综合特征；将K个第二向量进行第二组合，得到第二组合向量，其中所述K个第二向量对应于，针对所述K个关键帧得到的所述第一部件的帧综合特征；将所述第一组合向量和第二组合向量进行综合，得到所述综合特征向量。

在一个具体的实施例中，所述将N个第一向量进行第一组合包括：将所述N个第一向量按照对应的N个图像帧的时序进行拼接。

在另一个具体的实施例中，所述将N个第一向量进行第一组合包括：确定所述N个第一向量的权重因子；根据所述权重因子，对所述N个第一向量进行加权组合。

进一步地，在一个例子中，所述确定所述N个第一向量的权重因子包括：对于所述N个图像帧中各个图像帧，从所述K个关键帧中确定时序上最接近的关键帧；根据各个图像帧与其最接近的关键帧的时序距离，确定该图像帧对应的第一向量的权重因子，使得时序距离与所述权重因子负相关。

在另一个例子中，所述每个M维向量还包括，图像帧质量特征；所述确定所述N个第一向量的权重因子包括：对于所述N个图像帧中各个图像帧，根据该图像帧对应的M维向量中的图像帧质量特征，确定该图像帧对应的第一向量的权重因子。

在一个更具体的例子中，所述图像帧质量特征包括以下至少一项：表示图像帧是否模糊的特征、表示图像帧是否包含目标的特征、表示图像帧光照是否充足的特征、表示图像帧拍摄角度是否预定角度的特征。

如此，第一部件的综合损伤特征是基于视频流的特征矩阵中的N个M维向量，以及K个关键帧向量进行融合而得到的，因此可以全面地反映，第一部件在视频流的N个图像帧，以及K个关键帧中的总体损伤特征。

在步骤25，获取初步损伤结果，所述初步损伤结果包括，将所述特征矩阵输入预先训练的卷积神经网络后得到的所述各个部件的损伤结果。

在一个实施例中，由移动终端确定初步损伤识别结果，并将初步损伤识别结果发送到服务端。因此，就服务端而言，在步骤25，仅需要从移动终端接收初步损伤结果。在另一个实施例中，在步骤25，由服务端确定针对视频流的初步损伤结果。

具体地，初步损伤结果不管是由移动终端确定，还是由服务端确定，均可以是基于预先训练的卷积神经网络而得到。

可以理解，卷积神经网络在处理图像时，其输入矩阵的格式往往是“批处理尺寸(batch_size)*长*宽*通道数”。其中，彩色图像的通道通常为“R”、“G”、“B”3个通道，即通道数为3。显然，该格式中，长和宽是相互独立的，通道之间则是相互影响的。同理，在对上述特征矩阵的二维卷积操作中，图像的不同空间位置的特征应该是独立的，二维卷积操作具有空间不变性。由于图像处理过程中一般是在“长*宽”维度上做卷积，而如果将“长*宽”替换为特征矩阵中的行数和列数，则在特征维度上，不同位置的特征之间是会相互影响的，而不是互相独立，对其进行卷积是不合理的。例如抽取细节损伤图，需要同时涉及细节图分类，损伤检测结果等多个维度的特征。也就是说，该空间不变性在时间维度成立，在特征维度上不成立。从而，这里的特征维度可以和图像处理中的通道维度的性质相对应。因此，可以对特征矩阵的输入格式进行调整，如调整为“批处理尺寸(batch_size)*1*列数(如S或N)*行数(M)”。这样，就可以在“1*列数(如S)”的维度做卷积，而每列是一个时刻的特征集合，通过对时间维度做卷积，可以挖掘出各个特征之间的关联。

在一个实施例中，卷积神经网络可以包括一个或多个卷积处理层和输出层。其中，卷积处理层可以由二维卷积层、激活层、标准化层组成，例如2D convolutional Filter+ReLU+Batch Normalization。

其中，二维卷积层可以用于通过对应于时间维度的卷积核对特征矩阵进行卷积处理。在一个具体的实施例中，所述特征矩阵包括M行S列，其中S不小于N，所述卷积神经网络包括若干一维卷积核，所述将所述特征矩阵输入预先训练的卷积神经网络，包括：利用所述若干一维卷积核在所述特征矩阵的行维度上，对所述特征矩阵进行卷积处理。在一个例子中，针对图4示出M×S的特征矩阵，可以经过诸如(1,-1,-1,1)之类的卷积核对应于时间维度进行卷积操作。在卷积神经网络的训练过程中，可以针对性地训练卷积核。例如，可以针对每个特征训练一个卷积核。例如图4示出的卷积核(1,-1,-1,1)是对应于车损检测场景中的部件损伤特征的卷积核等等。如此，经过每一个卷积核的卷积操作，可以识别一个特征(例如车损检测场景中的部件损伤特征)。

激活层可以用于把二维卷积层的输出结果做非线性映射。激活层可以通过诸如Sigmoid、Tanh(双曲正切)、ReLU之类的激励函数实现。通过激活层，二维卷积层的输出结果映射为0-1之间的非线性变化数值。

随着网络加深，经过激活层后的输出结果可能会向梯度饱和区(对应激励函数梯度变化较小的区域)移动。这样，会由于梯度减小或消失导致的卷积神经网络收敛较慢或不收敛。因此，还可以进一步通过标准化层(Batch Normalization)将激活层的输出结果拉回激励函数的梯度变化明显的区域。

输出层用于输出针对视频流的初步损伤结果。

如此，可以实现利用卷积神经网络得到初步损伤结果。另一方面，对于卷机神经网络的训练，可以利用标注有损伤识别结果的视频流作为训练样本而进行。

在一个具体的实施例中，可以先获取多个训练样本，其中每个训练样本包括每个视频流的样本特征矩阵和对应的损伤结果标签，所述每个视频流的样本特征矩阵至少包括与所述每个视频流中N个图像帧分别对应、且按照该N个图像帧的时序排列的N个M维向量。需要理解的是，其中每个视频流的样本特征矩阵，可以基于步骤21中描述的方式得到。另一方面，其中的损伤结果标签包括以下中一种或多种：损伤材质、损伤类别、损伤部件的部件类别。

再利用多个训练样本，训练所述卷积神经网络。如本领域技术人员所知，基于各个样本对应的各个样本特征矩阵和损伤结果标签，可通过例如梯度下降法调整模型的参数。模型训练过程中的损失函数例如为上述多个样本的各自的预测值与标签值之差的平方和、或者为多个样本的各自的预测值与标签值之差的绝对值之和，等等。

需要说明的是，上述训练后的用于得到初步损伤结果的卷积神经网络，可以被进一步改造而用于抽取关键帧，具体可以用于前述步骤22中，对K个关键帧的抽取。具体地，可以获取上述训练后的卷积神经网络，并且，固定此卷积神经网络中除输出层以外的其他层中的参数，再利用标注有关键帧的视频流作为训练样本进行进一步训练，调整输出层的参数，进而得到用于抽取关键帧的改造后的卷积神经网络。

接下来，在步骤26，将所述各个部件的综合损伤特征和所述初步损伤结果输入预先训练的决策树模型，得到针对所述视频流的最终定损结果。

在一个实施例中，针对上述至少一个备选受损部件中的某个部件，可以从步骤25中获取的初步损伤结果中提取该部件的损伤结果，并将此损伤结果对应的向量与该部件的综合损伤特征所对应的向量进行拼接，得到针对该部件的拼接向量。进一步地，在一个具体的实施例中，可以将该部件的拼接向量输入预先训练的决策树模型中，得到针对该部件的最终定损结果。由此，针对各个部件均进行此项操作，可以得到各个部件的最终定损结果，构成针对所述视频流的最终定损结果。

在一个实施例中，在本步骤中可以利用已有的多种具体的决策树算法，例如梯度提升决策树GBDT、分类决策树CRT，等等，作为上述决策树模型。

在一个具体的实施例中，通过利用二分类的标注样本进行预先训练，决策树模型体现为二分类模型。上述二分类的标注样本为，给定一段样本视频流，由标注人员标注出其中各个部件是否受损(受损为一个分类，未受损为另一分类)。预先训练的过程可以包括，通过前述的步骤21到25的方式，基于给定的样本视频流，针对某个部件得到其综合损伤特征和初步损伤结果，然后利用决策树模型，基于其综合损伤特征和初步损伤结果预测该部件是否受损。之后，将预测结果与该部件的标注结果进行比较，根据比较结果调整决策树模型的模型参数，使得预测结果更趋向于拟合标注结果。如此训练得到决策树二分类模型。

在这样的情况下，在步骤26，将待分析的某个部件的综合损伤特征和初步损伤结果输入到该决策树二分类模型后，模型会输出是否受损的二分类之一，于是可以得到该某个部件是否受损的结果。

在另一实施例中，通过利用多分类的标注样本进行预先训练，决策树模型体现为多分类模型。上述多分类的标注样本为，给定一段样本视频流，由标注人员标注出其中各个部件的损伤类别(例如，刮擦，变形，碎裂等多个损伤类别)。预先训练的过程可以包括，通过前述的步骤21到25的方式，基于给定的样本视频流，针对某个部件得到其综合损伤特征和初步损伤结果，然后利用决策树模型，基于其综合损伤特征和初步损伤结果预测该部件的损伤类别。之后，将预测结果与该部件的标注结果进行比较，根据比较结果调整决策树模型的模型参数，使得预测结果更趋向于拟合标注结果。如此训练得到决策树多分类模型。

在这样的情况下，在步骤26，将待分析的某个部件的综合损伤特征向量输入到该决策树多分类模型后，模型会输出预测的损伤分类类别，于是可以根据该分类类别，得到该第一部件的损伤类型，作为最终定损结果。

可以理解，上述的某个部件为备选受损部件中的任意部件。对于各个备选受损部件，均可以执行以上过程，在步骤24得到其综合损伤特征，在步骤25得到其初步损伤结果，在步骤26，基于其综合损伤特征和初步损伤结果，得到其损伤状况。于是，可以得到各个备选受损部件的损伤状况，也就得到了整案的最终定损结果。

在一个具体例子中，采用多分类决策树模型对各个备选受损部件进行预测后，可以得到以下定损结果：右后门：刮擦；后保险杠：变形；尾灯：碎裂。

在一个实施例中，将这样的最终定损结果传回到移动终端。

在确定出包含各个部件损伤状况的最终定损结果的基础上，在一个实施例中，还可以据此确定出各个部件的换修方案。

可以理解，根据定损需要，工作人员可以预先设置有映射表，其中记录各种类型的部件在各种损伤类别下的换修方案。例如，对于金属类型的部件，损伤类别为刮擦时，对应的换修方案为喷漆，损伤类别为变形时，对应的换修方案为钣金；对于玻璃类型的部件，损伤类别为刮擦时，对应的换修方案为更换玻璃，等等。

如此，对于以上举例的第一部件“右后门”，假定确定其损伤类别为刮擦，那么首先，根据部件类别“右后门”确定其归属的类型，例如为金属类型部件，然后根据损伤类别“刮擦”，确定出对应的换修方案为：喷漆。

于是，可以针对各个受损部件，确定其换修方案，将定损结果和换修方案一并传回到移动终端，实现更全面的智能定损。

根据另一方面的实施例，提供了一种车辆定损的装置，该装置可以部署在服务端，服务端可以利用任何具有计算、处理能力的设备、平台或设备集群来实现。图5示出根据一个实施例的车辆定损装置的示意性框图。如图5所示，该装置500包括：

第一获取单元510，配置为获取视频流的特征矩阵，所述视频流针对损伤车辆而拍摄，所述特征矩阵至少包括与所述视频流中N个图像帧分别对应、且按照所述N个图像帧的时序排列的N个M维向量，每个M维向量至少包括，针对对应的图像帧，通过预先训练的第一部件检测模型得到的部件检测信息，以及通过预先训练的第一损伤检测模型得到的损伤检测信息。

第二获取单元520，配置为获取所述视频流中的K个关键帧。

生成单元530，配置为针对所述K个关键帧，生成对应的K个关键帧向量，每个关键帧向量包括，针对对应的关键帧图像，通过预先训练的第二部件检测模型得到的部件检测信息，以及通过预先训练的第二损伤检测模型得到的损伤检测信息。

融合单元540，配置为融合所述N个M维向量和所述K个关键帧向量中的部件检测信息和损伤检测信息，得到各个部件的综合损伤特征。

第三获取单元550，配置为获取初步损伤结果，所述初步损伤结果包括，将所述特征矩阵输入预先训练的卷积神经网络后得到的所述各个部件的损伤结果。

定损单元560，配置为将所述各个部件的综合损伤特征和所述初步损伤结果输入预先训练的决策树模型，得到针对所述视频流的最终定损结果。

在一个实施例中，所述第一获取单元510具体配置为，从移动终端接收所述特征矩阵。

在一个实施例中，所述第一获取单元510具体配置为：获取所述视频流；针对所述N个图像帧中的各个图像帧，通过所述第一部件检测模型进行部件检测，得到部件检测信息，并通过所述第一损伤检测模型进行损伤检测，得到损伤检测信息；至少基于所述部件检测信息和所述损伤检测信息，形成各个图像帧对应的M维向量；根据N个图像帧各自的M维向量，生成所述特征矩阵。

在一个实施例中，所述第二获取单元520具体配置为：从移动终端接收所述K个关键帧。

在一个实施例中，所述融合单元540具体配置为：确定至少一个备选受损部件，其中包括第一部件；对于所述N个M维向量和所述K个关键帧向量中的各个向量，通过对单个向量中的部件检测信息和损伤检测信息进行帧内融合，得到所述第一部件的帧综合特征，并通过将针对各个向量得到的所述第一部件的帧综合特征进行帧间融合，得到所述第一部件的综合损伤特征。

在一个实施例中，所述第三获取单元550具体配置为，从移动端接收所述初步损伤识别结果。

在一个实施例中，所述卷积神经网络由训练单元进行预先训练得到，所述训练单元具体配置为：获取多个训练样本，其中每个训练样本包括每个视频流的样本特征矩阵和对应的损伤结果标签，所述每个视频流的样本特征矩阵至少包括与所述每个视频流中N个图像帧分别对应、且按照该N个图像帧的时序排列的N个M维向量；使用所述多个训练样本，训练所述卷积神经网络。

在一个实施例中，所述损伤结果标签包括以下中的至少一种：损伤材质、损伤类别、损伤部件的部件类别。

在一个实施例中，所述装置还包括：确定单元570，配置为根据所述最终定损结果，确定对应的换修方案。

通过以上的方法和装置，基于对受损车辆进行拍摄的视频流，进行智能定损。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种计算机执行的车辆定损方法，包括：

获取视频流的特征矩阵，所述视频流针对损伤车辆而拍摄，所述特征矩阵至少包括与所述视频流中N个图像帧分别对应、且按照所述N个图像帧的时序排列的N个M维向量，每个M维向量至少包括，针对对应的图像帧，通过预先训练的第一部件检测模型得到的部件检测信息，以及通过预先训练的第一损伤检测模型得到的损伤检测信息；

获取所述视频流中的K个关键帧；

针对所述K个关键帧，生成对应的K个关键帧向量，每个关键帧向量包括，针对对应的关键帧图像，通过预先训练的第二部件检测模型得到的部件检测信息，以及通过预先训练的第二损伤检测模型得到的损伤检测信息；

融合所述N个M维向量和所述K个关键帧向量中的部件检测信息和损伤检测信息，得到各个部件的综合损伤特征；

获取初步损伤结果，所述初步损伤结果包括，将所述特征矩阵输入预先训练的卷积神经网络后得到的所述各个部件的损伤结果；

将所述各个部件的综合损伤特征和所述初步损伤结果输入预先训练的决策树模型，得到针对所述视频流的最终定损结果。
根据权利要求1所述的方法，其中，获取视频流的特征矩阵包括，从移动终端接收所述特征矩阵。
根据权利要求1所述的方法，其中，获取视频流的特征矩阵包括：

获取所述视频流；

针对所述N个图像帧中的各个图像帧，通过所述第一部件检测模型进行部件检测，得到部件检测信息，并通过所述第一损伤检测模型进行损伤检测，得到损伤检测信息；

至少基于所述部件检测信息和所述损伤检测信息，形成各个图像帧对应的M维向量；

根据N个图像帧各自的M维向量，生成所述特征矩阵。
根据权利要求1所述的方法，其中，获取所述视频流中的K个关键帧包括：从移动终端接收所述K个关键帧。
根据权利要求1所述的方法，其中，所述第二部件检测模型不同于所述第一部件检测模型，所述第二损伤检测模型不同于所述第一损伤检测模型。
根据权利要求1所述的方法，其中，融合所述N个M维向量和所述K个关键帧向量中的部件检测信息和损伤检测信息，得到各个部件的综合损伤特征，包括：

确定至少一个备选受损部件，其中包括第一部件；

对于所述N个M维向量和所述K个关键帧向量中的各个向量，通过对单个向量中的部件检测信息和损伤检测信息进行帧内融合，得到所述第一部件的帧综合特征，并通过将针对各个向量得到的所述第一部件的帧综合特征进行帧间融合，得到所述第一部件的综合损伤特征。
根据权利要求1所述的方法，其中，所述获取初步损伤结果包括，从移动端接收所述初步损伤识别结果。
根据权利要求1所述的方法，其中，所述特征矩阵包括M行S列，其中S不小于N，所述卷积神经网络包括若干一维卷积核，所述将所述特征矩阵输入预先训练的卷积神经网络，包括：

利用所述若干一维卷积核在所述特征矩阵的行维度上，对所述特征矩阵进行卷积处理。
根据权利要求1所述的方法，其中，所述卷积神经网络通过以下方式训练：

获取多个训练样本，其中每个训练样本包括每个视频流的样本特征矩阵和对应的损伤结果标签，所述每个视频流的样本特征矩阵至少包括与所述每个视频流中N个图像帧分别对应、且按照该N个图像帧的时序排列的N个M维向量；

使用所述多个训练样本，训练所述卷积神经网络。
根据权利要求9所述的方法，其中，所述损伤结果标签包括以下中的至少一种：损伤材质、损伤类别、损伤部件的部件类别。
根据权利要求1所述的方法，其中，在得到针对所述视频流的最终定损结果之后，所述方法还包括：

根据所述最终定损结果，确定对应的换修方案。
一种计算机执行的车辆定损装置，包括：

第一获取单元，配置为获取视频流的特征矩阵，所述视频流针对损伤车辆而拍摄，所述特征矩阵至少包括与所述视频流中N个图像帧分别对应、且按照所述N个图像帧的时序排列的N个M维向量，每个M维向量至少包括，针对对应的图像帧，通过预先训练的第一部件检测模型得到的部件检测信息，以及通过预先训练的第一损伤检测模型得到的损伤检测信息；

第二获取单元，配置为获取所述视频流中的K个关键帧；

生成单元，配置为针对所述K个关键帧，生成对应的K个关键帧向量，每个关键帧向量包括，针对对应的关键帧图像，通过预先训练的第二部件检测模型得到的部件检测信息，以及通过预先训练的第二损伤检测模型得到的损伤检测信息；

融合单元，配置为融合所述N个M维向量和所述K个关键帧向量中的部件检测信息和损伤检测信息，得到各个部件的综合损伤特征；

第三获取单元，配置为获取初步损伤结果，所述初步损伤结果包括，将所述特征矩阵输入预先训练的卷积神经网络后得到的所述各个部件的损伤结果；

定损单元，配置为将所述各个部件的综合损伤特征和所述初步损伤结果输入预先训练的决策树模型，得到针对所述视频流的最终定损结果。
根据权利要求12所述的装置，其中，所述第一获取单元被配置为，从移动终端接收所述特征矩阵。
根据权利要求12所述的装置，其中，所述第一获取单元被配置为：

获取所述视频流；

针对所述N个图像帧中的各个图像帧，通过所述第一部件检测模型进行部件检测，得到部件检测信息，并通过所述第一损伤检测模型进行损伤检测，得到损伤检测信息；

至少基于所述部件检测信息和所述损伤检测信息，形成各个图像帧对应的M维向量；

根据N个图像帧各自的M维向量，生成所述特征矩阵。
根据权利要求12所述的装置，其中，所述第二获取单元被配置为：从移动终端接收所述K个关键帧。
根据权利要求12所述的装置，其中，所述第二部件检测模型不同于所述第一部件检测模型，所述第二损伤检测模型不同于所述第一损伤检测模型。
根据权利要求12所述的装置，其中，所述融合单元被配置为：

确定至少一个备选受损部件，其中包括第一部件；

对于所述N个M维向量和所述K个关键帧向量中的各个向量，通过对单个向量中的部件检测信息和损伤检测信息进行帧内融合，得到所述第一部件的帧综合特征，并通过将针对各个向量得到的所述第一部件的帧综合特征进行帧间融合，得到所述第一部件的综合损伤特征。
根据权利要求12所述的装置，其中，所述第三获取单元被配置为，从移动端接收所述初步损伤识别结果。
根据权利要求12所述的装置，其中，所述特征矩阵包括M行S列，其中S不小于N，所述卷积神经网络包括若干一维卷积核，所述将所述特征矩阵输入预先训练的卷积神经网络，包括：

利用所述若干一维卷积核在所述特征矩阵的行维度上，对所述特征矩阵进行卷积处理。
根据权利要求12所述的装置，其中，所述卷积神经网络由训练单元进行预先训练得到，所述训练单元被配置为：

获取多个训练样本，其中每个训练样本包括每个视频流的样本特征矩阵和对应的损伤结果标签，所述每个视频流的样本特征矩阵至少包括与所述每个视频流中N个图像帧分别对应、且按照该N个图像帧的时序排列的N个M维向量；

使用所述多个训练样本，训练所述卷积神经网络。
根据权利要求20所述的装置，其中，所述损伤结果标签包括以下中的至少一种：损伤材质、损伤类别、损伤部件的部件类别。
根据权利要求12所述的装置，其中，所述装置还包括：

确定单元，配置为根据所述最终定损结果，确定对应的换修方案。
一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-11中任一项的所述的方法。
一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。