WO2022142042A1 - 异常数据的检测方法、装置、计算机设备和存储介质 - Google Patents

异常数据的检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2022142042A1
WO2022142042A1 PCT/CN2021/091726 CN2021091726W WO2022142042A1 WO 2022142042 A1 WO2022142042 A1 WO 2022142042A1 CN 2021091726 W CN2021091726 W CN 2021091726W WO 2022142042 A1 WO2022142042 A1 WO 2022142042A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
driving behavior
driving
data
preset
Prior art date
Application number
PCT/CN2021/091726
Other languages
English (en)
French (fr)
Inventor
唐炳武
敖琦
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022142042A1 publication Critical patent/WO2022142042A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Definitions

  • the normal driving trajectory data can be generated through the corresponding trajectory APP, or using information such as mobile phone GPS.
  • the inventor realizes that some illegal users will use computer software such as navigation simulation software to forge driving trajectory data to achieve illegal profits, such as defrauding mileage fees. Since the driving trajectory data forged by computer software is very close to the driving trajectory data generated by the driver after normal driving, how to quickly and accurately detect whether the driving trajectory data is abnormal driving trajectory data forged by computer software to avoid illegal users from using Forging driving trajectory data for illegal profit has become an urgent problem to be solved.
  • a designated user's driving behavior feature is selected from all the user's driving behavior features contained in the designated user's driving behavior feature data, and a designated isolation tree is constructed based on the preset segmentation values corresponding to the designated user's driving behavior feature, and based on the The isolated trees corresponding to the user's driving behavior feature data respectively generate an isolated forest, wherein the designated user's driving behavior feature data is any one of all the user's driving behavior feature data;
  • An abnormality detection result corresponding to each of the user driving behavior feature data is generated based on the abnormality detection score.
  • the building module is used to filter out a designated user's driving behavior feature from all the user's driving behavior features included in the designated user's driving behavior feature data, and build a designated isolation tree based on a preset segmentation value corresponding to the designated user's driving behavior feature, and generate an isolated forest based on the isolated trees corresponding to the respective user driving behavior feature data, wherein the designated user driving behavior feature data is any one feature data in all the user driving behavior feature data;
  • a corresponding isolated forest is first created based on the user's driving behavior characteristic data, and then each user is calculated based on the path length data related to the user's driving behavior characteristic data in the isolated forest.
  • the abnormality detection score of the driving behavior characteristic data so that the abnormal user driving behavior characteristic data and the corresponding abnormal users can be intelligently, quickly and accurately identified from all the user driving behavior characteristic data and the corresponding abnormal users based on the abnormality detection score.
  • the recognition accuracy and recognition efficiency of abnormal driving behavior characteristic data can be effectively avoided, and the situation of illegal users using forged driving trajectory data for illegal profit can be effectively avoided, and the probability of risk occurrence can be reduced.
  • S102 Screen out a target grid area from all the grid areas, wherein the number of the target grid areas is 1;
  • S105 Generate the designated user driving behavior characteristic data corresponding to the designated user based on the individual driving behavior characteristic and the relative driving behavior characteristic.
  • S1010 Based on the user's driving navigation trajectory data, obtain road environment map data of an area corresponding to the user's driving navigation trajectory data;
  • S1011 Perform grid processing on the road environment map data to obtain processed road environment map data
  • S1033 Calculate a fourth proportion of the driving record time interval in the preset nighttime period to the total driving time, and use the fourth proportion as the nighttime driving feature;
  • S1034 Calculate a fifth ratio of the driving record time interval in the preset peak time period to the total driving time, and use the fifth ratio as the peak-hour driving feature;
  • the above-mentioned night time period can be set according to empirical values, for example, it can be set as 11:00 pm to 5:00 am. and calculating a fifth ratio of the driving record time interval in the preset peak time period to the total driving time, and using the fifth ratio as the peak time driving feature.
  • the above peak time period can be set according to empirical values, for example, it can be set as 7:00 to 1:00 and 18:00 to 21:00 on weekdays. and calculating the sixth ratio of the recording time interval in which the vehicle speed exceeds the second preset speed threshold to the total driving time, and using the sixth ratio as the brutal driving feature.
  • the above-mentioned second preset speed threshold may be set to 200kph.
  • a sudden deceleration threshold corresponding to the sudden deceleration event is preset, for example, the acceleration of 10 km can be 10 seconds (10 kph/10S).
  • it is usually the ideal average deceleration speed, and there are very few sudden deceleration events. and calculating an eighth ratio of the total travel time in which the continuous driving time exceeds a preset duration to the total driving time, and using the eighth ratio as the fatigue driving feature.
  • step S5 includes:
  • the abnormality detection score corresponding to the user's driving behavior characteristic data is calculated, which is conducive to the subsequent use of two preset score thresholds to correspond to the user's driving behavior characteristic data.
  • the abnormality detection scores of the data are compared numerically, and then the abnormal data existing in the user driving behavior characteristic data and the corresponding abnormal users can be quickly found out according to the comparison results.
  • S601 Determine whether the specified abnormality detection score is greater than a first preset score threshold
  • S603 If the specified abnormality detection score is not greater than the first preset score threshold, determine whether the specified abnormality detection score is less than a second preset score threshold;
  • the step of generating an abnormality detection result corresponding to each of the user's driving behavior feature data based on the abnormality detection score may specifically include: first obtaining the driving behavior of the designated user. The specified anomaly detection score corresponding to the feature data. Then it is determined whether the specified abnormality detection score is greater than a first preset score threshold. If the designated abnormality detection score is greater than the first preset score threshold, it is determined that the designated user driving behavior characteristic data is abnormal data.
  • the above-mentioned first preset score threshold may be 0.95. If the abnormality detection score is greater than the first preset score threshold, and the closer to the value 1, the higher the possibility of abnormal data, the data can be determined to be abnormal data.
  • the abnormality detection score is about 0.5 of the second preset score threshold, such as 0.52, 0.49, etc.
  • the two score thresholds are used to perform numerical comparison processing with the abnormality detection score corresponding to the user's driving behavior feature data, and then the comparison results can be performed according to the comparison results. It can quickly find out abnormal data and abnormal users in the user's driving behavior characteristic data.
  • a second obtaining module configured to obtain the user's driving navigation trajectory data within a preset time period of the designated user, wherein the designated user has a corresponding relationship with the designated user's driving behavior characteristic data
  • the above-mentioned second generation module includes:
  • a third calculation unit configured to calculate the third proportion of the recording time interval in which the vehicle speed exceeds the road type speed limit to the total driving time, and use the third proportion as the speed limit feature of the part of the road;
  • a sixth calculation unit configured to calculate the sixth ratio of the recording time interval in which the vehicle speed exceeds the second preset speed threshold to the total driving time, and use the sixth ratio as the brutal driving feature;
  • a seventh calculation unit configured to calculate a seventh ratio of the recording time interval of the sudden deceleration event to the total driving time, and use the seventh ratio as the driving smoothness feature;
  • a twelfth calculation unit configured to calculate, based on the path length, an expectation of the path length of each of the user driving behavior feature data in the isolated forest;
  • the implementation process of the functions and functions of the sixth acquiring unit, the first judging unit, the first judging unit, the second judging unit and the second judging unit in the above-mentioned abnormal data detection device can be found in the above-mentioned abnormal data for details.
  • the implementation process corresponding to steps S600 to S604 in the detection method is not repeated here.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请涉及人工智能领域,提供一种异常数据的检测方法、装置、计算机设备和存储介质,方法包括:获取用户驾驶行为特征数据;从指定用户驾驶行为特征数据中筛选出指定用户驾驶行为特征,基于预设的分割值构建指定孤立树并生成相应的孤立森林;计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;计算孤立森林中所有用户驾驶行为特征数据的平均路径长度;计算每一个用户驾驶行为特征数据的异常检测分数;基于异常检测分数生成与每一个用户驾驶行为特征数据对应的异常检测结果。本申请能快速准确地从所有用户驾驶行为特征数据中识别出异常数据。本申请还可以应用于区块链领域,上述异常检测分数等数据可以存储于区块链上。

Description

异常数据的检测方法、装置、计算机设备和存储介质
本申请要求于2020年12月29日提交中国专利局、申请号为2020115911084,发明名称为“异常数据的检测方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,具体涉及一种异常数据的检测方法、装置、计算机设备和存储介质。
背景技术
随着车联网与互联网的快速发展,当前汽车市场会通过收集车主的驾驶轨迹数据的方式来为客户提供增值服务,例如保险定价、货运快递计费等服务,以实现精准营销。
正常的驾驶轨迹数据可以通过相应的轨迹APP,或利用手机GPS等信息生成。但发明人意识到,现有一些非法用户会使用电脑软件例如导航模拟软件伪造驾驶轨迹数据来实现非法获利,如骗取里程费用。由于电脑软件伪造生成的驾驶轨迹数据非常接近驾驶员在正常驾驶后产生的驾驶轨迹数据,因而,如何实现快速准确地检测出驾驶轨迹数据是否为电脑软件伪造的异常驾驶轨迹数据,避免非法用户使用伪造的驾驶轨迹数据来进行非法获利,成为了目前一个亟待解决的问题。
技术问题
本申请的主要目的为提供一种异常数据的检测方法、装置、计算机设备和存储介质,旨在解决现有存在的如何实现快速准确地检测出驾驶轨迹数据是否为电脑软件伪造的异常驾驶轨迹数据,避免非法用户使用伪造的驾驶轨迹数据来进行非法获利的技术问题。
技术解决方案
本申请提出一种异常数据的检测方法,所述方法包括步骤:
获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
本申请还提供一种异常数据的检测装置,包括:
第一获取模块,用于获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
构建模块,用于从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
第一计算模块,用于计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
第二计算模块,用于计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
第三计算模块,用于基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
第一生成模块,用于基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现一种异常数据的检测方法,其中,所述异常数据的检测方法包括以下步骤:
获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一种异常数据的检测方法,其中,所述异常数据的检测方法包括以下步骤:
获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
有益效果
本申请中提供的异常数据的检测方法、装置、计算机设备和存储介质,提高了异常驾驶行为特征数据的识别准确性与识别效率,且能有效避免出现非法用户使用伪造的驾驶轨迹数据来进行非法获利的情形,降低风险发生概率。
附图说明
图1是本申请一实施例的异常数据的检测方法的流程示意图;
图2是本申请一实施例的异常数据的检测装置的结构示意图;
图3是本申请一实施例的计算机设备的结构示意图。
本发明的最佳实施方式
具体地,参照图1,本申请一实施例的异常数据的检测方法,包括:
S1:获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1。
如上述步骤S1所述,可通过与用户对应的相关app或与用户相关的车联网数据来采集上述用户驾驶导航轨迹数据,用户驾驶导航轨迹数据是以秒为单位的向量,可包括时间、经纬度、海拔、方向、速度等数据。另外,对于上述第一预设数量不作具体限定,可根据经验数值进行设置,例如可设为256。第二预设数量具体可为10,即上述用户驾驶行为特征数据中包括有10个用户驾驶行为特征,例如用户驾驶行为特征数据可包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征、疲劳驾驶特征、节奏特征以及加速特征。
S2:从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据。
如上述步骤S2所述,对于一棵孤立树中的一个节点T,可以是叶子节点,也可能是有两个子节点的中间节点,孤立树中最顶端的节点是根节点,一个根节点可以对应若干子节点,每个子节点下又可以对应若干子节点,其中,没有下一子节点的节点T被称为叶子节点。以构建一颗孤立树为例,如果给定N个样本数据(即用户驾驶行为特征数据),且每个样本数据有M个特征(用户驾驶行为特征),则从指定用户驾驶行为特征数据随机选择一个用户驾驶行为特征q,并确定与q对应的分割值p(例如可如取q的值作为该分割值),将特征q小于p的样本划分到节点的左边(即作为左边的子节点),将特征q大于等于p的样本划分到节点的右边(即作为右边的子节点)。这一步的划分,就生成了一个根节点、两个子节点,即把指定用户驾驶行为特征数据作为一个根节点、以选取到的用户驾驶行为特征q的分割值,将根节点上的用户驾驶行为特征数据划分为了两个子节点。按这样的方式,继续从每一子节点中随机选择用户驾驶行为特征,递归对两个子节点继续划分,直到孤立树达到了限制的高度,或节点上只有一个样本,或节点上的样本的所有特征都相同,最后得到基于指定用户驾驶行为特征数据的孤立树。依此类推,选择其他用户驾驶行为特征数据中的用户驾驶行为特征构建相应的孤立树,最后得到基于各所述用户驾驶行为特征数据构建生成的不同的孤立树,且多棵不同的孤立树便可形成孤立森林。一般构建孤立森林的时候,节点特征种类最终不会保持一致。在停止划分节点时,比如节点的100个用户参加活动的次数相同,手机号码归属地相同等等,都是以特征值相同来评判的。由于所有特征都相同,就无法按特 征再进行分割。在构建完包含有多棵孤立树的孤立森林后,进而基于该孤立森林能够计算出各用户驾驶行为特征数据的异常检测分数,使得后续能够基于该异常检测分数智能快速且准确地从所有用户驾驶行为特征数据中筛选出异常数据。另外,还可基于并行数据处理指令,以采用预设的多个线程同时进行与各所述用户驾驶行为特征数据分别对应的孤立树的构建过程,进而提高孤立森林的生成速率。
S3:计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度。以及,
如上述步骤S3所述,对于每个用户驾驶行为特征数据对应的叶子节点X,从孤立树的根节点开始到叶子节点X所经过的边的数量即为叶子节点X的路径长度,也即根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度。通过计算出上述路径长度,有利于后续基于该路径长度与所述平均路径长度来智能地求取出每一个所述用户驾驶行为特征数据的异常检测分数,进而基于该异常检测分数来实现快速准确地查找出用户驾驶行为特征数据中存在的异常数据及相应的异常用户。
S4:计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度。
如上述步骤S4所述,可通过公式
Figure PCTCN2021091726-appb-000001
来计算出上述平均路径长度,其中,H(i)为调和数(若一个正整数a的所有因子的调和平均是整数,则a便称为调和数),该值可以被估计为ln(i)+0.5772156649,c(n)为当上述用户驾驶行为特征数据的数量,即第一预设数量为n时,所有用户驾驶行为特征数据的路径长度的平均值,也即所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度,用来标准化每一用户驾驶行为特征数据x的路径长度h(x)。通过计算出上述平均路径长度,有利于后续基于该平均路径长度与所述路径长度来智能地求取出每一个所述用户驾驶行为特征数据的异常检测分数,进而基于该异常检测分数来实现快速准确地查找出用户驾驶行为特征数据中存在的异常数据及相应的异常用户。
S5:基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数。
如上述步骤S5所述,根据孤立森林算法思路:递归的随机选取特征分割数据集,异常点通常较快到达叶子节点,具有较短的路径。可先基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望。再基于所述平均路径长度与所述期望,调用预设的计算公式
Figure PCTCN2021091726-appb-000002
计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。通过调用与所述平均路径长度与所述期望相关的计算公式来计算出与用户驾驶行为特征数据对应的异常检测分数,进而能够基于该异常检测分数来实现快速准确地查找出用户驾驶行为特征数据中存在的异常数据及相应的异常用户。
S6:基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
如上述步骤S6所述,可预先设置有与数据异常对应的第一预设分数阈值,以及设置有与数据正常对应的第一预设分数阈值。如果用户驾驶行为特征数据的异常检测分数大于上述第一预设分数阈值,则判定该用户驾驶行为特征数据为异常数据。而如果用户驾驶行为特征数据的异常检测分数小于上述第二预设分数阈值,则判定该用户驾驶行为特征数据为正常数据。
本实施例在获取到待检测的用户驾驶行为特征数据后,会先基于用户驾驶行为特征数据创建对应孤立森林,进而基于孤立森林中与用户驾驶行为特征数据相关的路径长度数据来计算出各用户驾驶行为特征数据的异常检测分数,从而后续能够基于该异常检测分数来实现智能快速且准确地从所有用户驾驶行为特征数据中识别出存在异常的异常用户驾驶行为特征数据及对应的异常用户,提高了异常驾驶行为特征数据的识别准确性与识别效率,且能有效避免出现非法用户使用伪造的驾驶轨迹数据来进行非法获利的情形,降低风险发生概率。
进一步地,本申请一实施例中,上述步骤S1之前,包括:
S100:获取指定用户在预设时间周期内的用户驾驶导航轨迹数据,其中,所述指定用户与所述指定用户驾驶行为特征数据具有对应关系;
S101:基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域,其中,所述网格区域的数量大于1;
S102:从所有所述网格区域中筛选出目标网格区域,其中,所述目标网格区域的数量为1;
S103:基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征;以及,
S104:基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征;
S105:基于所述个体驾驶行为特征与所述相对驾驶行为特征生成与所述指定用户对应的所述指定用 户驾驶行为特征数据。
如上述步骤S100至S105所述,在执行获取与第一预设数量的用户分别对应的用户驾驶行为特征数据的步骤之前,还可包括生成上述用户驾驶行为特征数据的生成步骤。具体地,生成上述指定用户驾驶行为特征数据的过程可包括:首先获取指定用户在预设时间周期内的用户驾驶导航轨迹数据,其中,所述指定用户与所述指定用户驾驶行为特征数据具有对应关系。另外,对于上述预设时间周期不作具体限定,可根据实际需求进行设置,例如可设为距离当前时间的前一个月所包含的时间段。此外,可通过查询与指定用户对应的相关app或与指定用户相关的车联网数据来采集上述指定用户驾驶导航轨迹数据,用户驾驶导航轨迹数据是以秒为单位的向量,可包括时间、经纬度、海拔、方向、速度等数据。然后基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域,其中,所述网格区域的数量大于1。另外,上述道路环境地图数据可通过依据现有开源的数据集,例如国家公布的OpenStreetMap进行下载获得,上述道路环境地图数据可包括道路经纬度,道路类型,限速等数据。之后从所有所述网格区域中筛选出目标网格区域,其中,所述目标网格区域的数量为1。另外,对于上述目标网格区域的筛选方式不作限定,可以从所有目标网格区域中随机选取一个区域作为该目标网络区域。优选采用指定用户常去的区域作为该目标网络区域,指定用户常去的区域会包含有较为丰富的轨迹数据,也更能代表指定用户真实的驾驶情况,有利于基于该丰富的轨迹数据生成数据参考效果更佳的指定用户驾驶行为特征数据。此外,由于只有处于同一网格区域内的不同用户驾驶行为特征数据之间才具有可比性,进而通过将同一网格区域内的所有用户驾驶行为特征数据进行分析比较后便能筛选出其中存在的异常驾驶行为特征数据。因此,在确定了上述预设时间周期与上述目标网格区域时,对于需要生成的其他用户的用户驾驶行为特征数据,同样也必须也基于该预设时间周期与该目标网格区域来进行生成,也即需要同时生成在该预设时间周期内,各用户处于该目标网格区域内的用户驾驶行为特征数据。后续基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征。其中,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,可基于用户驾驶导航轨迹数据查询出用于求取各个体驾驶行为特征所需的第一目标数据,进而使用该第一目标数据进行对应计算来生成与指定用户对应的个体驾驶行为特征。以及基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征。其中,所述相对驾驶行为特征包括节奏特征与加速特征,可基于用户驾驶导航轨迹数据查询出用于求取各相对驾驶行为特征所需的第二目标数据,进而使用该第二目标数据进行对应计算来生成与指定用户对应的相对驾驶行为特征。最后基于所述个体驾驶行为特征与所述相对驾驶行为特征生成与所述指定用户对应的所述指定用户驾驶行为特征数据。其中,可通过对个体驾驶行为特征与相对驾驶行为特征进行拼接处理来生成与指定对用户对应的指定用户驾驶行为特征数据。本实施例通过使用预设时间周期内的处于目标网格区域的用户驾驶导航轨迹数据生成对应的用户驾驶行为特征数据,有利于后续能够基于孤立森林计算各用户驾驶行为特征数据的异常检测分数,进而基于该异常检测分数进行比较分析,从而实现智能快速地从所有用户驾驶行为特征数据中识别出异常数据,有效地提高了异常驾驶行为特征数据的识别准确性。
进一步地,本申请一实施例中,上述步骤S101,包括:
S1010:基于所述用户驾驶导航轨迹数据,获取与所述用户驾驶导航轨迹数据对应的区域的道路环境地图数据;
S1011:对所述道路环境地图数据进行网格化处理,得到处理后的道路环境地图数据;
S1012:获取预设的区域划分范围数值;
S1013:基于所述区域划分范围数值,对所述处理后的道路环境地图数据进行划分处理,得到多个所述网格区域。
如上述步骤S1010至S1013所述,所述基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域的步骤,具体可包括:首先基于所述用户驾驶导航轨迹数据,获取与所述用户驾驶导航轨迹数据对应的区域的道路环境地图数据。其中,上述道路环境地图数据可通过依据现有开源的数据集,进行下载获得,上述道路环境地图数据可包括道路经纬度,道路类型,限速等数据。然后对所述道路环境地图数据进行网格化处理,得到处理后的道路环境地图数据。其中,上述网格化处理可参照现有的地图网格化处理,对所述道路环境地图数据进行网格化处理后,可以得到带有网格与坐标的道路环境地图。另外,还可对道路环境地图数据进行编码处理,以通过使用相应的编码算法使道路环境地图数据转化为后续需要的处理格式。之后获取预设的区域划分范围数值。其中,对于上述区域划分范围数值不作具体限定,可根据实际需求进行设置,例如可以10KM*10KM为单位。最后基于所述区域划分范围数值,对所述处理后的道路环境地图数据进行划分处理,得到多个所述网格区域。通过将道路环境地图数据划分为多个不同的网格区域,从而为不同的网格区域建立了不同的分组,同一分组内的不同用户的用户驾驶导航轨迹数据之间具有可比性,使得后续通过收集在同一网络区域的 一定数量的用户驾驶行为特征数据,再基于孤立森林将同一网络区域内的用户驾驶行为特征数据进行分析比较,进而可以有效地筛选出存在的异常的用户驾驶行为特征数据。
进一步地,本申请一实施例中,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,上述步骤S103,包括:
S1030:基于所述用户驾驶导航轨迹数据,在所述目标网格区域内计算慢速道路上驾驶的记录时间区间占总驾驶时间的第一比例,并将所述第一比例作为所述道路使用特征,其中,所述总驾驶时间为在所述预设时间周期内所述指定用户在所述目标网格区域内花费的所有驾驶时间的和值;以及,
S1031:计算车速超过第一预设速度阈值的超速记录时间区间占所述总驾驶时间的第二比例,并将所述第二比例作为所述最高限速特征;以及,
S1032:计算车速超过道路类型限速的记录时间区间占所述总驾驶时间的第三比例,并将所述第三比例作为所述部分道路限速特征;以及,
S1033:计算在预设的夜间时间段的驾驶记录时间区间占所述总驾驶时间的第四比例,并将所述第四比例作为所述夜间行驶特征;以及,
S1034:计算在预设的高峰时间段的驾驶记录时间区间占所述总驾驶时间的第五比例,并将所述第五比例作为所述高峰时段行驶特征;以及,
S1035:计算车速超过第二预设速度阈值的记录时间区间占所述总驾驶时间的第六比例,并将所述第六比例作为所述野蛮驾驶特征;以及,
S1036:计算急减速事件的记录时间区间占所述总驾驶时间的第七比例,并将所述第七比例作为所述驾驶平滑度特征;以及,
S1037:计算连续驾驶时间超过预设时长的行程总时间占所述总驾驶时间的第八比例,并将所述第八比例作为所述疲劳驾驶特征。
如上述步骤S1030至S1037所述,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征的步骤,具体可包括:基于所述用户驾驶导航轨迹数据,在所述目标网格区域内计算慢速道路上驾驶的记录时间区间占总驾驶时间的第一比例,并将所述第一比例作为所述道路使用特征,其中,所述总驾驶时间为在所述预设时间周期内所述指定用户在所述目标网格区域内花费的所有驾驶时间的和值。以及计算车速超过第一预设速度阈值的超速记录时间区间占所述总驾驶时间的第二比例,并将所述第二比例作为所述最高限速特征。其中,上述第一预设速度阈值具体可为120kph。另外,基于电脑软件模拟生成的驾驶数据,极少会出现超速事件。以及计算车速超过道路类型限速的记录时间区间占所述总驾驶时间的第三比例,并将所述第三比例作为所述部分道路限速特征。其中,不同的道路类型会存在不同的限速数值。以及计算在预设的夜间时间段的驾驶记录时间区间占所述总驾驶时间的第四比例,并将所述第四比例作为所述夜间行驶特征。其中,上述夜间时间段可根据经验数值进行设置,例如可设为晚上11点至凌晨5点。以及计算在预设的高峰时间段的驾驶记录时间区间占所述总驾驶时间的第五比例,并将所述第五比例作为所述高峰时段行驶特征。其中,上述高峰时间段可根据经验数值进行设置,例如可设为工作日的7点至1点,18点至21点。以及计算车速超过第二预设速度阈值的记录时间区间占所述总驾驶时间的第六比例,并将所述第六比例作为所述野蛮驾驶特征。其中,上述第二预设速度阈值可设置为200kph。另外,基于电脑软件模拟生成的驾驶数据,极少会出现野蛮驾驶事件。以及计算急减速事件的记录时间区间占所述总驾驶时间的第七比例,并将所述第七比例作为所述驾驶平滑度特征。其中,预先设置有与急减速事件对应的急减速阈值,例如可为10km加速度为10秒(10kph/10S),如果小于该急减速阈值则判定发生了一次急减速事件。另外,基于电脑软件模拟生成的驾驶数据,通常会是理想平均减速速度,极少会出现急减速事件。以及计算连续驾驶时间超过预设时长的行程总时间占所述总驾驶时间的第八比例,并将所述第八比例作为所述疲劳驾驶特征。其中,上述预设时长可根据经验数值进行设置,例如可设为2.5h。本实施例通过基于所述用户驾驶导航轨迹数据与所述目标网格区域来计算出所述指定用户的个体驾驶行为特征,有利于后续根据该个体驾驶行为特征以及相应的相对驾驶行为特征来快速生成所需的用户驾驶行为特征数据。
进一步地,本申请一实施例中,所述相对驾驶行为特征包括节奏特征与加速特征,上述步骤S104,包括:
S1040:基于所述用户驾驶导航轨迹数据,计算所述指定用户在所述目标网格区域内的第一平均车速;
S1041:获取其他用户在所述目标网格区域内的第二平均车速;
S1042:计算所述第一平均车速与所述第二平均车速的第一比值,并将所述第一比值作为所述节奏 特征;以及,
S1043:获取所述指定用户在所述目标网格区域内的急加速事件数;
S1044:获取所述其他用户在所述目标网格区域内的急加速平均事件数;
S1045:计算所述急加速事件数与所述急加速平均事件数的第二比值,并将所述第二比值作为所述加速特征。
如上述步骤S1040至S1045所述,所述相对驾驶行为特征包括节奏特征与加速特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征的步骤,具体可包括:首先基于所述用户驾驶导航轨迹数据,计算所述指定用户在所述目标网格区域内的第一平均车速。然后获取其他用户在所述目标网格区域内的第二平均车速。之后计算所述第一平均车速与所述第二平均车速的第一比值,并将所述第一比值作为所述节奏特征。举例地,如果指定用户在目标网格区域中的平均车速是V1,且目标网格区域中其他用户的平均车速是V2,则与指定用户对应的节奏特征为P=V1/V2。以及获取所述指定用户在所述目标网格区域内的急加速事件数,并获取所述其他用户在所述目标网格区域内的急加速平均事件数。其中,预先设置有与急加速事件对应的急加速阈值,例如可为100km加速度为10秒(100kph/10S),如果超过该急加速阈值则判定发生了一次急加速事件。另外,可取用户驾驶导航轨迹数据中相邻的两个点速度机型比较,即可计算出用户存在的急加速事件的数量。最后计算所述急加速事件数与所述急加速平均事件数的第二比值,并将所述第二比值作为所述加速特征。举例地,如果在目标网格区域内,指定用户的急加速事件数为5次,计作A1=5次,其他用户的急加速平均事件数为A2=3次,则与指定用户对应的加速特征S=A1/A2=5/3。此外,另外,基于电脑软件模拟生成的驾驶数据,通常会是理想平均加速速度,极少会出现急加速事件。本实施例通过基于所述用户驾驶导航轨迹数据与所述目标网格区域来计算出所述指定用户的相对驾驶行为特征,有利于后续根据该相对驾驶行为特征以及相应的个体驾驶行为特征来快速生成所需的用户驾驶行为特征数据。
进一步地,本申请一实施例中,上述步骤S5,包括:
S500:基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望;
S501:基于所述平均路径长度与所述期望,调用预设的计算公式
Figure PCTCN2021091726-appb-000003
计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。
如上述步骤S500至S501所述,所述基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数的步骤,具体可包括:首先基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望。其中,在概率论和统计学中,期望(数学期望或均值)是试验中每次可能结果的概率乘以其结果的总和,它反映了随机变量(用户驾驶行为特征数据)平均取值的大小。然后基于所述平均路径长度与所述期望,调用预设的计算公式
Figure PCTCN2021091726-appb-000004
计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。通过调用与所述平均路径长度与所述期望相关的计算公式来计算出与用户驾驶行为特征数据对应的异常检测分数,有利于后续使用预先设置的两个分数阈值来与用户驾驶行为特征数据对应的异常检测分数进行数值比对处理,进而可以根据比对结果实现快速地查找出用户驾驶行为特征数据中存在的异常数据及相应的异常用户。
进一步地,本申请一实施例中,上述步骤S6,包括:
S600:获取与所述指定用户驾驶行为特征数据对应的指定异常检测分数;
S601:判断所述指定异常检测分数是否大于第一预设分数阈值;
S602:若所述指定异常检测分数大于所述第一预设分数阈值,则判定所述指定用户驾驶行为特征数据为异常数据;
S603:若所述指定异常检测分数不大于所述第一预设分数阈值,判断所述指定异常检测分数是否小于第二预设分数阈值;
S604:若所述指定异常检测分数小于所述第二预设分数阈值,则判定所述指定用户驾驶行为特征数据为正常数据。
如上述步骤S600至S604所述,所述基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果的步骤,具体可包括:首先获取与所述指定用户驾驶行为特征数据对应的指定异常检测分数。然后判断所述指定异常检测分数是否大于第一预设分数阈值。如果所述指定异常检测 分数大于所述第一预设分数阈值,则判定所述指定用户驾驶行为特征数据为异常数据。其中,上述第一预设分数阈值具体可取0.95,如果异常检测分数大于该第一预设分数阈值,且越接近数值1,则数据异常的可能性越高,便可判定该数据为异常数据。而如果所述指定异常检测分数不大于所述第一预设分数阈值,则进一步判断所述指定异常检测分数是否小于第二预设分数阈值。如果所述指定异常检测分数小于所述第二预设分数阈值,则判定所述指定用户驾驶行为特征数据为正常数据。其中,上述第二预设分数阈值具体可取0.5,如果异常检测分数小于该第二预设分数阈值,则数据异常的可能性较低,便可判定该数据为正常数据。另外,如果存在异常检测分数接近上述第二预设分数阈值,且异常检测分数在第二预设分数阈值0.5左右,如0.52、0.49等,则初步判定该数据具有不确定性,可进一步筛选出此类特殊数据并交由人工进行人工异常确认处理。本实施例通过设置第一预设分数阈值与第二预设分数阈值,并使用这两个分数阈值来与用户驾驶行为特征数据对应的异常检测分数进行数值比对处理,进而可以根据比对结果实现快速地查找出用户驾驶行为特征数据中存在的异常数据及异常用户。
本申请实施例中的异常数据的检测方法还可以应用于区块链领域,如将上述异常检测分数等数据存储于区块链上。通过使用区块链来对上述异常检测分数进行存储和管理,能够有效地保证上述异常检测分数的安全性与不可篡改性。
参照图2,本申请一实施例中还提供了一种异常数据的检测装置,包括:
第一获取模块1,用于获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
构建模块2,用于从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
第一计算模块3,用于计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
第二计算模块4,用于计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
第三计算模块5,用于基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
第一生成模块6,用于基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
本实施例中,上述异常数据的检测装置中的第一获取模块、构建模块、第一计算模块、第二计算模块、第三计算模块与第一生成模块的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S1至S6的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述异常数据的检测装置,包括:
第二获取模块,用于获取指定用户在预设时间周期内的用户驾驶导航轨迹数据,其中,所述指定用户与所述指定用户驾驶行为特征数据具有对应关系;
第二生成模块,用于基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域,其中,所述网格区域的数量大于1;
筛选模块,用于从所有所述网格区域中筛选出目标网格区域,其中,所述目标网格区域的数量为1;
第四计算模块,用于基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征;以及,
第五计算模块,用于基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征;
第三生成模块,用于基于所述个体驾驶行为特征与所述相对驾驶行为特征生成与所述指定用户对应的所述指定用户驾驶行为特征数据。
本实施例中,上述异常数据的检测装置中的第二获取模块、第二生成模块、筛选模块、第四计算模块、第五计算模块与第三生成模块的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S100至S105的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第二生成模块,包括:
第一获取单元,用于基于所述用户驾驶导航轨迹数据,获取与所述用户驾驶导航轨迹数据对应的区域的道路环境地图数据;
第一处理单元,用于对所述道路环境地图数据进行网格化处理,得到处理后的道路环境地图数据;
第二获取单元,用于获取预设的区域划分范围数值;
第二处理单元,用于基于所述区域划分范围数值,对所述处理后的道路环境地图数据进行划分处理,得到多个所述网格区域。
本实施例中,上述异常数据的检测装置中的第一获取单元、第一处理单元、第二获取单元与第二处理单元的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S1010至S1013的实现过程,在此不再赘述。
进一步地,本申请一实施例中,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,上述第四计算模块,包括:
第一计算单元,用于基于所述用户驾驶导航轨迹数据,在所述目标网格区域内计算慢速道路上驾驶的记录时间区间占总驾驶时间的第一比例,并将所述第一比例作为所述道路使用特征,其中,所述总驾驶时间为在所述预设时间周期内所述指定用户在所述目标网格区域内花费的所有驾驶时间的和值;以及,
第二计算单元,用于计算车速超过第一预设速度阈值的超速记录时间区间占所述总驾驶时间的第二比例,并将所述第二比例作为所述最高限速特征;以及,
第三计算单元,用于计算车速超过道路类型限速的记录时间区间占所述总驾驶时间的第三比例,并将所述第三比例作为所述部分道路限速特征;以及,
第四计算单元,用于计算在预设的夜间时间段的驾驶记录时间区间占所述总驾驶时间的第四比例,并将所述第四比例作为所述夜间行驶特征;以及,
第五计算单元,用于计算在预设的高峰时间段的驾驶记录时间区间占所述总驾驶时间的第五比例,并将所述第五比例作为所述高峰时段行驶特征;以及,
第六计算单元,用于计算车速超过第二预设速度阈值的记录时间区间占所述总驾驶时间的第六比例,并将所述第六比例作为所述野蛮驾驶特征;以及,
第七计算单元,用于计算急减速事件的记录时间区间占所述总驾驶时间的第七比例,并将所述第七比例作为所述驾驶平滑度特征;以及,
第八计算单元,用于计算连续驾驶时间超过预设时长的行程总时间占所述总驾驶时间的第八比例,并将所述第八比例作为所述疲劳驾驶特征。
本实施例中,上述异常数据的检测装置中的第一计算单元、第二计算单元、第三计算单元、第四计算单元、第五计算单元、第六计算单元、第七计算单元与第八计算单元的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S1030至S1037的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第五计算模块,包括:
第九计算单元,用于基于所述用户驾驶导航轨迹数据,计算所述指定用户在所述目标网格区域内的第一平均车速;
第三获取单元,用于获取其他用户在所述目标网格区域内的第二平均车速;
第十计算单元,用于计算所述第一平均车速与所述第二平均车速的第一比值,并将所述第一比值作为所述节奏特征;以及,
第四获取单元,用于获取所述指定用户在所述目标网格区域内的急加速事件数;
第五获取单元,用于获取所述其他用户在所述目标网格区域内的急加速平均事件数;
第十一计算单元,用于计算所述急加速事件数与所述急加速平均事件数的第二比值,并将所述第二比值作为所述加速特征。
本实施例中,上述异常数据的检测装置中的第九计算单元、第三获取单元、第十计算单元、第四获取单元、第五获取单元与第十一计算单元的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S1040至S1045的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第三计算模块,包括:
第十二计算单元,用于基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望;
第十三计算单元,用于基于所述平均路径长度与所述期望,调用预设的计算公式
Figure PCTCN2021091726-appb-000005
计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。
本实施例中,上述异常数据的检测装置中的第十二计算单元与第十三计算单元的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S500至S501的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第一生成单元,包括:
第六获取单元,用于获取与所述指定用户驾驶行为特征数据对应的指定异常检测分数;
第一判断单元,用于判断所述指定异常检测分数是否大于第一预设分数阈值;
第一判定单元,用于若所述指定异常检测分数大于所述第一预设分数阈值,则判定所述指定用户驾 驶行为特征数据为异常数据;
第二判断单元,用于若所述指定异常检测分数不大于所述第一预设分数阈值,判断所述指定异常检测分数是否小于第二预设分数阈值;
第二判定单元,用于若所述指定异常检测分数小于所述第二预设分数阈值,则判定所述指定用户驾驶行为特征数据为正常数据。
本实施例中,上述异常数据的检测装置中的第六获取单元、第一判断单元、第一判定单元、第二判断单元与第二判定单元的功能和作用的实现过程具体详见上述异常数据的检测方法中对应步骤S600至S604的实现过程,在此不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户驾驶行为特征数据、孤立森林、路径长度、平均路径长度、异常检测分数以及异常检测结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备,用于将数字信号转换为光信号,使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置,用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种异常数据的检测方法。
上述处理器执行上述异常数据的检测方法的步骤:
获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一个示例性实施例所示出的异常数据的检测方法,所述异常数据的检测方法包括以下步骤:
获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

Claims (20)

  1. 一种异常数据的检测方法,其中,包括:
    获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
    从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
    计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
    计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
    基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
    基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
  2. 根据权利要求1所述的异常数据的检测方法,其中,所述获取与第一预设数量的用户分别对应的用户驾驶行为特征数据的步骤之前,包括:
    获取指定用户在预设时间周期内的用户驾驶导航轨迹数据,其中,所述指定用户与所述指定用户驾驶行为特征数据具有对应关系;
    基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域,其中,所述网格区域的数量大于1;
    从所有所述网格区域中筛选出目标网格区域,其中,所述目标网格区域的数量为1;
    基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征;以及,
    基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征;
    基于所述个体驾驶行为特征与所述相对驾驶行为特征生成与所述指定用户对应的所述指定用户驾驶行为特征数据。
  3. 根据权利要求2所述的异常数据的检测方法,其中,所述基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域的步骤,包括:
    基于所述用户驾驶导航轨迹数据,获取与所述用户驾驶导航轨迹数据对应的区域的道路环境地图数据;
    对所述道路环境地图数据进行网格化处理,得到处理后的道路环境地图数据;
    获取预设的区域划分范围数值;
    基于所述区域划分范围数值,对所述处理后的道路环境地图数据进行划分处理,得到多个所述网格区域。
  4. 根据权利要求2所述的异常数据的检测方法,其中,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征的步骤,包括:
    基于所述用户驾驶导航轨迹数据,在所述目标网格区域内计算慢速道路上驾驶的记录时间区间占总驾驶时间的第一比例,并将所述第一比例作为所述道路使用特征,其中,所述总驾驶时间为在所述预设时间周期内所述指定用户在所述目标网格区域内花费的所有驾驶时间的和值;以及,
    计算车速超过第一预设速度阈值的超速记录时间区间占所述总驾驶时间的第二比例,并将所述第二比例作为所述最高限速特征;以及,
    计算车速超过道路类型限速的记录时间区间占所述总驾驶时间的第三比例,并将所述第三比例作为所述部分道路限速特征;以及,
    计算在预设的夜间时间段的驾驶记录时间区间占所述总驾驶时间的第四比例,并将所述第四比例作为所述夜间行驶特征;以及,
    计算在预设的高峰时间段的驾驶记录时间区间占所述总驾驶时间的第五比例,并将所述第五比例作为所述高峰时段行驶特征;以及,
    计算车速超过第二预设速度阈值的记录时间区间占所述总驾驶时间的第六比例,并将所述第六比例作为所述野蛮驾驶特征;以及,
    计算急减速事件的记录时间区间占所述总驾驶时间的第七比例,并将所述第七比例作为所述驾驶平滑度特征;以及,
    计算连续驾驶时间超过预设时长的行程总时间占所述总驾驶时间的第八比例,并将所述第八比例作为所述疲劳驾驶特征。
  5. 根据权利要求2所述的异常数据的检测方法,其中,所述相对驾驶行为特征包括节奏特征与加速特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征的步骤,包括:
    基于所述用户驾驶导航轨迹数据,计算所述指定用户在所述目标网格区域内的第一平均车速;
    获取其他用户在所述目标网格区域内的第二平均车速;
    计算所述第一平均车速与所述第二平均车速的第一比值,并将所述第一比值作为所述节奏特征;以及,
    获取所述指定用户在所述目标网格区域内的急加速事件数;
    获取所述其他用户在所述目标网格区域内的急加速平均事件数;
    计算所述急加速事件数与所述急加速平均事件数的第二比值,并将所述第二比值作为所述加速特征。
  6. 根据权利要求1所述的异常数据的检测方法,其中,所述基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检 测分数的步骤,包括:
    基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望;
    基于所述平均路径长度与所述期望,调用预设的计算公式
    Figure PCTCN2021091726-appb-100001
    计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。
  7. 根据权利要求1所述的异常数据的检测方法,其中,所述基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果的步骤,包括:
    获取与所述指定用户驾驶行为特征数据对应的指定异常检测分数;
    判断所述指定异常检测分数是否大于第一预设分数阈值;
    若所述指定异常检测分数大于所述第一预设分数阈值,则判定所述指定用户驾驶行为特征数据为异常数据;
    若所述指定异常检测分数不大于所述第一预设分数阈值,判断所述指定异常检测分数是否小于第二预设分数阈值;
    若所述指定异常检测分数小于所述第二预设分数阈值,则判定所述指定用户驾驶行为特征数据为正常数据。
  8. 一种异常数据的检测装置,其中,包括:
    第一获取模块,用于获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
    构建模块,用于从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
    第一计算模块,用于计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
    第二计算模块,用于计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
    第三计算模块,用于基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
    第一生成模块,用于基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
  9. 一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其中,所述处理器执行所述计算机程序时实现一种异常数据的检测方法:
    其中,所述异常数据的检测方法包括:
    获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
    从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
    计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
    计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
    基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
    基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
  10. 根据权利要求9所述的计算机设备,其中,所述获取与第一预设数量的用户分别对应的用户驾驶行为特征数据的步骤之前,包括:
    获取指定用户在预设时间周期内的用户驾驶导航轨迹数据,其中,所述指定用户与所述指定用户驾驶行为特征数据具有对应关系;
    基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域,其中,所述网格区域的数量大于1;
    从所有所述网格区域中筛选出目标网格区域,其中,所述目标网格区域的数量为1;
    基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征;以及,
    基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征;
    基于所述个体驾驶行为特征与所述相对驾驶行为特征生成与所述指定用户对应的所述指定用户驾驶行为特征数据。
  11. 根据权利要求10所述的计算机设备,其中,所述基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域的步骤,包括:
    基于所述用户驾驶导航轨迹数据,获取与所述用户驾驶导航轨迹数据对应的区域的道路环境地图数据;
    对所述道路环境地图数据进行网格化处理,得到处理后的道路环境地图数据;
    获取预设的区域划分范围数值;
    基于所述区域划分范围数值,对所述处理后的道路环境地图数据进行划分 处理,得到多个所述网格区域。
  12. 根据权利要求10所述的计算机设备,其中,所述个体驾驶行为特征包括道路使用特征、最高限速特征、部分道路限速特征、夜间行驶特征、高峰时段行驶特征、野蛮驾驶特征、驾驶平滑度特征以及疲劳驾驶特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征的步骤,包括:
    基于所述用户驾驶导航轨迹数据,在所述目标网格区域内计算慢速道路上驾驶的记录时间区间占总驾驶时间的第一比例,并将所述第一比例作为所述道路使用特征,其中,所述总驾驶时间为在所述预设时间周期内所述指定用户在所述目标网格区域内花费的所有驾驶时间的和值;以及,
    计算车速超过第一预设速度阈值的超速记录时间区间占所述总驾驶时间的第二比例,并将所述第二比例作为所述最高限速特征;以及,
    计算车速超过道路类型限速的记录时间区间占所述总驾驶时间的第三比例,并将所述第三比例作为所述部分道路限速特征;以及,
    计算在预设的夜间时间段的驾驶记录时间区间占所述总驾驶时间的第四比例,并将所述第四比例作为所述夜间行驶特征;以及,
    计算在预设的高峰时间段的驾驶记录时间区间占所述总驾驶时间的第五比例,并将所述第五比例作为所述高峰时段行驶特征;以及,
    计算车速超过第二预设速度阈值的记录时间区间占所述总驾驶时间的第六比例,并将所述第六比例作为所述野蛮驾驶特征;以及,
    计算急减速事件的记录时间区间占所述总驾驶时间的第七比例,并将所述第七比例作为所述驾驶平滑度特征;以及,
    计算连续驾驶时间超过预设时长的行程总时间占所述总驾驶时间的第八比例,并将所述第八比例作为所述疲劳驾驶特征。
  13. 根据权利要求10所述的计算机设备,其中,所述相对驾驶行为特征包括节奏特征与加速特征,所述基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征的步骤,包括:
    基于所述用户驾驶导航轨迹数据,计算所述指定用户在所述目标网格区域内的第一平均车速;
    获取其他用户在所述目标网格区域内的第二平均车速;
    计算所述第一平均车速与所述第二平均车速的第一比值,并将所述第一比值作为所述节奏特征;以及,
    获取所述指定用户在所述目标网格区域内的急加速事件数;
    获取所述其他用户在所述目标网格区域内的急加速平均事件数;
    计算所述急加速事件数与所述急加速平均事件数的第二比值,并将所述第二比值作为所述加速特征。
  14. 根据权利要求9所述的计算机设备,其中,所述基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数的步骤,包括:
    基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望;
    基于所述平均路径长度与所述期望,调用预设的计算公式
    Figure PCTCN2021091726-appb-100002
    计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。
  15. 根据权利要求9所述的计算机设备,其中,所述基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果的步骤,包括:
    获取与所述指定用户驾驶行为特征数据对应的指定异常检测分数;
    判断所述指定异常检测分数是否大于第一预设分数阈值;
    若所述指定异常检测分数大于所述第一预设分数阈值,则判定所述指定用户驾驶行为特征数据为异常数据;
    若所述指定异常检测分数不大于所述第一预设分数阈值,判断所述指定异常检测分数是否小于第二预设分数阈值;
    若所述指定异常检测分数小于所述第二预设分数阈值,则判定所述指定用户驾驶行为特征数据为正常数据。
  16. 一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现一种异常数据的检测方法,其中,所述异常数据的检测方法包括以下步骤:
    获取与第一预设数量的用户分别对应的用户驾驶行为特征数据,其中,每一个所述用户驾驶行为特征数据中包括第二预设数量的用户驾驶行为特征,所述第二预设数量大于1;
    从指定用户驾驶行为特征数据包含的所有用户驾驶行为特征中筛选出一个指定用户驾驶行为特征,基于预设的与所述指定用户驾驶行为特征对应的分割值构建指定孤立树,并基于与各所述用户驾驶行为特征数据分别对应的孤立树生成孤立森林,其中,所述指定用户驾驶行为特征数据为所有所述用户驾驶行为特征数据中的任意一个特征数据;
    计算从孤立树的根节点到每个叶子节点上的用户驾驶行为特征数据的路径长度;以及,
    计算所述孤立森林中所有所述用户驾驶行为特征数据的平均路径长度;
    基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数;
    基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果。
  17. 根据权利要求16所述的计算机可读存储介质,其中,所述获取与第一预设数量的用户分别对应的用户驾驶行为特征数据的步骤之前,包括:
    获取指定用户在预设时间周期内的用户驾驶导航轨迹数据,其中,所述指定用户与所述指定用户驾驶行为特征数据具有对应关系;
    基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域,其中,所述网格区域的数量大于1;
    从所有所述网格区域中筛选出目标网格区域,其中,所述目标网格区域的数量为1;
    基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的个体驾驶行为特征;以及,
    基于所述用户驾驶导航轨迹数据与所述目标网格区域,计算所述指定用户的相对驾驶行为特征;
    基于所述个体驾驶行为特征与所述相对驾驶行为特征生成与所述指定用户对应的所述指定用户驾驶行为特征数据。
  18. 根据权利要求17所述的计算机可读存储介质,其中,所述基于与所述用户驾驶导航轨迹数据对应的道路环境地图数据,生成与所述用户驾驶导航轨迹数据对应的网格区域的步骤,包括:
    基于所述用户驾驶导航轨迹数据,获取与所述用户驾驶导航轨迹数据对应的区域的道路环境地图数据;
    对所述道路环境地图数据进行网格化处理,得到处理后的道路环境地图数据;
    获取预设的区域划分范围数值;
    基于所述区域划分范围数值,对所述处理后的道路环境地图数据进行划分处理,得到多个所述网格区域。
  19. 根据权利要求16所述的计算机可读存储介质,其中,所述基于所述路径长度与所述平均路径长度计算每一个所述用户驾驶行为特征数据的异常检测分数的步骤,包括:
    基于所述路径长度,计算每一个所述用户驾驶行为特征数据在所述孤立森林中的路径长度的期望;
    基于所述平均路径长度与所述期望,调用预设的计算公式
    Figure PCTCN2021091726-appb-100003
    计算每一个所述用户驾驶行为特征数据的异常检测分数,其中,s(x,n)为用户驾驶行为特征数据x的异常检测分数,E(h(x))为当用户驾驶行为特征数据的数量为n时,用户驾驶行为特征数据x在所述孤立森林中的路径长度的期望,c(n)为所述孤立森林中所有用户驾驶行为特征数据的平均路径长度。
  20. 根据权利要求16所述的计算机可读存储介质,其中,所述基于所述异常检测分数生成与每一个所述用户驾驶行为特征数据分别对应的异常检测结果的步骤,包括:
    获取与所述指定用户驾驶行为特征数据对应的指定异常检测分数;
    判断所述指定异常检测分数是否大于第一预设分数阈值;
    若所述指定异常检测分数大于所述第一预设分数阈值,则判定所述指定用 户驾驶行为特征数据为异常数据;
    若所述指定异常检测分数不大于所述第一预设分数阈值,判断所述指定异常检测分数是否小于第二预设分数阈值;
    若所述指定异常检测分数小于所述第二预设分数阈值,则判定所述指定用户驾驶行为特征数据为正常数据。
PCT/CN2021/091726 2020-12-29 2021-04-30 异常数据的检测方法、装置、计算机设备和存储介质 WO2022142042A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011591108.4A CN112633395B (zh) 2020-12-29 2020-12-29 异常数据的检测方法、装置、计算机设备和存储介质
CN202011591108.4 2020-12-29

Publications (1)

Publication Number Publication Date
WO2022142042A1 true WO2022142042A1 (zh) 2022-07-07

Family

ID=75285937

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/091726 WO2022142042A1 (zh) 2020-12-29 2021-04-30 异常数据的检测方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN112633395B (zh)
WO (1) WO2022142042A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221011A (zh) * 2022-09-21 2022-10-21 中国电子信息产业集团有限公司 一种数据元件流通调用异常监控方法及装置
CN115938120A (zh) * 2022-12-12 2023-04-07 广东海洋大学 一种车联网车辆异常行为识别方法及系统
CN117556714A (zh) * 2024-01-12 2024-02-13 济南海德热工有限公司 一种用于铝金属冶炼的预热管路温度数据异常分析方法
CN117622177A (zh) * 2024-01-23 2024-03-01 青岛创新奇智科技集团股份有限公司 一种基于工业大模型的车辆数据处理方法及装置
CN117786587A (zh) * 2024-02-28 2024-03-29 深圳市福山自动化科技有限公司 基于数据分析的电网数据质量异常诊断方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633395B (zh) * 2020-12-29 2024-07-19 平安科技(深圳)有限公司 异常数据的检测方法、装置、计算机设备和存储介质
CN113065902A (zh) * 2021-04-22 2021-07-02 中国平安财产保险股份有限公司 基于数据处理的费用设定方法、装置和计算机设备
CN113344713B (zh) * 2021-05-27 2022-04-22 北京优全智汇信息技术有限公司 保险方案配置投放系统及其投放方法
CN117436005B (zh) * 2023-12-21 2024-03-15 山东汇力环保科技有限公司 一种环境空气自动监测过程中异常数据处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532485A (zh) * 2019-07-11 2019-12-03 中国科学院信息工程研究所 基于多源数据融合的用户行为检测方法及装置
US20190375416A1 (en) * 2018-02-28 2019-12-12 Calamp Corp. Systems and Methods for Driver Scoring With Machine Learning
CN111833172A (zh) * 2020-05-25 2020-10-27 百维金科(上海)信息科技有限公司 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN111951116A (zh) * 2020-08-26 2020-11-17 江苏云脑数据科技有限公司 基于无监督孤立点检测的医保反欺诈监测分析方法和系统
CN112016834A (zh) * 2020-08-28 2020-12-01 中国平安财产保险股份有限公司 异常驾驶行为检测方法、装置、设备及存储介质
CN112633395A (zh) * 2020-12-29 2021-04-09 平安科技(深圳)有限公司 异常数据的检测方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878328B2 (en) * 2016-06-21 2020-12-29 Tata Consultancy Services Limited Method and system for analyzing driver behaviour based on telematics data
CN109902721B (zh) * 2019-01-28 2024-07-02 平安科技(深圳)有限公司 异常点检测模型验证方法、装置、计算机设备及存储介质
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
CN111784392A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于孤立森林的异常用户群组检测方法、装置、设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190375416A1 (en) * 2018-02-28 2019-12-12 Calamp Corp. Systems and Methods for Driver Scoring With Machine Learning
CN110532485A (zh) * 2019-07-11 2019-12-03 中国科学院信息工程研究所 基于多源数据融合的用户行为检测方法及装置
CN111833172A (zh) * 2020-05-25 2020-10-27 百维金科(上海)信息科技有限公司 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN111951116A (zh) * 2020-08-26 2020-11-17 江苏云脑数据科技有限公司 基于无监督孤立点检测的医保反欺诈监测分析方法和系统
CN112016834A (zh) * 2020-08-28 2020-12-01 中国平安财产保险股份有限公司 异常驾驶行为检测方法、装置、设备及存储介质
CN112633395A (zh) * 2020-12-29 2021-04-09 平安科技(深圳)有限公司 异常数据的检测方法、装置、计算机设备和存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221011A (zh) * 2022-09-21 2022-10-21 中国电子信息产业集团有限公司 一种数据元件流通调用异常监控方法及装置
CN115938120A (zh) * 2022-12-12 2023-04-07 广东海洋大学 一种车联网车辆异常行为识别方法及系统
CN117556714A (zh) * 2024-01-12 2024-02-13 济南海德热工有限公司 一种用于铝金属冶炼的预热管路温度数据异常分析方法
CN117556714B (zh) * 2024-01-12 2024-03-22 济南海德热工有限公司 一种用于铝金属冶炼的预热管路温度数据异常分析方法
CN117622177A (zh) * 2024-01-23 2024-03-01 青岛创新奇智科技集团股份有限公司 一种基于工业大模型的车辆数据处理方法及装置
CN117622177B (zh) * 2024-01-23 2024-05-14 青岛创新奇智科技集团股份有限公司 一种基于工业大模型的车辆数据处理方法及装置
CN117786587A (zh) * 2024-02-28 2024-03-29 深圳市福山自动化科技有限公司 基于数据分析的电网数据质量异常诊断方法
CN117786587B (zh) * 2024-02-28 2024-06-04 国网河南省电力公司经济技术研究院 基于数据分析的电网数据质量异常诊断方法

Also Published As

Publication number Publication date
CN112633395A (zh) 2021-04-09
CN112633395B (zh) 2024-07-19

Similar Documents

Publication Publication Date Title
WO2022142042A1 (zh) 异常数据的检测方法、装置、计算机设备和存储介质
Lin et al. Real-time traffic accidents post-impact prediction: Based on crowdsourcing data
US20170286845A1 (en) Automatic extraction of user mobility behaviors and interaction preferences using spatio-temporal data
CN111275962B (zh) 车辆轨迹数据聚集效应预测方法及装置
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
WO2020108219A1 (zh) 基于交通安全风险的群体划分与差异性分析方法及系统
CN111291216B (zh) 一种基于人脸结构化数据的落脚点分析方法和系统
CN113570867B (zh) 一种城市交通状态预测方法、装置、设备及可读存储介质
EP4082227A2 (en) System and method for event data processing for identification of road segments
EP3192061B1 (en) Measuring and diagnosing noise in urban environment
EP4052137A2 (en) System and method for processing vehicle event data for low latency speed analysis of road segments
CN111145535B (zh) 一种复杂场景下的行程时间可靠性分布预测方法
CN110533094B (zh) 一种用于驾驶员的评价方法和系统
Dimitriou et al. Exploring the temporal stability of global road safety statistics
CN116611678B (zh) 数据处理方法、装置、计算机设备和存储介质
Akinosho et al. Deep learning-based multi-target regression for traffic-related air pollution forecasting
JP2022026378A (ja) 車両事故予測システム、車両事故予測方法、車両事故予測プログラム、及び、学習済みモデル生成システム
CN115170304B (zh) 风险特征描述的提取方法和装置
CN114333332B (zh) 一种交通管控方法、装置及电子设备
Marks et al. Identifying and Labeling Potentially Risky Driving: A Multistage Process Using Real‐World Driving Data
CN115797084A (zh) 基于车主驾驶行为的投保定价指导方法及其相关设备
CN114495137A (zh) 票据异常检测模型生成方法与票据异常检测方法
CN114841283A (zh) 新能源车辆的行驶工况确定方法、装置、设备及介质
CN114519500A (zh) 道路安全风险等级的确定方法、装置、设备及存储介质
CN114548463A (zh) 线路信息预测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21912804

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21912804

Country of ref document: EP

Kind code of ref document: A1