KR20190057300A

KR20190057300A - 자동차 보증 사기 예측을 위한 시스템 및 방법

Info

Publication number: KR20190057300A
Application number: KR1020197008611A
Authority: KR
Inventors: 닉힐 파텔; 그레그 볼; 바라트 바르구자르
Original assignee: 하만인터내셔날인더스트리스인코포레이티드
Priority date: 2016-09-26
Filing date: 2017-09-25
Publication date: 2019-05-28
Also published as: CN109791679A; WO2018055589A1; JP2019533242A; JP7167009B2; US20190213605A1; EP3516613A1

Abstract

보증 청구가 사기일 확률을 결정하기 위한 시스템들 및 방법들을 제안한다. 방법들은 예측 사기 검출 모델 및 차량으로부터 수신되는 하나 이상의 파라미터에 기초하여 확률을 결정하는 단계를 포함할 수 있다. 사기 확률은 운용자에게 표시될 수 있다. 시스템들은 개시된 방법들을 채용하도록 구성된 진단 디바이스들을 포함한다.

Description

자동차 보증 사기 예측을 위한 시스템 및 방법

관련 출원 상호 참조

본 출원은 2016년 9월 26일자로 출원된 "SYSTEMS AND METHODS FOR PREDICTION OF AUTOMOTIVE WARRANTY FRAUD(자동차 보증 사기 예측을 위한 시스템 및 방법)"이라는 명칭의 미국 가 출원 제62/399,997호의 우선권을 주장하며, 그 전체 개시 내용이 이에 의해 모든 목적을 위해 참조로 통합된다.

기술분야

본 개시 내용은 결과를 예측하는 데 사용되는 분석 모델, 보다 상세하게는 공장 보증(factory warranty) 기간 동안 자동차 주문자 위탁 제조사들(OEM, Original Equipment Manufacturer)이 자사 제품(차량들)에 필요한 수리 시 잠재적인 보증 사기를 예측하기 위한 것이다.

자동차 주문자 위탁 제조사(OEM, Original Equipment Manufacturer)들은 더 나은 제품들을 만들고 차량의 수명 동안 필요할 수리 횟수를 줄이기 위해 지속적으로 노력하고 있다. 소비자의 신뢰를 높이기 위해, 새로운 차량들에는 보증이 제공된다. 그러나, 일부 서비스 센터는 OEM 보증을 이용하여, 최상의 서비스 품질을 제공하기 위해 노력하고, 불필요한 수리를 수행한다. 전 세계 자동차 업계는 보증 청구로 보고된 보증 청구 비용의 6%까지가 사기 - 즉, 불필요한 수리로 인한 것으로 추정한다. 수리 센터 기록과 함께 예측 분석 모델이 차량 제조사 및 모델에 사용될 경우, OEM은 잠재적 인 보증 사기를 사전에 발견하고 예측할 수 있다. 보증 수리의 1% 절감만으로도 주어진 제조사 및 모델 OEM 제품에 관한 수익성 수준을 크게 바꿀 수 있다. 따라서 주어진 보증 청구가 사기일 우도를 결정하기 위해 예측 분석 모델이 사용된다.

상기한 목적들을 염두에 두고, 운용상 효율성을 높이고, 감사 시간을 줄이고, 비용을 절감하고, 고객 만족도를 높이며, 서비스 제공업체 & OEM 관계를 보다 건강하게 강화하기 위해 사기 보증 주장의 식별을 위한 고급 분석 및 기계 학습 솔루션 프레임워크들이 본 출원에 제안된다. 본 개시 내용은 보증 비용을 줄이고 사기 청구를 식별할 수 있는 예측 프레임워크로 구현될 때 기존 보증 청구와 차량에 의해 생성된 진단 문제 코드들(DTC, Diagnostic Trouble Codes) 간 귀인뿐만 아니라 DTC들 자체 간 인과 관계를 확립하는 통계 모델 및 방법 양자를 제공한다.

본 개시 내용은 보증 사기 예측 모델 및 결과들을 개괄하며, 이것들은 청구 정보를 차량에 관해 발생된 DTC들과 함께 모니터링함으로써 잠재적인 보증 사기의 조기 경보를 생성한다. 예측 모델 자체는 청구 패턴 이력을 DTC 패턴들과 함께 검출하는 것에 기초하여 조기 경보를 제공할 수 있다. 진보된 통계적 방법들을 사용하여, 모델은 이력의 잠재적인 사기에 대한 데이터를 조사할 뿐만 아니라 서비스 센터에 의한 미래의 잠재적인 사기 예측을 위한 데이터 모델을 구축한다.

상위 레벨에서, 본 출원에 개시된 방법들은 다음 단계들 중 하나 이상을 포함할 수 있다: 데이터 이해, 정체 및 처리; 데이터를 저장하는 데이터 저장(예를 들어, 하둡 맵-리듀스 데이터베이스를 사용하여 보다 빠른 모델 구축 및 데이터 추출을 용이하게 함); 사기 청구를 예측하는 것에 있어서 DTC들 및 기타 파생 변수들의 예측력 확립; 고장을 유발하는 DTC 패턴들 및 상이한 자동차 부품들이 각 청구마다 고려됨을 검출하기 위한 연관 규칙 마이닝(Association Rule Mining); 사기 청구 예측을 위한 지도 및 비지도 예측 모델 개발; 사기 유발 성향에 의해 청구 패턴들을 랭크시키는 규칙 랭킹 방법; 훈련 데이터로부터 사기인 청구 패턴들을 식별하는 모델들; 오차 행렬을 사용함으로써 샘플 데이터에서 사기 청구를 식별하는 것에 있어서의 모델 검증; 및/또는 사기 청구를 DTC들의 패턴과 함께 발견, 학습 및 예측하는 스마트 통계 모델들을 통합.

더 상세하게는 후술될 본 출원에 개시된 방법들로 수행되는 실험들에 기초하여, 다수의 결과가 얻어졌다. 예를 들어, 본 출원에 설명된 방법들 및 시스템들을 적용할 때 실제 청구가 마무리지어지기 전에 꽤 정확하고 충분한 사전 통고로 정상적인 청구보다 빈번한 사기로 이어지는 청구를 찾아낼 수 있다. 사기 청구를 꽤 정확하게 예측하는 것을 돕는 데이터로부터 청구 패턴들을 DTC 패턴들과 함께 찾아낼 수 있다. 또한, 텔레매틱스 데이터, 보증 데이터 세트들, 수리 명령 및 원격 진단 문제 코드들(DTC들)과 같은 데이터 세트들을 조합하여 사기 청구를 정확하게 예측하는 것을 돕는다. 본 개시 내용이 청구를 DTC들과 함께 분석하기 위한 시스템들 및 방법들을 포함하지만, 본 개시 내용은 또한 목표들이 높은 정확도로 충족됨을 보여준다.

상기한 목적들이 다음 방법에 의해 달성될 수 있으며, 상기 방법은 차량으로부터 진단 문제 코드(DTC, diagnostic trouble code) 데이터 및 하나 이상의 파라미터를 수신하는 단계; 상기 진단 문제 코드 데이터 및 상기 하나 이상의 파라미터에 기초하여 보증 사기 확률을 결정하는 단계; 및 상기 보증 사기 확률이 임계치를 초과하는 것에 응답하여 사기 개연성이 있음을 운용자에게 표시하는 단계를 포함한다. 이러한 방법은 운용자가 보증 청구가 정당할(사기가 아닐) 개연성이 있는, 사기일 개연성이 있는 때 그리고/또는 보증 청구가 추가 검토를 위해 (예를 들어, 청구 분석가에게) 보내져야 할 때를 결정하기 위한 강력하고 효율적인 방법을 제공할 수 있다.

상기 방법은 상기 차량으로부터 하나 이상의 이전 DTC를 수신하는 단계로서, 상기 하나 이상의 이전 DTC에 또한 상기 결정하는 단계가 기초하는, 상기 하나 이상의 이전 DTC를 수신하는 단계; 상기 보증 사기 확률이 임계치를 초과하지 않는 것에 응답하여 사기 개연성이 낮음을 상기 운용자에게 표시하는 단계를 더 포함하되, 상기 임계치는 총 비용을 최소화하는 것에 기초하며, 상기 총 비용은 비사기인 것으로 식별되는 보증 청구들의 비용 및 사기인 것으로 잘못 식별되는 보증 청구들의 비용에 기초한다. 일부 예로, 상기 표시하는 단계는 스크린을 포함하는 디스플레이 디바이스로 상기 운용자가 판독 가능한 메시지를 디스플레이하는 단계를 포함하고/거나, 상기 DTC 데이터 및 하나 이상의 파라미터를 수신하는 단계는 CAN(controller area network) 버스를 통해 수행되고/거나, 상기 결정하는 단계는 하나 이상의 기계 학습 기술에 의해 생성된 예측 사기 검출 모델에 기초한다.

상기 방법은 또한 상기 예측 사기 검출 모델이 랜덤 포리스트 모델을 포함하는 것, 상기 예측 사기 검출 모델이 로지스틱 회귀 모델을 포함하는 것, 그리고/또는 상기 기계 학습 기술들은 k-평균 클러스터링, 결정 트리, 최대 적합 최소 중복 또는 연관 규칙 마이닝(association rule mining) 중 적어도 하나를 포함하고, 상기 기계 학습 기술들은 보증 청구 데이터베이스에 관해 수행되는 것을 구체화할 수 있다. 또한, 상기 보증 청구 데이터베이스는 스냅샷 데이터를 포함하는 과거 및 현재 DTC들, 차량 유형, 차량 제조사 및 모델, 딜러 세부 사항들, 교체 부품 정보, 작업 명령 정보 또는 차량 동작 파라미터들을 포함하는 이력 데이터를 포함할 수 있다.

다른 예들로, 상기한 목적들이 시스템에 의해 달성될 수 있으며, 상기 시스템은차량과 통신하도록 구성된 통신 디바이스; 운용자로부터 입력들을 수신하도록 구성된 입력 디바이스; 상기 운용자에 메시지들을 디스플레이하도록 구성된 출력 디바이스; 비일시적 메모리에 저장된 컴퓨터 판독 가능한 명령들을 포함하는 프로세서를 포함하며, 상기 명령들은:상기 통신 디바이스를 통해, 복수의 차량 파라미터를 수신하기 위한; 상기 차량 파라미터들에 기초하여 예측 사기 검출 모델을 실행하기 위한; 상기 실행에 기초하여 사기 확률을 결정하기 위한; 상기 사기 확률이 임계치를 초과하는 것에 응답하여 사기 표시를 디스플레이하기 위한; 그리고 상기 사기 확률이 상기 임계치를 초과하지 않는 것에 응답하여 사기 아님 표시를 디스플레이하기 위한 것이다.

또 다른 예들로, 상기한 목적들이 방법에 의해 달성될 수 있으며, 상기 방법은 복수의 차량 파라미터의 보증 청구 이력 데이터에서의 복수의 경향과의 비교에 기초하여 보증 사기 확률을 표시하는 단계를 포함한다. 이하 설명 및 첨부 도면들로부터 해당 기술분야의 통상의 기술자에게 추가 이점들 및 실시 예들이 명백해질 것이다.

본 개시 내용은 첨부된 도면들을 참조하여, 비제한적인 실시 예들에 대한 이하의 설명을 읽음으로써 더 잘 이해될 수 있으며, 아래 도면들에서:
도 1은 본 발명의 하나 이상의 실시 예에 따른 진단 디바이스의 실시 예를 도시한다;
도 2는 본 발명의 하나 이상의 실시 예에 따른 예측 사기 검출 모델을 사용하여 보증 청구의 사기 확률을 평가하기 위한 방법을 도시한다;
도 3은 본 발명의 하나 이상의 실시 예에 따른 예측 사기 검출 모델을 생성하기 위한 방법을 도시한다;
도 4는 세션 정의들에 따른 사기 청구 및 비사기 청구의 흐름도를 도시한다.
도 5는 샘플 상자 수염 그림(box and whisker plot) 방법을 도시한다;
도 6a 및 도 6b는 상자 수염 방법을 사용하여 데이터 이상치 제거 전후 샘플 데이터를 도시한다;
도 7a 내지 도 7c는 오버 샘플링(over-sampling) 기술 및 언더 샘플링(under-sampling) 기술 이후 모델 훈련 및 검증을 위한 샘플 데이터 세트들을 도시한다;
도 8은 층화 샘플링(stratified sampling) 기술을 도시한다;
도 9는 SMOTE(synthetic minority oversampling technique, 합성 소수 오버 샘플링 기술)을 도시한다;
도 10은 연속적인 데이터 점들을 이산적인 데이터 점들로 비닝(binning)하기 위한 샘플 결정 트리를 도시한다;
도 11은 비지도 기계 학습을 위한 작업 흐름도를 도시한다;
도 12는 k-평균 클러스터링 알고리즘들에 대한 적합도 그래프를 도시한다;
도 13은 민감도 및 특이도 도해를 도시한다;
도 14는 지도 기계 학습을 위한 작업 흐름도를 도시한다;
도 15는 샘플 로지스틱 함수를 도시한다;
도 16은 랜덤 포리스트 알고리즘의 개략도를 도시한다;
도 17은 결정 임계치를 결정하기 위한 ROC 곡선을 도시한다;
도 18은 모델들의 훈련 및 검증을 위한 작업 흐름도를 도시한다;
도 19a 및 도 19b는 랜덤 포리스트 및 로지스틱 회귀 모델들에 대한 모델 정확도 데이터를 도시한다.

상술한 바와 같이, 예측 사기 검출 모델을 사용하는 보증 사기 검출을 위한 시스템들 및 방법들이 제공된다. 이하는 본 출원에서 사용될 때 용어들의 정의를 포함하는 표이다:

보증 버킷 및 청구 유형	BW: 기본 보증(Basic Warranty) DW: 딜러 보증(Dealership Warranty) EW: 연장된 보증(Extended Warranty) PW: 파워트레인 보증(Powertrain Warranty) WC1: 노변 지원 이후 보증 청구(Warranty Claim after Roadside Assist) WC2: 서비스 기능 이후 보증 청구(Warranty Claim after Service Function)
사기 청구로서의 청구 상황	1 기호가 붙음(후술될 실험에서, 15,534 사기 청구, 총 청구의 6%)
정상 청구로서의 청구 상황	0 기호가 붙음(후술될 실험에서, 243,366 비사기 청구)
DTC	진단 문제 코드 - 이 보고서의 분석 단위
전체 DTC	모듈-DTC-유형 설명
DID	데이터 식별자 - 보다 세분화된 데이터(이를테면 배터리 전압, 주행 거리계)
세션	서비스 또는 수리 시 SDD에 플러그로 연결되어 차에서 얻어지는 DTC 집합 세션들은 노변 지원; 진단; Kpmp; PDI; 서비스 액션; 서비스 기능; 서비스 바로가기; 및/또는 툴박스를 비롯한 상이한 유형들을 가질 수 있다.
고장 세션	노변 지원 케이스(후술될 실험에서, 77,677 노변 지원 총 세션들의 30%)
비고장 세션	'서비스 기능' 세션 유형을 갖는 서비스 차

도 1은 본 발명의 기술들에 따른 진단 디바이스의 예시적인 실시 예를 개략적으로 도시한다. 진단 디바이스(100)는 진단 문제 코드(DTC) 및 관련 정보를 수신하기 위해, 통신 연결(142)에 의해 차량(140)에 통신가능하게 연결될 수 있다. DTC들은 SAE 표준 J/1939에 명시된 차내 진단 파라미터 ID들(OBD-II PID)을 포함할 수도 있고, 다른 표준 또는 비표준 DTC들을 포함할 수도 있다. DTC는 차량 "스냅샷" 데이터를 포함할 수 있으며, 이는 스냅샷 시간 차량과 연관된 복수의 데이터 및 동작 조건을 포함한다. DTC에 포함되는 차량 스냅샷 데이터의 비제한적인 예들은: 엔진 부하, 연료량, 냉각제 온도, 연료 압력, 공기 흡기 매니폴드 압력, 엔진 속도(RPM), 차량 속도, 점화 또는 밸브 타이밍, 스로틀 위치, 메스 에어 유량, 산소 센서 판독치들, 엔진 작동 시간, 연료 레일 압력, 배출 가스 환원 명령 및 오차, 증발 퍼지 명령, 연료 시스템 압력, 촉매 온도, 배터리 충전 상태, DTC가 표시된 이후의 시간, 연료 유형 및/또는 에탄올 비율, 연료 공급 속도, 토크 요구량, 배출 가스 온도, 특정 필터 부하, NOx 센서 판독치들 및/또는 기타 적절한 차량 동작 조건들을 포함할 수 있다.

차량과 진단 디바이스 간 통신 연결(142)은 통상적으로 CAN 버스에 의해 실현될 수 있으나, 다른 실시 예들에서는, 무선, 인터넷, 블루투스, 적외선, LAN 등과 같은 다른 적절한 연결 방법이 선택될 수도 있다. 진단 디바이스는 입력 디바이스(120), 통신 연결(142) 또는 인터넷과 같은 기타 방법을 통해 차량에 관한 추가 정보를 수신하도록 구성될 수 있다. 입력되는 추가 정보는 차량 유형, 차량 제조사 및 모델, 딜러 또는 숍 정보, 보증 청구 정보, 차량 수리 및 보증 청구 이력 또는 기타 정보를 포함할 수 있다. 진단 디바이스(100)는 교체될 부품들 및 수행될 서비스들의 유형 및 수 및 기타 정보와 같이 현재 작업 명령 및/또는 보증 청구에 관한 정보를 수신하도록 또한 구성될 수 있다.

진단 디바이스는 입력 디바이스(120) 및 출력 디바이스(110)를 포함할 수 있다. 입력 디바이스(120)는 키보드, 마우스, 터치 스크린, 마이크, 조이스틱, 키패드, 스캐너, 근접 센서, 카메라 또는 기타 디바이스를 포함할 수 있다. 입력 디바이스(120)는 운용자로부터의 입력을 수신하고 상기 입력을 진단 디바이스의 기능을 제어하기 위해 프로세서에 의해 판독 가능한 신호로 변환하도록 구성될 수 있다. 출력 디바이스(110)는 스크린, 램프, 스피커, 프린터, 햅틱 피드백 또는 기타 적절한 디바이스 또는 방법을 포함할 수 있다. 출력 디바이스(110)는 예를 들어, 램프를 밝히거나, 스크린상에 메시지를 디스플레이하거나, 스피커를 통해 오디오 신호를 재생하거나, 프린터를 통해 쓰여진 메시지를 프린트하거나 또는 햅틱 피드백 디바이스로 진동을 일으킴으로써, 하나 이상의 조건, 상태 또는 명령을 운용자에게 알리도록 구성될 수 있다. 일례로, 출력 디바이스는 보증 사기가 일어났거나 일어나지 않았을 우도를 운용자에게 통고하기 위해 사용될 수 있다.

진단 디바이스(100)는 후술될 방법들 중 하나 이상에 따른 예측 사기 모델(134)을 포함할 수 있다. 예측 사기 모델은 비일시적 메모리에 저장된 컴퓨터 판독 가능한 명령들로서 구현될 수 있다. 모델은 진단 디바이스 내 저장 매체에 로컬로 저장될 수 있다. 모델은 진단 디바이스 제조 시에 미리 설치될 수도 있고 이후에 설치될 수도 있다. 대안적으로, 예측 사기 모델은 로컬이 아니라 예를 들어 원격 데이터베이스 또는 클라우드에 저장될 수 있고, 인터넷, LAN 등을 통해 액세스될 수 있다. 예측 사기 모델은 운용자가 더 상세하게 후술될 바와 같이, 주어진 보증 청구가 사기일 우도를 결정할 수 있게 할 수 있다.

본 출원에 설명된 진단 디바이스(100)는 도 2에 도시된 방법(200)과 같이, 사기 보증 청구의 우도를 결정하기 위한 진단 방법을 수행하기 위해 사용될 수 있다. 방법(200)은 차량과 진단 디바이스 간에 통신 연결을 확립함으로써 시작된다(210). 상술한 바와 같이, 이는 CAN 버스 또는 기타 적절한 방법에 의해 실현될 수 있다. 진단 디바이스와 차량 간에 통신 연결이 확립되면, 프로세싱은 220으로 진행된다.

220에서, 상기 방법은 차량으로부터 데이터를 수신한다. 이는 현재 DTC 및 차량 동작 상황들의 "스냅샷"을 수신하는 것을 포함할 수 있다. 상술한 바와 같이, DTC는 현재 차량 내 고장을 표시하는 진단 문제 코드를 포함할 수 있다. 스냅샷 데이터는 DTC가 캡처된 때, 엔진 부하, 연료량, 냉각제 온도, 연료 압력, 공기 흡기 매니폴드 압력, 엔진 속도(RPM), 차량 속도, 점화 또는 밸브 타이밍, 스로틀 위치, 메스 에어 유량, 산소 센서 판독치들, 엔진 작동 시간, 연료 레일 압력, 배출 가스 환원 명령 및 오차, 증발 퍼지 명령, 연료 시스템 압력, 촉매 온도, 배터리 충전 상태, DTC가 표시된 이후의 시간, 연료 유형 및/또는 에탄올 비율, 연료 공급 속도, 토크 요구량, 배출 가스 온도, 특정 필터 부하, NOx 센서 판독치들 및/또는 기타 적절한 차량 동작 조건들을 포함하여, 차량의 복수의 동작 조건을 포함할 수 있다.

방법(200)은 현재 DTC 및 차량으로부터의 스냅샷에 더하여 추가 데이터를 수신할 수 있다. 이는 차량에 대한 과거 DTC 및 스냅샷 데이터, 차량 유형, 차량 제조사 및 모델, 딜러 또는 숍 정보, 보증 청구 정보, 차량 수리 및 보증 청구 이력 또는 기타 정보를 포함할 수 있다. 방법(200)은 교체될 부품들 및 수행될 서비스들의 유형 및 수 및 기타 정보와 같이 현재 작업 명령 및/또는 보증 청구에 관한 정보를 수신하도는 단계를 더 포함할 수 있다. 이러한 추가 정보는 상기한 단계 210에서 확립된 연결에 의해 차량으로부터 수신될 수도 있고, 대안적으로 입력 디바이스를 통해 또는 인터넷을 통해 운용자에 의해 공급되거나, 로컬 또는 로컬이 아닌 데이터베이스 또는 기타 소스들로부터 다운로드될 수 있다. 데이터가 수신되면, 프로세싱은 230으로 진행된다.

230에서, 상기 방법은 운용자로부터 입력을 수신하는 단계를 선택적으로 포함한다. 이는 진단 디바이스의 입력 디바이스를 통해 입력을 수신하는 단계를 포함할 수 있다. 블록 230에서는 위에서 언급된 정보 중 임의의 정보가 운용자에 의해 추가적으로 또는 대안적으로 공급될 수 있다. 예를 들어, 이 스테이지에서 수신된 입력은 어느 서비스들이 표시되는지 그리고/또는 어느 부품들이 교체되어야 하는지를 포함하여, 차량에 대한 자동차 서비스 이력, 보증 정보, DTC 스냅샷 데이터에 포함되지 않을 수 있는 관찰된 증상들 및/또는 작업 명령 정보를 포함할 수 있다. 운용자로부터 데이터가 수신되면, 프로세싱은 240으로 진행된다.

240에서, 상기 방법은 예측 사기 검출 모델에 따라 블록들 220 및 230에서 수신된 데이터를 평가한다. 예측 사기 검출 모델들 및 이의 생성은 도 3을 참조하여 더 상세하게 후술된다. 일례로, 예측 사기 모델은 랜덤 포리스트 모델을 포함할 수 있다. 이러한 예에서, 상기 방법은 복수의 파라미터에 기초하여 사기 확률을 결정할 수 있다. 파라미터들은 단계들 220 및 230으로부터 수신된 데이터 중 하나 이상을 포함할 수 있다. 랜덤 포리스트 모델은 복수의 결정 트리을 포함할 수 있되, 결정 트리들은 복수의 파라미터에 관해 실행되어 복수의 확률값을 얻을 수 있으며, 여기서 각 파라미터는 적어도 하나의 확률값을 얻기 위해 적어도 하나의 결정 트리로 실행될 수 있다. 그 결과로 생긴 확률들의 평균 또는 가중 평균이 취해져 보증 청구가 사기일 확률을 얻을 수 있다. 다른 예들로는, 그 결과로 생긴 확률들의 중앙값, 최빈값 또는 기타 지표가 평균 대신 또는 평균에 더하여 사용될 수 있다. 랜덤 포리스트 모델들은 더 상세하게 후술된다.

다른 예로, 예측 사기 모델은 로지스틱 회귀 모델을 포함할 수 있다. 이러한 예에서, 상기 방법은 복수의 파라미터에 기초하여 사기의 확률을 결정할 수 있다. 파라미터들은 단계들 220 및 230으로부터 수신된 데이터 중 하나 이상을 포함할 수 있다. 사기의 확률을 결정하는 것은 다음과 같이 각각의 파라미터들의 기여도의 지표를 일차 결합으로 결정하는 것을 포함한다

,

여기서 b _i 는 회귀 계수들이고 x _i 는 대응하는 파라미터들이다. 그 다음 사기의 확률은 로지스틱 함수에 따라 결정될 수 있다.

.

회귀 계수들 및 다른 세부 사항들의 결정은 후술된다.

예측 사기 검출 모델은 단계들 220 및 230에서 수신된 데이터 중 하나 이상과 청구 상황 의존 변수 간 복수의 경향 또는 연관성을 포함할 수 있다. 청구 상황 의존 변수는 단지 0 및 1의 값들(각각, 비사기 또는 정당 및 사기에 대응하는)을 띨 수 있는 불리언 변수일 수 있다. 대안적으로, 청구 상황 의존 변수는 주어진 보증 청구가 사기일 확률 또는 우도와 같은 연속 변수일 수 있다. 이러한 경향들 또는 연관성들은 수학적 또는 통계적 모델로 구현될 수 있거나 컴퓨터 판독 가능한 명령들의 하나 이상의 데이터 세트 또는 세트를 포함할 수 있다. 일부 경향은 주어진 변수를 사기 청구 상황과 양의 상관 관계가 있을 수 있는 한편, 다른 경향들은 주어진 변수(동일한 또는 상이한 변수)를 사기 청구 상황과 음의 상관 관계가 있을 수 있다. 다른 경향들 또는 연관성들은 보다 복잡한 수학적 관계들(즉, 비단조 관계들)을 보일 수도 있고, 주어진 변수와 사기 청구 상황 간에 전혀 상관 관계를 보이지 않을 수도 있다. 복수의 경향 또는 연관성은 후술될 기계 학습 알고리즘들 중 하나 이상에 기초하여 결정될 수 있다. 수신된 데이터가 예측 사기 모델에 따라 평가되고 보증 사기 확률이 결정되면, 프로세싱은 250으로 진행된다.

250에서, 상기 방법은 사기 확률이 임계치를 초과하는지 결정한다. 만약 그렇다면, 프로세싱은 상기 방법이 사기 개연성이 있음 표시하는 255로 진행된다. 사기 개연성이 있음 표시하는 것은 스크린상에 메시지를 포함하는 것, 스피커를 통해 소리를 재생하는 것 또는 기타 적절한 출력을 운용자에게 알리는 것을 포함할 수 있다. 250에서 사기 확률이 임계치 미만인 것으로 밝혀지면, 상기 방법은 회귀된다. 상기 방법은 사기 개연성이 낮다는 결정을 메시지 또는 기타 적절한 출력을 디스플레이함으로써 운용자에게 알리는 단계를 선택적으로 포함한다.

임계치는 기대 이익의 실변화에 기초할 수 있다. 일반적으로, (정당한) 보증 청구의 지불과 연관된 비용이 있을 수 있고 정당한 청구를 사기로 잘못 표시하는 것과 연관된 비용이 있을 수 있다. 이러한 비용들은 서로 상이할 수 있다. p0 및 p1을 분류 0 및 분류 1(각각, 비사기 및 사기)에 대한 선험적 확률들이라고 하고, c0 및 c1을 각각의 분류 오류 비용들이라 하면, 목표는 다음과 같이 정의된다:

여기서 g()는 ROC 곡선을 구체화하고, FP 및 TP는 각각 거짓 양성 및 참 양성 검출률들을 기술한다. 양 변을 미분하면 다음이 주어진다

이를 0으로 두면 다음이 주어진다

그에 따라, 최적의 분류자는 도 17의 그림(1700)에 도시된 바와 같이, 기울기가 두 분류 및 두 비용에 대한 선험적 확률들을 수반하는 비와 동일한 ROC 곡선상의 지점에 대응한다.

사기 청구당 비용 및 잘못된 예측의 비용이 이용 가능하고, 임계 파라미터를 트레이드 오프하고 이익을 최대화하는 임계를 찾는 것이 복잡하지 않다. FP가 0에 가깝에 유지되면서 적당한 TP율이 달성될 수 있다는 것에 주목한다. 이는 보증 청구의 상당한 부분을 신뢰성 있게 사전 거절할 결정 경계를 쉽게 선택할 수 있음을 의미한다. 일례로, 보수 정책은 거짓 양성이 없을 것임이 사실상 확실시되는 사전 거절 경우들에만 대할 수 있다. 이는 예를 들어, TP 축상의 0.6에 대응할 수 있다. 거절의 선험적 확률이 고려될 경우, 기대값을 보증 청구의 0.6 Х 0.06 = 4%를 사기로 표시할 것이다. 그 다음 이러한 보증 청구들은 예를 들어, 청구를 수동으로 검토할 분석가에게 보내질 수 있다.

임계치는 진단 디바이스 제조 시에 미리 선택될 수도 있고, 실행 루틴(200)에서 채용되는 예측 사기 검출 모델로 하드 코딩될 수 있다. 대안적으로, 임계치는 현재 보증 청구의 비용에 따라 가변적일 수 있다. 예를 들어, 보증 청구 비용이 낮을수록 보다 공격적으로 처리될 수 있는 반면(예를 들어, 임계치가 낮을수록, 청구가 사기로 표시될 개연성이 많음을 의미할 수 있다), 보증 청구 비용이 높을수록 보다 보수적으로 처리될 수 있다(예를 들어, 임계치가 높을수록, 청구가 사기로 표시될 개연성이 적음을 의미할 수 있다). 다른 예들에서는, 보증 청구 비용이 낮으면 보수적으로 처리될 수 있는 한편 보증 청구 비용이 높으면 공격적으로 처리될 수 있다. 추가적으로 또는 대안적으로, 임계치는 운용자에 의해 선호도에 따라 선택될 수 있다.

이제 도 3을 참조하면, 기계 학습 기술들을 사용하여 예측 사기 모델을 생성하기 위한 방법이 도시되어 있다. 상기 방법은 적절한 데이터베이스가 어셈블링되는 단계 310으로 시작된다. 데이터베이스에 대한 데이터는 차량 피드백 데이터베이스; 세션 유형 파일들; 텔레매틱스 데이터; 딜러 유형에 따른 보증 청구 데이터 세트들; 및/또는 수리 명령들을 포함하며, 다양한 소스로부터 얻어질 수 있다.

데이터베이스 사용자 가이드를 철저하게 참고하여 데이터베이스를 이해하기 위해 다수의 쿼리가 실행될 수 있다. 또한, DTC 데이터, 보증 청구, 수리 명령들 및 텔레매틱스 데이터의 각 필드를 이해하기 위해 데이터 사전이 사용될 수 있다. 하나의 대규모 테이블에서의 데이터 소스들을 모든 요청된 피처로 스티칭하기 위해 쿼리들이 사용된다. 완료되면, 쿼리들은 분석을 위한 최종 데이터 추출을 위해 데이터베이스에 관한 후처리 및 이하에 주어지는 데이터 세트들로 실행될 수 있다. 데이터베이스로 불러와지는 데이터는 보증 청구 데이터; 텔레매틱스 데이터; 수리 명령 데이터; DTC(스냅샷과 함께); 및/또는 증상 데이터 중 하나 이상을 포함할 수 있다.

세션 유형 데이터는 최적의 결과들을 위해 적어도 2년 동안 이용 가능해야 한다. 보증 청구 데이터는 청구가 이루어진 모든 세션과 연관된다. 처음에, 보증 청구가 사기로 표시되는 훈련 데이터가 사용된다. 사기 대 비사기 청구들을 준비하는 것 다음에는 고장 및 비고장 세션들이 온다. 여기서 사용되는 규칙은 다음과 같을 수 있다: 고장 세션들이 특정 딜러만으로부터의 세션들이다; 모든 기타 세션은 비고장 세션이다; 비고장 세션들의 '서비스 기능' 유형은 비고장 세션들로 처리된다; 각 고장 및 서비스 내에서, 청구들은 사기 및 비사기 청구들로 분류될 수 있다. 도 4는 이러한 방법에 따라, 세션 정보의 사기 및 비사기 청구들로의 소팅을 도시한다. 데이터베이스가 어셈블링되면, 프로세싱은 320으로 진행된다.

320에서는, 데이터베이스로 불러와지는 데이터가 정제 및 전처리된다. 불러와진 데이터는 그 결과로 생긴 모델의 강력한 운용을 보장하기 위해 정제 또는 전처리를 필요로 할 수 있다. 예를 들어, 일부 세션에서 DTC 중복이 발견될 수 있다. 각 DTC가 세션에서 한 번만 발생하도록 중복 DTC들은 자동화된 스크립트를 사용하여 제거될 수 있고 세션에서 단지 첫 번째로 발생된 DTC만이 유지될 수 있다. 또한, 일부 노변 지원 세션이 '서비스 기능' 유형으로 표시되는데, 이는 가능하지 않다. 이러한 세션들은 분석으로부터 제거된다.

데이터 탐색은 어셈블링된 데이터베이스에서 행들의 수, 변수들(열들)의 수, 각 변수의 유형, 각 변수에 대한 평균, 중앙값, 최빈값, 표준 편차, 사분위수들 찾는 것에 의한 각 변수의 요약을 포함하여, 개괄적인 요약으로 시작될 수 있다. 데이터 정제의 다른 측면은 이상치 검출 또는 제거를 수행하고 새로운 값들을 이상치들로 식별되는 그것들의 행들에 할당하는 것이다. 데이터에서의 이상치들은 오인 결과들로 이어질 수 있다. 예를 들어, 이상치들을 갖는 임의의 데이터 세트의 경우, 평균 및 표준 편차들이 분석에 오인이 될 것이다. 이를 방지하기 위해, 상자 수염 그림(Box-and-Whisker Plot) 방법을 사용하여 이상치 검출이 수행된다. 상자 수염 그림에서, 상자는 사분위수 값들 주위에 그려지고, 수염들이 데이터 극점들, 최대 및 최소 값들을 나타낸다. 이러한 그림은 이를 너머서는 임의의 데이터 거짓이 이상치들로 고려될, 그리고 그에 따라 제거될 수 있는 상한계 및 하한계(예를 들어, 상한 사분위수 및 하한 사분위수)을 정의하는 데 도움이 된다. 도 5는 개략적인 상자 수염 그림을 도시한다.

데이터 탐색 동안 개괄적인 요약을 생성하는 것에 있어서, 다음 지표들이 얻어질 수 있다:

중앙값 - 데이터가 최저에서 최고의 순으로 베열될 때 데이터의 중간

하한 사분위수 또는 25번째 백분위수 - 데이터의 하반부의 중앙값

상한 사분위수 또는 75번째 백분위수 - 데이터의 상반부의 중앙값

IQR - 상한 사분위수 - 하한 사분위수

최소 - 데이터에서 가장 작은 값

최대 - 데이터에서 가장 큰 값

하한계 - 하한 사분위수 - 1.5 IQR

상한계 - 상한 사분위수 + 1.5 IQR

이상치들 - 상한계를 초과하거나 하한계 미만의 모든 값

값들의 5% 이상이 손실되는 변수들은 전체가 제거될 수 있다. 그러한 대용량의 손실 데이터의 다른 처리는 데이터 변수의 실제 분포를 바꿀 것이고 오인된 통찰을 야기할 수 있다.

값들의 5% 미만이 손실되는 변수들은 예를 들어, MICE(Multivariate Imputation with Chained Equation)를 사용하여 할당되는 값들을 손실한 것일 수 있다. MICE에서, 손실 값들은 회귀 기반 기술을 사용하여 할당될 것이고, 여기서 손실 값들은 관찰된 변수들이 모델에 포함된다고 가정하여, 주어진 개인에 대해 관찰된 값들 및 다른 참여자들에 대한 데이터에서 관찰되는 관계들에 기초하여 할당된다. MICE는 할당 절차에 사용되는 변수들을 고려하여, 손실 데이터가 랜덤으로 손실되고 있다는가정 하에 운용되며, 이는 값이 손실되고 있는 확률이 관찰된 값들에만 의존하고 관찰되지 않은 값들에는 의존하지 않는다는 것을 의미한다.

도 6a는 전처리 전 어셈블리 후 예시적인 데이터베이스 또는 데이터세트(600a)를 도시한다. 데이터는 이상치들 및 손실 데이터 점들의 존재로 인해 인위적으로 왜곡됨에 주의한다. 도 6b는 본 발명에 따른 데이터 정제 및 전처리의 결과들(600b)을 도시한다. 데이터 정제 및 전처리가 완료되면, 방법은 330으로 진행된다.

330에서는, 어셈블링 및 전처리된 데이터가 훈련 및 검증 데이터 세트를 생성하기 위해 샘플링된다. 보증 청구 데이터는 불균형 데이터 분류에 들어간다 - 이는 데이터 분포가 비사기 청구들로 양의 왜곡도를 가짐을 의미한다. 이로 인해, 신뢰할 수 있는 기계 학습 모델을 개발 및 개괄하는 것이 어렵다. 이러한 문제는 소수 분류를 오버 샘플링하거나 다수 분류를 언더 샘플링하는 것을 포함할 수 있는 적절한 기술로 극복될 수 있다. 각 기술의 예들은 이하에 주어진다.

다수 분류를 언더 샘플링하는 것은 단순 무작위 샘플링에 의해 수행될 수 있다: 단순 무작위 샘플링 기술은 각 관찰에 동일한 선택 기회들을 부여한다. 샘플 데이터 세트에서, 사기 대 비사기 청구의 비는 1:20이며, 이는 사기 청구 비율이 95% 비사기 경우들과 비교할 때 5%인 것을 의미한다. 이러한 기술은 모든 사기 청구를 유지하고 비사기 청구들의 서브 세트를 무작위로 선택함으로써 불균형을 해결한다. 단순 무작위 샘플링을 사용할 때 비는 비사기 청구 세트로부터 무작위로 선택함으로써 예를 들어, 1:10으로 바뀔 수 있다. 그 결과, 새롭게 균형 잡힌 세트는 90%의 비사기 경우에 대하여 10% 사기 경우를 가질 수 있다. 도 7a는 단순 무작위 샘플링에 의해 다수 분류를 언더 샘플링하는 예시적인 표상(700a)을 도시한다.

다수 분류를 언더 샘플링하는 다른 접근법은 층화 샘플링(stratified sampling)이다: 층화 샘플링을 적용하는 것은 고장 수리 명령 및 서버 수리 명령과 함께 데이터 세트를 부품 카테고리 - 엔진, 트랜스미션, 에미션 및 안전 장치와 같은 상이한 피처들에 따른 카테고리들 또는 층들(strata)로 나누는 것을 포함한다. 층화 무작위 샘플링을 사용하면, 데이터 세트 모집단은 예를 들어, 6개의 서브 그룹 또는 층으로 나뉠 수 있다. 그 다음 상기 방법은 생성된 각각의 층들로부터 모집단에 비례하여 무작위 샘플들을 선택할 수 있다. 도 8은 층화 샘플링 방법의 예시적인 표상(800)을 도시한다.

대안적으로, 불균형 문제는 복제법과 같은 방법에 따라 소수 분류를 오버 샘플링함으로써 해결될 수 있다: 이는 사기 청구들이 비사기 청구 대 사기 청구에 대한 예를 들어, 70:30의 비를 이루도록 복제될 수 있는 접근법을 포함한다. 또한, 이러한 방법은 사기 청구들을 복제하고 그것들을 총 청구의 5%에서 30%로 증가시키는 것을 도울 수 있다. 도 7b는 예시적인 복제 샘플링 방법의 결과들의 표상(700b)을 도시한다.

소수 분류를 오버 샘플링하기 위한 다른 방법은 SMOTE(synthetic minority oversampling technique, 합성 소수 오버 샘플링 기술)이다: 이 접근법은 "합성" 예들을 생성함으로써 사기 청구들을 오버 샘플링하는 것을 포함한다. 사기 청구들은 각 사기 청구 샘플을 취하고 합성 예들을 도입함으로써 오버 샘플링된다. 이 경우, 합성 예들은 사기 청구를 라인 세그먼트들을 갖는 데이터 세트의 위상 공간에서 그것에 가장 가까운 이웃들에 연결함으로써 생성될 수 있다. 이는 도 9의 그림(900)에 의해 개략적으로 예시된다. 그 다음 라인 세그먼트들은 다른 사기 청구들을 라인 세그먼트들을 따라 놓인 진단 공간에서의 지점들로 식별하는 것으로서 상정된다. 그 다음 이러한 라인 세그먼트들을 따라 놓인 하나 이상의 지점이 선택되고 사기 청구들의 세트에 추가된다. 요구되는 오버 샘플링의 양에 따라, 각 사기 청구에 가장 가까운 소정의 수의 이웃이 무작위로 선택될 수 있다. 예시적인 SMOTE 샘플링 방법의 결과들의 표상(700c)이 도 7c에 도시되어 있다.

이러한 방법들의 각각은 하나의 분류로부터 다른 분류보다 더 많음 샘플을 선택하는 편중을 사용하는 것을 수반한다. 일례로, 샘플링을 선택하는 기술의 휴리스틱 접근법은 각각의 상술한 기술들을 사용하여 데이터를 샘플링하는 것을 포함할 수 있다. 그 다음 최적의 성능을 갖는 조합이 후술할 바와 같이 선택될 수 있다. 데이터베이스가 샘플링되어 훈련 및 검증 데이터 세트를 생성하면, 프로세싱은 340으로 진행된다.

340에서, 상기 방법은 잇따라서 기계 학습 기술들의 프로세싱 및 관리성을 개선하기 위해 변수들의 수를 줄이는 단계를 포함한다. 일반적으로, 어셈블링, 정제, 전처리 및 샘플링된 데이터 세트는 다수의 변수를 가질 수 있다. 계산 복잡도 및 프로세싱 부담을 줄이기 위해서는, 기계 학습 기술들에서 사용될 변수들의 수를 줄이는 것이 바람직하다. 모델이 갖는 변수들의 수가 적을 수록 설명하는 것이 더 쉽고 일반화할 개연성이 더 많다. 이러한 상황은 혁신적인 솔루션을 적용하고 두 기계 학습 알고리즘: 결정 트리 및 MRMR(Maximum Relevancy Minimum Redundancy, 최대 적합 최소 중복)을 조합함으로써 핸들링될 수 있다.

MRMR 알고리즘은 종속 변수와 상관 관계가 밀접한 변수들을 선택한다; 이러한 예에서, 종속 변수는 "청구 상황"(사기 또는 비사기)이다. 이러한 변수들은 "최대 적합성(maximum relevancy)"을 갖는다. 동시에, 이러한 변수들은 그것들 간에서 최소한의 상관 관계를 가져야 한다 - "최소 중복(minimum redundancy)". MRMR의 경우 모든 변수는 "순서 인자(ordered factor)" 또는 "숫자(numeric)" 중 어느 하나여야 한다. 이러한 예에서, 종속 변수는 부울린(0 또는 1을 취하는) 변수이고 피처들 중 대부분의 피처가 숫자이다. 그에 따라, 숫자 피처들을 인자로 나누기 위해 재귀적 파티셔닝(recursive partitioning) 기반 기능이 수행될 수 있다. 숫자 변수들은 종속 변수 - "청구 상황"에 대한 각 피처에 대해 구성된 결정 트리에 따라 별개의 변수들의 인자로 나눠질 수 있다. 결정 트리 결과들은 데이터의 인자 분해를 위한 규칙들을 부여함으로써, 바람직한 포맷으로 된 새로운 데이터 세트를 생성하여 MRMR을 적용한다. 예시적인 결정 트리(1000)가 도 10에 개략적으로 예시된다. MRMR 기술을 적용한 후, 그 결과로 생긴 데이터 세트는 다음 피처 조합들, 예를 들어: 상위 200; 상위 100; 상위 50; 또는 상위 25 피처들에 따라 저장될 수 있다. 모델 개발은 상술한 4개의 상이한 피처 세트를 가지고 시작될 수 있다. 일례로, 최종 모델이 상위 100 피처에 기초할 수 있다. 피처들은 또한 모델 훈련 및 검증 스테이지 동안 전정(pruning)될 수 있다. 후술될 한 실험에서, 최종 모델은 정진 이후, 41개의 변수에 기초할 수 있다. 피처 엔지니어링 또는 변수 감소가 비닝 함수 및 MRMR 피처 선택 함수로 실현될 수 있다. 각각의 예들이 이하에 주어진다.

비닝 함수는 연속적인 데이터를 비닝된 데이터로 변환한다. 결정 트리가 다음 피처들을 포함하여, 이를 실현하기 위해 사용된다: 데이터 프레임; 종속 변수; 상세 정보가 컴파일링에 대해 거짓으로 설정된 디폴트이다. 이는 결정 트리의 복잡도 파라미터 제어이다. 비닝 함수를 사용하는 것은 단지 함수에 대해 부울린 종속 및 숫자 독립 변수들을 포함하는 데이터 프레임을 패싱하는 것을 포함할 수 있다. 비닝 기능을 다음 동작들을 포함하는 방법을 포함할 수 있다:

1. 데이터 세트에서 연속 독립 변수들을 식별하고 독립 변수 각각에 대한 종속 변수에 대한 결정 트리를 개별적으로 실행.

2. 결정 트리에서 규칙들을 추출하고 각 규칙에서 잎 노드들(leaf nodes)을 식별.

3. 추출되고 평가된 규칙들에 기초하여 변수들을 비닝.

4. 결정 트리에서 평가된 규칙들에 따라 숫자 독립 변수들을 비닝된 변수로 변환.

이러한 방법은 일례로, 컴퓨터, 프로세서 또는 제어기의 비일시적 메모리에 저장된 컴퓨터 판독 가능한 명령들로서 구현될 수 있다.

MRMR 피처 선택 함수는 연속적인 데이터를 비닝된 데이터로 변환한다. 결정 트리가 다음 피처들을 포함하여, 이를 실현하기 위해 사용된다: 데이터 프레임 및 풀링(pulling)될 것이 요구되는 중요한 피처들의 수. MRMR은 적합 조건을 최대화하고 중복 조건을 최소화함으로써 최대 적합 최소 중복 변수들을 추출한다. 최소 중복 조건은

이고, 여기서

는

와

간 상호 정보량이고,

는 요구되고 있는 피처들(속성들)의 서브 세트이고,

는 모든 후보 피처의 풀이며,

는

내 피처들의 총 수이다. 분류들

에 대해, 최대 적합 조건은

내 모든 피처의 총 적합성을 최대화하는

이다. MRMR 피처 세트는 이러한 두 조건을 동시에 최적화함으로써 제 형태로 얻어질 수 있다

또는 감 형태로 얻어질 수 있다

MRMR 피처 선택 함수를 사용하는 것은 단지 함수에 대해 부울린 종속 및 숫자 독립 변수들을 포함하는 데이터 프레임을 패싱하는 것을 포함할 수 있다. 변수들의 수가 적절하게 감소되었으면, 프로세싱은 350으로 진행된다.

350에서, 상기 방법은 하나 이상의 비지도 학습 알고리즘들을 포함한다. 예를 들어, 이는 K-평균 클러스터링 알고리즘들 및/또는 연관 규칙 마이닝을 포함할 수 있다. 비지도 학습은 훈련 타겟이 없는 데이터(예를 들어, 비표식 데이터)로부터 통찰력 생성을 위해 사용되는 기계 학습 알고리즘의 분류이다. 클러스터링 및 연관 규칙 마이닝 알고리즘들은 임의의 청구를 사기 청구 또는 비사기 청구로분류하기 위한 솔루션을 제공할 수 있다. 도 11은 비지도 기계 학습을 위한 예시적인 작업 흐름도(1100)를 도시한다.

K-평균 클러스터링은 재귀적 파티셔닝 방법이다 - K(클러스터들의 수)를 고려해 볼 때, K-평균 클러스터링은 선택된 파티셔닝 기준(예를 들어, 비용 함수)을 최적화하는 K 클러스터들의 파티션을 찾는다. 여기서, 목적은 클러스터 내부 유사도가 높고 클러스터 사이 유사도가 낮은 데이터를 분류하는 것이다. K-평균 알고리즘은 다음 단계들로 구성된다: 초기 중심들을 임의로 선택; 가장 가까운 중심을 갖는 클러스터에 각 레코드를 할당; 각 중심을 그것에 할당된 객체들의 평균으로 계산; 그리고 어떠한 변화도 관찰되지 않을 때까지 이전 두 단계를 반복. 일례로, K-평균을 사용하는 비지도 학습을 위한 입력으로 다음 변수 세트가 사용될 수 있다: 세션에서 보증 청구 전 모든 DTC; 차량 유형; 차량 제조사; 딜러 세부 사항들; 및 청구되는 부품에 대한 어셈블리 레벨 정보. 적절한 k가 선택될 수 있다; 일례로, 10 클러스터 솔루션이 선택되며, 여기서 클러스터들의 수는 예를 들어, 적합 루틴 제곱합에 기초하여 선택될 수 있다. 도 12는 10 클러스터 솔루션에서 큰 딥(big dip)을 갖는 제곱합 내에서 10 클러스터 솔루션을 갖는 솔루션의 예시적인 그림(1200)을 도시한다. 딥 다이브 분석(Dip dive analysis)이 이상치 또는 이상 패턴들에 대해 각 클러스터 내에서 이루어진다.

다른 예로, 비지도 학습 알고리즘은 연관 규칙 마이닝을 포함할 수 있다. 연관 규칙 마이닝은 높은 수의 변수를 갖는 대용량 데이터 세트에서의 변수들 간 흥미로운 관계를 발견하기 위한 방법이다. 다음은 연관 규칙 마이닝에 대한 일부 용어이다:

지지도(Support)는 아이템 세트가 데이터베이스에서 얼마나 자주 나타나는지에 대한 지표이다:

규칙:X⇒Y이면, 지지도 = (빈도(X,Y))/N

신뢰도(Confidence)는 규칙이 얼마나 자주 참으로 밝혀졌는지에 대한 지표이다:

규칙:X⇒Y이면, 신뢰도 = (빈도(X,Y))/(빈도(X))

향상도(Lift)는 두 사건이 독립적일 경우 관찰된 지지도 대 기대되는 지지도의 비이다:

규칙:X⇒Y이면, 향상도 = 지지도/(지지도(X)^*지지도(Y))

일례로, 다음이 연관 규칙 마이닝에 대한 입력들로서 사용될 수 있다: 세션에서 보증 청구 전 모든 DTC; 및/또는 청구되는 부품들에 대한 어셈블리 레벨 정보.

높은 향상도의 규칙들을 사용하는 연관 규칙 마이닝을 통해 전형적인 거동이 관찰되며 여기서 규칙 A -> B는 DTC X가 특정 부품 P의 청구를 따르는 것을 나타내고, C의 신뢰도를 갖는다. 예를 들어, 96%의 신뢰도를 갖는 규칙은 규칙을 따르지 않은 4% 청구를 강조하기 위한 것이 된다, 즉, DTC X의 출현 없이 부품 P에 대해 제출된 청구들은 추가 조사 대상으로 고려된다 - 즉, 그것들은 사기 청구들일 개연성이 있다. 또한, 낮은 향상도의 규칙들을 사용하는 연관 규칙 마이닝을 통해 전형적인 거동이을 관찰하며 여기서 규칙 D -> E는 DTC X1이 특정 부품 P1의 청구를 따르는 것을 나타내고, C의 신뢰도 및 L의 낮은 향상도를 갖는다. 일례로, 낮은 신뢰도는 ~4%일 수 있고 낮은 향상도는 ~1.15일 수 있다. 낮은 신뢰도 및 향상도 값들은 두 사건 간 약한 의존도를 나타내며, 이는 우리가 청구들의 정당성을 의심하게 한다 - 즉, 그것들이 사기일 개연성이 있다. 그러한 청구들은 추가 조사 대상으로 표시될 수 있다. 의심되는 청구들의 분포를 조사한 후, 그러한 청구들의 높은 빈도를 갖는 딜러들, 랭킹이 신뢰도 값에 기초하여 이루어지고 청구의 실제 표식들과 대조된다.

연관 규칙 마이닝은 비순차 DTC 패턴 마이닝을 더 포함할 수 있다, 이를 수행하기 위해, 데이터 준비는 다음을 포함하여, 데이터의 추출을 포함할 수 있다

마켓 및 딜러에 관한 필터 조건들 하에서, 최근 2년간, 하둡 DB로부터 증상 데이터 및 스냅샷 데이터가 추출되었다

관찰된 증상의 총 수: 8376

보증 청구 데이터 및 수리 명령 데이터가 기본 테이블과 합쳐진다

상위 사기 청구들의 분류는 다음을 포함할 수 있다,

상이한 레벨들의 5개의 증상에 걸친 사기 청구들의 빈도가 연관 규칙 마이닝을 사용하여 추정되고 사기 청구들이 식별된다

레벨 4의 상위 6개의 증상 경로가 기준으로 취해진다

동일한 증상 패턴을 갖는 각 세션 파일이 여러 번 기록된다

이러한 6개의 증상 패턴을 포함하는 세션 파일들의 총 수가 3057이다

그 다음은 사기 청구들에 대한 비순차 DTC 패턴 마이닝이 진행될 수 있다. 상위 6개의 증상 경로가 세션 파일의 주요 고장 모드들 및 비고장 모드들로 식별된다. 각 고장 모드에 대응하는 명칭들이 사기 청구들로 이어지는 DTC들을 식별하기 위해 DTC 스냅샷 데이터로부터 맵핑된다

비순차 패턴:

6개의 증상 패턴으로부터의 3057개의 세션 파일 중, 단지 2850개만이 관찰되는데 이는 다른 세션 파일들이 DTC 스냅샷 데이터로 기록되지 않았기 때문이다

비고장 모드가 발생한 세션들의 총 수는 38899이다

발생한 DTC들은 세션 파일 명칭과 비교하여 맵핑되고 높은 지지도 및 신뢰도를 갖는 패턴들(DTC들의 세트)이 연관 규칙 마이닝(ARM)을 사용하여 추정된다

고장 모드 2, 3 및 4는 관찰되지 않는데 이는 이러한 고장 모드들로 이어지는 DTC들의 지지도가 0.05% 미만이기 때문이다

각 고장 모드들 및 비고장 모드들을 청구 상황과 합한다

ARM 수행 후, 규칙 마이닝의 결과들이 분석된다 - 사기 청구들 뿐만 아니라 비사기 청구들에서 나타나는 동일한 규칙들에 대한 지지도가 비교된다. 목표는 사기 청구들 중에서 보다 높인 신뢰도를 갖는 규칙들을 발견하는 것이다. 그로 인해 높은 사기 경향으로 이어지는 규칙들이 식별된다.

상기한 분석에 기초하여, 다음 단계들이 제시된다:

모든 고장 유형을 단일 모드로 그룹화하는 단계

고장 및 비고장 모드들을 조합한 단일 신뢰도 지표를 유도하여 규칙들을 비교하고 그것들을 그것들의 고장을 야기하는 경향에 따라 랭킹시키는 단계

전체 DTC - 즉, 전체 DTC = 모듈-DTC-유형 설명에서의 모듈 명칭을 사용하는 단계

이는 후술될 사기 청구 대 비사기 청구의 보다 양호한 분류를 위해 감독 학습 알고리즘의 적용 요구의 동기를 유발한다. 비지도 학습이 완료된 후, 패턴 랭킹이 생성될 수 있고 가중치 계산 프로세싱이 360으로 진행된다.

360에서, 상기 방법은 베이즈의 정리에 따라 패턴을 랭킹시키는 단계를 포함한다. 특히, 상기 방법은 이전 단계들 중 하나 이상에서 결정된 패턴들을 고려하여 고장의 조건부 확률을 결정하기 위해 베이즈의 정리를 적용할 수 있다. 종속 변수들로서 사기 대 비사기를 사용하여 패턴을 랭킹시키기 위해 베이즈의 정리를 적용하고, 각 패턴에 대한 확률 점수들을 생성하며, 이러한 확률 점수들을 각 패턴에 대한 가중치들로서 사용함으로써, 새롭게 계산된 가중치들이 사기 청구들의 식별을 위해 지도 학습 알고리즘(후술될 블록 370)에 대한 입력으로 사용될 것이다. 패턴들은 패턴들이 발생하였음을 고려하여 고장의 조건부 확률로 랭킹된다:

이러한 방법에서 각 용어는 다음과 같이 해석된다:

Pr(F) - 모집단의 고장 확률. 이는 Pr(F) = (고장 세션들의 수)/(소정의 간격 동안 총 판매고)로 추정될 수 있다;

Pr(NF) 모집단의 비고장 확률, 이는 1 - Pr(F);

Pr(P1|F) - 고장으로 이어지는 패턴 P1의 조건부 확률;

Pr(P1|F) = (패턴 P1을 포함하는 고장 세션들의 수)/(고장 세션들의 총 수); 그리고

Pr(P1|NF) - 고장으로 이어지는 패턴 P1의 조건부 확률: Pr(P1|NF) = (패턴 P1을 포함하는 비고장 세션들의 수)/(비고장 세션들의 총 수).

이는 예를 들어, 특정 DTC 또는 증상들의 패턴을 고려하여, 차량 고장의 확률을 결정하는 데 유용할 수 있다. 다른 실시 예들에서, 베이즈의 정리의 사용은 모델 검증으로 확장될 수 있다.

샘플 데이터에서 훈련 모델로부터 유도된 규칙들을 사용하는 모델을 검증하기 위한 새로운 방법은 사용될 수 있는 베이즈의 규칙에 기초하여 패턴 랭킹 메커니즘을 확장함으로써 사용된다:

상기한 방법은 패턴 P1이 세션에서 발생했음을 고려하여 고장 F의 확률을 추정한다 - 이는 P1의 총 지지도에서 고장을 야기하는 P1의 지지도의 비율이다. 이러한 방법에서 각 용어는 다음과 같이 해석 및 유도된다:

Pr(F|DTC)_v = 패턴, DTC를 고려해 볼 때 검증 세션의 차량 고장의 확률

Pr(F) = 차량 고장의 확률

Pr(NF) = 1-Pr(F) = 차량 비고장의 확률

Pr(DTC|F)_t = 고장 훈련 데이터에서 차량이 고장났음을 고려하여 패턴 DTC를 찾을 확률

Pr(DTC|NF)_t = 비고장 훈련 데이터에서 차량이 고장나지 않았음을 고려하여 패턴 DTC를 찾을 확률

상기한 내용에서, 훈련 세트로부터 추정된 선험 확률들로부터 검증 세트(샘플에서)에서 고장의 조건부 확률이 추정된다.

세션을 고장 또는 비고장으로 식별하기 위해, 고장 및 비고장 세션들 양자의 DTC 패턴 확률을 사용함으로써 기준 확률이 유도된다. 기준 확률을 유도하는 것은 다음 중 하나 이상을 포함할 수 있다:

1. {DTC_i}, i = 1.n을 포함하는 훈련 세트에서의 각 세션에 대해, DTC의 모든 가능한 세트, 즉 {DTC_i}의 멱집합을 생성

2. P에서 각 y에 대해, 상기한 방법을 사용하여 Pr(F|y)을 추정

3. 실제로 고장을 야기하는 패턴으로 가장 높은 P_y = Pr(F|y)을 갖는 패턴 y를 선택

4. 상이한 세션들로부터 각 P_y에 대한 민감도 및 특이도 곡선들을 추정

5. 고장 기준 확률은 이러한 2개의 곡선의 교차점이 될 것이고 이러한 지점은 고장뿐만 아니라 비고장 세션들에 대해 가장 높은 전체 분류를 제공할 것이다

그 다음 기준 확률이 분류를 위해 다음 방식으로 사용될 수 있다. 검증 세트에서의 각 세션에 대해, P_y는 상기한 내용에서 단계 1 내지 단계 3을 사용하여 추정된다. P_y가 기준 확률 이상인 경우, 세션은 고장으로 분류되고 그렇지 않으면 비고장으로 분류된다. 예시적인 민감도 및 특이도 매트릭스(1300)가 도 13에 제공된다. 패턴 랭킹 이후, 프로세싱은 370으로 진행된다.

370에서, 상기 방법은 지도 기계 학습 알고리즘들을 포함한다. 지도 기계 학습에 대한 예시적인 작업 흐름도(1400)가 도 14에 도시되어 있다. 지도 기계 학습 알고리즘들은 청구가 사기 또는 비사기일 확률의 종속 변수 및 학습 데이터 세트에서의 변수들 간 비선형 관계를 다룰 수 있다. 확률은 단지 0과 1 사이의 값들만 취할 수 있기 때문에, 이는 로지스틱 회귀 모델 또는 랜덤 포리스트 모델을 사용하여 다뤄질 수 있다.

로지스틱 회귀 모델은 복수의 파라미터에 기초하여 사기의 확률을 결정하도록 구성될 수 있다. 이러한 모델 하에서, 사기의 확률을 결정하는 것은 다음과 같이 각각의 파라미터들의 기여도의 지표를 일차 결합으로 결정하는 것을 포함한다

,

여기서 b _i 는 회귀 계수들이고 x _i 는 대응하는 파라미터들이다. 그 다음 사기의 확률은 로지스틱 함수에 따라 결정될 수 있다

.

예시적인 로지스틱 함수는 도 15의 그림(1500)에 도시되어 있다. 단계 370에서 지도 학습의 목표는 주어진 청구가 사기일 확률을 정확하게 예측할 수 있기 위해 적절한 계수들 b _n 을 결정하는 것이다. 계수들을 결정하는 것은 알려져 있는 방법에 따라 수행될 수 있다. 수반되는 높은 수의 변수 및 데이터 세트의 과도 결정에 기인하여, 최소 제곱 적합도 지표에 따른 뉴턴법과 같은 반복법이 유익할 수 있으나, 다른 실시 예들에서는, 상이한 방법들이 채용될 수도 있다.

추가적으로 또는 대안적으로, 단계 370은 랜덤 포리스트 알고리즘을 포함할 수 있다. 예시적인 랜덤 포리스트(1600)는 도 16에 개략적으로 도시되어 있다. 랜덤 포리스트는 분류 및 회귀 알고리즘이다. 간단하게, 랜덤 포리스트는 결정 트리 분류자들의 앙상블이다. 랜덤 포리스트의 출력은 트리 분류자들의 세트 중 다수이다. 각 트리를 훈련시키기 위해, 전체 훈련 세트의 서브 세트가 무작위로 샘플링된다. 그 다음, 결정 트리가 어떠한 전정도 이루어지지 않고 각 노드가 전체 피처 세트의 무작위 서브 세트로부터 선택되는 피처에 관해 분열된다는 것을 제외하고는 통상적인 방식으로 구축된다. 훈련은 많은 피처 및 데이터 인스턴스를 갖는 대용량 데이터 세트들에 대해서도 빠른데, 이는 각 트리가 다른 것들과 독립적으로 훈련되기 때문이다. 랜덤 포리스트 알고리즘은 과다 적합에 저항력이 있는 것으로 밝혀졌고 그것이 리턴하는 "OOB(out-of-bag)" 에러율을 통해 일반화의 오류의 좋은 추정을 제공한다(크로스 검증 필요 없이).

상술한 바와 같이, 데이터 세트는 불균형이 꽤 심하며, 이는 학습 프로세스 동안 일반적으로, 문제들을 초래할 수 있다. 몇몇 접근법이 리샘플링 기술들 및 비용 기반 최적화를 포함하여 랜덤 포리스트의 컨텍스트에서 불균형을 처리하기 위해 제안되었었다. 상이한 접근법은 랜덤 포리스트를 사용하는 것 그리고 조정 가능한 임계치에 기초하여 사기 청구들을 분류하는 것을 포함한다. 임계 레벨을 변경함으로써, 분류자들의 세트가 생성되며, 이의 각각은 상이한 FP(false positive) 및 TP(true positive) 율을 갖는다. FP 및 TP 율들 간 트레이드-오프가 표준 수신기 작동 특성(ROC, receiver operating characteristic) 곡선에서 캡처된다.

오픈 소스 '랜덤포리스트(randomForest)' 패키지가 사용될 수 있으며, 이는 R에서 이용 가능하다. 일례로, 각 트리 노드에서 고려될 피처들의 최대 수는 10일 수 있고 OOB 샘플링 레이트는 0.6일 수 있다. 사기 청구 예측을 위해, 랜덤 포리스트 분류자가 데이터 세트의 처음 80%에 관해 훈련될 수 있고 나머지 20%는 검증에 사용된다. 각 검증 샘플에 대해, 분류 모델은 응답 "청구 상황"을 0(비사기 청구를 나타내는) 및 1 (사기 청구)로 리턴한다.

380에서, 상기 방법은 상기한 단계들 중 하나 이상에 기초하여 예측 사기 검출 모델을 생성하는 단계를 포함한다. 예측 사기 검출 모델은 하나 이상의 수학 공식, 데이터 구조, 컴퓨터 판독 가능한 명령들 또는 데이터 세트로 생성될 수 있다. 예측 사기 검출 모델은 컴퓨터 저장 매체에 로컬로 저장되거나, 또는 광 드라이브, 유선 또는 무선 인터넷 연결, 또는 다른 적절한 방법을 통해 출력될 수 있다. 방법(300)에 의해 생성되는 예측 사기 검출 모델은 상술한 진단 루틴(200)과 같이, 사기의 확률 또는 우도를 결정하기 위한 진단 절차들에 채용될 수 있다. 예측 사기 검출 모델이 생성되면, 루틴(300)은 종료된다.

결과들

도 18은 상기한 방법들을 사용하여 수행된 실험들의 결과들을 개괄한 작업 흐름도(1800)를 도시한다. 아래 표에 주어진 것과 같이 훈련 및 검증을 위해 모델들의 32개의 상이한 조합을 선택했다:

샘플링 기술	변수들의 수	알고리즘
단순 무작위 샘플링	200	로지스틱 회귀
층화 샘플링	100	랜덤 포리스트
복제법	50
SMOTE	25

차량 레벨 모델이 또한 먼저 총 세션의 12.5%를 포함하는 하나의 차량 모델 세션들에서 필터링함으로써 개발된다.

사기 청구 예측은 로지스틱 회귀 및 랜덤 포리스트로 이루어지고, 결과들은 샘플링 기술과 특정 변수들의 조합들에 대해 유망하다. 랜덤 포리스트 및 SMOTE 샘플링을 사용하는 모델 성능은 도 19a의 차트(1900a)에 오차 행렬로 주어진다. 결과들의 모든 조합으로부터, 랜덤 포리스트 알고리즘을 사용한 41 상위 변수와 SMOTE(synthetic minority oversampling technique, 합성 소수 오버 샘플링 기술)을 사용한 모델 결과들이 모델의 다른 조합들에 비해, 정확도에 대해 너무 타협하지 않고 사기 청구들을 예측하기에 최적인 것으로 보여진다.

층화 샘플링과 로지스틱 회귀를 사용한 모델 성능은 도 19b의 차트(1900b)에 도시되어 있다. 결과들의 모든 조합으로부터, 로지스틱 회귀 알고리즘을 사용한 50 상위 변수와 변수층화 샘플링을 사용한 모델 결과들이 모델의 다른 조합들에 비해, 정확도에 대해 너무 타협하지 않고 사기 청구들을 예측하기에 차선인 것으로 보여진다.

솔루션의 부분으로, 트레이드-오프 툴이 아래에 주어지는 것과 같이 설계된다. 이러한 툴은 이익이 최대화될 수 있는 기준을 선택하는 것에 도움이 된다. 임의의 기계 학습 모델 전개는 유형-1과 유형-2 에러 간 트레이드-오프를 필요로 한다. 이러한 툴에 대한 입력들은 다음과 같다: 최종 모델; 중재 비용; 사기 청구 비용. 다음 표들은 트레이드-오프 툴의 결과들을 개괄한다.

기준: 72%		예측된 표식
기준: 72%		사기	비사기
알려져 있는 표식	사기	93%	7%
알려져 있는 표식	비사기	8%	92%

모델로부터 계산된 메트릭
정밀도	44%
재현율/민감도	93%
특이도	92%
정확도	93%

비용 비
절감 비용	10
중재 비용	1

그레인 테이블
최빈 모드 없음	초기 비용	31070
최빈 모드 이후	최종 비용	8623
	비용 차이	22447
	% 그레인	72%

이러한 툴의 도움으로, 이러한 모델을 관련 시스템에 적용함으로써 달러 게인이 대조될 수 있다. 이러한 툴에서 단지 다음 3개의 필드를 변경: 기준(분류 기준); 사기 청구 비용; 및 중재 비용. 위에서 본 바와 같이, 휴리스틱 모델은 달러 값 면에서 72% 게인을 제공하고 있다. 이론적 가정: 사기 청구 비용과 중재 비용 간 10:1 비를 가정.

상기에서 주어진 기술적 분석 및 예비 모델 결과들에 기초하여, 다음 결론들이 내려질 수 있다:

비사기보다 더 자주 사기로 이어지는 DTC들은 적정한 정확도 및 최적의 이익과 사기 청구들에 더 연관되는 것으로 찾아볼 수 있다.

베이즈의 규칙을 사용한 패턴 랭킹은 비사기 청구들보다 대개 사기 청구들로서 플래깅되는 DTC 패턴들을 식별하는 데 효율적인 방법이고 90%보다 높은 정확도로 상이한 시간 기간들에 걸쳐 일관된 결과들을 제공한다:

본 개시 내용은 보증 사기 검출을 돕기 위해 진단 문제 코드들(DTC들)을 조사하는 시스템들 및 방법들을 제공한다. 예를 들어, 모든 모집단 및/또는 서비스 제공들의 풀에 걸친 DTC 패턴이 조사되어 회사들 또는 개인들과 연관된 보증 사기의 우도를 결정하기 위해 보통의 또는 기대되는 수리 비용을 초과하려는 회사들 또는 개인들을 결정할 수 있다.

상술한 DTC 분석을 사용하기 위해, 차량 내 컴퓨팅 프레임 워크들은 DTC들을 포함하는 신호들을 수용하여, 임의의 차량에 통합될 시스템이 차량의 표준 DTC 보고 메커니즘들을 사용할 수 있게 한다. DTC들에 기초하여, 개시된 시스템들 및 방법들은 차량에 대한 현재 데이터, 차량에 대해 이전에 기록된 데이터, 다른 차량들에 대해 이전에 기록된 데이터(예를 들어, 경향들, 차량과 하나 이상의 속성을 공유하는 다른 차량들을 목적으로 하거나 전체 모집단 범위일 수 있는), 주문자 위탁 제조사들(OEM, Original Equipment Manufacturer)로부터의 정보, 리콜 정보 및/또는 기타 데이터를 사용하여, 사용자 지정 보고들을 생성할 수 있다. 일부 예에서, 보고들은 외부 서비스들로(예를 들어, 상이한 OEM들로) 보내질 수 있고/거나 그 외 DTC들의 향후 분석에 사용될 수 있다. DTC들은 보증 사기를 검출하기 위한 하나 이상의 모델을 구축하기 위해 차량들로부터 취합 및 분석을 위한 중앙 집중식 클라우드 서비스로 전달될 수 있다. 일부 예에서, 차량은 데이터(예를 들어, 로컬에서 생성된 DTC들)를 프로세싱을 위해 클라우드 서비스로 전달할 수 있고 가능성 있는 고장에 대한 표시를 수신할 수 있다. 다른 예들에서, 모델들은 차량에 로컬로 저장될 수 있고 차량에서 발생되는 DTC들을 사용하여 보증 사기의 확률의 표시를 생성하기 위해 사용될 수 있다. 차량은 몇몇 모델을 로컬로 저장할 수 있고 데이터를 차량 외부의 다른(예를 들어, 상이한) 모델들을 구축/업데이트하는 데 사용하기 위해 클라우드 서비스로 전달할 수 있다. 클라우드 서비스 및/또는 기타 원격 디바이스들과 통신할 때, 통신 디바이스들(예를 들어, 차량 및 클라우드 서비스 및/또는 기타 원격 디바이스들)은 예를 들어, 데이터를 통신하기 위해 사용되는 통신 프로토콜로 구축되는 보안 프로토콜들을 사용하여, 그리고/또는 DTC 기반 모델들과 연관된 보안 프로토콜들을 사용하여, 데이터 및/또는 모델의 양방향 검증에 참여할 수 있다.

본 개시 내용은 차량으로부터 진단 문제 코드(DTC, diagnostic trouble code) 데이터 및 하나 이상의 파라미터를 수신하는 단계, 상기 진단 문제 코드 데이터 및 상기 하나 이상의 파라미터에 기초하여 보증 사기 확률을 결정하는 단계, 및 상기 보증 사기 확률이 임계치를 초과하는 것에 응답하여 사기 개연성이 있음을 운용자에게 표시하는 단계를 포함하는 방법을 제공한다. 상기 방법의 제1 예에서, 상기 방법은 추가적으로 또는 대안적으로 상기 차량으로부터 하나 이상의 이전 DTC를 수신하는 단계를 더 포함하고, 상기 결정하는 단계는 상기 하나 이상의 이전 DTC에 또한 기초한다. 상기 방법의 제2 예는 상기 제1 예를 선택적으로 포함하고, 상기 방법이 상기 보증 사기 확률이 임계치를 초과하지 않는 것에 응답하여 사기 개연성이 낮음을 상기 운용자에게 표시하는 단계를 더 포함하는 것을 더 포함한다. 상기 방법의 제3 예는 상기 제1 예 및 상기 제2 예 중 하나 또는 양자를 선택적으로 포함하고, 상기 방법에서 상기 임계치는 총 비용을 최소화하는 것에 기초하며, 상기 총 비용은 비사기인 것으로 식별되는 보증 청구들의 비용 및 사기인 것으로 잘못 식별되는 보증 청구들의 비용에 기초하는 것을 더 포함한다. 상기 방법의 제4 예는 상기 제1 예 내지 상기 제3 예 중 하나 이상을 선택적으로 포함하고, 상기 방법에서 상기 표시하는 단계가 스크린을 포함하는 디스플레이 디바이스로 상기 운용자가 판독 가능한 메시지를 디스플레이하는 단계를 포함하는 것을 더 포함한다. 상기 방법의 제5 예는 상기 제1 예 내지 상기 제4 예 중 하나 이상을 선택적으로 포함하고, 상기 방법에서 상기 DTC 데이터 및 하나 이상의 파라미터를 수신하는 단계가 CAN(controller area network) 버스를 통해 수행되는 것을 더 포함한다. 상기 방법의 제6 예는 상기 제1 예 내지 상기 제5 예 중 하나 이상을 선택적으로 포함하고, 상기 방법에서 상기 결정하는 단계가 하나 이상의 기계 학습 기술에 의해 생성된 예측 사기 검출 모델에 기초하는 것을 더 포함한다. 상기 방법의 제7 예는 상기 제1 예 내지 상기 제6 예 중 하나 이상을 선택적으로 포함하고, 상기 방법에서 상기 예측 사기 검출 모델은 랜덤 포리스트 모델을 포함하는 것을 더 포함한다. 상기 방법의 제8 예는 상기 제1 예 내지 상기 제7 예 중 하나 이상을 선택적으로 포함하고, 상기 방법에서 상기 예측 사기 검출 모델은 로지스틱 회귀 모델을 포함하는 것을 더 포함한다. 상기 방법의 제9 예는 상기 제1 예 내지 상기 제8 예 중 하나 이상을 선택적으로 포함하고, 상기 방법에서 상기 기계 학습 기술들은 k-평균 클러스터링, 결정 트리, 최대 중복 최소 중복 또는 연관 규칙 마이닝(association rule mining) 중 적어도 하나를 포함하고, 상기 기계 학습 기술들은 보증 청구 데이터베이스에 관해 수행되는 것을 더 포함한다. 상기 방법의 제10 예는 상기 제1 예 내지 상기 제9 예 중 하나 이상을 선택적으로 포함하고, 상기 방법에서 상기 보증 청구 데이터베이스는 스냅샷 데이터를 포함하는 과거 및 현재 DTC들, 차량 유형, 차량 제조사 및 모델, 딜러 세부 사항들, 교체 부품 정보, 작업 명령 정보 또는 차량 동작 파라미터들을 포함하는 이력 데이터를 포함하는 것을 더 포함한다.

본 개시 내용은 또한 차량과 통신하도록 구성된 통신 디바이스, 운용자로부터 입력들을 수신하도록 구성된 입력 디바이스, 상기 운용자에 메시지들을 디스플레이하도록 구성된 출력 디바이스, 비일시적 메모리에 저장된 컴퓨터 판독 가능한 명령들을 포함하는 프로세서를 포함하며, 상기 명령들은: 상기 통신 디바이스를 통해, 복수의 차량 파라미터를 수신하기 위한, 상기 차량 파라미터들에 기초하여 예측 사기 검출 모델을 실행하기 위한, 상기 실행에 기초하여 사기 확률을 결정하기 위한, 상기 사기 확률이 임계치를 초과하는 것에 응답하여 사기 표시를 디스플레이하기 위한, 그리고 상기 사기 확률이 상기 임계치를 초과하지 않는 것에 응답하여 사기 아님 표시를 디스플레이하기 위한 것인 시스템을 제공한다. 상기 시스템의 제1 예에서, 상기 예측 사기 검출 모델을 실행하는 것은 추가적으로 또는 대안적으로 상기 차량 파라미터들을 이력 데이터에서의 하나 이상의 경향과 상관시키는 것을 포함할 수 있고, 상기 경향들 중 적어도 하나는 사기 보증 청구를 나타내고 상기 경향들 중 적어도 하나는 비사기 보증 청구를 나타낸다. 상기 시스템의 제2 예는 상기 제1 예를 선택적으로 포함하고, 상기 시스템에서 상기 이력 데이터는 보증 청구들, 스냅샷 데이터를 포함하는 과거 및 현재 DTC들 , 차량 유형, 차량 제조사 및 모델, 딜러 세부 사항들, 교체 부품 정보, 작업 명령 정보 또는 차량 동작 파라미터들을 포함하는 것을 더 포함한다. 상기 시스템의 제3 예는 상기 제1 예 및 상기 제2 예 중 하나 또는 양자를 선택적으로 포함하고, 상기 시스템에서 상기 예측 사기 검출 모델은 랜덤 포리스트 모델, 로지스틱 회귀 모델, k-평균 클러스터링, 결정 트리, 최대 적합 최소 중복 또는 연관 규칙 마이닝 중 적어도 하나를 포함하여, 하나 이상의 기계 학습 기술에 기초하는 것을 더 포함한다. 상기 시스템의 제4 예는 상기 제1 예 내지 상기 제3 예 중 하나 이상을 선택적으로 포함하고, 상기 시스템에서 상기 임계치는 총 비용을 최소화하는 것에 기초하며, 상기 총 비용은 비사기인 것으로 식별되는 보증 청구들의 비용 및 사기인 것으로 잘못 식별되는 보증 청구들의 비용에 기초하는 것을 더 포함한다.

본 개시 내용은 또한 복수의 차량 파라미터의 보증 청구 이력 데이터에서의 복수의 경향과의 비교에 기초하여 보증 사기 확률을 표시하는 단계를 포함하는 방법을 제공한다. 상기 방법의 제1 예에서, 상기 복수의 경향은 추가적으로 또는 대안적으로 예측 사기 검출 모델을 포함하고, 상기 예측 사기 검출 모델은 추가적으로 또는 대안적으로 하나 이상의 기계 학습 기술에 의해 상기 보증 청구 이력 데이터에 기초하여 결정된다. 상기 방법의 제2 예는 상기 제1 예를 선택적으로 포함하고, 상기 방법에서 상기 복수의 차량 파라미터는 CAN 버스를 통해 차량으로부터 수신되고, 상기 표시하는 단계는 운용자에 스크린 상의 메시지를 디스플레이하는 것을 포함하는 것을 더 포함한다. 상기 방법의 제3 예는 상기 제1 예 및 상기 제2 예 중 하나 또는 양자를 선택적으로 포함하고, 상기 방법에서 상기 기계 학습 기술들은 랜덤 포리스트 모델, 로지스틱 회귀 모델, k-평균 클러스터링, 결정 트리, 최대 적합성 최소 중복 또는 연관 규칙 마이닝 중 하나 이상을 포함하고, 상기 차량 파라미터들은 스냅샷 데이터를 포함하는 과거 및 현재 DTC들, 차량 유형, 차량 제조사 및 모델, 딜러 세부 사항들, 교체 부품 정보, 작업 명령 정보 또는 차량 동작 파라미터들 중 하나 이상을 포함하는 것을 더 포함한다.

실시 예들에 대한 설명이 예시 및 설명 목적들로 제시되었다. 실시 예들에 적합한 변형 및 변경이 상기한 설명을 고려하여 수행될 수 있거나 방법들을 실시함으로써 얻어질 수 있다. 예를 들어, 다르게 언급되지 않는 한, 설명된 방법들 중 하나 이상의 방법이 도 1을 참조하여 설명된 진단 디바이스(100)와 같이, 적합한 디바이스 및/또는 디바이스들의 조합에 의해 수행될 수 있다. 방법들은 저장 디바이스들, 메모리, 하드웨어 네트워크 인터페이스들/안테나들, 스위치들, 액추에이터들, 클록 회로등 등과 같은 하나 이상의 추가 하드웨어 요소와 조합하여 하나 이상의 로직 디바이스(예를 들어, 프로세서)로 저장된 명령들을 실행함으로써 수행될 수 있다. 설명된 방법들 및 관련 동작들은 또한 본 출원에 설명된 순서에 더하여 다양한 순서로, 병렬적으로 그리고/또는 동시에 수행될 수 있다. 설명된 시스템들은 사실상 대표적인 것이고, 추가 요소들을 포함하고/거나 요소들을 생략할 수 있다. 본 개시 내용의 주제는 개시된 다양한 시스템 및 구성, 및 기타 특징, 기능 및/또는 속성의 모든 신규하고 자명하지 않은 조합 및 서브 조합을 포함한다.

본 출원에서 사용될 때, 단수 및 "하나" 또는 "한"이라는 단어가 선행되어 언급된 요소 또는 단계는 배제가 언급되지 않는 한, 상기 요소들 또는 단계들의 복수를 배제하지 않는 것으로 이해되어야 한다. 또한, 본 개시 내용의 "일 실시 예" 또는 "일례"의 언급들은 또한 나열된 특징들을 통합하는 추가 실시 예들의 존재를 배제하는 것으로 해석되도록 의도되지 않는다. "제1", "제2", 및 "제3" 등의 용어들은 단지 라벨들로서 사용되는 것이고, 그것들의 대상들에 수치적 요건 또는 특정한 위치적 순서를 지우는 것으로 의도되지 않는다. 이하 청구범위는 특히 신규하고 자명하지 않은 것으로 여겨지는 상기한 개시 내용으로부터의 주제를 언급한다.

Claims

방법으로서,
차량으로부터 진단 문제 코드(DTC, diagnostic trouble code) 데이터 및 하나 이상의 파라미터를 수신하는 단계;
상기 진단 문제 코드 데이터 및 상기 하나 이상의 파라미터에 기초하여 보증 사기 확률을 결정하는 단계; 및
상기 보증 사기 확률이 임계치를 초과하는 것에 응답하여 사기 개연성이 있음을 운용자에게 표시하는 단계를 포함하는, 방법.
청구항 1에 있어서, 상기 차량으로부터 하나 이상의 이전 DTC를 수신하는 단계를 더 포함하고, 상기 결정하는 단계는 상기 하나 이상의 이전 DTC에 또한 기초하는, 방법.
청구항 1에 있어서, 상기 보증 사기 확률이 임계치를 초과하지 않는 것에 응답하여 사기 개연성이 낮음을 상기 운용자에게 표시하는 단계를 더 포함하는, 방법.
청구항 1에 있어서, 상기 임계치는 총 비용을 최소화하는 것에 기초하며, 상기 총 비용은 비사기인 것으로 식별되는 보증 청구들의 비용 및 사기인 것으로 잘못 식별되는 보증 청구들의 비용에 기초하는, 방법.
청구항 1에 있어서, 상기 표시하는 단계는 스크린을 포함하는 디스플레이 디바이스로 상기 운용자에게 판독 가능한 메시지를 디스플레이하는 단계를 포함하는, 방법.
청구항 1에 있어서, 상기 DTC 데이터 및 하나 이상의 파라미터를 수신하는 단계는 CAN(controller area network) 버스를 통해 수행되는, 방법.
청구항 1에 있어서, 상기 결정하는 단계는 하나 이상의 기계 학습 기술에 의해 생성된 예측 사기 검출 모델에 기초하는, 방법.
청구항 7에 있어서, 상기 예측 사기 검출 모델은 랜덤 포리스트 모델(random forest model)을 포함하는, 방법.
청구항 7에 있어서, 상기 예측 사기 검출 모델은 로지스틱 회귀 모델(logistic regression model)을 포함하는, 방법.
청구항 7에 있어서, 상기 기계 학습 기술들은 k-평균 클러스터링, 결정 트리, 최대 적합 최소 중복(maximum relevancy minimum redundancy) 또는 연관 규칙 마이닝(association rule mining) 중 적어도 하나를 포함하고, 상기 기계 학습 기술들은 보증 청구 데이터베이스에 관해 수행되는, 방법.
청구항 10에 있어서, 상기 보증 청구 데이터베이스는 스냅샷 데이터을 포함하는 과거 및 현재 DTC들, 차량 유형, 차량 제조사 및 모델, 딜러 세부 사항들, 교체 부품 정보, 작업 명령 정보 또는 차량 동작 파라미터들을 포함하는 이력 데이터를 포함하는, 방법.
시스템으로서,
차량과 통신하도록 구성된 통신 디바이스;
운용자로부터 입력들을 수신하도록 구성된 입력 디바이스;
상기 운용자에 메시지들을 디스플레이하도록 구성된 출력 디바이스;
비일시적 메모리에 저장된 컴퓨터 판독 가능한 명령들을 포함하는 프로세서를 포함하며, 상기 명령들은:
상기 통신 디바이스를 통해, 복수의 차량 파라미터를 수신하기 위한;
상기 차량 파라미터들에 기초하여 예측 사기 검출 모델을 실행하기 위한;
상기 실행에 기초하여 사기 확률을 결정하기 위한;
상기 사기 확률이 임계치를 초과하는 것에 응답하여 사기 표시를 디스플레이하기 위한; 그리고
상기 사기 확률이 상기 임계치를 초과하지 않는 것에 응답하여 사기 아님 표시를 디스플레이하기 위한 것인, 시스템.
청구항 12에 있어서, 상기 예측 사기 검출 모델을 실행하는 것은 상기 차량 파라미터들을 이력 데이터에서의 하나 이상의 경향과 상관시키는 것을 포함하고, 상기 경향들 중 적어도 하나는 사기 보증 청구들을 나타내고 상기 경향들 중 적어도 하나는 비사기 보증 청구들을 나타내는, 시스템.
청구항 13에 있어서, 상기 이력 데이터는 보증 청구들, 스냅샷 데이터를 포함하는 과거 및 현재 DTC들, 차량 유형, 차량 제조사 및 모델, 딜러 세부 사항들, 교체 부품 정보, 작업 명령 정보 또는 차량 동작 파라미터들을 포함하는, 시스템.
청구항 12에 있어서, 상기 예측 사기 검출 모델은 랜덤 포리스트 모델, 로지스틱 회귀 모델, k-평균 클러스터링, 결정 트리, 최대 적합 최소 중복 또는 연관 규칙 마이닝 중 적어도 하나를 포함하여, 하나 이상의 기계 학습 기술에 기초하는, 시스템.
청구항 12에 있어서, 상기 임계치는 총 비용을 최소화하는 것에 기초하며, 상기 총 비용은 비사기인 것으로 식별되는 보증 청구들의 비용 및 사기인 것으로 잘못 식별되는 보증 청구들의 비용에 기초하는, 시스템.
방법으로서,
복수의 차량 파라미터의 보증 청구 이력 데이터에서의 복수의 경향과의 비교에 기초하여 보증 사기의 확률을 표시하는 단계를 포함하는, 방법.
청구항 17에 있어서, 상기 복수의 경향은 예측 사기 검출 모델을 포함하되, 상기 예측 사기 검출 모델은 하나 이상의 기계 학습 기술에 의해 상기 보증 청구 이력 데이터에 기초하여 결정되는, 방법.
청구항 18에 있어서, 상기 복수의 차량 파라미터는 CAN 버스를 통해 차량으로부터 수신되고, 상기 표시하는 단계는 운용자에 스크린 상의 메시지를 디스플레이하는 단계를 포함하는, 방법.
청구항 19에 있어서, 상기 기계 학습 기술들은 랜덤 포리스트 모델, 로지스틱 회귀 모델, k-평균 클러스터링, 결정 트리, 최대 적합 최소 중복 또는 연관 규칙 마이닝 중 하나 이상을 포함하고, 상기 차량 파라미터들은 스냅샷 데이터를 포함하는 과거 및 현재 DTC들, 차량 유형, 차량 제조사 및 모델, 딜러 세부 사항들, 교체 부품 정보, 작업 명령 정보 또는 차량 동작 파라미터들 중 하나 이상을 포함하는, 방법.