KR20180118596A

KR20180118596A - 데이터세트들의 반-자동 라벨링

Info

Publication number: KR20180118596A
Application number: KR1020187012377A
Authority: KR
Inventors: 알렉산드레 다리아크; 라즈반 란카; 로버트 호건; 나다니엘 존 매컬리스-파크; 켄 채트필드
Original assignee: 트랙터블 리미티드
Priority date: 2015-10-02
Filing date: 2016-10-03
Publication date: 2018-10-31
Also published as: GB201517462D0; JP7048499B2; WO2017055878A1; AU2016332947A1; EP3357002A1; US20180300576A1; AU2022202268A1; AU2016332947B2; JP2018537798A; JP2022091875A; CN108885700A

Abstract

라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트는 분류(또는 회귀(regression))를 위한 머신 러닝 모델(machine learning model)로 모델링된다. 타겟 데이터세트는 머신 러닝 모델에 의해 프로세싱되고; 타겟 데이터세트의 서브그룹이 라벨링 또는 라벨 검증을 위해 사용자로의 프리젠테이션을 위해 준비되고; 서브그룹의 라벨 검증 또는 사용자 재-라벨링 또는 사용자 라벨링이 수신되고; 그리고 업데이트된 타겟 데이터세트가 머신 러닝 모델에 의해 재-프로세싱된다. 분류되지 않거나 부분적으로 분류된 타겟 데이터세트를 머신 러닝 모델로 모델링하는 것과 결합되는 사용자 라벨링 또는 라벨 검증은 타겟 데이터세트의 라벨링되지 않은 컴포넌트의 효율적인 라벨링을 제공하는 것을 목표로 한다.

Description

데이터세트들의 반-자동 라벨링

본 발명은 데이터세트들 내의 데이터의 분류(또는 회귀)에 관한 것이다. 특히, 본 발명은 하나 또는 그 초과의 데이터세트들로의 머신 러닝(machine learning) 기술들의 적용을 강화하기 위해 하나 또는 그 초과의 데이터세트들 내의 데이터에 태그들을 할당하는 것에 관한 것이다. 본 발명은 또한 데이터 분류(또는 회귀) 동안 컴퓨터-보조 품질 제어 방법, 및 하나 또는 그 초과의 데이터세트들 내의 데이터의 반-자동화된 태깅의 방법에 관한 것이다.

분류(또는 회귀) 또는 회귀에 대한 감독 러닝 알고리즘들의 적용에 있어서, 초기에, 트레이닝 데이터는 올바르게 라벨링될 필요가 있는데, 즉, 종속 변수가 트레이닝 데이터의 각각의 데이터 포인트에 올바르게 할당될 것을 요구한다. 감독 러닝 알고리즘(supervised learning algorithm)은 종속 변수에 대한 값을 알고 올바른 것으로 가정한 회귀 또는 분류 기술이다. 종속 변수는 러닝되고 있는 변수이며, 이는 분류 경우에서는 이산적이며 회귀 경우에서는 연속적이고, 분류 시에 태그 또는 라벨로서 또한 알려진다. 트레이닝 데이터에 대한 종속 변수의 값들은, 다른 수단에 의해 실지 검증(ground truth) 결과의 레코딩으로서 획득되는 바와 같은 실지 검증 값 그 자체에 의해, 또는 종속 변수의 실지 검증 값이 무엇인지에 관한 자신의 견해를 표현하는 지식인(knowledgeable human)의 수동 주석에 의해 획득될 수 있었다. 예를 들어, 지질 애플리케이션에서, 트레이닝 세트는 3D 지진 스캔들의 세트일 수 있고, 데이터 포인트는 스캔에서 보셀(voxel)일 것이고, 종속 변수는 보셀에 의해 표현된 공간의 포인트에서 자원 부존(resource endowment)에 대한 표시자일 것이고, 이 값은 드릴링(drilling) 또는 감지에 의해 발견되었을 수 있다. 법적 애플리케이션에서, 트레이닝 세트는 과거 소송 사건들의 세트일 수 있고, 데이터 포인트는 소송 사건을 나타내는 문서들의 모음일 것이고, 종속 변수의 실지 검증 값은 피고에 대한 사건의 실제 재정적 결과일 것이다. 그 후, 완전히 라벨링된 데이터는 하나 또는 그 초과의 감독 러닝 알고리즘들을 트레이닝하는데 사용된다.

다수의 예들에서, 지식인이 개별 데이터 포인트들에 태그들을 부가함으로써 트레이닝 데이터를 생성하는 것이 필수적이다. 이 트레이닝 데이터를 준비하는 것(즉, 데이터를 올바르게 분류하는 것)은 특히, 많은 양의 트레이닝 데이터가 사용되는 경우 그리고 데이터 사전 준비의 품질이 일관적으로 높지 않은 경우, 매우 노동 집약적이며 비용이 많이 들고 불편할 수 있다. 종래의 대화식 라벨링은 컴퓨테이션적으로 비용이 많이 들고 양호한 결과를 전달하지 못할 수 있다.

자동차 보험 청구 트리아지(triage) 및 수리 추정(repair estimate)들에 대한 종래의 이미지 분석에서, 이미지들은 표준화된 조건들(예를 들어, 조명, 각도, 줌, 배경) 하의 제어된 환경에서 캡처된다. 제어된 환경으로부터의 이미저리(imagery)를 제공하기 위해, 특수 장비가 전용 사이트들에서 요구되며 평가될 차들은 이 전용 사이트들로 운송된다. 이는 매우 비용이 많이 들고 불편할 수 있다.

양상들 및/또는 실시예들은 개선된 효율로 하나 또는 그 초과의 데이터세트들의 라벨링을 가능하게 할 수 있는, 하나 또는 그 초과의 데이터세트들 내의 데이터를 라벨링하기 위한 방법 및/또는 시스템을 제공할 수 있다.

또한, 양상들 및/또는 실시예들은 위의 문제들 중 적어도 일부를 완화할 수 있는 자동차 보험 청구 트리아지(auto insurance claims triage) 및 수리 추정들을 위한 이미지 분석을 위한 개선된 시스템을 제공할 수 있다. 특히, 시스템은 제어되지 않은 환경들에서 상품 하드웨어(commodity hardware)로부터의 이미저리를 수용할 수 있다.

일 양상에 따라, 분류 또는 회귀(regression)를 위한 머신 러닝 모델(machine learning model)로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법이 제공되며, 이 방법은, 머신 러닝 모델에 의해 타겟 데이터세트를 프로세싱하는 단계; 라벨링 또는 라벨 검증을 위해 사용자로의 프리젠테이션을 위해 타겟 데이터세트의 서브그룹을 준비하는 단계; 서브그룹의 라벨 검증 또는 사용자 재-라벨링 또는 사용자 라벨링을 수신하는 단계; 및 머신 러닝 모델에 의해 업데이트된 타겟 데이터세트를 재-프로세싱하는 단계를 포함한다.

분류되지 않거나 부분적으로 분류된 타겟 데이터세트를 머신 러닝 모델로 모델링하는 것과 결합되는 사용자 라벨링 또는 라벨 검증은 타겟 데이터세트의 라벨링되지 않은 컴포넌트의 효율적인 라벨링을 가능하게 할 수 있다. 모델링을 위해 머신 러닝 모델을 사용함으로써, 다양한 이미지 조건들(예컨대, 조명, 각도, 줌, 배경, 차폐)을 갖는 이미지들이 효과적으로 프로세싱될 수 있다. 머신 러닝 알고리즘은 예를 들어, 콘볼루션 신경 네트워크(convolutional neural network), 지원 벡터 머신(support vector machine), 랜덤 포레스트(random forest) 또는 신경 네트워크일 수 있다. 선택적으로, 머신 러닝 모델은 고차원 이미지들(예를 들어, 10,000 픽셀들 또는 그 초과)에 대해 분류 또는 회귀를 수행하는데 매우 적합한 모델이다.

선택적으로, 방법은, 타겟팅된 서브그룹의 라벨링 및 라벨 검증을 위해 사용자로의 타겟팅된 프리젠테이션(targeted presentation)을 위해 타겟 데이터세트의 타겟팅된 서브그룹을 결정하는 단계를 포함할 수 있다. 이는 사용자가 사용자에게 포워딩되는 질의들에 수동적으로 응답하는 것을 가능하게 할 수 있고, 이에 따라 사용자 주도성(user initiative), 기술 및 지식에 대한 의존도를 낮추어 모델 및 데이터세트 품질을 개선할 수 있다

선택적으로, 준비하는 단계는 복수의 대표 데이터 인스턴스들을 결정하고 대표 데이터 인스턴스들만의 클러스터 플롯(cluster plot)을 제시하기 위해 클러스터 플롯을 준비하는 단계를 포함할 수 있다. 이는 컴퓨테이셔널 로드(computational load)를 감소시킬 수 있고 신속한 디스플레이를 위한 클러스터 플롯의 신속한 준비 및 이에 따른 고차원 데이터세트의 시각화를 가능하게 한다. 선택적으로, 복수의 대표 데이터 인스턴스들은 특징 공간(feature space)에서 결정될 수 있다. 선택적으로, 복수의 대표 데이터 인스턴스들은 입력 공간에서 결정될 수 있다. 선택적으로, 복수의 대표 데이터 인스턴스들은 샘플링에 의해 결정될 수 있다. 선택적으로, 준비하는 단계는, 2 차원 또는 3 차원으로의 복수의 대표 데이터 인스턴스들의 차원 감소(dimensionality reduction)를 포함할 수 있다. 선택적으로, 차원 감소는 t-분포 확률적 이웃 임베딩(t-distributed stochastic neighbour embedding)에 의한 것일 수 있다.

선택적으로, 준비하는 단계는 그리드를 제시하기 위해 그리드로 복수의 이미지들을 준비하는 단계를 포함할 수 있다. 그리드로의 프리젠테이션은 특히, 불규칙한 이미지들의 효율적인 식별을 가능하게 할 수 있다.

선택적으로, 준비하는 단계는 유사한 데이터 인스턴스들을 제시하기 위해 베이지안 세트 방법(Bayesian sets method)에 의해 하나 또는 그 초과의 선택된 데이터 인스턴스에 대해 유사한 데이터 인스턴스들을 식별하는 단계를 포함할 수 있다. 베이지안 세트 방법은 특히 효율적인 프로세싱을 가능하게 하며, 이는 프로세싱을 수행하는 데 필요한 시간을 감소시킬 수 있다.

다른 양상에 따라, 콘볼루션 신경 네트워크로 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델(computational model)을 생성하는 방법이 제공되며, 이 방법은, 복수의 라벨링되지 않은 차량 이미지들을 수신하는 단계; 콘볼루션 신경 네트워크에 의해 차량 이미지들을 프로세싱하는 단계; 라벨링 또는 라벨 검증을 위해 사용자로의 프리젠테이션을 위해 차량 이미지들의 서브그룹을 준비하는 단계; 서브그룹의 라벨 검증 또는 사용자 재-라벨링 또는 사용자 라벨링을 수신하는 단계; 및 콘볼루션 신경 네트워크에 의해 복수의 차량 이미지들을 재-프로세싱하는 단계를 포함한다.

콘볼루션 신경 네트워크로 라벨링되지 않은 이미지들을 포함하는 모델링 타겟 데이터세트와 결합되는 사용자 라벨링 또는 라벨 검증은 타겟 데이터세트의 라벨링되지 않은 이미지들의 효율적인 분류(또는 회귀)를 가능하게 할 수 있다. 모델링을 위해 콘볼루션 신경 네트워크를 사용함으로써, 다양한 이미지 조건들(예컨대, 조명, 각도, 줌, 배경, 차폐)을 갖는 이미지들이 효과적으로 프로세싱될 수 있다. 다른 머신 러닝 알고리즘이 콘볼루션 신경 네트워크를 대신할 수 있다.

선택적으로, 방법은, 타겟팅된 서브그룹의 라벨링 및 라벨 검증을 위해 사용자로의 타겟팅된 프리젠테이션(targeted presentation)을 위해 차량 이미지들의 타겟팅된 서브그룹을 결정하는 단계를 포함할 수 있다. 이는 사용자가 사용자에게 포워딩되는 질의들에 수동적으로 응답하는 것을 가능하게 할 수 있고, 이에 따라 사용자 주도성, 기술 및 지식에 대한 의존도를 낮추어 모델 및 데이터세트 품질을 개선할 수 있다. 선택적으로, 준비하는 단계는 위에서 설명된 바와 같이 데이터를 준비하는 단계들 중 하나 또는 그 초과를 포함할 수 있다.

선택적으로, 방법은, 복수의 라벨링되지 않은 차량 이미지들을 갖는 복수의 비-차량 이미지들을 수신하는 단계; 콘볼루션 신경 네트워크에 의해 차량 이미지들로 비-차량 이미지들을 프로세싱하는 단계; 검증을 위해 사용자로의 프리젠테이션을 위한 비-차량 이미지들을 준비하는 단계; 비-차량 이미지들의 검증을 수신하는 단계; 및 복수의 라벨링되지 않은 차량 이미지들을 생성하도록 비-차량 이미지들을 제거하는 단계를 더 포함할 수 있다. 이는 무관한 이미지들을 포함하는 데이터세트의 개선을 가능하게 할 수 있다.

차량 이미지들의 서브그룹은 특정 차량 부분을 모두 보여줄 수 있다. 이는 차량 부분 별로 이미지들의 태깅을 가능하게 할 수 있다. 이미지는 그것과 연관된 하나 초과의 차량 부분 태그를 가질 수 있다. 차량 이미지들의 서브그룹은 손상된 조건의 특정 차량 부분을 모두 보여줄 수 있다. 이는 손상 상태 별로 이미지들의 라벨링을 가능하게 할 수 있다. 차량 이미지들의 서브그룹은 수리 가능한 손상된 조건의 특정 차량 부분을 모두 보여줄 수 있다. 차량 이미지들의 서브그룹은 교체가 적합한 손상된 조건의 특정 차량 부분을 모두 보여줄 수 있다. 이는, 수리 또는 교체 중 어느 것이 가장 적절한지에 관한 표시를 갖는 이미지들의 라벨링을 가능하게 할 수 있다.

다른 양상에 따라, 위에서 설명된 바와 같은 방법에 의해 생성된 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델(computational model)이 제공된다. 이는, 차량 손상 및 적절한 수리/교체 응답을 특히 잘 모델링할 수 있는 모델을 생성하는 것을 가능하게 할 수 있다.

컴퓨테이셔널 모델은, 이미지로부터 하나 또는 그 초과의 손상된 부분들을 식별하고; 손상된 부분이 수리 가능한지 또는 교체하기에 적합한지를 식별하고; 그리고 차량 손상에 대한 수리 비용 추정을 계산함으로써, 수리 비용 추정을 컴퓨팅하도록 적응될 수 있다. 이는 차량 손상과 관련하여 보험 청구의 신속한 프로세싱을 가능하게 할 수 있다.

선택적으로, 유용성을 강화하기 위해, 컴퓨테이셔널 모델은 수리 비용 추정의 확실성을 컴퓨팅하도록 적응될 수 있다. 선택적으로, 유용성을 강화하기 위해, 컴퓨테이셔널 모델은 폐차 권고를 결정하도록 적응될 수 있다. 선택적으로, 수리 비용 추정의 품질을 강화하기 위해, 컴퓨테이셔널 모델은 차량 손상 수리를 추정하기 위해 손상된 차량의 복수의 이미지들을 조건으로 한 그의 출력을 컴퓨팅하도록 적응될 수 있다. 선택적으로, 수리 비용 추정의 품질을 강화하기 위해, 컴퓨테이셔널 모델은 차량 손상 수리를 추정하기 위해 손상된 차량의 복수의 이미지들을 수신하도록 적응될 수 있다. 선택적으로, 유용성을 강화하기 위해, 컴퓨테이셔널 모델은 내부 손상에 대한 추정을 컴퓨팅하도록 적응될 수 있다. 선택적으로, 유용성을 강화하기 위해, 컴퓨테이셔널 모델은 사용자로부터 하나 또는 그 초과의 추가 이미지들을 요청하도록 적응될 수 있다.

다른 양상에 따라, 위에서 설명된 바와 같은 컴퓨테이셔널 모델을 생성하도록 적응된 소프트웨어가 제공된다. 다른 양상에 따라, 위에서 설명된 바와 같은 컴퓨테이셔널 모델을 생성하도록 적응된 프로세서가 제공된다.

양상들 및/또는 실시예들은, 데이터를 실질적으로 첨부 도면들을 참조하여 예시되고 그리고/또는 본원에서 설명된 바와 같이 모델링하는 방법으로 확장될 수 있다.

양상들 및/또는 실시예들은 또한, 차량 손상 수리를 실질적으로 첨부 도면들을 참조하여 예시되고 그리고/또는 본원에서 설명된 바와 같이 추정하기 위한 컴퓨테이셔널 모델을 생성하는 방법으로 확장될 수 있다.

양상들 및/또는 실시예들은 또한, 실질적으로 본원에서 첨부 도면들을 참조하여 예시되고 그리고/또는 설명된 바와 같은 컴퓨테이셔널 모델로 확장될 수 있다.

양상들 및/또는 실시예들은 또한, 데이터를 실질적으로 첨부 도면들을 참조하여 예시되고 그리고/또는 본원에서 설명된 바와 같이 모델링하기 위한 소프트웨어로 확장될 수 있다.

양상들 및/또는 실시예들은 또한, 데이터를 실질적으로 첨부 도면들을 참조하여 예시되고 그리고/또는 본원에서 설명된 바와 같이 모델링하기 위한 시스템으로 확장될 수 있다.

양상들 및/또는 실시예들은 또한, 실질적으로 첨부 도면들을 참조하여 본원에서 설명된 바와 같은 방법들 및/또는 장치로 확장될 수 있다.

양상들 및/또는 실시예들은 또한, 본원에서 설명된 방법들 중 임의의 것을 수행하기 위한 그리고/또는 본원에서 설명된 장치 특징들 중 임의의 것을 구현하기 위한 컴퓨터 프로그램 및 컴퓨터 프로그램 제품, 및/또는 본원에서 설명된 방법들 중 임의의 것을 수행하기 위한 프로그램이 저장되어 있고 그리고/또는 본원에서 설명된 장치 특징들 중 임의의 것을 구현하기 위한 컴퓨터 판독 가능 매체를 제공할 수 있다.

양상들 및/또는 실시예들은 또한, 본원에서 설명된 방법들 중 임의의 것을 수행하기 위한 그리고/또는 본원에서 설명된 장치 특징들 중 임의의 것을 구현하기 위한 컴퓨터 프로그램을 구현하는 신호, 이러한 신호를 송신하는 방법, 및 본원에서 설명된 방법들 중 임의의 것을 수행하기 위한 그리고/또는 본원에서 설명된 장치 특징들 중 임의의 것을 구현하기 위한 컴퓨터 프로그램을 지원하는 운영 체제를 갖는 컴퓨터 제품을 제공할 수 있다.

본원에서 설명된 바와 같은 임의의 장치 특징은 또한 방법 특징으로서 제공될 수 있으며, 그 반대도 가능하다. 본원에서 사용되는 바와 같이, 수단 + 기능 특징들은 적합하게 프로그래밍된 프로세서 및 연관된 메모리와 같이 그의 대응하는 구조의 관점에서 대안적으로 표현될 수 있다.

하나의 양상의 임의의 특징은 임의의 적절한 결합으로 다른 양상들에 적용될 수 있다. 특히, 방법 양상들은 장치 양상들에 적용될 수 있고, 그 반대도 가능하다. 또한, 일 양상의 임의의, 일부 및/또는 모든 특징들은, 임의의 적절한 결합으로, 임의의 다른 양상의 임의의, 일부 및/또는 모든 특징들에 적용될 수 있다.

또한, 임의의 양상들에서 설명되고 정의된 다양한 특징들의 특정 결합이 독립적으로 구현되고 그리고/또는 공급되고 그리고/또는 사용될 수 있다는 것이 인지되어야 한다.

또한, 하드웨어로 구현되는 특징들은 일반적으로 소프트웨어로 구현될 수 있고, 그 반대도 가능하다. 본원에서 소프트웨어 및 하드웨어 특징들에 대한 임의의 참조는 상응하게 해석되어야 한다.

본 발명의 이들 및 다른 양상들은 유사한 참조 번호들을 갖는 다음의 도면들을 참조하여 설명되는 다음의 예시적인 실시예들로부터 명백해질 것이다.
도 1은 데이터를 라벨링하는 방법의 개략도이다.
도 2는 도 1의 방법의 단계의 개략도이다.
도 3은 데이터를 라벨링하기 위한 시스템의 개략도이다.
도 4a 및 도 4b는 클러스터 플롯을 갖는 그래픽 사용자 인터페이스의 도면들이다.
도 5는 이미지들의 그리드를 갖는 그래픽 사용자 인터페이스의 도면이다.
도 6a 및 도 6b는 타겟팅된 감독(targeted supervision)을 위한 그래픽 사용자 인터페이스의 도면들이다.
도 7은 차량 손상 추정을 위한 시스템의 개략도이다.

약 10년 동안, 다수의 국가들의 차량 차체 공장(vehicle body shop)들 및 손실 조정자들은 보험사들 또는 간청자들에게 제출된 수리 추정(repair estimate)들을 뒷받침하는 증거로서 손상된 차량들의 사진들을 캡처하였다. 미국에서만 연당 약 1천 9백만 건의 모터 청구(motor claim)들 및 청구 당 약 10개의 이미지들과 관련하여, 손상된 차량들에 대한 대규모의 이미저리 데이터가 존재한다.

머신 러닝은 기존의 차량 손상 이미저리를 이용할 수 있는 매력적인 툴이며, 딥 러닝(deep learning)(및, 특히 콘볼루션 신경 네트워크(convolutional neural network)들)은 고차원 감각 데이터의 자동 인식 및 이해를 향한 커다란 전진을 이루었다. 이러한 기술들을 뒷받침하는 근본적인 아이디어들 중 하나는, 알고리즘이 가장 유용한 특징들을 추출하는 것을 러닝함으로써 데이터를 가장 잘 표현하는 방법을 결정할 수 있다는 것이다. 추출된 특징들이 충분히 양호한(차별성이 충분함) 경우, 임의의 기본적인 머신 러닝 알고리즘이 이들에 적용되어 훌륭한 결과들을 획득할 수 있다. 콘볼루션 신경 네트워크(convnet들 또는 CNN으로서 또한 지칭됨)는 이미저리 데이터를 카테고리화하는데 특히 적합하고, 감독 러닝에 의해 트레이닝된 콘볼루션 신경 네트워크들의 GPU(graphic processor unit) 구현들은, (표준화되지 않은 조건들에서 촬영되고, 에러들 및 무관한 이미지들을 포함해서, 예를 들어, 조명, 각도, 줌, 배경, 폐색 및 차 모델들에 걸친 설계 면에서의 변동성을 갖고, 품질 및 신뢰성에 관한 변동성을 갖는) '자연스러운' 이미저리에 관한 높은 이미지 분류(또는 회귀) 성능을 보여주었다.

콘볼루션 신경 네트워크를 트레이닝하기 위해 대규모의 차량 손상 이미저리를 이용하기 위해서, 데이터는 가능한 한 에러가 없을 필요가 있고, 특히 이미지들은 올바르게 라벨링될 필요가 있다. 산업 데이터세트들은 예컨대, 노이즈있는/누락있는/일관적이지 않게 또는 부분적으로 라벨링된 데이터(이는 무관한 데이터를 또한 포함할 수 있음)를 처리하는 딥 러닝에 대한 새로운 문제를 제기한다.

머신 러닝이 양호한 품질 분류(또는 회귀)를 수행하기 위해, 러닝을 위해 양호한 데이터 품질을 보장하고 데이터 상에서 충분히 양호한 모델을 트레이닝할 필요가 있다. 통상적으로, 사용자는 먼저, 데이터를 조사하고 품질에 만족할 때까지 데이터를 (재-)라벨링함으로써 트레이닝을 위해 데이터를 준비하도록 요구된다. 그 후, 모델은 클리닝된 데이터(cleaned data) 상에서 트레이닝된다.

사용자가 이미지에 라벨을 할당함으로써 트레이닝 데이터세트를 라벨링(및 보다 일반적으로 클리닝)하는 것은 상업적 애플리케이션들의 경우 금지하는 것과 다름없을 정도로 매우 길고 값 비싼 절차이다.

트레이닝 데이터세트의 준비 및 모델의 트레이닝이 인터리빙되는 경우 크게 개선된 효율이 획득될 수 있다. 이는 알고리즘이 결함이 있는 것으로 알려진 데이터세트를 통해 러닝을 시작하는 동안 직관적인 접근법은 아니다. 그러나 이는, 그것이 유사하지 않고 잠재적으로 에러가 있는 데이터세트를 식별하기 위해 머신 러닝 알고리즘의 기능을 활용하므로 매우 효율적입니다. 모델 트레이닝의 각각의 반복은 후속 재라벨링 반복에 대한 최상의 접근법을 알려준다(그 반대도 가능함). 이 반복 프로세스의 최종 결과는 충분한 품질의 데이터세트 및 이 데이터세트 상에서 충분히 차별적인 특징들을 제공하는 모델이다.

데이터는 이미지들(각각의 이미지는 개별 데이터세트를 나타냄)의 형태이거나, 또는 그것은 텍스트(각각의 워드는 예를 들어, 개별 데이터세트를 나타냄) 또는 사운드와 같은 임의의 고차원 데이터일 수 있다.

콘볼루션 신경 네트워크를 트레이닝하기 위해 기존 이미저리 데이터의 사용을 가능하게 하기 위해, 반-자동 라벨링이 이제 설명된다.

반-자동 라벨링은 데이터세트들의 라벨링을 반자동화한다. 모델은 에러들을 포함하는 것으로 알려진 데이터 상에서 트레이닝된다. 모델은 데이터를 모델링 및 분류(또는 회귀)하도록 시도한다. 선택된 데이터 포인트들(개별 이미지들 또는 이미지들의 그룹)의 분류(라벨링 또는 태깅으로서 또한 지칭됨)는 사용자(오라클 또는 감독자로서 또한 지칭됨)에 의해 검토되고 정정 또는 확인된다. 라벨들은 반복적으로 정제되고 그 후 모델은 라벨링된 데이터에 기초하여 정제된다. 사용자는 모델 출력을 사전에 검토하고, 검토 및 라벨링을 위해 이미지를 검색할 수 있거나, 또는 사용자는 특정 이미지들의 라벨링에 관하여 모델로부터의 질의들에 수동적으로 응답할 수 있다.

도 1은 반-자동 라벨링의 방법의 개략도이다. 도 2는 도 1의 반-자동 라벨링의 방법의 단계의 개략도이다. 도 3은 반-자동 라벨링을 위한 시스템(100)의 개략도이다. 프로세서(104)는 데이터세트(102)가 컴퓨테이셔널 모델(106)로 어떻게 모델링되는지에 관한 정보를, 입력/출력(108)을 통해 사용자(110)에게 제공한다. 사용자(110)는 컴퓨테이셔널 모델(106)로 데이터세트(102)를 모델링하기 위해 입력/출력(108)을 통해 프로세서(104)로 안내를 제공한다.

사전 사용자 검토를 통한 반-자동 라벨링을 위한 동작들의 시퀀스는 다음과 같다:

1. (볼륨 및 라벨에 관하여) 가능한 한 최상의 유사한 데이터 상에서 모델을 사전-트레이닝하고;

2. 사전-트레이닝된 모델로 타겟 데이터를 모델링하고;

3. 검토를 위해 사용자를 위한 모델링된 타겟 데이터를 준비하고:

a. 모델로 타겟 데이터세트의 특징(feature)들을 추출하고(특징 세트로서 지칭됨);

b. 특징 세트 상에서 차원 감소(dimensionality reduction)를 수행하고;

c. 라벨들을 특징 포인트들 모두에/일부에 할당하거나/어떤 특징 포인트들에도 할당하지 않고;

d. 시각화 기술을 라벨링된 특징 세트에 적용하고;

4. 태깅된 특징 세트를 브라우징 및 편집하기 위해 효율적인 인터페이스를 사용자에게 제시하고:

a. 사용자는 인증(validate)할 지역(region)들을 발견하기 위해 라벨링된 특징 세트를 효율적으로 브라우징하고;

b. 사용자는 인터페이스 상에 표시된 라벨들을 인증 또는 정정하고;

5. 충분한 데이터 및 모델 품질이 달성될 때까지 인증된/정정된 라벨링을 이용하여 단계 2로부터의 사이클을 반복하고;

6. 충분한 데이터 및 모델 품질이 달성될 때까지 라벨링된 데이터세트 또는 특징 세트의 일부/전부를 사용하여 최근 특징 추출 모델을 미세 튜닝한다.

위에서 착수된 바와 같은 반-자동 라벨링 절차의 예에서, 약 30,000개의 이미지들은 단일 사용자에 의해, 한 시간에 90%의 정확도로 18개의 클래스를 갖는 스킴(scheme)으로 라벨링될 수 있다.

질의들에 대한 수동적 사용자 응답의 경우에(타겟팅된 감독으로서 또한 지칭됨), 위에서 설명된 시퀀스 중 단계들 3 및 4는 다음과 같다:

3. 검토를 위해 사용자를 위한 모델링된 전체(full) 데이터를 준비하고:

a. 모델로 타겟 데이터세트의 특징들을 추출하고(특징 세트로서 지칭됨);

b. 특징 세트 상에서 차원 감소를 수행하고;

d. 시각화 기술을 라벨링된 특징 세트에 적용하고;

e. 최상의 다음 사용자 질의를 근사하고;

4. 라벨링된 특징 세트를 검토하기 위해 사용자에게 질의를 제시하고:

a. 사용자에게 질의를 효율적으로 제시하고;

b. 사용자는 인터페이스 상에 표시된 라벨들을 인증 또는 정정한다.

수동적이고 사전적인 사용자 검토는 또한, 둘 모두 서로 나란히 제공함으로써 결합될 수 있다.

단계 3c '일부/모든 특징 포인트들에 라벨들을 할당'은 특징 공간을 클래스 지역들로 분할하는 것과 같은 클러스터링 기술에 의한 분류를 위해 수행될 수 있다. 단계 3c는 또한, 특징 공간에 걸쳐 이산 랜덤 값들을 정의하는 것과 같은 이산화 기술(discretising technique)에 의한 회귀를 위해 수행될 수 있다.

단계 6(미세 튜닝)의 부분으로서 다음의 부가적인 단계들이 실행될 수 있다:

a. 보이지 않는 데이터 상에서 모델을 실행하고 분류(또는 회귀) 확률에 의해 이미지들을 랭킹하고(이진수이기 때문에 가능함); 그리고

b. 특히 유용한 실수들의 식별을 위해 높은 확률 이미지들 및 낮은 확률 이미지들을 사용자에게 제시한다.

변형에서, 클러스터 플롯에서 의미론적 클러스터링(여기서, 예를 들어, 모든 차 범퍼 이미지들이 함께 보여지도록 이미지 콘텐츠별로 분리된 데이터가 보여짐)은 보다 강력한 미세 튜닝을 가능하게 하도록 확률 랭킹(예를 들어, 확률을 나타내는 컬러들을 가짐)으로 강화된다.

위에 착수된 시퀀스를 구현하는데 있어 고려할 다수의 추가 고려사항들이 있는데, 이들은 다음을 포함한다.

· 프로세스를 초기화하도록 임의의 기존 라벨들을 최상으로 이용하게 한다. 최악의 경우에, 라벨들은 쓸모없고 감독되지 않은 초기화가 수행된다. 그렇지 않으면, 감독 모델은 사용 가능한 모든 라벨로 트레이닝될 수 있다.

· 모델이 무엇을 수행하는지를 사용자가 이해할 수 있도록 추출된 특징의 시각화를 최적화한다. 실제 특징들은 고차원 공간(즉, > 1000 차원들)에 존재하고, 따라서 이들은 가능한 한 많은 정보를 유지하면서 2 또는 3차원들로 감소될 필요가 있을 것이다. 이 시각화를 실시간으로 수행하는 것은 많은 이점을 가져온다.

· 다음 트레이닝 반복에 최대한의 이익을 가져다줄 수 있도록 데이터의 일부를 재라벨링한다. 하나의 접근법은, 그의 트레이닝 동안 그것이 "가장 혼란스러운" 것으로 밝혀낸 이미지들/이미지 클러스터들의 랭킹된 리스트를 모델이 사용자에게 제공하는 것이다.

· 새로운 사용자 입력을 고려하도록 모델의 재-트레이닝을 최적화한다. 가장 단순한 경우에, 사용자는 자신이 모델을 재트레이닝해야 한다고 믿는 정도를 특정한다. 이는 재트레이닝이 얼마나 의미가 있는지 그리고 그것이 얼마나 오래 걸리는지에 영향을 미친다. 충분한 의미심장함이 모델에 주어진 새로운 정보를 이용하기 위해 요구되지만, 새로운 데이터에 과도하게 적합할 필요는 없다.

· 각각의 반복 상에서 모델의 실제 성능을 평가한다. 보통, 데이터의 일부는 트레이닝을 위해 사용되지 않아서, 모델의 성능이 그 부분 상에서 평가될 수 있다. 그러나 트레이닝을 위해 소량의 최근에 재라벨링된 데이터의 부분을 사용하지 않는 것은 재라벨링 사이클의 속도를 상당히 늦출 수 있다. 밸런스가 둘 사이에서 맞춰져야 한다.

위에서 설명된 반-자동 라벨링을 구현하는 데 사용될 수 있는 일부 기술들은 다음과 같다:

· 사전-트레이닝된 콘볼루션 신경 네트워크

· GPU들에 걸친 병렬처리(parallelising)에 의한 추출 특징들

· 차원 감소를 위한 PCA(principal component analysis). 이는 tSNE(t-distributed stochastic neighbour embedding)에 특히 적합하고, 베이지안(Bayesian) 세트들의 경우, PCA는 덜 적합할 수 있다. tSNE가 충분히 빠른 경우, 차원 감소는 심지어 불필요할 수 있다.

· k-평균 클러스터링 알고리즘으로 중심(centroid)들을 제공하기 위한 특징 세트 탐색

· k-평균 중심들 상의 tSNE(t-distributed stochastic neighbour embedding)

· 중앙을 중심으로 한 원들로 표현된 클러스터들, 직경으로 표현된 이미지들의 수, 컬러로서 가장 일반적인 클래스 컬러로, tSNE의 클러스터 플롯을 갖는 그래픽 사용자 인터페이스(GUI)

· 라벨 인증/편집하기 위한 ~100개의 이미지들의 GUI 그리드

· 콘볼루션 신경 네트워크들에 적용되는 베이지안 세트들

· 모델의 소프트맥스(softmax) 미세 튜닝

· 모델의 샴(siamese) 미세 튜닝

· 모델의 삼중 손실(triplet loss) 미세 튜닝.

사전-트레이닝된 콘볼루션 신경 네트워크는 예를 들어, ImageNet 모음으로부터의 이미지들 상에서 트레이닝될 수 있다.

도 4a는 (예를 들어, 모든 차 범퍼 이미지들이 클러스터 플롯의 동일한 영역에 있도록) 시맨틱 클러스터링을 제공하는 클러스터 플롯을 갖는 그래픽 사용자 인터페이스의 도면이다. 클러스터 플롯은 특징 공간에서 데이터세트의 분포를 표시하는 원들을 도시한다. 플롯은 사용자에게 제공되며, 이 사용자는 그 후 추가 검토를 위해 원들 중 하나 또는 그 초과를 선택할 수 있다. 라벨링된/라벨링되지 않은 상태는 예를 들어, 원들의 컬러에 의해 플롯에서 표시될 수 있다. 검토를 위해 선택된/선택되지 않은 것은 예를 들어, 원들의 컬러에 의해 플롯에서 표시될 수 있다. 도 4b는 클러스터 플롯을 갖는 그래픽 사용자 인터페이스의 도면이며, 여기서 원들의 컬러는 그 데이터와 연관된 라벨을 표시한다. 사용자가 원 위에 머무를 때 사용자에게는 이미지 데이터가 제시될 수 있다. 사용자가 클러스터 플롯에서 관심의 그룹 주변의 둘레를 드로우하도록 허용함으로써 원들의 그룹의 사용자 선택이 달성될 수 있다.

도 5는 이미지들의 그리드를 갖는 그래픽 사용자 인터페이스의 도면이다. 클러스터 플롯에서 선택되는 이미지들은 사용자 검토를 위해 그리드로 보여진다. 그리드는 예를 들어, 한 라인에 나란히 있는 8개의 이미지들 및 서로 아래의 이미지들의 6개의 라인들을 갖는다. 예시된 예에서, 그리드는 7 x 5 이미지들을 도시한다. 인간의 시각 피질은 특히 높은 효율로 그리드 포멧의 유사하지 않은 이미지들을 소화(digest)하고 식별할 수 있다. 그리드 포맷으로 이미지들을 디스플레이함으로써, 매우 다수의 이미지들이 사용자에게 제시되고 짧은 시간에 사용자에 의해 검토될 수 있다. 예를 들어, 뷰(view) 당 48개의 이미지들이 포함된 경우, 21개의 뷰들에서, 사용자는 1000 개가 넘는 이미지들을 검토할 수 있다. 그리드의 이미지들은 특정 라벨로 라벨링하기 위해 선택하거나 선택해제될 수 있다. 유사성 검색과 같은 추가 검토를 위해 이미지들이 선택하거나 선택해제될 수 있다.

유사성 검색은 특정 이미지 또는 관심의 이미지들의 그룹과 유사한 이미지들을 찾기 위해 실행될 수 있다. 이는, 사용자는 특정한 관심의 개별 이미지(예를 들어, 앞유리 이미지들의 클러스터에서 칩(chip)을 갖는 앞유리의 이미지)를 발견하고, 유사한 이미지들을 추가로 발견하고, 이미지들에 라벨을 집합적으로 제공하는 것을 가능하게 할 수 있다.

도 6a 및 도 6b는 타겟팅된 감독(targeted supervision)을 위한 그래픽 사용자 인터페이스의 도면들이다. 여기서, 클러스터링된 것으로 나타나는 다수의 이미지들(예시된 예에서, 7개의 이미지들)이 사용자에게 제공되고, 그러한 이미지들에 대한 라벨의 사용자 입력을 위한 필드가 제공된다. 도 6a는 비어있는 사용자 입력을 위한 필드를 도시하고, 도 6b는 사용자에 의해 입력된 라벨 및 및 컬러링된 프레임으로 마킹된 이미지들을 갖는 필드들을 도시하며, 여기서 컬러는 그 이미지와 연관된 라벨을 표시한다.

이제 특징 세트에 대한 차원 감소(위의 단계 3.c)를 수행하는 방법이 보다 상세히 설명된다. 이 예에서, 특징 세트는 약 -2 내지 2 범위(및 보다 일반적으로, 통상적인 범위)의 값들을 갖는 4096-차원 벡터(및 보다 일반적으로는 N-차원 벡터)이다. (인간에 의해 직관적으로 이해될 수 있는 바와 같은) 2 또는 3 차원들로의 차원 감소는 상당한 컴퓨테이셔널 자원들을 요구하고 상당한 시간이 소요될 수 있다. 이 컴퓨테이셔널적으로 노동-집약적인 단계를 단축하기 위해, 데이터세트가 특징 공간에서 클러스터링되고 각각의 클러스터로부터, 단일의 대표 데이터 인스턴스(중심으로서 또한 지칭됨; 예를 들어, k-평균 클러스터 중심)가 추가의 프로세싱을 위해 선택된다. 그 후, 차원 감소는 대표 데이터 상에서만 수행되고, 그리하여, 매우 큰 데이터세트들의 매우 신속한 시각화가 가능할 정도로 컴퓨테이셔널 로드를 감소시킨다. 데이터세트로부터의 데이터-포인트들은 클러스터 플롯에서 사용자에게 개별적으로 보여지지 않지만, 사용자에게 보여지는 클러스터 플롯에서의 원의 직경은, 특징-공간에서 관련된 대표 데이터 인스턴스 근처에 있고 따라서 동일하거나 유사한 라벨 값들을 갖는 것으로 간주되는 데이터-포인트들의 수를 표시한다. 클러스터 플롯에서 원의 선택에 의해, 사용자에게는 그 원으로 표현된 모든 이미지들이 제시된다. 이는 사용자가 대표로 표현되는 모든 이미지들을 확인하도록 허용한다. 원들의 스케일링은 디스플레이의 명료성을 위해 사용자에 의해 최적화 및/또는 조정될 수 있다.

이제 유사성 검색을 수행하는 방법이 보다 상세히 설명된다. 이미지들은, 값들의 범위(예컨대, 약 -2 내지 2)를 갖는 고-차원 벡터들(예컨대, 4096 차원 벡터)로 특징-공간에서 표현된다. 매우 다수의 이러한 벡터들 상에서 유사성 검색을 수행하는 것은 컴퓨테이셔널적으로 노동-집약적이며 상당한 시간을 소요할 수 있다. 베이지안 세트들은 특정 관심의 이미지 또는 이미지들의 그룹과 유사한 엔티티들을 식별하는 매우 빠르고 단순한 수단을 제공할 수 있다. 베이지안 세트 방법을 적용하기 위해, 데이터(여기서 고-차원 벡터)가 값들의 범위를 갖기보단 이진수일 것을 요구한다. 베이지안 세트 방법을 적용하기 위해, 특징 세트 벡터들은 이진수 벡터로 변환되고: 0에 근접한 값들은 0으로 변경되고, 0에서 더 멀리 있는 값들은 1로 변경된다. 베이지안 세트 방법에 의한 유사성 검색을 위해, 이는 양호한 결과들을 생성할 수 있다. 콘볼루션 신경 네트워크(또는 보다 일반적으로, 이미지들에 대해 적합하고 희소 표현들(sparse representations)을 갖는 머신 러닝 모델들)로의 베이지안 세트들의 적용은, 콘볼루션 신경 네트워크들이 통상적으로 희소 표현들(벡터에서의 다수의 0들)을 갖는 특징 세트들을 생성할 수 있기 때문에 특히 유리하며, 이는 결과적으로, 반자동 라벨링의 맥락에서 희소 표현들을 갖는 이진수 벡터들을 캐스팅(cast)하기에 간단하다.

이제 차량 손상 추정에 적용되는 반-자동 라벨링이 보다 상세히 설명된다. 차량 손상의 주어진 인스턴스에 대해, 결과는 손상된 차량의 자연 이미지들에 기초한 필요한 수리의 예측 및 대응하는 수리 비용의 추정이다. 이는, 보험사가 예를 들어, 차량 손상에 대한 응답으로 어떻게 진행할지에 관한 결정을 내리는 것을 가능하게 할 수 있다. 결과는 '차랑 폐차', '상당한 수리 필요' 또는 '가벼운 수리 필요'와 같은 트리아지 권고(triage recommendation)를 포함할 수 있다.

도 7은 차량 손상 추정을 위한 시스템(700)의 개략도이다. 사용자(710)는 카메라(714)로 손상된 차량(716)의 이미지들(712)을 캡처하고 모바일 디바이스(708)(예를 들어, 태블릿 또는 스마트 폰)를 통해 시스템(700)에 이미지(712)를 송신한다. 프로세서(704)는 이미지들(712)을 평가하도록 컴퓨테이셔널 모델(706)을 사용하고 모바일 디바이스(708)를 통해 사용자(710)에게 다시 제공되는 차량 손상 추정을 생성한다. 리포트는 보험사 또는 자동차 수리점과 같은 다른 관련 당사자들에게 제공될 수 있다. 이미지들(712)은 모바일 디바이스(708)에 의해 직접 캡처될 수 있다. 이미지들(712)은 데이터세트(702)에 부가될 수 있고 모델(706)은 이미지들(712)로 업데이트될 수 있다.

수리 추정을 생성하기 위해, 절차는 최적의 프로세싱을 위해 다음과 같이 분해된다:

1. 딥 러닝(바람직하게는, 콘볼루션 신경 네트워크)을 통해 손상된 부분들의 세트를 인식한다. 예를 들어, 차량 소유자로부터 제공된 이미지에 대해, 어떠한 부분 라벨들도 제공되지 않고, 따라서 이미지 데이터에 대한 상당히 견고한 모델이 필요하다. 차량 소유자는 전체 차량을 볼 수 있는 이미지를 제공할 필요가 있을 수 있다. 가장 적절하고 적합한 이미지들이 제공되도록 보장하기 위해 사용자에 대한 실시간 대화식 피드백이 구현될 수 있다. 예를 들어, 하나 또는 그 초과의 "품질 보증" 분류자들을 통해 이미지들을 공급하고 결과들을 실시간으로 리턴하는 것은 사용자가 정확한 수리 추정을 위해 모든 필요한 이미지들을 캡처하는 것을 보장할 것이다.

2. 콘볼루션 신경 네트워크를 통해 각각의 손상된 부분에 대해 '수리'/'교체' 라벨을 예측한다. 수리/교체 구별은 통상적으로 매우 시끄럽고, 미스라벨링(mislabelling)이 발생할 수 있다. 이 부분을 해결하기 위해, 이미지 당 라벨들이 식별된다. 그 후, 수리/교체 라벨들은 이미지 당이 아니라, 부분 당이며, 따라서 보다 신뢰성이 있다. 대응하는 부분이 존재하는 개별 이미지들에 대한 교차 참조는 수리/교체 라벨들을 획득하는 것을 보조할 수 있다. 클로즈 업 이미지들에 대한 필요성을 제거하기 위해, 전체 차량이 존재하는 이미지들의 관련 크롭들(crops)이 준비될 수 있다. 사용자에 대한 실-시간 대화식 피드백은, 보통은 신뢰도가 낮은 부분들에 대한 특정 클로즈 업 이미지들을 획득하기 위해 구현될 수 있다. 단계 2는 각각의 부분에 대한 '보이지 않음'/'손상되지 않음'/'수리'/'교체' 라벨을 예측함으로써 선행 단계 1과 결합될 수 있다.

2.5. 콘볼루션 신경 네트워크 및 예측 분석을 통해 관련 내부 부분들에 대한 '손상되지 않음'/'수리'/'교체' 라벨을 예측한다. 내부 손상을 정확히 예측하는 것은 어렵고, 심지어 인간 전문 평가자들 조차도 고심할 수 있다. 양호한 결과를 가능하게 하기 위해, 텔레매틱스 데이터(telematics data)는, 예측 분석 회귀(예를 들어, 가속도계 데이터)에 첨부하기 위해 그리고 어느 내부 전자 부분들이 죽었는지/살았는지 결정하기 위해 차량으로부터 제공될 수 있다.

3. 예를 들어, 예측을 통해 또는 평균을 취함으로써 각각의 노동 동작(labour operation)을 수행하기 위한 노동 시간들을 획득한다. 이 단계는 또한 콘볼루션 신경 네트워크를 수반할 수 있다. 노동 시간들 그 자체 대신에, 손상 심각도를 예측하는 것이 바람직할 수 있다. 노동 시간 데이터는 제 3 자로부터 획득될 수 있다. 평균 시간이 사용되는 경우, 평균 시간에 대한 조정은, 하나 또는 그 초과의 쉽게 관찰 가능한 파라미터, 예컨대, 차량 모델 유형, 모든 손상된 부분들의 세트, 손상 심각도에 의존하여 이루어질 수 있다.

4. 교체할 각각의 부분에 대한 부분 가격 및 노동 요율(labour rate)들을 획득한다. 가격들 및 요율들은 룩업(lookup)을 통해 또는 평균값들을 취함으로써 획득될 수 있다. 가격들 및 요율들을 룩업하기 위해, 예를 들어, 보험사, 제 3 자 또는 연관된 수리점의 데이터베이스에 대한 API 호출이 이루어질 수 있다. 평균값들은 룩업을 통해 획득될 수 있다. 평균 가격 또는 요율이 사용되는 경우, 평균 가격 또는 요율에 대한 조정은, 하나 또는 그 초과의 관찰 가능 또는 획득 가능한 파라미터들, 예컨대, 모델 유형, 모든 손상된 부분들의 세트, 손상 심각도, 결함/비 결함에 의존하여 이루어질 수 있다.

5. 가격들, 요율들, 시간들을 더하고 곱함으로써 수리 추정을 컴퓨팅한다. 수리 추정의 사후 분포(posterior distribution)를 획득하기 위해, 수리 추정의 불확실성이 또한 모델링될 수 있다. 예를 들어, 전체 수리 비용의 95% 신뢰 구간(confidence interval) 또는 차량이 폐차될 확률이 제공될 수 있다. 수리 추정에 대한 신뢰도가 불충분한 경우, 청구는 사람에게 전달될 수 있다.

이 절차에 의해, 수리 추정은, 예를 들어, 스마트 폰으로 보험 계약자에 의해 캡처된 이미지들로부터 제 1 손실 통지가 생성될 수 있다. 이는, 차량에 대한 손상이 발생한 후 거의 즉시 청구의 정착(settling)을 가능하게 할 수 있다. 그것은 또한 예를 들어, 다음 중에서, 모바일 앱을 통한 신속한 선택을 가능하게 할 수 있다:

· 손상된 차량이 전체 손실인 경우, 새로운 차량;

· 상당한 수리들이 필요한 경우, 의례 차량(courtesy vehicle);

· 상당한 수리들이 필요한 경우, 유리한 용량 및 가격들을 갖는 수리점;

· 상당한 수리들이 필요한 경우, 유리한 공급자로부터 조기 소싱을 위한 교체 부분들; 또는

· 가벼운 손상만이 초래된 경우 현장(on-site) 수리(예를 들어, 앞유리 칩 수리).

예를 들어, 차량 차체 공장이나 다른 전문 센터에서 또는 경찰이나 응급 처치 요원들과 같은 공무원이 출발한 이후 제 1 손실 통지보다 늦은 시점에 수리 추정을 위해 이미지들이 공급될 수 있다. 수리 추정에 대한 출력 사후 분포는, 더 많은 인사이트(insight), 예를 들어, 수리 추정에 대한 대한 95% 신뢰 구간; 또는 폐차 확률을 제공하기 위해 생성될 수 있다. 수리 추정 프로세스는, 예를 들어, 모델에 의해 주어진 추정이 낮은 신뢰도를 갖는 경우에만, 또는 까다로운 경우들에 사람 운용자에게 추정을 전달함으로써 생성되는 이중 머신/사람일 수 있다. 보험 계약자 이외의 당사자들(예를 들어, 손상된 차량의 동승자, 사고에 관여된 다른 사람, 경찰, 구급차/응급 처치 요원, 손실 조정자/감정인, 보험사 대표, 브로커, 간청자, 수리 워크숍 직원)이 이미지들을 캡처할 수 있다. 수리 추정을 위해 제공되는 이미지(들)는 카메라 또는 다른 사진 디바이스로부터의 것일 수 있다. 초과 갖치(excess value) 및/또는 청구를 중단하도록 하는 예상되는 보험료 인상과 같은 다른 관련된 정보가 보험 계약자에게 제공될 수 있다.

여기서 설명된 바와 같은 수리 추정을 구현함으로써, 보험사와 보험 계약자 둘 모두는 다수의 이점들을 누릴 수 있다. 예를 들어, 보험사는,

· 청구를 관리하기 위한 관리 비용을 감소시키고;

· 적절한 보험료 인상의 정확한 또는 적어도 양호한 근사를 제공함으로써 청구율(손해율)을 감소시키고;

· 빠른 정착 및 고부상(high injury) 청구의 기회를 감소시킴으로써 청구량(claim amount)을 감소시키고;

·(소정의 국가들의 경우) 보험 계약자를 잘-제어된 수리 체인에 직접 라우팅함으로써 비-결함 청구에 대한 청구량을 감소시키고;

· 키-투-키(key-to-key) 시간을 감소시키고;

· 고객 유지(customer retention)를 증가시키고; 그리고

· 보험사를 바꾸도록 잠재적인 고객들을 독려할 수 있다.

보험 계약자는 우월한 고객 서비스를 누리고 고객(custom)을 위해 입찰하는 공급자를 이용할 수 있다. 소정의 부품 공급자들은 바람직한 공급자 상태로부터 이익을 얻을 수 있다. 차량 수리공 및 차체 공장은 추정들을 준비하는 데 소비하는 시간을 회피할 수 있다.

위에서 설명된 단계들에서, 콘볼루션 신경 네트워크가 사용된다. 다중-이미지 질의들을 수용할 수 있는 MIL(multi-instance learning) 콘볼루션 신경 네트워크는 단일-이미지 질의들을 위한 콘볼루션 신경 네트워크보다 훨씬 더 양호하게 수행할 수 있다. 다수의 이미지들은 특히, 각도, 조명, 폐색, 맥락의 결여, 불충분한 해상도 등으로부터 이미저리 노이즈를 제거하는데 도움이 될 수 있다. 분류 경우에서, 이는, 클래스가 단일 이미지를 조건으로 한 출력인 종래의 이미지 분류로부터 그 자체를 구별 짓는다. 충돌 수리 추정의 맥락에서, 단일 이미지에서 수리 추정 컴포넌트를 출력하는데 필요한 모든 정보를 캡처하는 것은 종종 불가능할 수 있다. 예에서, 후방 범퍼가 수리를 필요로 한다는 사실은, 후방 범퍼의 부분이 촬영되고 있음을 확인하는 데 필요한 맥락 정보(contextual information)를 손실하는, 손상의 클로즈-업 이미지를 캡처함으로써만 인식될 수 있다. 예에서 다수의 이미지들의 정보를 사용하는 머신 러닝 모델을 트레이닝함으로써, 머신 러닝 모델은 후방 범퍼들이 수리가 필요하다는 것을 출력할 수 있다. 다중-이미지 질의들을 수용할 수 있는 콘볼루션 신경 네트워크 아키텍처에서, 콘볼루션 신경 네트워크에, 이미지들을 풀링하는 계층이 제공된다. 최대 풀링, 평균 풀링, 중간 풀링 또는 러닝된 풀링이 적용될 수 있다. 단일 이미지 콘볼루션 신경 네트워크는 보다 뛰어난 단순함을 위해 이용될 수 있다.

이제, 위에서 설명된 바와 같은 수리 추정을 생성하는 단계들(1 및 2) - 손상된 부분들의 세트를 인식하고 '수리'/'대체' 라벨을 예측함 - 을 달성할 수 있는 모델을 생성하기 위한 절차가 보다 상세히 설명된다. 이는 본질적으로, 위에서 설명된 바와 같은 반-자동 라벨링으로 라벨링 문제들을 해결함으로써 달성된다. 이 절차는 인식/진단될 각각의 모든 차량 부분에 대한 라벨링되지 않은 차량 이미지들을 포함하는 데이터세트에 적용된다.

A. 무관한 이미지들을 제거한다. 무관한 데이터를 제거함으로써, 데이터는 보다 쉽게 제시 가능하게 된다.

1. (위에서 보다 상세히 설명된 바와 같이) 사전 트레이닝된 모델로 타겟 데이터세트의 특징들을 추출하고;

2. 데이터를 어떻게 모델링할지를 사용자에게 제시한다(위에서 설명된 바와 같이 tSNE의 GUI 플롯). 이는, 무관한 클러스터들이 의미론적으로 구별되기 때문에 사용자가 이들을 쉽게 식별하도록 허용한다.

3. 무관한 클러스터들의 사용자 선택(또는 확인)을 수신하고 데이터세트로부터 대응하는 이미지를 제거하고; 그리고

4. 어떠한 추가의 무관한 이미지들도 더 이상 제거되지 않을 때까지 반복한다.

B. '부분이 보이지 않음', '부분이 손상되지 않음', '부분이 손상됨' 분류자를 생성한다.

1. 위의 단계 A에서 생성된 바와 같은 모델 및 타겟 데이터로 타겟 데이터세트의 특징들을 추출하고;

2. 데이터를 어떻게 모델링할지를 사용자에게 제시한다(위에서 설명된 바와 같이 tSNE의 GUI 플롯). 이는, 사용자가 고도로 비틀린(skewed) 클러스터들을 식별하고 이들을 적절히 라벨링하도록 허용한다.

- 특징 공간의 지역이 탐색(explore)되지 않는 경우 : 사용자가 아직 검사하지 않은 데이터의 서브세트가 어떻게 모델링되는지를 사용자에게 제시한다. 사용자는 그러한 정보를 찾을 수 있거나, 또는 검토할 지역을 식별하고 사용자에게 제공하도록 활성 러닝 알고리즘이 사용될 수 있다.

- 비틀리지 않은 클러스터들에 대해 : 브라우징하여 유사성 검색들로 라벨링하도록 사용자에게 이미지들을 제시한다.

· 유사성 검색들은 공통 라벨을 갖는 이미지들의 신속한 식별을 제공할 수 있고;

· 사용자는, 모델이 현실 차량 손상 가능성들을 올바르게 나타내는 것을 보장하도록 서브클래스들을 갖는 클래스 계층(class hierarchy)(및 잠재적으로 또한 밀도)에 대한 사전 지식을 갖고(예를 들어, 소정의 유형의 수리 가능한 전방 좌측 펜더 손상이 현실에서 발생할 수 있는 경우, 모델은 그러한 경우들을 식별할 수 있을 필요가 있음);

· 식별된 특징들이 클래스 계층을 적합하게 구분하지 않는 경우 높은 사용자 감독이 필요할 수 있고;

· 사용자가 설정된 클래스 계층을 이용 가능하게 하지 않는 경우, 사용자는 데이터세트로부터 브라우징 및 러닝함으로써 서브클래스들을 즉시(ad hoc) 구축할 수 있고; 그리고

· 분포는 클러스터 별로, 페이지 별로 생성된다. 현저한 경우들이 도달될 때, 사용자는 그러한 경우들에 더 오래 머무르고 유사성 검색들을 통해 이들을 탐색할 수 있다.

3. 사용자 라벨링(또는 라벨 인증)을 수신하고 데이터세트를 업데이트하고;

4. 모델을 트레이닝하고; 부분 분류(또는 회귀)가 만족스럽지 않은 경우, 충분한 데이터 및 모델 품질이 달성될 때까지 인증된/정정된 라벨링으로 단계 2로부터의 사이클을 반복하고;

5. 특징들이 차별적이 되지 않으면(예를 들어, 클러스터의 콘텐츠들에서 변동이 거의 발견되지 않을 수 있고 라벨 편집은 보다 미세한 시각적 패턴의 문제가 됨), 미세 튜닝한다. 미세 튜닝은 또한, 사이클들을 순차적으로 착수하기 보단, 선행 주기와 인터리빙되거나 결합될 수 있다.

6. 타겟 데이터세트의 특징들을 추출하고;

7. 데이터가 어떨게 모델링되는지를 사용자에게 제시한다. 분류(또는 회귀) 출력에 의해 랭킹된 이미지들이 제시될 수 있어서, 사용자는 분류(또는 회귀) 출력을 통해 브라우징하여, 모델이 올바르게 구별된 서브클래스가 어느 것인지 그리고 어느 것이 열등하게 인식되는지를 이해할 수 있다. 사용자는 유사성 검색을 통해 어느 서브클래스들이 열등하게 인식되는지에만 의존하여 러닝의 다음 단계에 포커싱할 수 있다. 제안된 다음 러닝 단계는, 열등하게 인식되는 서브클래스들의 브라우징 및 식별을 자동화할 수 있는 활성 러닝 기술을 통해 사용자에게 제공될 수 있다.

8. 사용자로부터 안내를 수신하고 데이터세트를 상응하게 업데이트하고; 그리고

9. 모델을 트레이닝하고; 모델 정확도가 만족스럽지 않은 경우, 충분한 데이터 및 모델 품질이 달성될 때까지 인증된/정정된 라벨링으로 단계 6으로부터의 사이클을 반복함다.

C. '수리 부분', '교체 부분' 분류자를 생성한다(타겟 데이터세트는 부분적으로 미스라벨링된 이미지들을 포함할 수 있음).

1. 특정 손상된 부분 이미지를 적절한 액션과 연관시키는 csv/txt 파일들로부터 수리/교체 메타데이터를 추출하고;

2. '손상된 부분' 라벨링된 부분들에 수리/교체를 배정하고;

3. 업데이트된 타겟 데이터세트로 모델을 트레이닝하고 데이터세트의 특징들을 추출하고;

4. 데이터를 어떻게 모델링할지를 사용자에게 제시한다(위에서 설명된 바와 같이 tSNE의 GUI 플롯). 이는, 사용자가 고도로 비틀린 클러스터들을 식별하고 이들을 적절히 라벨링하도록 허용한다.

- 비틀리지 않은 클러스터들에 대해 : 위의 단계 B.4에서 보다 상세히 설명된 바와 같이, 브라우징하여 유사성 검색들로 라벨링하도록 사용자에게 이미지들을 제시한다.

5. 사용자 라벨링(또는 라벨 인증)을 수신하고 데이터세트를 업데이트하고;

6. 모델을 트레이닝하고; 부분 분류(또는 회귀)가 만족스럽지 않은 경우, 모델 정확도가 만족스러울 때까지 인증된/정정된 라벨링으로 단계 4로부터의 사이클을 반복한다.

D. 단일의 4 클래스 분류자('보이지 않는 부분', '손상되지 않은 부분', '수리 부분' 및 '교체 부분')을 트레이닝하도록 단계들(B 및 C)로부터의 라벨링된 데이터를 결합한다.

E. 트레이닝된 모델의 진정한 정확도를 측정한다. 이를 위해 편향된 테스트 데이터세트가 필요하다. 테스트 데이터세트를 획득하기 위한 바람직한 기술은 전체 데이터세트로부터 랜덤 샘플을 취하고 그 후, 사용자가 테스트 데이터세트의 모든 이미지를 브라우징하고 모든 라벨들을 올바르게 할당하는 것이다. 일부 보조는 반-자동 라벨링으로부터 획득될 수 있지만, 테스트 데이터세트의 각각의 모든 이미지의 올바른 라벨링은 사용자에 의해 검증되어야 한다.

이제 내부 손상 예측에 대한 적응이 보다 상세히 설명된다. 내부 손상 예측은 예를 들어, 회귀 모델들과 같은 예측 분석들로 구현될 수 있다. 손상된 차량의 이미지들은 내부 부분의 직접적인 관찰을 허용하지 않는다.

A. 수리 추정 예측 :수리 비용 회귀

1. 이미지의 예측 능력의 표시를 결정하는데 : 수리의 전체 비용을 회귀시켜, 회귀시킬 것을 점진적으로 감소시킨다. 실제로 측정하는 데 비용이 많이 드는 회귀자(regressor)들은,

- 단지 몇 개의 부분들의 상태를 기록하고 고려함으로써(전체 비용의 정확한 추정을 생성하는 것이 가능할 수 있음. 회귀 모델로부터 생략될 수 있는 부분들의 수가 분석됨.)

- 어쩌면, (예를 들어, 보닛을 개방함으로써) 차량의 내부 부분들의 이미지들을 기록하고 고려하고, 심지어 특정 내부 부분들을 보기 위해 소정의 부분들을 제거함으로써(차량 외부의 이미지들만을 기록하고 고려하는 것이 충분할 수 있음. 회귀 모델로부터 생략될 수 있는 내부 부분들의 수가 분석됨.),

- 노동 동작을 결정하기 위해 부분의 손상의 정도를 고려함으로써(수리, 교체, 아무것도 하지 않음)(수리/교체 분류자(위에서 설명된 바와 같이 반-자동 라벨링된 데이터 상에서 트레이닝됨)의 출력이 이에 공급될 수 있음.),

- 부분 가격(예를 들어, 정확한 원래의 장비 부분 가격, 현재/과거 평균 가격, 태참(Thatcham) 가격)을 고려함으로써,

- 그것이 결함/비-결함 청구인지를 고려함으로써,

- 전체 노동 비용을 평가함으로써(예를 들어, 정확한 노동 요율, 평균 노동 요율 또는 결함/비-결함 노동 요율을 상담하고, 또한, 예를 들어, 각각의 노동 동작에 대한 정확한 노동 시간, 평균 노동 시간 또는 태참 노동 시간을 상담함.),

- 차 유형, 주행거리와 같은 다른 메타데이터를 고려함으로써,

- 예측의 감도를 평가함으로써(x% 분류 에러 => y% 비용 예측 에러),

- 통상적으로 예상되는 에러(예를 들어, 6%)가 손상 유형과 같은 메타데이터 필드에 의해 예측될 수 있는지 여부를 고려함으로써(회사가 추정을 함),

- 룩업으로부터 획득 가능한 노동의 규칙-기반 시퀀스를 고려함으로써 근사화하고 제거될 수 있다.

2. 이미지의 예측 능력을 평가함

- 위로부터의 최상의(top) 회귀 모델들을 취하고 콘볼루션 신경 네트워크 결과들로 소정의 실지 검증 값들을 교체하고: 콘볼루션 신경 네트워크 모델로부터의 등가의 예측들로 시각적인 부분들에 대한 '수리'/'교체' 라벨들을 교체한다. 이런 방식으로, 분류 출력들이 회귀들에 공급된다. 회귀 파라미터들은 콘볼루션 신경 네트워크 출력들에 대해 미세-튜닝될 수 있다. 회귀 모델로부터 생략될 수 있는 부분들의 수가 분석됨에 따라 고려되는 부분들의 수가 감소된다.

- 이미지들 상에서 직접 회귀하도록 회귀를 수행하게 콘볼루션 신경 네트워크를 트레이닝한다. 전체 비용은 이미지들 및 다른 모든 관찰 가능한 것들 상에서 회귀된다. 예측된 수리 비용의 에러가 다시 전파된다.

B. 전체 손실 예측 : 폐차(write off)를 회귀함. 위의 단계(A)(수리 비용 회귀)에 대해 수행된 단계들은 수리 비용으로 그것을 수리하는 대신 손상된 차량을 폐차할지를 표시하는 이진수 표시자를 회귀하도록 적응된다.

위에서 설명된 프로세스에서, 단계들의 시퀀스는 변동될 수 있다. 이진수 수리/교체 결정에서 보다 더 많은 정보가 손상된 부분의 이미지에서 이용 가능하다. 따라서, 수리 비용들을 이미지들로 회귀시킴으로써, 이미지-리스 모델에 비해 정확도를 개선될 수 있다.

수리 추정의 구현은 다음과 같은 추가의 특징들을 이 포함할 수 있다:

· 이미저리 사기 및 다른 사기를 방지하고 검출하기 위한 특징들.

· 누가 과실이 있는지를 결정하기 위한 특징들; 및/또는

· 보험사가 프로세싱할 충돌에 관여된 다른 차들 및/또는 자산의 이미지들을 캡처하고 분석하기 위한 특징들.

본 발명은 순전히 예로써 위에서 설명되었고, 세부사항들의 수정들이 본 발명의 범위 내에서 이루어질 수 있다는 것이 이해될 것이다.

설명에서 개시된 각각의 특징 및 (적절한 경우) 청구항들 및 도면들은 독립적으로 또는 임의의 적절한 결합으로 제공될 수 있다.

청구항들에서 나타나는 참조 번호들은 단지 예시를 위한 것이며 청구항들의 범위에 관해 어떠한 제한적인 영향도 미치지 않아야 한다.

Claims

분류 또는 회귀(regression)를 위한 머신 러닝 모델(machine learning model)로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트(target dataset)를 모델링하는 방법으로서,
상기 머신 러닝 모델에 의해 상기 타겟 데이터세트를 프로세싱하는 단계;
라벨링 또는 라벨 검증을 위해 사용자로의 프리젠테이션을 위해 상기 타겟 데이터세트의 서브그룹을 준비하는 단계;
상기 서브그룹의 라벨 검증 또는 사용자 재-라벨링 또는 사용자 라벨링을 수신하는 단계; 및
상기 머신 러닝 모델에 의해 업데이트된 타겟 데이터세트를 재-프로세싱하는 단계를 포함하는,
분류 또는 회귀를 위한 머신 러닝 모델로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법.
제1항에 있어서,
상기 머신 러닝 알고리즘은 콘볼루션 신경 네트워크(convolutional neural network), 지원 벡터 머신(support vector machine), 랜덤 포레스트(random forest) 또는 신경 네트워크인,
분류 또는 회귀를 위한 머신 러닝 모델로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법.
제1항 또는 제2항에 있어서,
타겟팅된 서브그룹의 라벨링 및 라벨 검증을 위해 사용자로의 타겟팅된 프리젠테이션을 위해 상기 타겟 데이터세트의 상기 타겟팅된 서브그룹을 결정하는 단계를 더 포함하는,
분류 또는 회귀를 위한 머신 러닝 모델로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 준비하는 단계는 복수의 대표 데이터 인스턴스들을 결정하고 상기 대표 데이터 인스턴스들만의 클러스터 플롯(cluster plot)을 제시하기 위해 상기 클러스터 플롯을 준비하는 단계를 포함하는,
분류 또는 회귀를 위한 머신 러닝 모델로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법.
제4항에 있어서,
상기 복수의 대표 데이터 인스턴스들은 특징 공간(feature space)에서 결정되는,
분류 또는 회귀를 위한 머신 러닝 모델로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법.
제4항에 있어서,
상기 복수의 대표 데이터 인스턴스들은 입력 공간에서 결정되는,
분류 또는 회귀를 위한 머신 러닝 모델로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법.
제4항 내지 제6항 중 어느 한 항에 있어서,
상기 복수의 대표 데이터 인스턴스들은 샘플링에 의해 결정되는,
분류 또는 회귀를 위한 머신 러닝 모델로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법.
제4항 내지 제7항 중 어느 한 항에 있어서,
상기 준비하는 단계는 2 차원 또는 3 차원으로의 상기 복수의 대표 데이터 인스턴스들의 차원 감소(dimensionality reduction)를 포함하는,
분류 또는 회귀를 위한 머신 러닝 모델로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법.
제8항에 있어서,
상기 차원 감소는 t-분포 확률적 이웃 임베딩(t-distributed stochastic neighbour embedding)에 의한 것인,
분류 또는 회귀를 위한 머신 러닝 모델로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 준비하는 단계는 그리드(gird)를 제시하기 위해 상기 그리드로 복수의 이미지들을 준비하는 단계를 포함하는,
분류 또는 회귀를 위한 머신 러닝 모델로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 준비하는 단계는 유사한 데이터 인스턴스들을 제시하기 위해 베이지안 세트 방법(Bayesian sets method)에 의해 하나 또는 그 초과의 선택된 데이터 인스턴스에 대해 상기 유사한 데이터 인스턴스들을 식별하는 단계를 포함하는,
분류 또는 회귀를 위한 머신 러닝 모델로 라벨링되지 않거나 부분적으로 라벨링된 타겟 데이터세트를 모델링하는 방법.
머신 러닝 모델로 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델(computational model)을 생성하는 방법으로서,
복수의 라벨링되지 않은 차량 이미지들을 수신하는 단계;
머신 러닝 모델에 의해 상기 차량 이미지들을 프로세싱하는 단계;
라벨링 또는 라벨 검증을 위해 사용자로의 프리젠테이션을 위해 상기 차량 이미지들의 서브그룹을 준비하는 단계;
상기 서브그룹의 라벨 검증 또는 사용자 재-라벨링 또는 사용자 라벨링을 수신하는 단계; 및
상기 머신 러닝 모델에 의해 상기 복수의 차량 이미지들을 재-프로세싱하는 단계를 포함하는,
머신 러닝 모델로 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델을 생성하는 방법.
제12항에 있어서,
타겟팅된 서브그룹의 라벨링 및 라벨 검증을 위해 사용자로의 타겟팅된 프리젠테이션을 위해 상기 차량 이미지들의 상기 타겟팅된 서브그룹을 결정하는 단계를 더 포함하는,
머신 러닝 모델로 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델을 생성하는 방법.
제12항 또는 제13항에 있어서,
상기 준비하는 단계는, 제4항 내지 제11항 중 어느 한 항에 따른 단계들 중 임의의 단계를 포함하는,
머신 러닝 모델로 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델을 생성하는 방법.
제12항 내지 제14항 중 어느 한 항에 있어서,
상기 복수의 라벨링되지 않은 차량 이미지들을 갖는 복수의 비-차량 이미지들을 수신하는 단계;
상기 머신 러닝 모델에 의해 상기 차량 이미지들로 비-차량 이미지들을 프로세싱하는 단계;
검증을 위해 사용자로의 프리젠테이션을 위한 비-차량 이미지들을 준비하는 단계;
상기 비-차량 이미지들의 검증을 수신하는 단계; 및
상기 복수의 라벨링되지 않은 차량 이미지들을 생성하도록 상기 비-차량 이미지들을 제거하는 단계를 포함하는,
머신 러닝 모델로 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델을 생성하는 방법.
제12항 내지 제15항 중 어느 한 항에 있어서,
상기 차량 이미지들의 서브그룹은 특정 차량 부분을 모두 보여주는,
머신 러닝 모델로 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델을 생성하는 방법.
제12항 내지 제16항 중 어느 한 항에 있어서,
상기 차량 이미지들의 서브그룹은 손상된 조건의 특정 차량 부분을 모두 보여주는,
머신 러닝 모델로 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델을 생성하는 방법.
제12항 내지 제17항 중 어느 한 항에 있어서,
상기 차량 이미지들의 서브그룹은 수리 가능한 손상된 조건의 특정 차량 부분을 모두 보여주는,
머신 러닝 모델로 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델을 생성하는 방법.
제12항 내지 제17항 중 어느 한 항에 있어서,
상기 차량 이미지들의 서브그룹은 교체가 적합한 손상된 조건의 특정 차량 부분을 모두 보여주는,
머신 러닝 모델로 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델을 생성하는 방법.
제12항 내지 제19항 중 어느 한 항에 따른 방법에 의해 생성된 차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델.
제20항에 있어서,
이미지로부터 하나 또는 그 초과의 손상된 부분들을 식별하고;
상기 손상된 부분이 수리 가능한지 또는 교체하기에 적합한지를 식별하고; 그리고
상기 차량 손상에 대한 수리 비용 추정을 계산함으로써, 수리 비용 추정을 컴퓨팅하도록 적응되는,
차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델.
제21항에 있어서,
상기 수리 비용 추정의 확실성을 컴퓨팅하도록 추가로 적응되는,
차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델.
제21항 또는 제22항에 있어서,
폐차 권고(write-off recommendation)를 결정하도록 추가로 적응되는,
차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델.
제21항 내지 제23항 중 어느 한 항에 있어서,
차량 손상 수리를 추정하기 위해 손상된 차량의 복수의 이미지들을 조건으로 하여 자신의 출력을 컴퓨팅하도록 추가로 적응되는,
차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델.
제21항 내지 제24항 중 어느 한 항에 있어서,
내부 손상에 대한 추정을 컴퓨팅하도록 추가로 적응되는,
차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델.
제21항 내지 제25항 중 어느 한 항에 있어서,
사용자로부터 하나 또는 그 초과의 추가 이미지들을 요청하도록 추가로 적응되는,
차량 손상 수리를 추정하기 위한 컴퓨테이셔널 모델.
제20항 내지 제26항 중 어느 한 항에 따른 컴퓨테이셔널 모델을 생성하도록 적응된 소프트웨어.
제20항 내지 제26항 중 어느 한 항에 따른 컴퓨테이셔널 모델을 생성하도록 적응된 프로세서.
데이터를 실질적으로 첨부 도면들을 참조하여 예시되고 그리고/또는 본원에서 설명된 바와 같이 모델링하는 방법.
차량 손상 수리를 실질적으로 첨부 도면들을 참조하여 예시되고 그리고/또는 본원에서 설명된 바와 같이 추정하기 위한 컴퓨테이셔널 모델을 생성하는 방법.
실질적으로 첨부 도면들을 참조하여 예시되고 그리고/또는 본원에서 설명된 바와 같은 컴퓨테이셔널 모델.
데이터를 실질적으로 첨부 도면들을 참조하여 예시되고 그리고/또는 본원에서 설명된 바와 같이 모델링하기 위한 소프트웨어.
데이터를 실질적으로 첨부 도면들을 참조하여 예시되고 그리고/또는 본원에서 설명된 바와 같이 모델링하기 위한 시스템.