KR20230146076A

KR20230146076A - 지오펜스 주행 정책을 획득하기 위한 시뮬레이션 기반 방법 및 데이터 센터

Info

Publication number: KR20230146076A
Application number: KR1020237031483A
Authority: KR
Inventors: 얀 코벨; 스테파노 사바티니; 디즈미트리 치슈코우
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2023-10-18
Also published as: WO2023036430A1; CA3210127A1; JP2024510880A; CN117980972A; EP4278340A1; US20240132088A1

Abstract

본 개시는 타깃 위치에서 자율주행 차량에 대한 타깃 주행 정책을 업데이트하는 방법을 제공하며, 방법은 차량에 의해 타깃 위치에서의 차량 주행 데이터를 획득하는 단계와, 차량에 의해, 획득된 차량 주행 데이터 및 타깃 위치에 대한 현재 타깃 주행 정책을 데이터 센터로 전송하는 단계와, 데이터 센터에 의해, 차량 주행 데이터를 사용하여 타깃 위치에 대한 트래픽 시뮬레이션을 수행하여 업데이트된 타깃 주행 정책을 획득하는 단계, 및 데이터 센터에 의해, 업데이트된 타깃 주행 정책을 차량으로 전송하는 단계를 포함한다.

Description

지오펜스 주행 정책을 획득하기 위한 시뮬레이션 기반 방법 및 데이터 센터

본 개시는 자율주행 차량에 대한 주행 정책을 제공하는 방법에 관한 것이다.

종래 기술에서는 자율주행 차량의 안전성을 향상시키기 위해 시뮬레이션이 활용되어 왔다. 이러한 시뮬레이션은 온라인 또는 오프라인 방식으로 수행될 수 있다.

실제 세계 주행 정책의 안전성과 신뢰성을 향상시키기 위해, 온라인 솔루션이 제안되었다. 예를 들어, 자율주행 차량 주행 정책에 도전하기 위해 실제 주행 실험 중 장면에 가상 객체를 실시간으로 삽입하여 시뮬레이션을 수행할 수 있다. 이를 통해 실제 차량과 가상 차량이 충돌하더라도 위험 부담 없이 작업할 수 있다. 그러나 가상 차량은 하드 코딩된 규칙에 기초하여 의사 결정을 내리기 때문에 가상 차량과의 상호작용은 제한된다. 또한 실제 장면에서 다른 차량은 가상 차량과 상호작용할 수 없으므로 전체 실험이 편향된다. 결과적으로 가상 차량을 이용한 온라인 테스트는 여러 명의 실제 운전자를 처리할 수 없으므로 안전성 평가에 사용할 수 있는 시나리오의 공간을 제한한다.

결론적으로 가상 에이전트를 사용한 온라인 테스트는 에이전트와의 상호작용을 안전하게 개선하는 데에는 사용될 수 없지만 실패 사례를 밝히는 데에는 꽤 적합하다.

이전의 다른 접근 방식에서는 주행 정책의 안전성을 테스트하고 개선하기 위해 오프라인 트래픽 시뮬레이션을 이미 사용했다.

종래 기술의 예는 실제 세계에서 자율주행 차량이 수집한 로깅된 데이터(이하 로그라고도 함)를 기반으로 시뮬레이션을 사용한다. 시뮬레이션은 로깅된 데이터를 기반으로 초기화되지만 로그의 일부 에이전트는 완전히 다른 설정에서 별도로 학습한 시뮬레이션 에이전트로 대체된다. 시뮬레이션 동안, 목표는 원래 에이전트와 다르게 작동하도록 설계된 시뮬레이션 에이전트에 대해 자율주행 차량의 주행 정책이 어떻게 반응했을지 분석하는 것이다.

이 프로세스를 통해 약간의 시나리오 교란에 대해 주행 정책이 얼마나 견고한지 확인할 수 있다. 그러나, 트래픽의 원래 에이전트는 몇 가지 간단한 안전 규칙이 포함된 로그를 재생할 뿐이므로 시뮬레이션 에이전트와 현실적으로 상호작용할 수 없다. 결과적으로, 시뮬레이션이 진행됨에 따라, 시뮬레이션된 에이전트가 로그와 다르게 동작하여 로깅된 에이전트의 행동이 새로운 교란 상황에 대해 현실적이지 않게 되기 때문에 시뮬레이션은 점점 더 현실적이지 않게 된다.

결론적으로, 시뮬레이션 에이전트를 대체한 로그 기반 시뮬레이션은 타깃 주행 정책과 완전히 현실적인 상호작용을 제공할 수 없기 때문에 자율주행 차량 주행 정책의 개선 가능성을 제한한다.

또한, 특정 위치, 특히 다수의 다른 차량 및/또는 트래픽 에이전트 간의 다수의 상이한 유형의 상호작용을 수반할 수 있는 특정 위치에 적합한 주행 정책이 필요하므로 특정 로터리 진입, 통과 및 진출과 같은 위치 특정 상황을 처리할 수 있는 자율주행 차량에 대한 특별한 주행 정책이 필요하다.

이상에서 살펴본 바와 같이, 본 출원의 기본 목적은 실제의 상호작용 트래픽 생성기를 사용하여 하나 이상의 특정 타깃 지리적 위치에서 자율주행 차량 주행 정책을 대량으로 트레이닝할 수 있는 절차를 제공하는 것이다.

전술한 목적 및 기타 목적은 독립항의 청구대상에 의해 달성된다. 추가적인 구현 형태는 종구항, 설명 및 도면으로부터 명백하다.

제1 양상에 따르면, 타깃 위치에서 자율주행 차량에 대한 타깃 주행 정책을 업데이트하는 방법이 제공되며, 방법은 차량에 의해 타깃 위치에서의 차량 주행 데이터를 획득하는 단계와, 차량에 의해, 획득된 차량 주행 데이터 및 타깃 위치에 대한 현재 타깃 주행 정책을 데이터 센터로 전송하는 단계와, 데이터 센터에 의해, 차량 주행 데이터를 사용하여 타깃 위치에 대한 트래픽 시뮬레이션을 수행하여 업데이트된 타깃 주행 정책을 획득하는 단계, 및 데이터 센터에 의해, 업데이트된 타깃 주행 정책을 차량으로 전송하는 단계를 포함한다.

자율주행 차량은 특정 위치(타깃 위치)에서 차량 주행 데이터를 획득한다. 이러한 데이터는 센서 및/또는 카메라를 사용하여 획득될 수 있다. 이렇게 로깅된 차량 주행 데이터는 타깃 위치에 대한 오프라인 시뮬레이션을 수행하는 데이터 센터로 전송된다. 트래픽 시뮬레이션은 예를 들어, 이미 로깅된 데이터에 포함된 트래픽 에이전트 외에 시뮬레이션 시나리오에 포함된 시뮬레이션된 트래픽 에이전트와 변경/교란될 수 있는 트래픽 파라미터를 사용하여 현재 타깃 주행 정책을 트레이닝한다. 타깃 주행 정책은 주행 정책에 도전하는 방식으로 특성(즉, 예컨대, 초기 위치, 목표, 생성 시간)이 교란되는 하나 이상의 로깅된 주행 시나리오에서 생성된 복수의 주행 시나리오에 대한 시뮬레이션을 통해 트레이닝될 수 있다. 시뮬레이션 단계가 끝나면 시뮬레이션 결과를 바탕으로 현재 타깃 주행 정책이 업데이트되고 업데이트된 타깃 주행 정책이 자율주행 차량에 이송된다. 이에 따라, 타깃 위치에서 획득된 차량 주행 데이터를 사용하여 특정 타깃 위치에 대한 타깃 주행 정책이 개선된다. 따라서, 다음 번에 차량이 타깃 위치를 통과할 때, 업데이트된(개선된) 타깃 주행 정책이 적용될 수 있다. 에이전트(트래픽 에이전트)는 예를 들어, 다른 차량 또는 보행자를 지칭할 수 있다.

일 구현예에 따르면, 타깃 위치에서의 차량 주행 데이터를 획득하는 단계, 획득된 차량 주행 데이터를 데이터 센터로 전송하는 단계, 차량 주행 데이터를 사용하여 타깃 위치에 대한 트래픽 시뮬레이션을 수행하여 업데이트된 타깃 주행 정책을 획득하는 단계, 및 업데이트된 타깃 주행 정책을 차량으로 전송하는 단계는 1회 이상 반복될 수 있다. 전체 프로세스는 예를 들어 충분한 보안 및/또는 신뢰도 측정치(점수/메트릭)에 도달할 때까지 필요한 만큼 반복될 수 있다.

이러한 방식으로, 예를 들어 차량이 다음 번에 타깃 위치를 통과할 때 추가 차량 주행 데이터(실제 데이터)를 획득하고, 데이터 센터의 트래픽 시뮬레이터가 추가 차량 주행 데이터를 사용하여 추가 시뮬레이션을 수행함으로써, 타깃 주행 정책은 오프라인 방식으로 적은 실제 데이터와 비교적 많은 양의 시뮬레이션 데이터로 점진적으로 업데이트될 수 있다. 따라서, 타깃 주행 정책은 자율 주행의 보안을 향상시키기 위해 더욱 트레이닝되고 최적화될 수 있다.

일 구현예에 따르면, 이 방법은 일반 주행 데이터 및 일반 트래픽 정책을 획득하는 단계와, 일반 주행 데이터 및 차량 주행 데이터를 사용하여 일반 트래픽 정책을 타깃 위치에 적응시키는 단계를 더 포함할 수 있다.

초기 일반 트래픽 시뮬레이터는 일반 주행 데이터와 일반 트래픽 정책으로 구현될 수 있다. 타깃 위치에서의 차량 주행 데이터를 사용하여, 시뮬레이션, 특히 다른 트래픽 에이전트와 차량의 시뮬레이션된 상호작용을 통해 타깃 위치에서 타깃 주행 정책에 도전함으로써 타깃 위치로부터의 (실제) 차량 주행 데이터를 기반으로 일반 트래픽 시뮬레이터의 미세 조정이 수행될 수 있다. 예를 들어, 실제 주행 시나리오기 수집될 수 있고(로그 데이터) 시나리오 생성기가 이를 통해 현재 트래픽 정책에 도전하는 방식으로 1000개의 새로운 시나리오를 생성할 수 있다. 예를 들어, 충돌률과 같은 실패율을 최대화하는 일련의 주행 시나리오 교란이 발견될 수 있다. 실패는 안전성 점수 및/또는 신뢰도 점수가 임계값보다 낮은 것으로 특징지어질 수 있다. 즉, 트래픽 정책의 안전성 점수 및/또는 신뢰도 점수를 최소화하는 일련의 시나리오 주행 교란을 얻을 수 있다. 따라서, 생성된 시나리오에서 주행 정책의 실패율을 최대화하여 최적의 시나리오 교란을 찾을 수 있다. 이러한 교란은 가장 도전적이기 때문에 학습 효과를 최적화한다. 이러한 새로운 시나리오에 교통 정책이 적용되고 추가로 업데이트될 수 있다.

트래픽 시뮬레이터가 미세 조정되면, 차량 주행 데이터로부터의 실제 시나리오와 예컨대, 도전적인 시나리오 생성기로 생성된 시뮬레이션된 (도전적인) 시나리오에 기초하여 수많은 합성 주행 시나리오에 대한 시뮬레이션 상호작용을 통해 타깃 주행 정책을 개선하는 데 사용될 수 있다. 타깃 주행 정책은 업데이트된 트래픽을 고려할 때 타깃 정책의 실패율을 최대화하는(이와 달리 안전성 및/또는 신뢰도 점수를 최소화하는) 방식으로 로깅된 시나리오에서 생성된 새로운 주행 시나리오에 대해 트레이닝될 수 있다. 트래픽이 실패(예컨대, 충돌)의 원인인 경우, 이전 단계가 반복되며, 그렇지 않은 경우 새 주행 시나리오에서 타깃 주행 정책이 실패(예컨대, 충돌)의 원인이었음을 의미하며, 이 경험을 사용하여 타깃 정책을 미세 조정할 수 있다. 주행 시나리오는 생성된 일련의 새로운 주행 시나리오에서 충돌률을 최대화하는 방식으로 원래의 실제 로깅된 주행 시나리오에 적용된 일련의 경계 교란을 기반으로 생성될 수 있다. S₀이 실제 시나리오이면, 은 S₀에 약간의 증분하는 교란을 가진 일련의 생성된 시나리오, 즉, , 등일 수 있다. 시나리오 S에서 정책 Π의 실패 지표를 c(S,Π)라고 하면 를 최대화하는 것이 바람직하며, N은 일련의 교란의 길이를 나타낸다. 교란은 지도에서 초기 위치, 목표 위치(목적지), 에이전트 생성 시간의 수정 또는 트래픽 참여자의 위험 회피도를 제어하는 비율의 수정이다.

일 구현예에 따르면, 타깃 위치에 대한 트래픽 시뮬레이션을 수행하는 단계는 적응된 일반 트래픽 정책에 기초할 수 있다.

이는 적응된(미세 조정된) 일반 트래픽 정책을 사용하여 추가 시뮬레이션 단계를 보다 정확하게 수행할 수 있다는 이점이 있다.

일 구현예에 따르면, 업데이트된 타깃 주행 정책은 업데이트된 타깃 주행 정책 파라미터 세트를 포함할 수 있다.

타깃 주행 정책은 타깃 주행 정책 파라미터에 의해 기술될 수 있어서, 업데이트된 타깃 주행 정책은 하나 이상의 업데이트된 타깃 주행 정책 파라미터에 의해 정의될 수 있다. 특히, 업데이트된 파라미터만이 차량으로 전송될 수 있다.

일 구현예에 따르면, 트래픽 시뮬레이션을 수행하는 단계는 신뢰도 측정치 및/또는 안전성 측정치를 개선하기 위해 현재 타깃 주행 정책을 트레이닝하는 단계를 포함할 수 있다.

안전성 측정치(안전성 메트릭)는 평균 저크율, 이웃 차량과의 평균 최소 거리, 오프로드 주행률 또는 충돌 시간 중 적어도 하나에 기초하여 결정될 수 있다. 신뢰도 측정치(신뢰도 메트릭)는 전문가 주행 시나리오와 비교한 평균 목적지 도달 시간, 평균 정지 소요 시간 또는 평균 종방향 속도 중 적어도 하나에 기초하여 추정될 수 있다.

일 구현예에 따르면, 방법은 차량 주행 데이터로부터 획득된 초기 트래픽 시나리오를 수정함으로써 상이한 트래픽 시나리오를 생성하는 단계를 더 포함할 수 있으며, 타깃 위치에 대한 트래픽 시뮬레이션은 생성된 상이한 트래픽 시나리오를 사용하여 수행된다. 예를 들어, 시나리오 생성기는 실제 로깅된 초기 주행 시나리오 세트, Π로 표시되는 도전할 트래픽 정책 세트 및 특별히 도전하지 않을 트래픽 정책 세트를 수신할 수 있다. 초기 주행 시나리오는 가 최대가 되도록 일련의 새로운 주행 시나리오(앞서 설명한 대로 )를 생성함으로써 교란될 수 있다. 는 안전성 및 신뢰도 메트릭을 기반으로 실패를 정량화한다. 실제로 S_i에서 정책 Π로 시뮬레이션할 때 정책 Π에 대한 이 시나리오의 안전성 메트릭과 신뢰도 메트릭을 얻을 수 있다. Π는 단지 타깃 정책(아래에서 더 설명되는 파이프라인의 마지막 단계)일 수 있거나 Π는 트래픽 정책(파이프라인의 두 번째 단계)일 수도 있다는 점에 유의한다.

이는 차량 주행 데이터에서 얻은 트래픽 시나리오를 수정하여 시뮬레이션되는 도전적인 시나리오의 생성을 정의한다.

일 구현예에 따르면, 초기 트래픽 시나리오를 수정하는 단계는 (a) 트래픽 시나리오에서 에이전트의 수를 증가시키는 것과, (b) 트래픽 시나리오에서 에이전트의 속도를 수정하는 것과, (c) 트래픽 시나리오에서 에이전트의 초기 위치 및/또는 방향을 수정하는 것과, (d) 트래픽 시나리오에서 에이전트의 궤적을 수정하는 것 중 적어도 하나를 포함할 수 있다.

이를 통해 도전적인 시나리오를 생성할 수 있는 구체적인 방법이 제공된다. 특히, 추가/새로운 트래픽 에이전트를 삽입할 수 있다. 추가적으로 또는 대안적으로, 예를 들어 차량 주행 데이터로부터 에이전트의 측정된 속도 또는 삽입된 에이전트의 속도 주위의 교란을 포함하여 트래픽 에이전트의 속도가 변경될 수 있고, 특히 현재 값 주위의 교란에 의해 트래픽 시나리오에서 에이전트의 초기 위치 및/또는 방향이 변경될 수 있고/있거나, 트래픽 에이전트의 궤적/경로가 변경, 특히 교란될 수 있다. 보다 구체적으로, 목적지가 변경될 수 있으며, 라우팅은 정책에 의해 내부적으로 수행될 수 있다. 또한, 위험 회피 비율과 같은 트래픽 정책에 대한 동작의 일부 기능이 제어될 수 있다.

일 구현예에 따르면, 타깃 위치는 지리적으로 제한된 영역의 지도 데이터에 의해 설명될 수 있다.

타깃 위치는 경계 지도에 의해 기술될 수 있으며, 특히 도로 네트워크 구조가 시뮬레이션에 사용될 수 있다. 이러한 지도 데이터는 또한 트래픽 표지판을 포함할 수 있으며, 이는 지도 데이터에 사전정의되거나 차량 주행 데이터로부터 삽입(예를 들어, 차량의 카메라에 의한 식별)될 수 있다. 차량 주행 데이터에서 차량의 위치는 위치 결정 모듈, 예를 들어 GPS 모듈로부터 획득될 수 있으며, 위치는 지도 데이터와 연관될 수 있다.

일 구현예에 따르면, 타깃 위치에서의 차량 주행 데이터는 하나 이상의 추가 차량으로부터 추가로 획득될 수 있다.

이러한 구현예에서, 전체 차량 중 다른 차량은 시뮬레이션에 사용될 수 있는 차량 주행 데이터를 제공하는 데 참여할 수 있다. 이는 안전성 및/또는 신뢰도에 관한 시뮬레이션 결과를 개선하고, 타깃 주행 정책을 업데이트하는 시간을 단축한다.

제2 양상에 따르면, 차량으로부터, 타깃 위치에서의 차량 주행 데이터 및 타깃 위치에 대한 현재 타깃 주행 정책을 수신하도록 구성된 수신 수단과, 차량 주행 데이터를 사용하여 타깃 위치에 대한 트래픽 시뮬레이션을 수행하여 업데이트된 타깃 주행 정책을 획득하도록 구성된 처리 회로부와, 업데이트된 타깃 주행 정책을 차량으로 전송하도록 구성된 송신 수단을 포함하는 데이터 센터가 제공된다.

제2 양상에 따른 데이터 센터 및 이의 구현예 중 어느 하나의 장점 및 추가 세부사항은 제1 양상에 따른 방법 및 이의 구현예와 관련하여 전술한 것에 대응한다. 이러한 관점에서, 여기 및 다음에서는 상기 설명을 참조한다.

일 구현예에 따르면, 처리 회로부는 일반 주행 데이터 및 차량 주행 데이터를 사용하여 일반 트래픽 정책을 타깃 위치에 적응시키도록 더 구성될 수 있다.

일 구현예에 따르면, 처리 회로부는 적응된 일반 트래픽 정책에 기초하여 타깃 위치에 대한 트래픽 시뮬레이션을 수행하도록 더 구성될 수 있다.

일 구현예에 따르면, 처리 회로부는 신뢰도 측정치 및/또는 안전성 측정치를 개선하기 위해 현재 타깃 주행 정책을 트레이닝하도록 더 구성될 수 있다.

일 구현예에 따르면, 처리 회로부는 차량 주행 데이터로부터 획득된 초기 트래픽 시나리오를 수정함으로써 상이한 트래픽 시나리오를 생성하고, 생성된 상이한 트래픽 시나리오를 사용하여 타깃 위치에 대한 상기 트래픽 시뮬레이션을 수행하도록 더 구성될 수 있다. 상이한 트래픽 시나리오 생성에 대한 추가 세부사항, 즉, 도전적인 시나리오 생성기를 사용하는 방법과 관련하여, 구현예에 관한 상기 설명과 아래의 실시예에 대한 상세한 설명을 참조한다.

일 구현예에 따르면, 처리 회로부는, (a) 트래픽 시나리오에서 에이전트의 수를 증가시키는 것과, (b) 트래픽 시나리오에서 에이전트의 속도를 수정하는 것과, (c) 트래픽 시나리오에서 에이전트의 초기 위치 및/또는 방향을 수정하는 것과, (d) 트래픽 시나리오에서 에이전트의 궤적을 수정하는 것 중 적어도 하나에 의해 초기 트래픽 시나리오를 수정하도록 구성될 수 있다.

일 구현예에 따르면, 수신 수단은 하나 이상의 추가 차량으로부터 타깃 위치에서의 차량 주행 데이터를 수신하도록 더 구성될 수 있다.

제3 양상에 따르면, 타깃 위치에서의 차량 주행 데이터를 획득하도록 구성되고, 획득된 차량 주행 데이터 및 타깃 위치에 대한 현재 타깃 주행 정책을 데이터 센터로 전송하도록 구성된 차량과, 제2 양상 또는 이의 구현예 중 어느 하나에 따른 데이터 센터를 포함하는 시스템이 제공된다.

일 구현예에 따르면, 시스템은 타깃 위치에서의 차량 주행 데이터를 획득하는 단계, 획득된 차량 주행 데이터를 데이터 센터로 전송하는 단계, 차량 주행 데이터를 사용하여 타깃 위치에 대한 트래픽 시뮬레이션을 수행하여 업데이트된 타깃 주행 정책을 획득하는 단계, 및 업데이트된 타깃 주행 정책을 차량으로 전송하는 단계를 반복적으로 수행하도록 구성될 수 있다.

제4 양상에 따르면, 컴퓨터에서 실행될 때, 제1 양상 또는 이의 구현예 중 어느 하나에 따른 방법의 단계들을 수행하기 위한 컴퓨터 판독가능 명령어를 포함하는 컴퓨터 프로그램 제품이 제공된다.

하나 이상의 실시예에 대한 세부사항은 첨부 도면 및 아래의 설명에 명시되어 있다. 다른 특징, 목적 및 이점은 설명, 도면 및 청구범위로부터 명백해질 것이다.

이하, 본 개시의 실시예를 첨부된 도면을 참조하여 보다 상세히 설명한다.
도 1은 일 실시예에 따른 타깃 위치에서 자율주행 차량에 대한 타깃 주행 정책을 업데이트하는 방법을 도시한다.
도 2는 일 실시예에 따른 자율주행 차량과 데이터 센터를 포함하는 시스템을 도시한다.
도 3은 일 실시예에 따른 방법을 도시한다.
도 4는 일 실시예에 따른 방법을 도시한다.
도 5는 일 실시예에 따른 방법을 도시한다.
도 6은 일 실시예에 따른 방법을 도시한다.

도 1은 일 실시예에 따른 타깃 위치에서 자율주행 차량에 대한 타깃 주행 정책을 업데이트하는 방법을 도시한다. 이 방법은 다음 단계를 포함한다:

110: 차량에 의해, 타깃 위치에서 차량 주행 데이터를 획득하는 단계

120: 차량에 의해, 획득된 차량 주행 데이터 및 타깃 위치에 대한 현재 타깃 주행 정책을 데이터 센터로 전송하는 단계

130: 데이터 센터에 의해, 업데이트된 타깃 주행 정책을 얻기 위해 차량 주행 데이터를 사용하여 타깃 위치에 대한 트래픽 시뮬레이션을 수행하는 단계 및

140: 데이터 센터에 의해, 업데이트된 타깃 주행 정책을 차량으로 전송하는 단계.

자율주행 차량은 타깃 위치에서 차량 주행 데이터를 획득한다. 이러한 데이터는 센서 및/또는 카메라를 사용하여 획득될 수 있다. 획득된 차량 주행 데이터는 타깃 위치에 대한 오프라인 시뮬레이션을 수행하는 데이터 센터로 전송된다. 이러한 트래픽 시뮬레이션은 차량 주행 데이터에 이미 포함된 트래픽 에이전트 외에 시뮬레이션 시나리오에 포함된 시뮬레이션 트래픽 에이전트를 사용하고/하거나 속도와 같은 에이전트의 트래픽 파라미터를 수정함으로써 타깃 주행 정책을 트레이닝한다. 이에 따라 초기 시나리오가 교란되고, 예를 들어, 이미 상세히 전술한 대로 1000개의 새로운 시나리오가 생성된다. 시뮬레이션 후에, 시뮬레이션 결과를 바탕으로 타깃 주행 정책을 업데이트하고, 업데이트된 타깃 주행 정책을 자율주행 차량에 전달하여 차량이 다음 번에 타깃 위치를 통과할 때 업데이트된 타깃 주행 정책을 적용할 수 있게 한다.

도 2는 일 실시예에 따른 자율주행 차량과 데이터 센터를 포함하는 시스템을 도시한다.

시스템(200)은 차량(210)과 데이터 센터(250)를 포함한다. 데이터 센터(200)는 차량(210)으로부터 타깃 위치에서의 차량 주행 데이터 및 타깃 위치에 대한 현재 타깃 주행 정책을 수신하도록 구성된 수신 수단(251), 업데이트된 타깃 주행 정책을 얻기 위해 차량 주행 데이터를 사용하여 타깃 위치에 대한 트래픽 시뮬레이션을 수행하도록 구성된 처리 회로부(255), 및 업데이트된 타깃 주행 정책을 차량(210)으로 송신하도록 구성된 송신 수단(252)을 포함한다.

본 개시의 보다 상세한 내용은 도 3 내지 도 6을 참조하여 이하에서 설명된다.

본 개시는 무엇보다도, 타깃 지리적 영역에 대한 최소한의 데이터 수집으로 자율주행 차량 주행 정책의 안전성 및 신뢰도를 향상시킬 수 있다는 기술적 과제를 해결하는데, 이는 자율주행 차량의 대규모 배치에 있어 가장 큰 관심사이다.

실제로, 자율주행 차량의 기본적인 일반 주행 정책은 어떤 상황에서도 안전하도록 설계되어 있으며, 보이지 않는 곳에 노출될 경우 과도한 주의가 요구된다. 자율주행 차량을 고객별 사용 사례에 맞게 조정하여 적어도 인간 운전자만큼 효율적이 되게 하려면 타깃 정책을 특정 사용자 위치에 맞게 세밀하게 조정해야 한다. 자율주행 차량 운전 회사는 다양한 위치에 수많은 고객을 보유할 수 있고, 그 역학 관계가 변화하기 때문에 이 타깃 정책 미세 조정이 자동으로 수행되어야 수익성을 확보할 수 있다.

본 개시는 최소한의 데이터 수집과 최소한의 인간 개입으로 현장에서 미세 조정된 현실적이고 강력한 트래픽 시뮬레이션 덕분에 오프라인 방식으로 타깃 지리적 영역에서 주행 정책의 안전성과 신뢰도를 자동으로 개선하는 문제를 다룬다.

이 개시는 현실적인 트래픽 생성기를 사용하여 특정 타깃 지리적 위치에서 자율주행 차량 주행 정책을 대량으로 트레이닝할 수 있는 특정 절차에 기반한다.

일반 프로세스: 자율주행 경험 개선

실제로, 이 방법은 자율주행 차량의 최종 사용자가 현장(타깃 위치)에서 제한된 데이터 수집만으로 관심있는 특정 타깃 위치(예컨대, 매일 출퇴근길)에서 주행 및 안전에 대한 신뢰도가 갑자기 향상되는 것을 경험할 수 있게 한다.

이제 오프라인 트레이닝 파이프라인을 실제 애플리케이션에 어떻게 사용할 수 있는지 도 3에서 설명한다. 사용자의 활동에 따라 특정 위치에 배치되는 여러 대의 자율주행 차량(SDV)(210, 220, 230)이 고려된다. 각 차량은 수동 또는 자동 주행 모드에서 매일 이동하는 동안 로그(차량 주행 데이터)를 수집한다. 이러한 로그는 (예컨대, 야간에) 원격으로 데이터 센터로 전송될 수 있다.

데이터 센터에서는 자율주행 정책이 매우 다양한 상황을 경험할 수 있는 특정 타깃 위치에서 방대한 양의 시뮬레이션이 수행된다. 시뮬레이션을 통해 수집된 방대한 양의 경험을 사용하여 자율주행 정책이 트레이닝되고 개선된다.

시뮬레이션에서 자율주행 정책의 신뢰도 및 안전성이 구체적으로 개선된 것으로 측정되면, 업데이트된 자율주행 정책은 원격 통신을 통해 자동으로 차량(210, 220, 230)으로 다시 전송된다. 다음 이동 중에 차량(예컨대, 자동차)은 업데이트된 주행 정책에 따라 주행할 수 있을 것이고, 사용자는 이전에 본 위치를 재방문하는 경우 개선을 경험할 것이며 새로운 위치를 접하는 경우 계속 경험을 수집할 수 있다.

본 개시에서 중요한 부분은 시뮬레이션 프로세스에 있다. 방대한 양의 시뮬레이션은 이전 작업에서처럼 하드 코딩된 규칙에 의해 구동되는 것이 아니라, 대량의 데이터를 사용하여 현실적인 상호작용 트래픽을 학습하고 특정 관심 위치에 대해 미세 조정된다.

이러한 아키텍처의 주요 장점은 다음과 같다:

● 타깃 위치에 대한 최소 데이터 수집 및 인력 지원으로 자율주행 차량 주행 정책 자동 업데이트

● 정량적 안전성 평가를 위한 트래픽 시뮬레이터와의 대규모 상호작용

● 시뮬레이션은 방대한 데이터를 활용하고 특정 타깃 위치에 맞게 미세 조정하여 수행되므로 현실적이고 효율적임

실제 트래픽 시뮬레이션을 학습하는 프로세스는 도 4에 도시된 바와 같이 세 단계로 나뉠 수 있다.

● 일반적인 실제 트래픽 학습

● 타깃 지리적 위치에 대한 트래픽 미세 조정

● 학습된 트래픽과 상호작용하는 타깃 위치에 대한 자율주행 차량 주행 정책 학습

이들 단계는 아래에서 자세히 더 설명된다.

1) 일반적이고 실제의 강건한 트래픽 학습

이 제1 단계의 주요 아이디어는 자율주행 회사가 사용할 수 있는 방대한 양의 데이터(플릿 또는 크라우드소스 데이터 수집을 통해)를 활용하여 일반적인 실제 트래픽을 학습하는 것이다.

도 5에서 볼 수 있듯이, 주행 시연 데이터 세트가 주어지면 다중 에이전트 생성 적대적 모방 학습 MAIRL[참고 문헌 Song 등, 2018에 설명됨]을 기반으로 각각의 보상 함수와 함께 주행 정책 풀을 학습한다. 다중 에이전트 학습을 통해 가용 위치에서 수집된 실제 크라우드소싱 데이터를 기반으로 생성된 수많은 상황에 대한 에이전트 간의 상호작용을 학습할 수 있다. 이 프로세스가 끝나면 가용 위치에서 실제 주행 행동을 재현하는 트래픽 정책을 얻을 수 있다.

2) 타깃 위치에 대한 트래픽 미세 조정

이 단계의 목표는 단계 1에서 학습한 일반 트래픽을 자율주행 차량 사용자의 주요 타깃이 될 몇 개의 지오펜스 위치(경계에 의해 제한되는 위치)에 대해 미세 조정하는 것이다.

특정 지리적 위치에 대한 트래픽 정책을 미세 조정하기 위해 다음 절차가 적용된다.

먼저 실제 차량으로 수동 또는 자동 주행 모드로 타깃 위치에서 몇 번의 주행 시연을 수행한다. 이는 자율주행 회사에서 수행하거나 일상 생활에서 자신의 차량을 사용하면서 이 절차를 수행하는 사용자가 직접 수행할 수 있다. 이후 로그는 데이터 센터로 전송되어 트래픽 미세 조정 단계를 직접 트리거한다. 단계 1과 달리 이 위치에서는 몇 개의 시연만 필요하다.

트래픽 미세 조정 단계 동안 단계 1에서 학습한 일반 트래픽을 타깃 위치에 적응시키기 위해 PU-GAIL[Positive-Unlabeled Generative Adversarial Imitation Learning, Xu 등, 2019 참조]을 사용할 수 있다. PU-GAIL은 해당 영역에서 수집된 몇 가지 실제 주행 시연과 타깃 지리적 영역에서 합성 생성 주행 시뮬레이션을 모두 활용하여 트래픽 정책을 적응시킬 수 있다.

몇 가지 시연을 수집한 다음 이러한 새로 생성된 시나리오에서 현재 트래픽 정책의 실패율을 최대화하는 방식으로 초기 시나리오로부터 도전적인 시나리오가 생성될 수 있다. 합성 시나리오에서 생성된 시뮬레이션 롤아웃은 PU-GAIL 절차에 기초하여 트래픽 정책을 업데이트하는 데 사용될 수 있다. 설명한 바와 같이, PU-GAIL 공식은 이러한 종류의 상황에서 학습할 수 있기 때문에 타깃 위치에 대한 많은 전문 데이터가 필요하지 않다.

이 단계가 끝나면 트래픽은 타깃 위치에서 안전하게 상호작용할 수 있다.

3) 타깃 정책 미세 조정

제3 단계는 도 6에 도시된 바와 같이 타깃 위치에서 실제 자율주행 차량 주행 정책을 학습하는 것에 있다.

이는 시뮬레이션에서 자율주행 차량이 학습된 트래픽과 상호작용하게 함으로써 수행된다.

이 프로세스는 자율주행 시스템이, 시뮬레이션되므로 자율주행 모드에서 명시적으로 로깅하거나 테스트할 필요가 없는 다량의 다양한 주행 상황을 사용하여 학습할 수 있게 한다.

규칙 기반 방식으로 시뮬레이션을 수행했던 이전 작업과 달리, 단계 2에서 특정 타깃 위치에 대한 데이터를 학습하고 미세 조정하기 때문에 트래픽은 여기서 실제 방식으로 시뮬레이션된다.

여기에서도 시나리오 생성기는 실제 미세 조정된 트래픽이 주어지면 타깃 정책에 대한 도전적인 시나리오를 생성하는 데 사용된다. 합성 시나리오 세트의 실패율이 충분히 높으면 이러한 경험을 사용하여 주행 정책을 업데이트한다.

이 단계 후에 정책 업데이트는 원격 통신을 통해 실제 차량으로 다시 전송되며, 고객 운전자는 다음 이동 중에 개선을 실험할 수 있다.

차량(210, 202, 230)은 원격 통신 및 센서가 장착된 자율주행 차량(SDV)이다. 데이터 센터에는 SDV와 통신하기 위한 통신 인터페이스가 있다.

데이터 센터에서 사용되는 알고리즘에는 타깃 위치의 HD 지도와 주행 시연 데이터 세트, 그리고 타깃 차량 데이터 수집을 위한 GNSS(global navigation satellite system) 및 IMU(Inertial Measuring Unit) 및/또는 HD 지도 기반 위치 파악 기능을 갖춘 비전이 필요하다.

시스템 트레이닝을 위한 데이터베이스에는 복수의 위치에서 HD 지도와 정렬되는 대규모 주행 시연 데이터베이스가 필요할 수 있다.

시스템은 최소한의 현장 데이터 수집으로 타깃 지리적 위치에서 자율주행 정책의 신뢰도와 안전성을 향상시키는 데 사용될 수 있다.

본 개시에 따른 방법은 사용자가 실제 차량의 자율주행 모드에서 사용하는 으로 표시되는 타깃 주행 정책의 안전성과 신뢰도를 향상시키는 주요 트레이닝 절차를 기반으로 한다. 먼저 위에 자세히 설명된 트레이닝 파이프라인과 관련된 몇 가지 표기법과 어휘를 소개한 다음 위에 자세히 설명된 주요 세 단계에 대해 심도있게 설명한다.

트레이닝 절차는 주행 시뮬레이션을 생성하는 데 사용되는 주행 시뮬레이터를 기반으로 한다. 주행 시뮬레이터는 주행 시나리오 S와 주행 정책 세트 로 초기화된다. 주행 시나리오 S=(R,T,H)는 특정 지리적 영역에 대한 경계가 있는 도로 네트워크 설명, R에 정의된 트래픽 흐름 T 및 시뮬레이션 수평선 H의 조합으로 정의된다. 시뮬레이션 수평선은 시뮬레이터가 새로운 시나리오로 재설정되기 전의 시뮬레이션 단계의 최대 수를 결정한다. 트래픽 흐름은 특정 빈도의 에이전트로 주행 장면을 채운다. 또한, 생성된 각 에이전트에 초기 물리적 구성, 목적지, 유형(즉, 자동차, 자전거, 보행자) 및 관련 주행 정책 을 부여한다. 각 에이전트는 각 시뮬레이션 단계에서 따라갈 경로 r에 따라 조건화된 액션 a와 확률 분포 에 따라 장면 o의 자아 관찰을 연관시키는 신경망으로 구현된 로 표현된 주행 정책에 의해 애니메이션화된다. R과 목적지를 기반으로 시뮬레이터가 자동으로 경로를 제공한다. 자아 관찰은 각 에이전트의 관점에서 시뮬레이터에 의해 생성되며 주로 시맨틱 계층, 즉, HD 지도 및 장면 컨텍스트에 대한 시맨틱 정보, 즉, 전방 이웃까지의 거리, 차선 통로 폴리라인 등으로 구성된다. 액션은 적어도 전체 시뮬레이션 단계 동안 따라야 할 이상적인 궤적의 상위 레벨 설명으로 구성된다. 각 액션은 에이전트, 즉, 자동차, 트럭, 보행자 등의 물리적 제약을 충족하기 위해 하위 레벨 제어기에 의해 일련의 제어로 변환된다. 시나리오 S=(R,T,H)에 기반한 주행 시뮬레이션은 시간 범위 [0, H] 사이에 채워진 모든 에이전트에 대한 단일 에이전트 궤적으로 구성된 다중 에이전트 궤적 Γ을 생성한다. 단일 에이전트 궤적 는 기본적으로 주어진 시간 길이 T를 사용하여 각 시뮬레이션 단계에서 샘플링된 일련의 자아 에이전트 관찰 및 액션이다. 트래픽 정책을 실제 자율주행 차량을 제어하는 타깃 주행 정책 과 달리 주행 시나리오의 트래픽 흐름으로 채워진 애니메이팅 에이전트를 위해 학습된 정책 세트 라고 한다. 동일한 주행 정책 모델로 여러 트래픽 에이전트를 제어할 수 있음에 유의한다. 또한 주행 시나리오 로 구성된 쌍 세트로서 대규모 데이터 세트에서 나오는 전문가 운전 시연 및 시나리오 시간 연장 동안 에 채워진 각 전문가 에이전트의 궤적을 포함하는 연관 다중 에이전트 전문가 궤적 을 소개한다. 도로망 으로 표현되는 타깃 위치에 대한 타깃 정책 을 개선하기 위해 타깃 위치에서 점진적으로 수집되고 로 표시되는 몇 가지 사용자 시연를 활용한다.

단계 1: 일반적이고 실제의 강건한 트래픽 학습

제1 단계는 다중 에이전트 적대적 모방 학습(MAIRL)[Song 등 2018] 덕분에 보상 함수 와 함께 운전 시연 로부터 트래픽 정책 과 학습하는 것으로 구성된다. MAIRL 알고리즘은 다음과 같은 최적화 문제를 해결한다.

여기서 Ψ는 정규화 용어이다. 의 각 트래픽 정책 에는 관찰 와 행동 의 각 쌍을 에이전트가 얼마나 현실적이고 안전하게 행동하는지 나타내는 실제 값에 매핑하는 연관 보상 함수 가 있다. 최적화 문제는 PPO, SAC, TD3, D4PG와 같은 정책 업데이트 방법을 사용하여 판별기 최적화와 정책 최적화 간에 번갈아 가며 해결된다[Orsini 등 2021 참조]. 보상 함수는 [Fu 등, 2018]에 자세히 설명된 대로 를 사용하여 판별기에서 유도된다. 다양한 행동을 얻기 위해 상호 정보 정규화 Ψ를 사용할 수 있다[Li 등, 2017]. 관련 없는 액션 및 상태를 처벌하는 보완적 손실[Bhattacharyya 등, 2019] 또는 태그크 관련 특징을 활용하기 위한 제약[Zołna 등, 2019; Wang 등, 2021] 덕분에 도메인 지식을 시행할 수 있다. [Jeon 등, 2021]에 상세히 설명된 바와 같이 주어진 상태에서 모든 에이전트 액션을 조정하기 위해 개인 대신 중앙 집중식 비평가 를 사용함으로써 에이전트의 암시적 조정이 가능하다. 이는 에이전트가 한 에이전트가 길을 양보해야 하고 다른 에이전트가 길을 가야 하는 교차로에서와 같이 에이전트가 협상해야 할 때 특히 흥미롭다. 이 프로세스가 끝나면 일반적이고 실제의 강건한 트래픽 정책 을 얻는다.

단계 2: 타깃 위치에 대한 트래픽 미세 조정

트래픽 정책 이 시연 로부터 트레이닝되면, 제2 단계는 트래픽 에이전트가 에서 사용자가 만나는 것 이상으로 다양한 상황에서 타깃 위치에서 안전하게 상호작용할 수 있도록 타깃 지리적 위치에 대한 트래픽 정책을 미세 조정하는 것으로 구성된다. 타깃 위치 에서 사용자가 수집한 몇 가지 사용자 시연 활용 에서, 시나리오 생성기는 트래픽 정책이 트레이닝되는 트래픽 정책 에 대해 점점 더 도전적인 시나리오 를 생성한다. 때문에 트래픽 정책이 전문가 참조 궤적 가 부여된 시나리오 에 대한 궤적을 생성하였던 이전 단계와 달리, 트래픽 정책에 의해 생성된 합성 시연 에는 관련 실제 전문가 시연이 없다. 결과적으로 PUGAIL [Xu 등, 2019] 절차에 기초하여 의 라벨링되지 않은 궤적과 의 라벨링된 소수의 궤적을 활용하기 위해 트래픽 정책의 트레이닝 방법을 적응시키며, 자세한 내용은 추가 섹션에 설명된다.

트래픽 미세 조정을 위한 예시적인 도식 코드는 아래 알고리즘 1로서 도시된다.

단계 3: 타깃 정책 미세 조정

타깃 위치에서 트래픽 정책 가 미세 조정되면, 타깃 위치의 트래픽과 대규모 상호작용을 통해 타깃 정책을 미세 조정할 수 있다. 타깃 정책 에 대한 점점 더 도전적인 시나리오는 사용자 시연 의 시나리오에서 시나리오 생성기를 사용하여 생성된다. 도전적인 시나리오에서 트래픽과 상호작용하는 타깃 정책 에 의해 생성된 시연 는 로 표기되는 타깃 정책의 자체 트레이닝 방법을 기반으로 α로 표기된 타깃 정책 파라미터를 업데이트하는 데 사용된다. 트래픽이 실패의 원인이 되는 경우에도 트래픽 시연을 활용하여 단계 2에 기초하여 트래픽을 미세 조정하고 이로부터 타깃 정책 트레이닝을 다시 시작할 수 있다는 점에 유의한다.

타깃 정책 미세 조정을 위한 예시적인 도식 코드는 아래 알고리즘 2로서 도시된다.

다음은 개별 단계에 대한 추가 정보가 제공된다.

PUGAIL 트레이닝 절차

트래픽 정책 를 미세 조정하기 위해, PUGAIL 트레이닝 절차는 실제 사용자가 타깃 위치에서 이동하는 동안 수집한 몇 개의 시연 와 도전적인 시나리오의 트래픽 정책에 의해 생성된 합성 시연 을 활용한다. 의 크기는 보다 훨씬 작다는 점에 유의한다. 의 시나리오에는 연관 전문가 궤적이 없기 때문에, 에 MAIRL 알고리즘을 직접 적용하면 데이터 세트가 매우 불균형하기 때문에 성능이 저하될 것이다.

또한 실측 데이터가 없기 때문에, 새로운 합성 시나리오에서 트래픽 정책은 이미 MAIRL 단계 이후 일반화될 것으로 예상되고 인간 운전자가 해당 상황에서 어떻게 행동했을지 알 수 없기 때문에 음의 라벨을 할당하여 새로운 합성 시나리오에서 교통 정책이 전혀 현실적인 전환 을 생성할 수 없다고 선험적으로 고려하는 것은 불공평할 것이다. 따라서 원래의 문제는 라벨링되지 않은 양의 학습 문제로 재구성되며, 여기서 핵심적인 차이는 트래픽 에이전트 궤적이 전문가와 견습생의 시연이 혼합된 것으로 간주된다는 것이다. 실제로 원래 문제의 판별기의 목표는 다음과 같이 표현된다:

η는 [Xu 등, 2019]에 따라 이전의 양의 클래스 사전 및 을 나타낸다. 양의 라벨 세트 가 라벨링되지 않은 보다 여전히 작기 때문에 실제 시나리오와 합성 시나리오 사이의 비율에 따라 이전 양의 클래스 η를 조정하여 불균형을 완화한다. 이 새로운 목표가 주어지면 이전과 같이 판별기와 정책 업데이트를 번갈아 가며 여러 단계를 거쳐 타깃 위치에 구축된 다양한 시나리오에서 안전하게 상호작용하는 미세 조정된 타깃 정책 을 얻는다.

안전 및 신뢰도 점수화

주행 정책 세트 가 주행 시나리오 세트 에 비해 안전하고 신뢰할 수 있는지 평가하기 위해 시뮬레이션에서 생성된 각 에피소드에서 트래픽 에이전트 또는 타깃 정책에 대한 안전 및 신뢰 점수를 계산한다. 최종 점수는 [Shalev-Shwartz 등, 2017]에서 제안한 대로 주행 궤적의 특정 양상에 기초하여 개별 점수의 가중치를 합산한 값이다:

● 안전성 메트릭: 충돌률, 트래픽 규칙 위반, 최소 안전 거리, 저크(jerk)율, 오프로드 주행률, 중앙선 측면 이동과 같은 여러 기준을 기반으로 주행 시나리오 세트에서 주행 정책 안전성을 추정할 수 있다.

● 신뢰도 메트릭: 에이전트가 더 많은 신뢰를 받으면 감소할 것으로 예상되는 목표까지의 시간 또는 에이전트가 더 많은 신뢰를 받음에 따라 감소할 것으로 또한 예상되는 충돌까지의 시간과 같은 프록시 메트릭을 사용하여 주행 정책의 신뢰도를 추정할 수 있다.

도전적 시나리오 생성

제2 단계 동안 트래픽 정책 또는 제3 단계 동안 타깃 정책 을 트레이닝하기 위해 타깃 지리적 위치에 대한 다양하고 도전적인 시나리오를 생성하기 위해 시나리오 생성기 모듈을 도입한다. 시나리오 생성기는 타깃 위치에서 사용자가 점진적으로 수집한 의 시나리오를 시드로서 활용하여 새로운 시나리오를 생성한다. 실제로 이를 통해 선택된 커버리지를 사용하여 일반적인 상황부터 매우 드문 상황까지 시나리오 세트를 지속적으로 다양화할 수 있다. 주행 시나리오는 연관 트래픽 흐름에 기초하여 유한한 파라미터 목록으로 특징지어질 수 있다. 트래픽 흐름은 특정 빈도로 에이전트를 생성하는 트래픽 노드 세트로 구성된 트래픽 흐름 그래프를 기반으로 한다. 생성된 각 에이전트에는 그 자체의 초기 물리적 구성, 즉 초기 위치, 속도, 목적지, 주행 정책 및 주행 정책에 따른 주행 스타일이 있다. 이러한 모든 파라미터는 트래픽을 일관되게 유지하는 특정 간단 제약 조건(예: 두 에이전트가 같은 위치에서 같은 시간에 생성될 수 없음)에 따라 교란될 수 있다. 시나리오 생성기는 주행 정책 의 안전성 및 신뢰도 점수가 낮은 시나리오로 이어지는 최소한의 경계 교란의 시퀀스를 찾는다. 여기서 주행 정책 는 트래픽 정책 또는 타깃 정책 을 나타낼 수 있다. 검색 동안, 트레이닝 가능한 주행 정책의 가중치는 고정된다. 생성된 시나리오 시퀀스에 대한 평균 누적 안전성 및 신뢰도 점수 를 최소화하는 로 표시된 시나리오 교란 정책을 학습하기 위해 강화 학습 기반 절차를 사용한다. 각 시도마다 P로 표시된 한정된 수의 교란만 적용될 수 있다는 점에 유의한다. 다음 형식(S,δ,score(Π,S'),S')의 전환을 저장하는 재생 버퍼 B를 사용하여 DQN과 같은 [Mnih 등, 2013 참조]을 학습하는 데 오프 정책 방법을 사용하며, S는 현재 시나리오이고, δ는 적용될 교란이며, S'는 교란 후 결과 시나리오이고, score (Π,S')는 시나리오 S'에 대한 주행 정책 Π에 대한 안전성 및 신뢰도 점수이다:

도전적 시나리오 생성을 위한 예시적인 도식 코드는 아래 알고리즘 3으로서 도시된다.

참조문헌

● [Bhattacharyya et al 2019] Modeling Human Driving Behavior through Generative Adversarial Imitation Learning Raunak Bhattacharyya, Blake Wulfe Derek Phillips, Alex Kuefler, Jeremy Morton Ransalu Senanayake Mykel Kochenderfer 2019

● [Wang et al 2021] Decision Making for Autonomous Driving via Augmented Adversarial Inverse Reinforcement Learning Pin Wang, Dapeng Liu, Jiayu Chen, Hanhan Li, Ching-Yao Chan 2021

● [Jeon et al 2021]Scalable and Sample-Efficient Multi-Agent Imitation Learning Wonseok Jeon, Paul Barde, Joelle Pineau, Derek Nowrouzezahrai 2021

● [Zoina et al 2019] Task-Relevant Adversarial Imitation Learning Konrad Zoina, Scott Reed, Alexander Novikov, Sergio Gomez Colmenarejo, David Budden, Serkan Cabi, Misha Denil, Nando de Freitas, Ziyu Wang 2019

● [Xu et al 2019] Positive unlabeled reward learning DanfeiXu, Misha Denil 2019

● [Song et al 2018] Multi-Agent Generative Adversarial Imitation Learning Jiaming Song, Hongyu Ren, Dorsa Sadigh, Stefano Ermon 2018

● [Li et al 2017] InfoGAIL: Interpretable Imitation Learning from Visual Demonstrations Yunzhu Li, Jiaming Song, Stefano Ermon 2017

● [Fu et al 2018] Learning robust rewards with adversarial inverse reinforcement learning Justin Fu, Katie Luo, Sergey Levine 2017

● [Orsini et al 2021] What Matters for Adversarial Imitation Learning? Manu Orsini, Anton Raichuk, Leonard Hussenot, Damien Vincent, Robert Dadashi, Sedan Girgin, Matthieu Geist, Olivier Bachem, Olivier Pietquin, Marcin Andrychowicz 2021

● [Mnih et al 2013] Playing Atari with Deep Reinforcement Learning Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Ried miller 2013

● [Shalev-Shwartz et al 2017 ] On a Formal Model of Safe and Scalable Self-driving Cars Shai Shalev-Shwartz, Shaked Shammah, Amnon Shashua Mobileye, 2017

Claims

타깃 위치에서 자율주행 차량(210, 220, 230)에 대한 타깃 주행 정책을 업데이트하는 방법으로서,
상기 차량(210)에 의해, 상기 타깃 위치에서의 차량 주행 데이터를 획득하는 단계(110)와,
상기 차량(210, 220, 230)에 의해, 상기 획득된 차량 주행 데이터 및 상기 타깃 위치에 대한 현재 타깃 주행 정책을 데이터 센터(250)로 전송하는 단계(120)와,
상기 데이터 센터(250)에 의해, 업데이트된 타깃 주행 정책을 획득하기 위해 상기 차량 주행 데이터를 사용하여 상기 타깃 위치에 대한 트래픽 시뮬레이션을 수행하는 단계(130), 및
상기 데이터 센터(250)에 의해, 상기 업데이트된 타깃 주행 정책을 상기 차량(210, 220, 230)으로 전송하는 단계(140)를 포함하는,
방법.
제1항에 있어서,
상기 타깃 위치에서의 차량 주행 데이터를 획득하는 단계, 상기 획득된 차량 주행 데이터를 상기 데이터 센터로 전송하는 단계, 상기 업데이트된 타깃 주행 정책을 획득하기 위해 상기 차량 주행 데이터를 사용하여 상기 타깃 위치에 대한 트래픽 시뮬레이션을 수행하는 단계, 및 상기 업데이트된 타깃 주행 정책을 상기 차량으로 전송하는 단계는 1회 이상 반복되는,
방법.
제1항 또는 제2항에 있어서,
일반 주행 데이터 및 일반 트래픽 정책을 획득하는 단계와,
상기 일반 주행 데이터 및 상기 차량 주행 데이터를 사용하여 상기 일반 트래픽 정책을 상기 타깃 위치에 적응시키는 단계를 더 포함하는,
방법.
제3항에 있어서,
상기 타깃 위치에 대한 트래픽 시뮬레이션을 수행하는 단계는 상기 적응된 일반 트래픽 정책에 기초하는,
방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 업데이트된 타깃 주행 정책은 업데이트된 타깃 주행 정책 파라미터 세트를 포함하는,
방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 트래픽 시뮬레이션을 수행하는 것은 신뢰도 측정치 및/또는 안전성 측정치를 개선하기 위해 상기 현재 타깃 주행 정책을 트레이닝하는 것을 포함하는,
방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 차량 주행 데이터로부터 획득된 초기 트래픽 시나리오를 수정함으로써 상이한 트래픽 시나리오를 생성하는 단계를 더 포함하되,
상기 타깃 위치에 대한 상기 트래픽 시뮬레이션은 상기 생성된 상이한 트래픽 시나리오를 사용하여 수행되는,
방법.
제7항에 있어서,
상기 초기 트래픽 시나리오를 수정하는 것은,
상기 트래픽 시나리오에서 에이전트의 수를 증가시키는 것과,
상기 트래픽 시나리오에서 에이전트의 속도를 수정하는 것과,
상기 트래픽 시나리오에서 에이전트의 초기 위치 및/또는 방향을 수정하는 것과,
상기 트래픽 시나리오에서 에이전트의 궤적을 수정하는 것
중 적어도 하나를 포함하는,
방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 타깃 위치는 지리적으로 제한된 영역의 지도 데이터에 의해 설명되는,
방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 타깃 위치에서의 차량 주행 데이터는 하나 이상의 추가 차량으로부터 더 획득되는,
방법.
데이터 센터(250)로서,
차량(210, 220, 230)으로부터, 타깃 위치에서의 차량 주행 데이터 및 상기 타깃 위치에 대한 현재 타깃 주행 정책을 수신하도록 구성된 수신 수단(251)과,
업데이트된 타깃 주행 정책을 획득하기 위해 상기 차량 주행 데이터를 사용하여 상기 타깃 위치에 대한 트래픽 시뮬레이션을 수행하도록 구성된 처리 회로부(255)와,
상기 업데이트된 타깃 주행 정책을 상기 차량(210, 220, 230)으로 전송하도록 구성된 송신 수단(252)을 포함하는,
데이터 센터(250).
제11항에 있어서,
상기 처리 회로부는 일반 주행 데이터 및 상기 차량 주행 데이터를 사용하여 일반 트래픽 정책을 상기 타깃 위치에 적응시키도록 더 구성되는,
데이터 센터(250).
제11항 또는 제12항에 있어서,
상기 처리 회로부는 상기 적응된 일반 트래픽 정책에 기초하여 상기 타깃 위치에 대한 트래픽 시뮬레이션을 수행하도록 더 구성되는,
데이터 센터(250).
제11항 내지 제13항 중 어느 한 항에 있어서,
상기 업데이트된 타깃 주행 정책은 업데이트된 타깃 주행 정책 파라미터 세트를 포함하는,
데이터 센터(250).
제11항 내지 제14항 중 어느 한 항에 있어서,
상기 처리 회로부는 신뢰도 측정치 및/또는 안전성 측정치를 개선하기 위해 상기 현재 타깃 주행 정책을 트레이닝하도록 더 구성되는,
데이터 센터(250).
제11항 내지 제15항 중 어느 한 항에 있어서,
상기 처리 회로부는 상기 차량 주행 데이터로부터 획득된 초기 트래픽 시나리오를 수정함으로써 상이한 트래픽 시나리오를 생성하고, 상기 생성된 상이한 트래픽 시나리오를 사용하여 상기 타깃 위치에 대한 상기 트래픽 시뮬레이션을 수행하도록 더 구성되는,
데이터 센터(250).
제16항에 있어서,
상기 처리 회로부는,
상기 트래픽 시나리오에서 에이전트의 수를 증가시키는 것과,
상기 트래픽 시나리오에서 에이전트의 속도를 수정하는 것과,
상기 트래픽 시나리오에서 에이전트의 초기 위치 및/또는 방향을 수정하는 것과,
상기 트래픽 시나리오에서 에이전트의 궤적을 수정하는 것
중 적어도 하나에 의해 상기 초기 트래픽 시나리오를 수정하도록 구성되는,
데이터 센터(250).
제11항 내지 제17항 중 어느 한 항에 있어서,
상기 타깃 위치는 지리적으로 제한된 영역의 지도 데이터에 의해 설명되는,
데이터 센터(250).
제11항 내지 제18항 중 어느 한 항에 있어서,
상기 수신 수단은 하나 이상의 추가 차량으로부터 상기 타깃 위치에서의 차량 주행 데이터를 수신하도록 더 구성되는,
데이터 센터(250).
시스템(200)으로서,
타깃 위치에서의 차량 주행 데이터를 획득하도록 구성되고, 상기 획득된 차량 주행 데이터 및 상기 타깃 위치에 대한 현재 타깃 주행 정책을 데이터 센터로 전송하도록 구성된 차량(210, 220, 230)과,
제11항 내지 제19항 중 어느 한 항에 따른 데이터 센터(250)를 포함하는,
시스템(200).
제20항에 있어서,
상기 타깃 위치에서의 차량 주행 데이터를 획득하는 단계, 상기 획득된 차량 주행 데이터를 상기 데이터 센터로 전송하는 단계, 업데이트된 타깃 주행 정책을 획득하기 위해 상기 차량 주행 데이터를 사용하여 상기 타깃 위치에 대한 트래픽 시뮬레이션을 수행하는 단계, 및 상기 업데이트된 타깃 주행 정책을 상기 차량으로 전송하는 단계를 반복적으로 수행하도록 구성되는,
시스템(200).
컴퓨터에서 실행될 때, 제1항 내지 제10항 중 어느 한 항에 따른 방법의 단계들을 수행하기 위한 컴퓨터 판독가능 명령어를 포함하는 컴퓨터 프로그램 제품.